チャエン

株式会社DigiRise 代表取締役

チャエン

近年、ChatGPTなどの生成AIの登場・普及が世界的に話題となっているように、AIは人々の暮らしや仕事をより便利に・効率的にするツールとして大きな注目を集めています。

企業のさまざまな部門で、業務効率化や顧客体験の向上、意思決定の精度向上など、多くの用途でAIが活用されています。

「自社でもAIを活用したいけれど、何から始めればいいのかわからない」「具体的にどんな効果があるのか知りたい」そんなお悩みはありませんか?

デジライズでは、AI活用を検討している企業の皆様に向けて、AI活用事例や導入のポイントをわかりやすくご紹介します。

ご興味のある方は以下のリンクから、お問い合わせいただけます。

Grok 4の衝撃的な登場 – AI業界に新たな風

2025年7月9日、イーロン・マスク率いるxAIが遂にGrok 4を正式リリースしました。このリリースは、AI業界に激震を走らせる出来事となりました。

🔽 詳しい解説動画はこちら。実際に約4.5万円課金してみました。

Grok 4 Performance Benchmarks

マスク氏は発表の中で「学術的な質問に関して、Grok 4はあらゆる分野でPhDレベルを上回る性能を発揮する。例外はない」と豪語しました。これは単なる誇大広告ではありません。実際のベンチマーク結果がその実力を如実に物語っています。

前モデルGrok 3との比較

Grok 4は前モデルのGrok 3と比較して約10倍の性能向上を実現しています。この驚異的な進歩は、xAIが100,000台以上のGPUを搭載したColossusスーパーコンピュータで学習を行った結果です。

驚異的なベンチマーク結果 – 他社を圧倒する性能

Grok 4の真の実力は、各種ベンチマークテストの結果に表れています。主要な評価指標で軒並み他社モデルを上回る結果を叩き出しました。

GPQA(Graduate-Level Google-Proof Q&A)ベンチマーク

GPQA Diamondテストでは、Grok 4が87.5%、Grok 4 Heavyが88.9%という驚異的なスコアを記録しました。

GPQA Benchmark Results

比較対象:

  • Grok 4 Heavy: 88.9%
  • Grok 4: 87.5%
  • Gemini 2.5 Pro: 86.4%
  • OpenAI o3: 83.3%
  • Claude 4 Opus: 79.6%

AIME(American Invitational Mathematics Examination)

数学の分野では更に圧倒的な結果を示しました。Grok 4 Heavyは完璧な100%スコアを達成し、ベンチマークを「飽和」させました。

AIME Benchmark Results
  • Grok 4 Heavy: 100%(満点)
  • Grok 4: 98.8%
  • OpenAI o3: 98.4%
  • Gemini 2.5 Pro: 88%
  • Claude 4 Opus: 75.5%

LiveCodeBench – プログラミング能力の評価

コーディング能力においても、Grok 4は他社を圧倒しています。

  • Grok 4 Heavy: 79.4%
  • Grok 4 (with tools): 79.3%
  • Grok 4 (without tools): 79%
  • Gemini 2.5 Pro: 74.2%
  • OpenAI o3: 72%

ARC-AGI-2テスト – AGI(汎用人工知能)への指標

最も注目すべきは、AGI(Artificial General Intelligence)の評価指標とされるARC-AGI-2テストでの結果です。

ARC-AGI Benchmark Results

Grok 4は15.9%のスコアを記録し、他のモデルが10%の壁を破れない中で圧倒的な差をつけました:

  • Grok 4: 15.9%
  • Claude Opus: 8.6%
  • OpenAI o3: 6.5%
  • Gemini 2.5 Pro: 4.9%

Humanity’s Last Exam – 人類最後の試験

このテストは「人類最後の試験」と呼ばれる極めて困難な評価で、数学、人文科学、自然科学の数千の問題から構成されています。

  • Grok 4 Heavy (with tools): 44.4%
  • Gemini 2.5 Pro (with tools): 26.9%
  • Grok 4 (without tools): 25.4%
  • Gemini 2.5 Pro (without tools): 21.6%
  • OpenAI o3 (high): 21%

料金体系の詳細 – Premium+から最上位SuperGrok Heavyまで

Grok 4の料金体系は、ユーザーのニーズに応じて段階的に設定されています。

Grok 4 Pricing Structure

基本プラン:Premium+(月額約6,000円)

  • Grok 4の基本機能へのアクセス
  • 画像解析機能
  • リアルタイム検索
  • 標準的な利用制限

最上位プラン:SuperGrok Heavy(月額$300 ≈ 4.5万円)

SuperGrok Heavyは、xAIが提供する最高峰のAIサービスです。この価格設定は、OpenAI、Google、Anthropicを含む主要AIプロバイダーの中で最も高額となっています。

SuperGrok Heavyの特典:

  • Grok 4 Heavyの早期アクセス
  • マルチエージェントシステムの利用
  • 新機能の優先アクセス
  • 技術サポートの優先対応
  • 使用制限の大幅な緩和

API料金

開発者向けのAPI料金も発表されています:

  • 入力トークン: $3.00 per 1M tokens
  • 出力トークン: $15.00 per 1M tokens
  • キャッシュされた入力トークン: 大幅な割引適用

技術仕様とイノベーション – 何が革新的なのか

マルチモーダル機能

Grok 4は、テキスト、画像、音声を統合的に処理できるマルチモーダルAIです。これにより、より自然で直感的なユーザー体験を提供します。

マルチエージェントシステム

Grok 4 Heavyの最大の特徴は、マルチエージェントシステムです。マスク氏によると、「複数のエージェントが問題に同時に取り組み、スタディグループのように互いの作業を比較して最適な答えを見つける」とのことです。

統合開発環境(IDE)機能

Grok 4には、フル機能のIDEが統合されており、20以上のプログラミング言語をサポートしています。これにより、コード実行環境が内蔵され、開発者にとって極めて便利なツールとなっています。

コロッサス・スーパーコンピュータ

xAIは100,000台以上のGPUを搭載したColossusスーパーコンピュータでGrok 4を学習させました。この規模のコンピューティングパワーは、他社では実現困難な水準です。

実際に使ってみた感想 – ユーザー体験の徹底レビュー

応答速度と精度

初期ユーザーからの報告によると、Grok 4の応答速度は従来モデルと比較して大幅に向上しています。複雑な質問に対しても、数秒以内に詳細で正確な回答を提供します。

プログラミング支援能力

特にプログラミング分野での能力は圧倒的です。コードの生成、デバッグ、最適化において、他のAIモデルを明らかに上回る性能を示しています。

学術的質問への対応

数学、物理学、化学、生物学などの学術分野において、PhD レベルの知識と推論能力を実証しています。複雑な証明問題や理論的な質問にも適切に回答できます。

ユーザーインターフェース

新しいインターフェースは、従来のチャットボット形式から大きく進化し、より直感的で使いやすいデザインとなっています。

競合他社との比較 – GPT-5、Claude 4、Gemini 2.5 Proとの差

OpenAI GPT-5との比較

GPT-5のリリースは今夏に予定されていますが、現時点でのベンチマーク比較では、Grok 4が多くの分野で優位に立っています。特に数学的推論とコーディング能力において顕著な差が見られます。

Claude 4 Opusとの差異

Anthropic社のClaude 4 Opusと比較すると:

  • 数学的推論: Grok 4が大幅に優位
  • コーディング: Grok 4が優位
  • 一般的な会話: 僅差でGrok 4が優位
  • 安全性: Claude 4が優位(但し、Grok 4も改善中)

Google Gemini 2.5 Proとの競合

Gemini 2.5 Proは強力な競合相手ですが、Grok 4は以下の分野で優れています:

  • ARC-AGI-2テスト: 3倍以上のスコア差
  • 数学オリンピック: 大幅な性能差
  • コーディングベンチマーク: 一貫した優位性

将来への展望 – AGIへの道のり

2025年の開発ロードマップ

xAIは今後数ヶ月で以下の機能をリリース予定です:

  • 8月: AIコーディングモデル
  • 9月: マルチモーダルエージェント
  • 10月: 動画生成モデル

物理学における新発見への期待

マスク氏は「Grok 4はまだ新しい物理学を発見していないが、それは時間の問題だ」と述べています。これは、AIが人間の科学者を超えて新たな知識を創造する可能性を示唆しています。

AGI実現への影響

ARC-AGI-2テストでの圧倒的な結果は、Grok 4がAGI(汎用人工知能)の実現に最も近いモデルである可能性を示しています。15.9%というスコアは、従来の記録を大幅に更新するものです。

論争と課題

価格設定への批判

月額4.5万円という価格設定については、「高すぎる」という批判も多く聞かれます。しかし、企業レベルでの利用を考えると、その性能に見合った価格設定とも言えるでしょう。

安全性への懸念

最近、Grok 3が反ユダヤ主義的な発言を行った件で批判を受けました。xAIはこの問題に対処するためシステムプロンプトを修正していますが、AIの安全性に関する課題は継続しています。

まとめ:AI新時代の幕開け

Grok 4の登場は、間違いなくAI業界における転換点となります。その圧倒的なベンチマーク結果、革新的な技術仕様、そして野心的な価格設定は、AI技術の新たな可能性を示しています。

月額4.5万円という価格は確かに高額ですが、その性能を考慮すると、企業や研究機関にとっては十分に価値のある投資となるでしょう。特に、数学的推論、プログラミング、学術研究の分野では、他の追随を許さない性能を発揮しています。

今後の展開において、OpenAIのGPT-5やGoogleのGemini 3.0がどのような対抗策を講じるかが注目されます。しかし、現時点では、Grok 4が「世界最強のAI」として君臨していることは間違いありません。

AIの民主化から一歩進んで、今度は「AI の階層化」が進む可能性があります。Grok 4 Heavyのような超高性能モデルは限られた予算を持つ組織や個人のみがアクセス可能となり、AI格差の拡大という新たな社会問題も生まれるかもしれません。

それでも、技術の進歩は止まりません。Grok 4は確実に私たちをAGI実現へと近づけており、その影響は計り知れないものとなるでしょう。この歴史的な瞬間に立ち会えることは、まさに幸運と言えるかもしれません。

この記事の著者 / 編集者

チャエン

株式会社DigiRise 代表取締役

チャエン

法⼈向けのAI研修、及び企業向けChatGPTを開発する株式会社デジライズをはじめ、他数社の代表取締役。一般社団法人生成AI活用普及協会評議員を務めながら、GMO AI & Web3株式会社など他数社の顧問も兼任。NewsPicksプロピッカーも兼任。Twitterはフォロワー16万⼈。⽇本初AIツール検索サイト「AI Database」やAIとの英会話ができる「AI英会話」など複数のAIサービスも開発。ABEMAやTBSテレビなどメディア出演も多数。