チャエン

株式会社デジライズ 代表取締役

チャエン

AnthropicのClaude Opus 4.8が公開されました。スペックや料金の速報は別記事でまとめていますが、この記事では「実際に使ったらどうなのか」をGPT-5.5やGemini 3.1 Proと比較しながら検証していきます。

GPT-5.5の評価が急上昇する中、Anthropicは「賢さ」ではなく「信頼して任せられるか」で勝負してきました。結論から言うと、Opus 4.8はコーディングの精度で頭一つ抜けています。記事の後半では同じプロンプトで3つのモデルにポケモン風3Dゲームを作らせた結果も紹介しているので、ぜひ最後まで読んでみてください。


法人向けAI研修の導入社数No.1(東京商工リサーチ調べ)の弊社デジライズが、500社以上の支援から得たノウハウを1冊にまとめた「企業のための生成AI活用ガイド」を無料で配布中です。

Opus 4.8の進化を3つに絞るとこうなる

Opus 4.8の進化を3つに絞るとこうなる

まずOpus 4.8のアップデートを3つだけ押さえておきます。

  1. 値上げゼロで性能UP — 料金はOpus 4.7と変わらないまま、コーディング精度やタスク継続時間が向上しました
  2. GPT-5.5にほぼ全勝 — 公式ベンチマーク13指標中、負けたのはターミナル操作の1つだけです
  3. 目玉は「正直さ」の強化 — 自分のミスを隠さず申告するようになり、実務で安心して任せられるモデルに進化しました

Opus 4.7は「めちゃくちゃ賢いけど、できてないのに『できました』と言ってくる部下」でした。4.8は「賢さはそのままで、怪しいところは自分から『ここ、ちょっと自信ないです』と言える部下」に変わっています。

Anthropic自身も今回のリリースを「控えめな改善」と表現していますが、使う側からすると、この「正直さ」の進化が一番大きいです。

AIの最大リスクを解消する「Honesty」

AIの最大リスクを解消する「Honesty」

AIを仕事で使う上での最大のリスクは「間違いを堂々と提出してくる」ことです。いわゆるハルシネーション問題ですが、Opus 4.8ではここに正面から取り組んでいます。

具体的にどう変わったか。

  • 自分のコードの欠陥を見逃す率が前モデルの約4分の1に低下
  • 自信がない部分を「ここは怪しいです」と自分から申告するようになった
  • 重要事項の言い忘れが減り、自信過剰な回答が減少した

これまでのAIモデルは「答えを出すこと」に最適化されていました。分からないことでも何か答えを出そうとするので、もっともらしいが間違っている回答が生まれます。Opus 4.8は「分からないことを分からないと言う」方向に舵を切ったモデルです。

実務でのインパクトは大きいです。AIの出力を毎回一から検証しなくても、「AIが自信を持っている部分はそのまま使い、警告が出た部分だけ人間がチェックする」という運用が現実的になってきました。

ベンチマーク比較——GPT-5.5にはどこで勝ち、どこで負けたか

ベンチマーク比較——GPT-5.5にはどこで勝ち、どこで負けたか

Anthropicが公開したベンチマーク結果では、Opus 4.8はGPT-5.5に対して13指標中12で上回っています。

分野結果
実務コード(SWE-bench Pro)Opus 4.8が優位
数学・推論Opus 4.8が優位
知識労働・長文追跡Opus 4.8が優位
PC操作Opus 4.8が優位
ターミナル操作(Terminal-Bench)GPT-5.5が優位

唯一負けたのがターミナル(CLI)操作です。コマンドラインでの作業を中心にAIを使っている方は、タスクによってはGPT-5.5の方が向いている場面もあります。

ただし、ベンチマークはあくまで参考値です。日本語での実タスクや日常業務では、スコアどおりの結果にならないケースもあります。自分の業務で試してから判断するのが一番確実です。

ここまで読んで「うちでも使えそうだ」と感じた方へ。法人向けAI研修の導入社数No.1(東京商工リサーチ調べ)の弊社デジライズが、業界を問わず成果が出るAI活用パターンを100ページ超にまとめました。

遅いと感じたら試すべき2つの設定

遅いと感じたら試すべき2つの設定

Opus 4.8を使い始めて最初に感じるのが「遅い」という印象です。私も実際に触っていて、Opus 4.7より体感で遅くなったと感じています。

これはデフォルトのeffort設定がHigh(しっかり考えるモード)になっているためです。

effort設定の使い分け

設定特徴向いているタスク
Low即答モード簡単な質問、定型作業
Mediumバランス型一般的な業務
High(デフォルト)しっかり考えるコード生成、分析
Max最大限考え抜く複雑な設計、難問

Fast mode

effort設定とは別に、Fast modeも用意されています。性能を維持しながら応答速度を上げるモードで、繰り返しの作業やコードレビューなど「待ち時間を減らしたい」場面で効果的です。

速度と精度はトレードオフなので、タスクの重要度で使い分けるのがおすすめです。普段はHigh effortで精度重視、急ぎの作業はFast modeに切り替える、というのが私の運用です。

全部Opus 4.8でなくていい——目的別モデル選択ガイド

全部Opus 4.8でなくていい——目的別モデル選択ガイド

正直に言うと、私は普段ほぼすべての作業をClaude Code(Opus 4.8)で済ませています。Claude Codeでの仕事の任せ方に慣れてしまって、他のツールに切り替える方がかえって手間になっているからです。

ただ、タスクによっては別のモデルが最適な場面もあります。

タスク推奨モデル理由
実務コード・大規模リファクタOpus 4.8コーディング精度で他を上回る
ターミナル・CLI操作GPT-5.5ベンチマークでOpus 4.8に唯一勝った分野
超長文の大量処理Gemini 3.1 Proコンテキスト長とコスパで優位

すべてのタスクを一つのモデルでこなす必要はありません。得意分野に応じて使い分けるのが、AIで最大限の成果を出すコツです。

同じプロンプトで3Dゲームを作らせてみた——GPT-5.5 vs Gemini vs Opus 4.8

同じプロンプトで3Dゲームを作らせてみた——GPT-5.5 vs Gemini vs Opus 4.8

ベンチマークの数字だけでは実感しにくいので、3つのモデルに同じプロンプトでゲームを作らせて比較しました。

プロンプト: 「サクッと楽しめるポケモンみたいな良い感じの3Dゲームを作ってください。本当に3DCGにこだわって、奥が深くて楽しめて、作りこまれた素晴らしいゲームを作って。」

たった一文の指示です。追加の説明も修正指示も一切なし。この一撃で、どこまでのクオリティが出せるかを試しました。

GPT-5.5——動くけどバトルがない

GPT-5.5は3D空間の生成に成功しました。フィールド上を歩き回ることができ、図鑑機能もあります。一発でここまで出てくるのは率直にすごいです。

ただ、戦闘や捕獲の機能は実装されていませんでした。「ポケモン風ゲーム」というよりは「3D空間のデモ」に近い仕上がりです。

Gemini 3.1 Pro——バトル・捕獲まで実装

Gemini 3.1 Proは、一昔前の草むらでのエンカウント、それから技や捕獲まで再現されており、1発出しとしてはとてもクオリティの高いものができました。タイプ相性も存在しているようで、しっかり「ばつぐん」や「いまひとつ」の表記もあり、ダメージも変わっていました。

Gemini 3.1 Proはグラフィックの派手さよりも、ゲームとして成立させるためのルールやロジックを正確に組み上げることに強みを感じました。タイプ相性表やダメージ計算のように「仕様がはっきり決まっている処理」を、一発で破綻なく実装してくる安定感があります。一方で3DCGの作り込みはOpus 4.8ほどではなく、見た目より中身(システム)で勝負するタイプという印象です。長文の仕様書をそのまま渡して着実にコード化させるような使い方と相性が良さそうです。

Opus 4.8——バトル・捕獲まで完全に実装

Opus 4.8が生成したゲームは、他の2つとは別次元の完成度でした。

  • フィールド探索: グラフィックが格段にリッチで、マウスドラッグによる視点変更も実装
  • バトルシステム: 敵モンスターに接触するとターン制バトルに自動移行。「たたかう」「いれかえ」のコマンド選択ができる
  • 捕獲機能: 「つかまえる」コマンドでモンスターボールを投げて仲間にできる

一つのプロンプトでフィールド探索・バトル・捕獲まで実装してしまうのは率直に驚きました。処理時間はかかりますが、コーディングの精度と完成度は明らかにOpus 4.8が頭一つ抜けています。

まとめ

まとめ

Claude Opus 4.8を実際に使い、GPT-5.5・Gemini 3.1 Proと比較した結果をまとめます。

  • Honesty(正直さ)の強化がOpus 4.8最大の進化ポイント。コード欠陥の見逃し率が約4分の1になり、「知ったかぶり」のリスクが大幅に下がった
  • ベンチマーク13指標中12でGPT-5.5に勝利。負けたのはターミナル操作のみ
  • ゲーム作成対決はグラフィックの作り込みでOpus 4.8がリード。Gemini 3.1 Proもバトル・捕獲まで実装し完成度は高かったが、3DCGの作り込みではOpus 4.8が一歩抜けた
  • 遅さはeffort設定とFast modeで調整できる。デフォルトがHigh effortなので、用途に応じて切り替える
  • タスク別に最適なモデルは違う。コーディング→Opus 4.8、CLI操作→GPT-5.5、超長文→Gemini

Opus 4.8のスペック詳細・料金・APIの移行方法については、以下の速報記事で詳しくまとめています。

Claude Opus 4.8登場——コーディング性能が向上、Fast modeは約2.5倍高速に

Claude Opus 4.8登場——コーディング性能が向上、Fast modeは約2.5倍高速に


法人向けAI研修の導入社数No.1(東京商工リサーチ調べ)の弊社デジライズが提供する「法人リスキリング」の研修内容・支援の流れ・料金をまとめたサービス資料を無料でお送りしています。

この記事の著者 / 編集者

チャエン

株式会社デジライズ 代表取締役

チャエン

法⼈向けのAI研修、及び企業向けChatGPTを開発する株式会社デジライズをはじめ、他数社の代表取締役。一般社団法人生成AI活用普及協会評議員を務めながら、GMO AI & Web3株式会社など他数社の顧問も兼任。NewsPicksプロピッカーも兼任。Twitterはフォロワー16万⼈。⽇本初AIツール検索サイト「AI Database」やAIとの英会話ができる「AI英会話」など複数のAIサービスも開発。ABEMAやTBSテレビなどメディア出演も多数。