チャエン

株式会社DigiRise 代表取締役

チャエン

1. はじめに:Google I/O 2025で変わるAIの世界

2025年5月20日に開催されたGoogle I/O 2025。今年のイベントでGoogleはAIアシスタントの未来ともいえる重要なアップデートを発表しました。「From research to reality(研究から現実へ)」というスローガンのもと、これまでの研究成果が実際の製品やサービスとして結実する様子が印象的でした。

特に注目を集めたのは、Gemini 2.5シリーズの進化とGemini Liveの機能拡張です。AI技術の進歩のスピードは目覚ましく、Googleのサンダー・ピチャイCEOは基調講演で「昨年は月に9.7兆トークンの処理を行っていましたが、現在は480兆トークン以上を処理しており、これは50倍の成長です」と述べました。また、Gemini APIを使用する開発者も前年比で5倍の700万人に達し、Geminiアプリの月間アクティブユーザーは4億人を超えています。

こうしたAI利用の爆発的成長を背景に、GoogleはGemini 2.5とGemini Liveにさらなる力を注いでいます。本記事では、これらの革新的な変化とその意義について、詳しく解説していきます。

Google I/O 2025ロゴ

2. Gemini 2.5シリーズの全容と進化

2.5 Proと「Deep Think」高次推論モード

Gemini 2.5 Proは、Googleの最新フラグシップAIモデルとして大幅に強化されました。今回の最大の目玉は、「Deep Think(高次推論モード)」と呼ばれる新機能です。このモードは、複数の仮説を並行して検討し、より深い思考プロセスを経てから回答を生成する革新的な仕組みを持っています。

「Deep Think」モードの特徴は、複雑な数学問題や高度なコーディングなど、深い思考と推論が必要なタスクで特に力を発揮することです。GoogleのDeepMindチームが開発した並列思考技術を駆使し、人間のような「考える」プロセスをAIに実装しています。

ベンチマークテストでも、Gemini 2.5 Pro Deep Thinkは驚くべき結果を示しています。特に2025年USAMOと呼ばれる高難度の数学オリンピックのベンチマークや、競技レベルのコーディングを評価するLiveCodeBenchでリーダーボードの首位に立っています。また、マルチモーダル推論を評価するMMUベンチマークでも84.0%という高いスコアを記録しました。

この「Deep Think」モードは、フロンティア的な安全性評価と専門家からのフィードバックを経て、まずは信頼できるテスターにGemini APIを通じて提供され、その後広く一般に公開される予定です。

2.5 Flashの性能向上と一般提供

Gemini 2.5 Flashも大幅に進化しました。スピードとコスト効率を重視した「ワークホースモデル」として、推論、マルチモダリティ、コード処理、長文脈理解など、あらゆる面で性能が向上しています。特筆すべきは、評価においてトークン使用量が20〜30%減少し、より効率的になったことです。

Gemini 2.5 Flash ベンチマーク比較

新しいGemini 2.5 Flashは、開発者向けにGoogle AI Studioでのプレビュー版として提供されているほか、企業向けのVertex AIや一般ユーザー向けのGeminiアプリでも利用できるようになりました。2025年6月初旬には、正式に一般提供が開始される予定です。

ベンチマーク比較:他社モデルとの違い

Gemini 2.5シリーズの進化を数値で見てみると、その進歩は明らかです。GoogleのCEOサンダー・ピチャイによれば、最初のGemini Proモデル以降、Eloスコア(性能指標)は300ポイント以上上昇しており、Gemini 2.5 ProはLMArenaリーダーボードのすべてのカテゴリでトップの座を獲得しています。

特にコーディング能力に関しては、WebDev Arenaリーダーボードで1415というELOスコアを記録し、他のモデルを大きく引き離しています。また、教育分野でも、LearnLMと呼ばれる教育専門家と共同開発したモデルファミリーを組み込むことで、「学習科学の5原則」全てにおいて他のトップモデルを上回る成績を達成しました。

下のグラフは、Googleが公開したパレート・フロンティアと呼ばれる効率性と性能のバランスを示したものです。Geminiモデルが低コストでありながら高性能を実現していることがわかります。

3. Gemini Liveの大幅強化

無料化されたカメラ・画面共有機能

Google I/O 2025の大きな発表の一つは、Gemini Liveのカメラと画面共有機能が、AndroidとiOSデバイスで完全無料化されたことです。この機能により、ユーザーはスマートフォンのカメラを通してリアルタイムでAIアシスタントに世界を見せながら質問できるようになりました。

この機能の活用例は多岐にわたります。例えば:

  • 旅行先の観光名所をカメラで映しながら、その歴史や背景を質問
  • 壊れた家電製品の修理方法をカメラで見せながら相談
  • スーパーで商品を撮影して栄養成分や調理法についてアドバイスを求める
  • 画面共有機能で操作に困ったアプリの使い方を質問する

Googleによると、Gemini Liveを使用した会話は、通常のテキストベースの会話の約5倍の長さになるという統計も報告されています。

Googleアプリとの統合

今後数週間で、Gemini LiveはGoogleの他のアプリとさらに深く連携していく予定です。例えば、友人との予定を話し合う際に、Gemini Liveとの会話内容をそのままGoogleカレンダーの予定として作成できるようになります。また、食事に関する質問をすると、最新のGoogle マップ情報を基にレストランを提案するといった機能も追加されます。

現在、Google マップ、Googleカレンダー、Google ToDo リスト、Google Keepとの連携がすでに始まっており、今後さらに多くのGoogleアプリとの連携機能が提供される予定です。これらのアプリ連携やユーザー情報は、アプリの設定画面からいつでも管理できる設計になっています。

自然な会話体験の進化

Gemini Liveの音声対話はさらに進化し、ユーザーの声のトーンや感情を検出して適切に応答する「感情対話」機能や、背景の会話を無視して適切なタイミングで反応する「プロアクティブオーディオ」機能なども追加されています。

また、Native Audio対話と呼ばれる新機能では、テキスト読み上げ時にも表現力豊かな声色を実現し、ささやき声などの細かなニュアンスまで表現できるようになりました。この機能は24言語以上をサポートし、言語間のスムーズな切り替えも可能になっています。

これらの機能強化により、Gemini Liveとの対話は、従来の機械的な会話から、より自然で人間らしい会話体験へと進化しています。

4. Project MarinerとAI Agent革命

エージェント化への道筋

Google I/O 2025で注目を集めたもう一つの重要な発表は、「Project Mariner」と「Agent Mode」による、AIのエージェント化です。これは単なる会話型AIから、ユーザーの代わりにタスクを実行できる自律型AIへの進化を意味します。

Project Marinerは、高度なAIモデルとツールへのアクセスを組み合わせることで、ユーザーの代わりに行動を起こすシステムです。Googleは、エージェントを「高度なAIモデルの知性とツールへのアクセスを組み合わせ、ユーザーの管理下でユーザーに代わって行動を起こすことができるシステム」と定義しています。

2024年12月に初期研究プロトタイプとして発表されたProject Marinerは、その後も開発が続けられ、マルチタスク処理能力や「teach and repeat(教えて繰り返す)」方式など、新機能が追加されてきました。この「teach and repeat」は、一度タスクを示すと、AIが将来的に同様のタスクの計画を学習するという機能です。

Agent Modeの機能と可能性

Google I/O 2025では、Project Marinerのコンピュータ利用機能を開発者向けにGemini APIで提供することが発表されました。また、一般ユーザー向けには、Geminiアプリに「Agent Mode」として実装されることになりました。

Agent Modeは、実験的な新機能として間もなくサブスクライバーに提供が開始されます。このモードでは、ユーザーが目的を伝えるだけで、Geminiがその実現に必要な手順を自動的に組み立て、実行します。例えば、アパート探しをしている場合、Agent ModeはZillowなどのウェブサイトで条件に合う物件を検索し、フィルターを調整し、MCPを使用して物件にアクセスし、内見の予約までを行うことができます。

ウェブブラウジング自動化の未来

Project Marinerのウェブブラウジング自動化は、以下のような3段階のプロセスで動作します:

  1. 観察(Observes): ブラウザに表示されているテキスト、コード、画像、フォームなどのウェブ要素を識別・理解し、ブラウザに表示されている内容を把握します。
  2. 計画(Plans): 複雑な目標を解釈し、実行可能な手順を計画します。このプロセスでは、意思決定プロセスの概要も明確に共有されます。
  3. 行動(Acts): 計画を実行するためにウェブサイトをナビゲートし操作します。このとき、ユーザーに常に情報を提供し、ユーザーはいつでもエージェントに指示を出したり、処理を停止して自分で引き継いだりすることができます。

この技術は、求人検索、家具の組み立て依頼、不足している食材の注文など、様々なユースケースに応用できます。既に企業向けには、Automation AnywhereやUiPathなどの信頼できるテスターが利用を開始しており、今後より広く開発者に提供される予定です。

5. Workspaceとの統合強化

パーソナライズされたスマートリプライ

Google I/O 2025では、GeminiモデルとGoogle Workspaceの統合強化も発表されました。特に注目されるのは、GmailにおけるパーソナライズされたSmart Replies(スマートリプライ)機能です。

この機能を使うと、例えば友人からロードトリップについてのアドバイスを求めるメールが来た場合、Geminiが過去のメールやGoogle Driveに保存されたドキュメント(旅程表など)を検索し、具体的な詳細を含む的確な返信を提案してくれます。さらに、ユーザーの典型的な挨拶や言い回し、好みの単語選びなども反映した、自然な返信文を生成します。

この機能は今年後半にサブスクライバー向けに提供される予定で、検索やGeminiなど他のサービスでもパーソナルコンテキストがいかに役立つかを示す好例となっています。

リアルタイム翻訳機能

Workspaceとの統合におけるもう一つの革新は、Google Meetでのスピーチ翻訳機能です。この機能はほぼリアルタイムで話者の声や口調、さらには表情までをマッチさせることができ、言語の壁を超えた自然で流暢な会話を実現します。

英語とスペイン語の翻訳がGoogle AI ProとUltraサブスクライバーにベータ版として提供開始され、今後数週間でさらに多くの言語が追加される予定です。また、この機能は今年中にWorkspaceビジネス顧客向けにも早期テスト版が提供される計画です。

生産性向上のための新機能

Gemini 2.5は、Google Workspaceの生産性向上に向けた様々な新機能も提供しています。例えば、Deep ResearchとCanvasの統合により、自分のファイルをアップロードして包括的な研究レポートを作成したり、Google DriveやGmailと連携してリサーチを行ったりすることができるようになります。

また、Canvasを使えばインフォグラフィックやクイズ、45言語対応のポッドキャストなども簡単に作成できるようになります。Gemini 2.5 Proの真価は、複雑なアイデアを驚異的な速さと精度で実行可能なコードに変換できる能力にもあり、ヴァイブコーディングを使えば、簡単な説明だけでアプリを制作することも可能になりました。

6. Google AI ProとUltraプラン

新しいサブスクリプションの詳細

Google I/O 2025では、2つの新しいサブスクリプションプラン「Google AI Pro」と「Google AI Ultra」の提供開始も発表されました。

Google AI Proは、月額2,900円で利用できるプランで、従来のGemini Advancedを置き換え、拡張するものです。このプランには、Flow、NotebookLMなどの製品が含まれ、すべての特別機能とより高い使用制限が設定されています。

Google AI Ultraは、GoogleのAIへの「VIPパス」として位置づけられており、最も高性能なモデルへの最大利用枠でのアクセスと、実験的なAI機能への優先的な早期アクセスを提供します。例えば、Veo 3やGemini 2.5 Pro Deep Thinkモードなどの限定機能にいち早くアクセスできます。

優先アクセスできる特別機能

Google AI Ultraにアップグレードすると、近日中にデスクトップ向けに提供開始される実験的な「Agent Mode」へのアーリーアクセスも得られます。このモードでは、リアルタイムウェブ検索、詳細なリサーチ、Googleアプリとの連携など、高度な機能を統合し、複雑な複数ステップのタスクを最小限の指示で管理できるようになります。

Google AI Ultraは米国から提供開始され、今後さらに多くの国で展開される予定です。月額249.99米ドルで、初めて利用する人には、最初の3ヶ月間は50%割引となる特典が用意されています。

7. 生成AIの進化:Imagen 4とVeo 3

高品質な画像生成能力

Google I/O 2025では、Googleの最新画像生成モデル「Imagen 4」の発表もありました。このモデルは、Geminiアプリですべてのユーザーが利用できるようになり、プレゼン資料の作成やソーシャルメディア用のグラフィック、イベント招待状など様々な用途に活用できます。

Imagen 4は、実物のような緻密なディテールとより美しくなったテキストやタイポグラフィ表現が特徴で、これまでにない高品質な画像生成を実現しています。

ネイティブ音声付き動画生成

もう一つの重要な発表は、最先端の動画生成モデル「Veo 3」です。このモデルの最大の特徴は、動画シーンだけでなく、都会の喧騒、葉のそよぐ音、キャラクター同士の会話まで、すべてをシンプルな文章指示から生成できることです。

Veo 3は、音声生成を標準機能として搭載した世界初のモデルとなり、これまでにない没入感あふれる動画体験を提供します。現在、米国のGemini Ultraユーザーを対象に提供が開始されています。

また、映画製作者向けには「Flow」という新ツールも発表され、短いクリップからより長いシーンを作成するなど、映像コンテンツ制作の可能性を広げています。

Flowのサンプル画像

8. AIの未来と私たちの生活

個人利用からビジネス活用まで

Google I/O 2025で発表された一連の機能強化は、AIがより身近で実用的なものになっていることを示しています。特に注目すべきは、これらの技術が個人の日常生活からビジネス活用まで、幅広い用途に対応している点です。

例えば個人では、Gemini Liveを使って日常の様々な場面でリアルタイムの視覚的サポートを得たり、Agent Modeを活用して面倒なタスクを自動化したりすることができます。学生にとっては、新しいインタラクティブクイズ機能を使って学習体験を向上させる機会も生まれています。

ビジネスシーンでは、パーソナライズされたメール返信機能や会議中のリアルタイム翻訳が、コミュニケーションと生産性を大幅に向上させる可能性を秘めています。また、Project Marinerのウェブ自動化機能は、データ入力やリサーチなど、時間のかかる業務タスクの効率化に貢献するでしょう。

プライバシーと安全性の確保

AIの能力が急速に向上する中、Googleはプライバシーと安全性の確保にも力を入れています。例えば、パーソナルコンテキスト機能は、ユーザーの許可を得た場合にのみGoogle製品間で関連する個人情報を使用し、透明性と制御性を確保しています。

また、セキュリティ面では、間接的なプロンプトインジェクション(AIモデルが取得するデータに悪意ある指示が埋め込まれる攻撃)などに対する保護が大幅に強化されました。Googleの新しいセキュリティアプローチにより、ツール使用中の間接的なプロンプトインジェクション攻撃からGeminiを保護する割合が大幅に向上し、Gemini 2.5は現時点で最も安全なモデルファミリーとなっています。

9. まとめ:Gemini 2.5時代のAI活用法

Google I/O 2025で発表されたGemini 2.5とGemini Liveの進化は、AIがただの質問応答ツールから、私たちの生活に深く統合された、より能動的で知的なアシスタントへと進化していることを示しています。特に注目すべき点をまとめると:

  1. 思考するAI: Gemini 2.5 ProのDeep Thinkモードは、複雑な問題に対して人間のように「考える」プロセスを持つAIの誕生を意味します。
  2. マルチモーダルな対話: カメラと画面共有が無料化されたGemini Liveは、テキストだけでなく視覚的な情報も含めたリッチなコミュニケーションを可能にします。
  3. 自律的なAIエージェント: Project MarinerとAgent Modeは、単なる応答ではなく、ユーザーの代わりにタスクを実行するAIの新時代を開きます。
  4. パーソナライズされた体験: GoogleのAIは、ユーザーの個人的なコンテキストを理解し、より関連性の高い支援を提供できるようになっています。
  5. アプリ統合の拡大: GmailやGoogle Meetなど、様々なGoogle製品との統合により、AIの活用範囲がさらに広がります。

これらの進化は、AIがより自然で人間らしいインターフェースを持ち、より高度な問題解決能力を備え、私たちの日常生活やビジネスをより効率的にサポートできるようになったことを意味します。

Gemini 2.5時代のAIは、単なる指示の実行者ではなく、私たちの意図を理解し、最適な方法でタスクを遂行する頼れるパートナーとなりつつあります。今後数ヶ月で、これらの技術がさらに広く利用可能になるにつれ、AIとの関わり方も大きく変化していくことでしょう。

IO25_Gemini_SS

AIの進化は止まることなく続いています。GoogleのCEOサンダー・ピチャイが基調講演の締めくくりで述べたように、「技術が人々を啓発し、畏敬の念を抱かせ、私たちを前進させる信じられないほどの力」が、今まさに私たちの目の前で現実のものとなっているのです。

この記事の著者 / 編集者

チャエン

株式会社DigiRise 代表取締役

チャエン

法⼈向けのAI研修、及び企業向けChatGPTを開発する株式会社デジライズをはじめ、他数社の代表取締役。一般社団法人生成AI活用普及協会評議員を務めながら、GMO AI & Web3株式会社など他数社の顧問も兼任。NewsPicksプロピッカーも兼任。Twitterはフォロワー15万⼈。⽇本初AIツール検索サイト「AI Database」やAIとの英会話ができる「AI英会話」など複数のAIサービスも開発。ABEMAやTBSテレビなどメディア出演も多数。

関連記事