チャエン

株式会社DigiRise 代表取締役

チャエン

1.機能について

1.1Google Geminiとは?

そもそも「Google Gemini(ジェミニ)」とは、Googleが2024年〜2025年にかけて開発し始めた次世代AI言語モデルです。大規模言語モデル(LLM)としての性能はもちろん、画像や音声、動画といった マルチモーダル情報 を総合的に解析できる点が特徴になっています。

2025年3月頃から一部ユーザー向けにテスト配信されていたのが、今回話題になっている**「リアルタイムで画面共有やカメラ映像を見せながら、音声やテキストで対話できる機能」**です。たとえばPCやスマホの画面をGeminiに見せて「この設定のどこを変えればいい?」と相談したり、スマホカメラで手元の書類や風景を映して「ここに映っている建物はなんという建築様式?」と尋ねることが可能になりました。

1.2リアルタイム画面共有と対話の概要

Geminiが提供するリアルタイム画面共有機能(通称「Gemini Live」や「Gemini Stream」などと呼ばれることがあります)は、次のような2つのモードが存在します。

  1. スクリーンシェア (Screenshare) モード
    • PCやスマホの画面そのものをAIに見せることができます。
    • Webブラウザで開いているページ、アプリのUI、オンラインショッピングのページなどを映し、その上で「ここをもっと詳しく解説して」「この商品の特徴は何?」などと聞けるのです。
    • AIは共有された画面の文字情報や画像・レイアウトを解析し、文脈に応じたサポートや解説を返してくれます。
  2. ライブ動画ストリーミング (Live Video) モード
    • スマホやPCのカメラを通じて、現実世界の物体や風景をAIに見せる形です。
    • 例えばDIYの作業手順や料理の進捗、ファッションコーデをリアルタイムで見せながら意見をもらう、というような使い方が可能です。
    • AIが映像内のオブジェクトや色合いを分析し、ユーザーの質問に合わせて具体的なアドバイスを返します。

特筆すべきは、「AIに視覚的な情報をその場で共有し、すぐ対話できる」という点です。言葉だけでは説明が難しい事柄でも、見せれば理解してくれるのでコミュニケーションロスが格段に減ります。まさに、“AIがそばで一緒に画面を見ている”ような体験が得られるのです。

https://twitter.com/masahirochaen/status/1909572407637295153

1.3なぜ画期的と言われるのか

既存のテキストチャット型AIでも、スクリーンショットや画像をアップロードして解析させることはありましたが、リアルタイムで画面を操作しながら対話できるというのは次元が違います。たとえば:

  • 操作ガイドのやり取り:「今ここに出ているエラーコードは何?」→ AI:「〇〇というエラーで、原因は△△です」
  • 細かいUIへの指示:「このボタンを押した先にあるメニューを開いたら、どこをクリックすればいい?」→ AI:「右上の歯車アイコンをクリックしてください」

といった形でその都度画面を更新しながら進められるので、会話が途切れることなくスムーズです。さらに映像モードを使えば、「今このテーブルの上にある部品をどこにつければいい?」といった現物を見せないと説明しづらい相談にも答えてくれます。


2. ベンチマーク比較

◆ AIモデルとしての性能評価

Geminiは、言語処理分野のベンチマーク(MLPerfやSuperGLUEなど)で既存のGPT-4や他社モデルに匹敵するスコアを出しつつ、画像・動画解析でも優れた精度を見せていると報告されています。特にGoogle自身が培ってきたGoogle LensやImage Understandingの技術が統合されているため、ビジュアル要素に強いのが大きな利点です。

例えば以下のようなテストで好成績を収めているとの情報があります。

  • 言語理解テスト (SQuAD, SuperGLUEなど)
  • 画像認識精度 (ImageNet, COCOなど)
  • マルチモーダル推論 (VQA: Visual Question Answering、Video QAなど)

GPT-4(Vision)も同様のベンチマークで高いスコアを出していますが、現時点で GeminiはGoogle内部でさらなる最適化・連携が進められており、ブラウザ・検索サービスとの融合面では一日の長がある といわれています。

◆ 応答速度や会話性

リアルタイム対話を行ううえで重要なのが応答速度です。ベンチマークとはやや異なる観点ですが、一部のユーザー報告によると、Geminiは画面共有中の応答スピードも比較的速いという声が多くあります。ただし英語モードと比べると、日本語モードではやや遅延が感じられるケースもあるようです。

会話性に関しても、Googleの自然言語処理技術が取り入れられているためか、文脈をつかんでの雑談能力細かなニュアンスの拾い方も優秀と評価されています。一方で音声合成の滑らかさはまだ改良の余地があり、一部ユーザーから「英語発音が機械的に感じる」とのフィードバックも出ています。

◆ 総合評価

ベンチマークの数値だけで言えば、GPT-4やAnthropicのClaudeなど先行モデルも非常に高い実力を持っています。しかし、実際のユーザー体験で大きな差がつくのは“マルチモーダル機能”の完成度や操作性です。GeminiはGoogleサービス(検索やChromeなど)との親和性を武器に、単なるベンチマークスコア以上の実効性能を狙っています。画面共有機能が本格運用された今、さらに多くのユーザーを取り込む可能性があるでしょう。


3. 他のツールとの比較

◆ ChatGPT (OpenAI) との比較

最もよく比較されるのがOpenAIのChatGPTです。ChatGPTも2024年末から**「Advanced Voice Mode (with Vision)」**として、スマホカメラの映像解析や画面共有に対応しました。

  • 類似点
    • テキスト・音声入力に加え、映像や画像を解析して回答できる。
    • オンラインショッピングのサイト、学習教材、ドキュメント画面などを共有してアドバイスをもらえる。
    • コードエディタを映してバグの場所を指摘してもらうなども可能。
  • 相違点
    • プラットフォーム: ChatGPTは基本的に「公式スマホアプリ+Web版ChatGPT」。Geminiは現状「Web版Google AI Studio+Androidアプリ(限定リリース)」が中心。
    • 連携範囲: ChatGPTはプラグインで拡張可能だが、Googleが自社プラットフォームと直接連携するGeminiほどChromeやGmail等を深く解析する機能は現時点ではない。
    • UI/UX: ChatGPTのアプリは比較的シンプルだが、Geminiは最初にGoogle AI Studioという開発者向けUIを使うケースが多く、慣れが必要。

全体としては**「Googleサービスと一体的に使いたいならGemini、シンプルな音声ビジョン対話をしたいならChatGPT」**という住み分けが見られます。もちろん今後Geminiも公式アプリが充実すれば、この差は縮まるでしょう。

◆ Bard (Google) との関係

Googleの対話型AIと言えば「Bard」も有名です。ただしBardとGeminiは別の開発ラインと考えられており、Bardは比較的ライトユーザー向け、Geminiはプロユースも意識した次世代モデルという位置づけです。将来的にはBardのバックエンドがGeminiモデルへ移行し、両者が統合される可能性もありますが、2025年4月現在は**「Bard=ウェブ上で手軽にテキストチャット」「Gemini=より高度なマルチモーダル&リアルタイム対話」**という形で使い分けられている様子です。

◆ Adobe FireflyやMidjourney等の画像生成系AIとの比較

リアルタイムで映像を解析してくれるGeminiに対し、Adobe FireflyやMidjourneyは主にテキストから画像を生成するAIであり、その性格が違います。ただし、Geminiは視覚的認識が得意なので「共有した画像を見せて“この写真のスタイルに合うテキストは?”」などと質問すると、写真の内容を踏まえて文章を作ってくれます。写真を生成するというよりは、写真を理解して会話する方向性といえるでしょう。
また画像編集をリアルタイムで指示するような機能はまだ限定的で、「Photoshopの画面を共有→Geminiが指示やアドバイス」という形に留まります。将来的にAdobeや他の画像編集ツールと連携し、AIが画像を直接編集してくれるようになる可能性はありますが、現時点ではあくまでアドバイザー役です。


4. 他のサービスとの統合について

◆ Google製品との連携

Googleは検索エンジンやChromeブラウザ、Gmail、Googleドライブ、YouTubeなど多岐にわたるサービスを展開しています。Geminiのリアルタイム画面共有機能が本格的に浸透すれば、これらのサービスとの親和性が非常に強力なアドバンテージになるでしょう。たとえば:

  • Chrome上のブックマーク整理
    画面共有をしながら「このブックマークをまとめたいのですが、使いやすいフォルダ構成を提案して」と依頼すると、Geminiがブラウザを見て「〇〇関連のブックマークが多いので、フォルダを3つに分けるのがいいでしょう」という具合に具体的な案を提示。
  • Gmailの内容を要約
    開いているメールのスレッドを共有し、「このやり取りを簡潔にまとめて」と指示すると、Geminiが全メッセージを一括で読んで要点をまとめてくれる。
  • Googleマップでのお店選び
    マップ画面を共有して「この近辺でおすすめのカフェを探して」と頼むと、Geminiが周辺情報を分析して、「口コミ評価が高い3店はここです」と提示。さらにクリックすると店のレビューや写真も解析して意見を返してくれます。

こうした連携はOpenAIのChatGPTでもプラグイン経由で実現できる場合がありますが、**“最初からGoogle謹製”**という強みは大きいです。アプリ間のシームレスなやり取りが今後増えていく可能性があります。

◆ 他社サービスとの統合

現時点では、ZoomやMicrosoft Teamsなどのビデオ会議サービスとの直接統合はアナウンスされていません。しかしユーザー側の要望としては「会議中にAIにサポートしてもらいたい」「共有画面をGeminiにもリアルタイムで見せられないか」という声が既に上がっています。Google自身は一部、Google Meetとの統合を検討していると発言しており、将来的には「Google Meetの会議画面にAI参加者としてGeminiが入り、画面共有内容を分析しながらリアルタイムに発言してくれる」ような形が実現するかもしれません。

また、プロジェクト管理ツールやクラウドストレージとの連携も進む余地があります。たとえばTrelloやAsanaを開いている画面を共有して、「Geminiに『このタスクの締め切りや要注意点をまとめて』と頼む」だけで作業効率が上がるでしょう。現在のところ公式プラグインはまだ多くありませんが、SDKやAPIが既に公開されており、開発コミュニティの動き次第では面白い連携が今後どんどん生まれる可能性があります。


5. 活用事例5選

ここでは具体的な**“こんな場面で使える”**というイメージが湧きやすいように、リアルタイム画面共有機能を活用した事例を5つご紹介します。

事例1:医療映像からの臓器認識と異常検知

  • 状況
    Geminiのリアルタイム画面共有を使い、医療用の腹部エコーやCT映像を読み込む。脾臓、膵臓、肝臓などの臓器を自動的に識別し、膵臓に異常がないかを即座に診断サポート。
  • ポイント
    このデモ映像では、膵臓の腫れを検知して「膵炎の可能性が高い」と指摘。医師の最終判断を支援するツールとして、映像を見ながらリアルタイムにアドバイスできるところが画期的。
  • メリット
    異常の見落とし防止や診断精度向上に繋がる。今後、遠隔医療や教育現場でも応用が期待される。

事例2:論文を読み解くリアルタイムアシスト

  • 状況
    学術論文をオンラインで開き、Geminiに画面を共有しながら内容を質問していく。図解やグラフなど視覚情報を含む論文でも、AIが要点や背景知識を補足してくれる。
  • ポイント
    テキストだけでなく、図やグラフの構造を理解し「ここはこういう意味ですね」と解説可能。難解な専門用語や数学的記述についても、その場で噛み砕いて説明してくれる。
  • メリット
    大量の文献を読む際、ある程度まとめてくれることで研究の効率アップ。論文の初心者にも分かりやすい形で補助してくれる。

事例3:複雑なゲーム進行のアシスト

  • 状況
    アクションRPGやストラテジーゲームなど、複雑な操作やルールを必要とするゲームをプレイしている最中、Geminiに画面を共有する。
  • ポイント
    ゲームの進行状況をリアルタイムで解析し、次に取るべきアクションや戦略を提示。「今、敵キャラがここにいるので、先にこの宝箱を取ったほうが有利」など具体的なアドバイスを提供。
  • メリット
    初心者が詰まりやすいポイントをサポートしてくれる。攻略サイトを探す手間が省け、対話形式で疑問点をすぐに解消できる。

事例4:迷子のサポート・道案内

  • 状況
    地図が苦手な人、あるいは見知らぬ土地で迷子になった人が、スマホカメラやマップ画面をGeminiに共有する。
  • ポイント
    現実世界を映しながら「今、目の前にこの建物があるけどどっちへ行けばいい?」と尋ねれば、Geminiが地図情報と照合して目的地までのナビゲーションを提示。
  • メリット
    現地の風景とマップを突き合わせるので、道順の説明がより直感的。外国語が苦手でも映像を共有すればコミュニケーションがスムーズ。

事例5:投資判断の相談

  • 状況
    証券会社のWeb画面や株価チャートをGeminiに共有しながら、「この銘柄は買いか売りか?」とリアルタイムで相談する。
  • ポイント
    最新の株価推移や関連ニュースを参照し、「今の市況だと下落リスクが高い」「この指標から見ると短期的に上昇の余地がある」など、データを踏まえた見解を提示。
  • メリット
    自分の投資方針に沿ったアドバイスを受けられるので、判断材料を素早く集められる。ただし最終的な投資判断は自己責任で行う必要がある点は要注意。

6. まとめ

本記事では、Googleが開発する次世代AIモデル「Gemini」の新機能、リアルタイムで画面やカメラ映像を共有しながら対話できる機能を中心に解説してきました。以下、主要なポイントを振り返りましょう。

  1. 機能の概要
    • スクリーンシェアとライブ動画ストリーミングの2種類があり、デジタル画面・現実世界の映像をAIに“見せながら”会話できる。
    • 言葉で説明しにくい課題も、映像を見せるだけで解決が早まる可能性が高い。
  2. ベンチマーク比較
    • GPT-4(Vision)や他社モデルに匹敵する高度なマルチモーダル解析性能を持ち、特にGoogleの画像解析技術の強みが生かされている。
    • 日本語対応に関しては改良の余地があるものの、現段階でも実用性は高く、一部ユーザーから高評価を得ている。
  3. 他のツールとの比較
    • ChatGPT (OpenAI) と機能面は似ているが、Googleサービスとの親和性や連携のしやすさがGeminiの強み。
    • Bardとの違いは、Bardがライトユーザー向けで、Geminiはより次世代の高度なAI基盤として位置付けられている。
  4. 他のサービスとの統合について
    • Google製品(Chrome, Gmail, Drive, Mapsなど)との統合が進めば、さらに強力かつ便利なアシスタントとして活用できる可能性大。
    • 将来的にはGoogle Meet会議へのAI参加や他社サービスとの連携も期待される。
  5. 活用事例5選
    • 医療映像での臓器認識と異常検知
    • 論文を読み解くリアルタイムアシスト
    • 複雑なゲームの進行支援
    • 迷子や道案内のサポート
    • 投資判断の相談

リアルタイム画面共有機能が本格化することで、AIが人間の“視覚”にさらに近づいたと言えます。これまではテキストや画像アップロードベースだったために「説明が伝わりにくい」「意図が汲み取りづらい」という課題がありましたが、今後はそんな“行き違い”が大幅に減る可能性があります。

一方で、プライバシーやセキュリティの課題も再認識する必要があります。機密情報や個人情報が多い画面・映像をAIに共有するリスクはゼロではありません。Googleはユーザーの画面データを外部学習に使わないと謳っていますが、機微情報が含まれる場合は十分な注意が必要です。また、AIに依存し過ぎることで思考力や判断力の低下に繋がる恐れも指摘されています。新機能の恩恵をうまく受けつつ、最終的な確認・判断は人間の手で行うバランス感覚を忘れないようにしたいところです。

今後数か月〜数年で、AIの「視覚」や「聴覚」はさらに高度化し、ユーザーの行動を予測して先回りするレベルに進化すると予想されます。今回のGeminiの画面共有機能は、そうした進化の最初の一歩とも言えるでしょう。たとえば「画面に映っているエラーメッセージをGeminiが自動で検知し、ユーザーが聞く前に“これを直しましょうか?”と提案してくれる」世界もそう遠くはありません。

もしまだ試していない方は、Geminiの最新機能をぜひ触れてみてください。Googleアカウント+有料プラン(Google One AIプレミアム)など条件はあるものの、新しい体験に驚くこと間違いなしです。ChatGPTユーザーの方も、一度Geminiを比較検討してみるのは面白いでしょう。“AIがあなたの画面を一緒に見ながらサポートしてくれる” という次世代体験をいち早く取り入れて、仕事や日常生活をより豊かに、より効率的にしてみてはいかがでしょうか。

この記事の著者 / 編集者

チャエン

株式会社DigiRise 代表取締役

チャエン

法⼈向けのAI研修、及び企業向けChatGPTを開発する株式会社デジライズをはじめ、他数社の代表取締役。一般社団法人生成AI活用普及協会評議員を務めながら、GMO AI & Web3株式会社など他数社の顧問も兼任。NewsPicksプロピッカーも兼任。Twitterはフォロワー15万⼈。⽇本初AIツール検索サイト「AI Database」やAIとの英会話ができる「AI英会話」など複数のAIサービスも開発。ABEMAやTBSテレビなどメディア出演も多数。

関連記事