
「AIに日本語のナレーションを読み上げさせたいけど、どれも機械っぽくて使い物にならない…」
「コールセンターの応対音声をAIで作れたら楽なのに、感情表現が乗らないから無理…」
こんなモヤモヤを、あなたも感じたことはありませんか? 実は2026年4月15日、Googleから登場したGemini 3.1 Flash TTSが、音声AIの自然さを用途によっては実用レベルまで押し上げたと感じる出来だったんです。
Gemini 3.1 Flash TTSは、70以上の言語に対応した音声合成(TTS: Text-to-Speech)専用モデルで、[丁寧に] [ゆっくり] といった感情タグをテキストに埋め込むだけで、抑揚や間までコントロールできてしまう優れものです。しかも、Google AI Studioなら完全無料で試せます。
この記事では、Gemini 3.1 Flash TTSの基本から料金、AI Studioでの使い方、API実装コード、そして日本語ナレーションの実力を4つの台本(コールセンター・プラネタリウム・電話自動応答・AI研修講師)で実際に検証した所感まで、ぜんぶまとめて解説します。読み終わる頃には、あなたの業務に合う使い方が見えてくるはずですよ。
今なら、100ページ以上にのぼる企業のための生成AI活用ガイドを配布中!基礎から活用、具体的な企業の失敗事例から成功事例まで、1冊で全網羅しています!
目次
Gemini 3.1 Flash TTSとは?従来の音声AIと何が決定的に違うのか
Gemini 3.1 Flash TTSは、Googleが2026年4月15日にリリースした、音声合成専用の最新AIモデルです。正式なモデルIDは gemini-3.1-flash-tts-preview で、Google AI Studio・Gemini API・Vertex AIから利用できます。
従来の音声合成AIとの違いを、ざっくり3つに整理するとこうなります。
| 項目 | 従来のTTS(Gemini 2.5以前も含む) | Gemini 3.1 Flash TTS |
|---|---|---|
| 感情・スタイル制御 | プリセットの声を選ぶのみ | [excitedly] [ゆっくり] などAudio Tagsで自在に指定 |
| 対応言語 | 英語中心・日本語は機械的 | 70言語以上に対応、日本語も自動で情景に合わせた抑揚 |
| マルチスピーカー | 別モデル or 音声結合が必要 | 1リクエストで最大2話者の対話を自然に生成 |
| 品質(Artificial Analysis Elo) | 中位 | 1,211(公開ベンチマークで高評価) |
簡単に言えば、「声を選ぶ時代から、演技を指示する時代」に変わった、ということです。従来は「明るい女性の声で」までしか指定できなかったのが、3.1 Flash TTSでは「[申し訳なさそうに] [ゆっくり] 謝罪してください」とテキスト内で演出できるようになりました。
Gemini 2.5 Flash TTSからの進化ポイント
前世代の gemini-2.5-flash-preview-tts と比べて、3.1 Flash TTSで目立って変わったのは以下の4点です。
- 文脈に沿った抑揚 — 文章全体の意図を汲み取り、情景や感情に合わせて声のトーンが揺らぐ
- Audio Tagsの拡充 — 感情・ペース・声量を
[ ]タグで細かく指定できる - 日本語の自然さ向上 — 特に敬語・丁寧語の発音と間の取り方が改善
- マルチスピーカーの安定性 — 2話者の切り替えが自然で、話者の取り違えが激減
なお、前世代の2.5 Flash TTSも引き続き利用可能です。料金は2.5の方が安いので、シンプルな読み上げ用途なら2.5でも十分な場面があります。
Gemini 3.1 Flash TTSの料金プラン — 実務で使うといくらかかるか
気になる料金を整理しておきましょう。Gemini APIの有料枠(Paid tier)での価格です。
| モデル | テキスト入力 | 音声出力 | Batch割引 |
|---|---|---|---|
| gemini-3.1-flash-tts-preview | $1.00 / 100万トークン | $20.00 / 100万トークン | 約50%引き |
| gemini-2.5-flash-preview-tts | $0.50 / 100万トークン | $10.00 / 100万トークン | 約50%引き |
「100万トークン」と言われてもピンとこないと思うので、具体的な感覚に落とし込むとこうなります。
- 1分間のナレーション音声 ≒ 約300〜400文字 ≒ 約1,000〜1,500音声トークン
- 3.1 Flash TTSで1分のナレーションを生成 → 約$0.02〜$0.03(約3〜5円)
- 1時間分のナレーションを作っても、$1.2〜$1.8程度(約180〜270円)
さらに嬉しいのが、記事公開時点(2026年4月)ではGoogle AI Studioから無料枠で試せるという点。ブラウザからテキストを貼り付けるだけで生成でき、APIキー発行の手間もありません(レート制限や利用条件は変更される可能性があるため、最新情報は公式ページでご確認ください)。「まずは試してみたい」という方は、AI Studioから始めるのがベストです。
Google AI Studioで最速で試す(APIキー不要)
APIを叩かなくても、GoogleアカウントさえあればすぐにGemini 3.1 Flash TTSを試せます。手順はたった3ステップです。
ステップ1: Google AI Studioにアクセス
ブラウザでGoogle AI Studioを開き、Googleアカウントでログインします。
ステップ2: 中央のSpeech and Music を選択
中央に「Speech and Music 」というメニューがあるので、そこをクリックします。

ステップ4: Gemini 3.1 Flash TTS previewを選択

ステップ3: テキストを貼り付けて再生ボタンを押す
右側のモデル選択で Gemini 3.1 Flash TTS Preview を選び、中央のテキストエリアに読み上げさせたい日本語を貼り付けます。
ボイス(Voice)は30種類から選べ、代表的なものに以下があります。
- Zephyr — Bright(明るい・女性)
- Puck — Upbeat(陽気・男性)
- Kore — Firm(落ち着いた・女性)
- Charon — Informative(情報的・男性)
- Orus — Firm(しっかりした・男性)
- Aoede — Breezy(爽やか・女性)
あとは再生ボタンを押すだけで音声が生成され、WAV形式でダウンロードできます。
【本記事の目玉】日本語ナレーション品質を4つの台本で検証
ここからが本題です。僕が実際にGoogle AI Studioで、ジャンルの違う4つの日本語台本を読み上げさせてみました。結論からお伝えすると、用途によって向き不向きがはっきり分かれるというのが率直な所感です。
なお、下記の台本はそのままコピペしてAI Studioで試せるので、ぜひあなたも実際に手を動かして聴き比べてみてくださいね。
台本1: コールセンター応対(丁寧・謝罪込み)

[丁寧に、ゆっくり]
お電話ありがとうございます。株式会社デジライズ カスタマーサポート、担当の佐藤が承ります。
[少し申し訳なさそうに]
この度は商品の不具合につきまして、ご不便をおかけしてしまい、誠に申し訳ございません。
状況を確認させていただきたいのですが、お客様がご購入された製品の型番と、ご購入された時期をお伺いしてもよろしいでしょうか。
[通常のトーンに戻して]
はい、ありがとうございます。確認が取れました。本日中に担当部署より折り返しお電話を差し上げますので、今しばらくお待ちいただけますと幸いです。
[再び丁寧に]
ご理解とご協力、誠にありがとうございます。失礼いたします。
私の所感: 率直に言うと、このジャンルはまだ機械感がかなり出ます。敬語の発音自体は自然なのですが、「申し訳ございません」のような定型謝罪表現の抑揚が、どうしてもフラットに聞こえてしまう瞬間があります。また、台本を1回生成するのに体感で十数秒ほどかかるため、お客様を待たせずにリアルタイム応答したいコールセンターの実務運用にはまだ一歩足りない、という印象でした。
台本2: プラネタリウム・星空ナレーション(情景描写)

静かな夜、見上げる空には無数の星が輝いています。
ひとつひとつの光は、遠い宇宙から届いた物語。
ゆっくりと目を閉じて、想像してみてください。
あなたは今、星と星のあいだを旅しています。
時をこえて、光に導かれながら――
今夜、宇宙はあなたにそっと語りかけます。
僕の所感: このジャンルは本当に驚きました。しっかりと情景をイメージして、それに合わせた音声を生成してくれました。間の取り方・声のトーンの揺らぎが非常に自然です。特にプロンプトに[]で感情を入れなくても、情景に合わせた音声が出力されました。プラネタリウムや教育コンテンツ、瞑想アプリなど、情景描写系のナレーションは実用レベルに達していると感じました。
台本3: 電話自動応答(IVR)メニュー

[はっきりと、機械的に]
お電話ありがとうございます。デジライズ総合受付です。
ご用件の番号を、プッシュボタンで選択してください。
製品に関するお問い合わせは「1」。
ご請求・お支払いに関するお問い合わせは「2」。
新規導入のご相談は「3」。
その他のお問い合わせは「9」。
オペレーターにお繋ぎする場合は、そのままお待ちください。
僕の所感: これもかなり精度高くいけそうです。もともとIVRは機械的な読み上げが前提のジャンルなので、AI感が違和感にならず、むしろクリアで聞き取りやすい音声として機能します。数字の読み上げも安定していて、等間隔のリズム感が適切に保たれていました。実務投入できるレベルだと感じます。
台本4: 研修の講師ナレーション

皆さん、こんにちは。本日の研修では、生成AIを業務に取り入れる際の「3つの基本ルール」について学んでいきます。
[ゆっくり、丁寧に]
第一のルールは、機密情報を安易に入力しないこと。第二のルールは、AIの出力を必ず人の目で確認すること。そして第三のルールは、生成物の著作権と利用範囲を理解することです。
[やや明るく]
これら3つを押さえておくだけで、生成AIは皆さんの強力なパートナーになります。
それでは、最初のケーススタディに進みましょう。画面の資料をご覧ください。
僕の所感: AI感が残るという印象でした。内容はクリアに聞き取れるものの、「生成AI」や「ケーススタディ」のようなカタカナ専門用語がやや平坦に読まれる傾向があり、人間の講師ならではの「言葉の重み付け」までは完全には再現できていません。とはいえ、研修動画のナレーションとしては十分実用的なクオリティで、何十時間もナレーター収録するコストと比べれば、圧倒的に効率的です。
4台本を通した全体の所感
4つを試して感じた全体のレベル感は、「一昔前の音声AIと比べて明らかにレベルアップしている」、このひと言に尽きます。
まとめるとこんな棲み分けになります。
- ✅ 即戦力: プラネタリウム・情景描写ナレーション / 電話自動応答(IVR)
- ⚠️ 用途を選ぶ: 研修・eラーニング動画ナレーション(大半の場面で実用OK)
- ❌ まだ厳しい: リアルタイム性が求められるコールセンター実運用
Audio Tags一覧 — 感情・ペースを制御する実践例
Audio Tagsは、Gemini 3.1 Flash TTSの最大の武器です。代表的なタグを整理しておきます。
| カテゴリ | タグ例 | 効果 |
|---|---|---|
| 感情 | [excitedly] [calmly] [sadly] [angrily] | 喜怒哀楽の表現 |
| ペース | [slowly] [quickly] [ゆっくり] | 読み上げ速度 |
| 声量 | [whispered] [shouting] [小声で] | ボリューム |
| スタイル | [丁寧に] [申し訳なさそうに] [神秘的に] | トーンの演出 |
| 間の取り方 | [pause] [少し間を置いて] | 無音の挿入 |
日本語のタグも認識されます。英語タグと日本語タグを混ぜて使うことも可能です。台本の推敲段階で「ここはもう少し重みが欲しい」「ここは軽く流したい」と思ったら、タグを追加してみてください。
マルチスピーカーで2人会話音声を生成する

2人の対話音声も、1回のリクエストで生成できます。テキストに Speaker 1: Speaker 2: と明記するだけです。
TTS the following conversation between two speakers:
Speaker 1: お電話ありがとうございます。デジライズサポートの山田でございます。
Speaker 2: すみません、昨日買った商品の電源が入らなくて困ってるんですけど。
Speaker 1: [申し訳なさそうに] さようでございますか、大変ご不便をおかけしております。製品の型番を教えていただけますでしょうか。
Speaker 2: えーっと、「D R X 1 0 0」って書いてあります。
Speaker 1: ありがとうございます。DRX100ですね。ただいま在庫状況を確認いたしますので、少々お待ちくださいませ。
注意点・制約事項
便利な一方で、知っておくべき制約もあります。
- Previewステージ — 正式版ではないため、仕様変更やレート制限が変わる可能性あり
- 出力はWAVのみ — MP3出力は現時点でサポートなし(外部ツールで変換が必要)
- 1リクエストの最大話者数は2人 — 3人以上の会話は複数回の生成+結合が必要
まとめ
Gemini 3.1 Flash TTSは、「声を選ぶ時代」から「演技を指示する時代」へ、音声AIを明確に一段押し上げた存在です。
- ✅ 70言語対応、日本語の自然さが大幅向上
- ✅ Audio Tagsで感情・ペース・スタイルを自在に制御
- ✅ Google AI Studioなら完全無料で試せる
- ✅ マルチスピーカー・情景描写系ナレーションは即戦力レベル
- ⚠️ コールセンター実運用など、リアルタイム性の高い用途はまだ一歩
まずはAI Studioで、本記事の4つの台本をコピペして聴き比べてみてください。きっと「思っていたより使える」と感じていただけるはずですよ。
さらに、社内の生成AI活用を本格的に進めたい方には、100ページ以上にわたる企業のための生成AI活用ガイドを無料配布中です。基礎から実践、失敗事例まで網羅しているので、研修資料としてもお使いいただけます。




