Google、Gemini 3.1 Flash Liveを発表──90言語対応のリアルタイム音声AI

Google、Gemini 3.1 Flash Liveを発表──90言語対応のリアルタイム音声AI

Googleは2026年3月26日、リアルタイム音声・マルチモーダルAIモデル「Gemini 3.1 Flash Live」を発表した。同社が「過去最高品質のオーディオ・音声モデル」と位置付ける本モデルは、90以上の言語に対応し、より自然で低遅延の音声会話を実現する。

Gemini 3.1 Flash Liveのイメージ(出典:Google公式ブログ

従来モデルから大幅に進化した音声AI

Gemini 3.1 Flash Liveは、前世代のGemini 2.5 Flash Nativeと比較して複数の重要な改善を実現している。レイテンシの低減により応答速度が向上し、会話中の不自然な間が大幅に減少した。また、ピッチやペースといった音響ニュアンスの認識精度が向上し、背景ノイズ(交通音、テレビの音など)のフィルタリング機能も強化された。

さらに、会話のスレッドを従来の2倍の長さまで追跡できるようになり、文脈に応じて回答の長さやトーンを動的に調整する機能も備える。会話中に外部ツールをトリガーする能力も大幅に改善され、複雑なシステム命令への準拠性も向上している。

SynthID技術による音声ウォーターマーク

Googleはすべての生成音声にSynthID技術によるウォーターマークを付与する。これにより、AI生成コンテンツの透明性を確保し、ディープフェイク対策にも貢献する。AIが生成した音声と人間の音声を区別するための技術的基盤として、業界標準の確立を目指している。

早期採用パートナーと提供形態

Verizon、LiveKit、The Home Depotなどが早期採用パートナーとして参画している。現在、Google AI StudioでGemini Live APIのプレビュー版が提供されており、開発者は同プラットフォームを通じてリアルタイム音声AIアプリケーションの構築を開始できる。

また、Gemini 3.1 Flash Liveは「Search Live」機能の基盤モデルとしても採用されており、200以上の国と地域でのグローバル展開を支えている。

今後の展望

90言語以上への対応は、グローバル企業のカスタマーサポートや多言語コミュニケーションツールへの応用可能性を示唆している。ただし、リアルタイム音声AIの品質は通信環境やデバイス性能に依存する面もあり、実際のユースケースでの評価が待たれる。

参考:Google公式ブログ / 9to5Google / Android Headlines

この記事に携わった人
Mynto編集部
Mynto.aiの編集部です。
関連記事
お問い合わせ各種

課題解決のためのお役立ち資料ダウンロードや、
サービスのお問い合わせが可能です。
お気軽にご相談ください。