Googleは2026年3月26日、リアルタイム音声・マルチモーダルAIモデル「Gemini 3.1 Flash Live」を発表した。同社が「過去最高品質のオーディオ・音声モデル」と位置付ける本モデルは、90以上の言語に対応し、より自然で低遅延の音声会話を実現する。
Gemini 3.1 Flash Liveのイメージ(出典:Google公式ブログ)
従来モデルから大幅に進化した音声AI
Gemini 3.1 Flash Liveは、前世代のGemini 2.5 Flash Nativeと比較して複数の重要な改善を実現している。レイテンシの低減により応答速度が向上し、会話中の不自然な間が大幅に減少した。また、ピッチやペースといった音響ニュアンスの認識精度が向上し、背景ノイズ(交通音、テレビの音など)のフィルタリング機能も強化された。
さらに、会話のスレッドを従来の2倍の長さまで追跡できるようになり、文脈に応じて回答の長さやトーンを動的に調整する機能も備える。会話中に外部ツールをトリガーする能力も大幅に改善され、複雑なシステム命令への準拠性も向上している。
SynthID技術による音声ウォーターマーク
Googleはすべての生成音声にSynthID技術によるウォーターマークを付与する。これにより、AI生成コンテンツの透明性を確保し、ディープフェイク対策にも貢献する。AIが生成した音声と人間の音声を区別するための技術的基盤として、業界標準の確立を目指している。
早期採用パートナーと提供形態
Verizon、LiveKit、The Home Depotなどが早期採用パートナーとして参画している。現在、Google AI StudioでGemini Live APIのプレビュー版が提供されており、開発者は同プラットフォームを通じてリアルタイム音声AIアプリケーションの構築を開始できる。
また、Gemini 3.1 Flash Liveは「Search Live」機能の基盤モデルとしても採用されており、200以上の国と地域でのグローバル展開を支えている。
今後の展望
90言語以上への対応は、グローバル企業のカスタマーサポートや多言語コミュニケーションツールへの応用可能性を示唆している。ただし、リアルタイム音声AIの品質は通信環境やデバイス性能に依存する面もあり、実際のユースケースでの評価が待たれる。

