Googleは2026年3月26日、リアルタイム音声AIモデル「Gemini 3.1 Flash Live」を発表した。同社が「過去最高品質のオーディオ・音声モデル」と位置づける本モデルは、128Kトークンの拡張コンテキストウィンドウを備え、90以上の言語でのリアルタイムマルチモーダル対話を実現する。
Gemini 3.1 Flash Live(出典:ITmedia AI+)
従来モデルから大幅に進化した音声認識
Gemini 3.1 Flash Liveは、前世代の「2.5 Flash Native Audio」と比較して大きく進化している。音のピッチやペースなどの音響ニュアンスをより精緻に認識できるようになり、背景ノイズのフィルタリング性能も向上した。交通音やテレビの音声など環境音から関連する発話を適切に識別し、低レイテンシでの応答を実現する。会話の中断にも高度に対応し、文脈を維持したまま自然な対話を継続できる。
テキスト・画像・音声・動画のマルチモーダル入力
本モデルはテキスト、画像、音声、動画の4種類の入力を統合的に処理し、テキストとして出力する。128Kトークンのコンテキストウィンドウ(約12,800語相当)により、従来モデルの2倍の長さの会話スレッドを追跡可能だ。これにより、長時間にわたる複雑な対話でも文脈を見失わない。
主要スペック
項目 | 仕様 |
|---|---|
コンテキストウィンドウ | 128Kトークン |
対応言語 | 90言語以上 |
入力モダリティ | テキスト・画像・音声・動画 |
出力 | テキスト |
AI生成検出 | SynthID搭載 |
SynthIDによるAI生成コンテンツの検出
Gemini 3.1 Flash Liveには、GoogleのAI生成コンテンツ検出技術「SynthID」が統合されている。AI生成コンテンツに透かしを埋め込むことで、真正性の検証とAI生成物の悪用防止を支援する。
Google製品への広範な統合
本モデルは複数のGoogleプロダクトに統合される。Gemini Live APIはGoogle AI Studioでプレビュー提供が開始され、Search Liveは200カ国以上でグローバル展開されている。エンタープライズ向けには「Gemini Enterprise for Customer Experience」として、すでにVerizonやHome Depotのコンタクトセンターで導入実績がある。研究・教育向けにはNotebookLMプラットフォームでも活用される。
リアルタイム音声AI分野は、OpenAIのGPT-4oやAnthropicのClaude音声機能との競争が激化している。Googleは128Kコンテキストと90言語対応という広範なカバレッジで差別化を図っており、特にエンタープライズ分野での採用拡大が注目される。
参考:ITmedia AI+ / Google公式ブログ / 9to5Google

