OpenAI、Realtime APIに新音声モデル3種──会話しながら推論・翻訳・文字起こしを実行

OpenAI、音声AI、Realtime API、多言語翻訳、AIエージェント、

2026.05.07

OpenAI、Realtime APIに新音声モデル3種──会話しながら推論・翻訳・文字起こしを実行

OpenAIは、Realtime API向けに「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」の3モデルを発表した。音声インターフェースを、単なる応答から、推論、ツール利用、ライブ翻訳、低遅延の文字起こしまで担う業務UIへ進化させる動きだ。

3つのモデルの役割

モデル	役割	主な用途
GPT-Realtime-2	GPT-5級の推論を持つ音声モデル	顧客対応、予約変更、業務支援
GPT-Realtime-Translate	70以上の入力言語から13出力言語へライブ翻訳	多言語サポート、イベント、越境営業
GPT-Realtime-Whisper	ストリーミング音声認識	会議メモ、字幕、コールセンター記録

GPT-Realtime-2では、128Kコンテキスト、並列ツール呼び出し、作業中であることを短く伝えるpreamble、トーン制御、推論努力レベルの調整などが追加されている。OpenAIによれば、Big Bench AudioでGPT-Realtime-1.5より15.2%高く、Audio MultiChallengeでも改善を示した。

音声AIは「話せるUI」から「働くUI」へ

発表では、Zillow、Deutsche Telekom、Pricelineなどの例が紹介された。住宅検索なら「予算内で、交通量の多い通りを避け、土曜に内見を予約して」と話すだけで、音声エージェントが条件理解、検索、ツール実行まで進める。旅行やサポートでは、遅延情報、予約変更、多言語対応を会話の流れの中で処理できる。

The combination of agentic competence and guardrail strength is what makes it viable for production voice at Zillow.──Zillow Josh Weisberg氏

日本企業が見るべきポイント

日本ではコールセンター、自治体窓口、医療・介護、観光、店舗接客など、音声が自然な業務が多い。特に多言語翻訳と低遅延文字起こしは、人手不足とインバウンド対応の両方に効く可能性がある。一方で、AIであることの明示、録音データの管理、誤認識時の人間への引き継ぎは設計段階から必要だ。

ランキング上位のAIエージェント実運用テーマとも重なり、音声はエージェントを日常業務に浸透させる重要な入口になりそうだ。

参考：OpenAI公式発表 / Big Bench Audio / Audio MultiChallenge

エンジニアリング

OpenAI、音声AI、Realtime API、多言語翻訳、AIエージェント、