OpenAI、Realtime APIに新音声モデル3種──会話しながら推論・翻訳・文字起こしを実行

Mynto編集部

OpenAIは、Realtime API向けに「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」の3モデルを発表した。音声インターフェースを、単なる応答から、推論、ツール利用、ライブ翻訳、低遅延の文字起こしまで担う業務UIへ進化させる動きだ。

3つのモデルの役割

モデル

役割

主な用途

GPT-Realtime-2

GPT-5級の推論を持つ音声モデル

顧客対応、予約変更、業務支援

GPT-Realtime-Translate

70以上の入力言語から13出力言語へライブ翻訳

多言語サポート、イベント、越境営業

GPT-Realtime-Whisper

ストリーミング音声認識

会議メモ、字幕、コールセンター記録

GPT-Realtime-2では、128Kコンテキスト、並列ツール呼び出し、作業中であることを短く伝えるpreamble、トーン制御、推論努力レベルの調整などが追加されている。OpenAIによれば、Big Bench AudioでGPT-Realtime-1.5より15.2%高く、Audio MultiChallengeでも改善を示した。

音声AIは「話せるUI」から「働くUI」へ

発表では、Zillow、Deutsche Telekom、Pricelineなどの例が紹介された。住宅検索なら「予算内で、交通量の多い通りを避け、土曜に内見を予約して」と話すだけで、音声エージェントが条件理解、検索、ツール実行まで進める。旅行やサポートでは、遅延情報、予約変更、多言語対応を会話の流れの中で処理できる。

The combination of agentic competence and guardrail strength is what makes it viable for production voice at Zillow.──Zillow Josh Weisberg氏

日本企業が見るべきポイント

日本ではコールセンター、自治体窓口、医療・介護、観光、店舗接客など、音声が自然な業務が多い。特に多言語翻訳と低遅延文字起こしは、人手不足とインバウンド対応の両方に効く可能性がある。一方で、AIであることの明示、録音データの管理、誤認識時の人間への引き継ぎは設計段階から必要だ。

ランキング上位のAIエージェント実運用テーマとも重なり、音声はエージェントを日常業務に浸透させる重要な入口になりそうだ。

参考:OpenAI公式発表 / Big Bench Audio / Audio MultiChallenge

この記事に携わった人
Mynto編集部
Mynto.aiの編集部です。
関連記事
お問い合わせ各種

課題解決のためのお役立ち資料ダウンロードや、
サービスのお問い合わせが可能です。
お気軽にご相談ください。