OpenAIは、ChatGPT、API、Codex向けに新モデルGPT-5.4を公開した。GPT-5.4 ThinkingとGPT-5.4 Proとして提供され、プロフェッショナル向けの知識作業、コーディング、ツール利用、コンピューター操作を強化したモデルと位置づけられている。
今回の発表で重要なのは、モデルの用途が「答える」から「複数のツールを使って仕事を完了する」方向へさらに進んだことだ。ランキングでもAIエージェントや開発AIへの関心は強く、GPT-5.4は企業が業務AIを設計するうえで見逃せない更新になる。
1Mトークンとネイティブなコンピューター操作
OpenAIによれば、GPT-5.4はAPIとCodexで、同社初の汎用モデルとしてネイティブなコンピューター操作能力を備える。エージェントがアプリケーションをまたいで作業し、計画、実行、検証まで長い流れで進められるよう、最大100万トークンのコンテキストにも対応する。
さらに、ツール検索によって、大量のコネクターやツールの中から適切なものを見つけて使いやすくなった。これは、社内システム、ドキュメント、表計算、プレゼン、ブラウザ、開発環境を横断する業務エージェントにとって重要な機能だ。
指標 | GPT-5.4 | GPT-5.2 |
|---|---|---|
GDPval | 83.0% | 70.9% |
SWE-Bench Pro | 57.7% | 55.6% |
OSWorld-Verified | 75.0% | 47.3% |
BrowseComp | 82.7% | 65.8% |
知識作業では、表計算・資料作成が焦点に
OpenAIは、GPT-5.4がスプレッドシート、プレゼンテーション、文書の作成・編集で改善したと説明する。GDPvalでは、米国GDPを構成する主要産業の44職種にまたがる実務成果物を評価し、GPT-5.4は業界専門家に勝つか同等の比較が83.0%に達した。
社内ベンチマークでは、投資銀行アナリストが行うような表計算モデリングで平均87.3%を記録し、GPT-5.2の68.4%を上回った。人間評価では、プレゼン作成でもGPT-5.4の成果物がGPT-5.2より好まれる割合が高かったという。
企業は「任せる業務の境界」を設計する必要がある
コンピューター操作と長い文脈を持つAIは、業務効率化の可能性を大きく広げる。一方で、権限、データ持ち出し、誤操作、承認フローの設計がより重要になる。単にChatGPTの新モデルを有効化するだけでは、期待した生産性向上にはつながりにくい。
導入時には、AIに閲覧だけを許すのか、編集や送信まで許すのか、どの段階で人間の承認を挟むのかを決めたい。GPT-5.4のようなモデルは、個人の作業補助から、チームの業務プロセスを動かす基盤へ近づいている。
参考:OpenAI公式発表

.png&w=384&q=75)


