Anthropicは、Claude Opus 4とClaude Sonnet 4を発表し、コーディング、推論、AIエージェントでの性能向上を強調した。Opus 4は複雑で長時間にわたるタスクに強く、Sonnet 4は実用性と効率のバランスを重視したモデルとして提供される。
注目すべきは、モデルの賢さだけではなく、ツール利用、ファイル操作、記憶、Claude Codeの一般提供など、開発ワークフロー全体にAIを組み込む方向が明確になった点だ。コーディングAIは、短い補完から、数時間単位の作業を継続するエージェントへ進みつつある。
Claude 4で強調された能力
Anthropicは、Claude 4がツール利用を伴う拡張思考、並列ツール利用、ローカルファイルにアクセスした場合の記憶能力、Claude Codeの一般提供などを備えると説明している。APIではコード実行、MCP connector、Files API、最大1時間のプロンプトキャッシュなど、エージェント開発に必要な機能も拡充された。
項目 | 発表内容 | 開発現場への影響 |
|---|---|---|
Opus 4 | SWE-bench 72.5%、Terminal-bench 43.2%を公表 | 大規模コードベースの長時間作業を任せやすくなる |
Sonnet 4 | SWE-bench 72.7%を公表し、効率と実用性を重視 | 日常的な開発補助に使いやすい |
Claude Code | 一般提供、GitHub ActionsやIDE連携を拡充 | レビュー、修正、実装を既存フローに組み込める |
API機能 | コード実行、MCP、Files APIなど | 社内ツール連携型エージェントを作りやすい |
「数時間働くAI」は開発プロセスを変える
短いコード補完では、人間が常に次の指示を出す必要があった。長時間タスクに対応するモデルでは、バグ調査、リファクタリング、テスト追加、ドキュメント更新のような一連の作業を、途中で状況を確認しながら進められる。Anthropicは、Rakutenが7時間のオープンソースリファクタリングで能力を検証した事例にも触れている。
ただし、長く動けるAIほど、失敗した時の影響も大きい。誤った前提で大量の変更を加えたり、テストの抜けを見落としたりする可能性は残る。企業は、AIに任せる範囲、レビュー基準、ブランチ運用、秘密情報の扱いを明確にしなければならない。
日本の開発組織が見るべき論点
人手不足の開発現場では、AIエージェントは単なる効率化ツールではなく、保守、移行、テスト強化を進めるための現実的な手段になりうる。特に、古いコードベースの理解、仕様書の不足、単体テストの追加といった積み残しに効果が出やすい。
一方で、AIに任せるにはコード品質の基準やCI/CDの整備が前提になる。Claude 4の発表は、コーディングAIの競争がモデル性能だけでなく、開発プロセス全体をどれだけ安全に自動化できるかへ移っていることを示している。


.png&w=384&q=75)
