Google、Gemini 2.5 Computer Use modelを公開──AIエージェントが画面を操作する時代へ

2026.05.14

Google DeepMindは、Gemini API経由で利用できる「Gemini 2.5 Computer Use model」を公開した。Webやモバイルの画面を見て、クリック、入力、スクロールなどのUI操作を行うエージェントを開発するための専門モデルだ。

APIが整っていない業務システムでも、人間と同じように画面を操作できれば、自動化の対象は大きく広がる。一方で、誤操作や権限管理のリスクも同時に大きくなる。

どのように動くのか

Computer Use modelは、ユーザーの依頼、画面スクリーンショット、直近の操作履歴を入力として受け取り、クリックや入力などの関数呼び出しを返す。クライアント側が操作を実行し、新しいスクリーンショットとURLをモデルに返すことで、タスク完了までループを続ける。

企業の現場には、API連携が難しい古い業務システム、管理画面、SaaSの設定画面が多い。Computer Use型のエージェントは、これらの画面操作を自動化する可能性がある。データ入力、フォーム送信、設定確認、レポート取得などが代表例だ。

導入するなら、まず読み取りや確認作業から始めるのが安全だ。たとえば管理画面の設定チェック、申請内容の転記候補作成、レポート取得などは、効果とリスクのバランスを取りやすい。

画面操作エージェントは、API連携よりも挙動が不安定になりやすい。UI変更、ポップアップ、ログイン状態、権限差分で失敗する可能性がある。購入、送信、削除、権限変更などは必ず人間承認を挟み、実行ログとスクリーンショットを監査できる形にすべきだ。