Google、Gemini 2.5 Computer Use modelを公開──AIエージェントが画面を操作する時代へ

Mynto編集部

Google DeepMindは、Gemini API経由で利用できる「Gemini 2.5 Computer Use model」を公開した。Webやモバイルの画面を見て、クリック、入力、スクロールなどのUI操作を行うエージェントを開発するための専門モデルだ。

APIが整っていない業務システムでも、人間と同じように画面を操作できれば、自動化の対象は大きく広がる。一方で、誤操作や権限管理のリスクも同時に大きくなる。

どのように動くのか

Computer Use modelは、ユーザーの依頼、画面スクリーンショット、直近の操作履歴を入力として受け取り、クリックや入力などの関数呼び出しを返す。クライアント側が操作を実行し、新しいスクリーンショットとURLをモデルに返すことで、タスク完了までループを続ける。

入力

モデルの判断

実行側の処理

依頼内容

何を達成すべきか理解

完了条件を管理

スクリーンショット

画面要素を認識

現在のUI状態を送信

操作履歴

次のクリック・入力を選択

ブラウザやアプリで操作を実行

安全条件

購入などで確認を要求

人間承認で進行を制御

なぜ重要か

企業の現場には、API連携が難しい古い業務システム、管理画面、SaaSの設定画面が多い。Computer Use型のエージェントは、これらの画面操作を自動化する可能性がある。データ入力、フォーム送信、設定確認、レポート取得などが代表例だ。

日本企業への示唆

導入するなら、まず読み取りや確認作業から始めるのが安全だ。たとえば管理画面の設定チェック、申請内容の転記候補作成、レポート取得などは、効果とリスクのバランスを取りやすい。

注意点

画面操作エージェントは、API連携よりも挙動が不安定になりやすい。UI変更、ポップアップ、ログイン状態、権限差分で失敗する可能性がある。購入、送信、削除、権限変更などは必ず人間承認を挟み、実行ログとスクリーンショットを監査できる形にすべきだ。

参考:Google DeepMind発表 / Gemini API Docs

この記事に携わった人
Mynto編集部
Mynto.aiの編集部です。
関連記事
お問い合わせ各種

課題解決のためのお役立ち資料ダウンロードや、
サービスのお問い合わせが可能です。
お気軽にご相談ください。