Google DeepMindは、Gemini API経由で利用できる「Gemini 2.5 Computer Use model」を公開した。Webやモバイルの画面を見て、クリック、入力、スクロールなどのUI操作を行うエージェントを開発するための専門モデルだ。
APIが整っていない業務システムでも、人間と同じように画面を操作できれば、自動化の対象は大きく広がる。一方で、誤操作や権限管理のリスクも同時に大きくなる。
どのように動くのか
Computer Use modelは、ユーザーの依頼、画面スクリーンショット、直近の操作履歴を入力として受け取り、クリックや入力などの関数呼び出しを返す。クライアント側が操作を実行し、新しいスクリーンショットとURLをモデルに返すことで、タスク完了までループを続ける。
入力 | モデルの判断 | 実行側の処理 |
|---|---|---|
依頼内容 | 何を達成すべきか理解 | 完了条件を管理 |
スクリーンショット | 画面要素を認識 | 現在のUI状態を送信 |
操作履歴 | 次のクリック・入力を選択 | ブラウザやアプリで操作を実行 |
安全条件 | 購入などで確認を要求 | 人間承認で進行を制御 |
なぜ重要か
企業の現場には、API連携が難しい古い業務システム、管理画面、SaaSの設定画面が多い。Computer Use型のエージェントは、これらの画面操作を自動化する可能性がある。データ入力、フォーム送信、設定確認、レポート取得などが代表例だ。
日本企業への示唆
導入するなら、まず読み取りや確認作業から始めるのが安全だ。たとえば管理画面の設定チェック、申請内容の転記候補作成、レポート取得などは、効果とリスクのバランスを取りやすい。
注意点
画面操作エージェントは、API連携よりも挙動が不安定になりやすい。UI変更、ポップアップ、ログイン状態、権限差分で失敗する可能性がある。購入、送信、削除、権限変更などは必ず人間承認を挟み、実行ログとスクリーンショットを監査できる形にすべきだ。


.png&w=384&q=75)
