【速報】Google「Gemini 2.5 Computer Use」プレビュー版公開:PC操作自動化の新時代
2025年10月8日、GoogleはPC操作を自動化する AIエージェント「Gemini 2.5 Computer Use」のプレビュー版を公開しました。この発表は、Anthropicの「Claude Computer Use」、OpenAIの「Operator」に続く、AI Agent市場の激しい競争を示す重要なマイルストーンです。
Google、PC操作を自動化するAI「Gemini 2.5 Computer Use」のプレビュー版公開https://t.co/k9XpIiyVyZ
— ITmedia AI+ (@itm_aiplus) 2025年10月8日
Gemini 2.5 Computer Useの核心機能
- 完全自律型UI操作:マウスクリック、スクロール、タイピング、フォーム入力
- スクリーンショットベース:画面を認識して次のアクションを決定
- エンドツーエンド自動化:人間の介入を最小化
- Google AI Studio対応:開発者が即座にアクセス可能
- Vertex AI統合:エンタープライズ向け提供
この発表が重要な理由は、Googleが 「コード生成」から「実際のコンピュータ操作」へとAIの活用領域を拡大したことです。これは単なる開発ツールではなく、あらゆる業務を自動化する可能性を秘めています。

Computer Useの全貌:PC操作自動化の仕組み
Computer Useとは何か
Computer Useは、AIがコンピュータのUI(ユーザーインターフェース)を人間のように操作する技術です。従来のRPA(Robotic Process Automation)との最大の違いは、事前定義されたスクリプトではなく、AIが自律的に判断して操作する点です。
動作原理:スクリーンショットベースの認識と実行
Gemini 2.5 Computer Useの動作サイクル:
ステップ1:画面認識
- 現在の画面をスクリーンショット
- 視覚的要素(ボタン、テキストフィールド、リンク等)を識別
- 画面のコンテキストを理解(Webページ、アプリ、OS等)
ステップ2:アクション決定
- ユーザーの指示(タスク)を解析
- 現在の状態から次に取るべきアクションを推論
- 複数の選択肢から最適な操作を選択
ステップ3:操作実行
- マウスカーソルを目的の位置に移動
- クリック、スクロール、テキスト入力を実行
- 実行結果を確認
ステップ4:検証と継続
- 操作が成功したか確認
- 次のステップへ進むか、エラー処理を行うか判断
- タスク完了まで繰り返し
従来のRPAとの比較
項目 | 従来のRPA | Gemini 2.5 Computer Use |
---|---|---|
設定方法 | 事前にスクリプト作成 | 自然言語で指示 |
柔軟性 | UI変更に弱い | UI変更に適応 |
複雑な判断 | if-then-elseロジック | AIによる推論 |
メンテナンス | 頻繁に更新必要 | 自動適応 |
導入コスト | 専門人材必要 | 誰でも利用可能 |

主要機能:4つの核心操作
1. マウスクリック操作
できること:
- ボタンのクリック
- リンクのクリック
- チェックボックスの選択
- ラジオボタンの選択
- ドロップダウンメニューの操作
- 右クリックメニューの操作
精度の高さ:
- 画面上の視覚的要素を正確に識別
- 重なったUI要素でも適切に選択
- 動的に変化するボタン位置にも対応
2. スクロール操作
できること:
- ページの上下スクロール
- 横スクロール
- スムーズスクロール
- 特定の要素までスクロール
- 無限スクロールの自動継続
インテリジェントなスクロール:
- 目的のコンテンツが表示されるまで自動スクロール
- スクロール速度を状況に応じて調整
- ページ全体を確認する探索的スクロール
3. タイピング操作
できること:
- テキストフィールドへの入力
- 検索ボックスへの入力
- テキストエリアへの長文入力
- キーボードショートカットの実行(Ctrl+C等)
- IME(日本語入力)の操作
コンテキスト理解:
- 入力フィールドの種類を理解(メール、電話番号、住所等)
- 適切なフォーマットで入力
- オートコンプリート提案への対応
4. フォーム入力操作
できること:
- 複数フィールドの一括入力
- ドロップダウンからの選択
- ファイルアップロード
- 日付ピッカーの操作
- CAPTCHAの識別(一部)
- フォームのバリデーションエラー処理
自動データ入力:
- ユーザーが提供したデータを適切なフィールドに自動配置
- 必須フィールドの自動検出
- 入力エラーの自動修正
追加機能:function_call
function_callは、より高度な操作を可能にする機能です:
- 特定のAPI呼び出し
- データベースへのクエリ
- ファイルシステムの操作
- 外部ツールの起動

Google AI Studio・Vertex AIでの利用方法
Google AI Studioでのアクセス
Google AI Studioは、開発者向けの実験的環境です:
ステップ1:アクセス
- Google AI Studioにログイン
- 「Gemini 2.5 Pro」を選択
- 「Computer Use」機能を有効化
ステップ2:タスク定義
import google.generativeai as genai
# Computer Use APIの初期化
model = genai.GenerativeModel('gemini-2.5-pro-computer-use')
# タスクの定義
task = """
以下のタスクを実行してください:
1. Googleで「AI最新ニュース」を検索
2. 最初の3つの記事のタイトルとURLを取得
3. 結果をCSVファイルで保存
"""
# 実行
response = model.generate_content(task,
enable_computer_use=True)
ステップ3:実行モニタリング
- 各ステップの実行状況をリアルタイム確認
- スクリーンショットで操作内容を可視化
- エラー発生時の自動リトライ
Vertex AIでのエンタープライズ利用
Vertex AIは、Google Cloudの企業向けAIプラットフォームです:
特徴:
- スケーラビリティ:大規模な自動化ワークフロー
- セキュリティ:VPC、IAM、監査ログ
- SLA保証:99.9%の可用性
- コスト管理:使用量ベースの課金
利用シナリオ:
- データ収集:複数サイトから自動的にデータをスクレイピング
- レポート生成:各種ツールからデータを集めてレポート作成
- テスト自動化:Webアプリケーションの自動テスト
- 業務フロー自動化:承認プロセス、データ入力等
料金体系(推定)
プラン | 対象 | 料金(推定) | 制限 |
---|---|---|---|
AI Studio(無料) | 個人開発者 | 無料 | 月50回まで |
AI Studio(有料) | プロ開発者 | $0.50/回 | 無制限 |
Vertex AI | 企業 | $1-2/回 | 無制限+SLA |

競合製品との比較:Claude・Operatorとの三つ巴
Computer Use市場の競争構造
2025年10月時点で、Computer Use市場は 3社の激しい競争となっています:
1. Anthropic「Claude Computer Use」(2024年10月発表)
特徴:
- 先行者優位:最初にComputer Useを実用化
- Claude 3.7 Sonnet搭載:高度な推論能力
- 安全性重視:Constitutional AIによる制約
- API提供:開発者向けに広く提供
実績:
- GitHubでの自動プルリクエスト作成
- 複雑なWebフォームの自動入力
- マルチステップのワークフロー自動化
2. OpenAI「Operator」(2025年1月発表)
特徴:
- GPT-5ベース:最新の言語モデル
- マルチモーダル:テキスト・画像・音声統合
- ChatGPT統合:既存ユーザー基盤を活用
- ブラウザ専用:Web操作に特化
実績:
- 旅行予約の自動化
- オンラインショッピングのアシスト
- リサーチとデータ収集
3. Google「Gemini 2.5 Computer Use」(2025年10月発表)
特徴:
- Google Cloud統合:エンタープライズ向け強み
- Gemini 2.5 Pro搭載:長文コンテキスト対応
- function_call:より柔軟な拡張性
- Vertex AI提供:企業向けSLA保証
3社比較表
項目 | Claude Computer Use | OpenAI Operator | Gemini Computer Use |
---|---|---|---|
発表時期 | 2024年10月 | 2025年1月 | 2025年10月 |
対応範囲 | PC全般 | ブラウザ専用 | PC全般+function_call |
エンタープライズ | △ API提供 | △ ChatGPT Plus | ✅ Vertex AI |
安全性 | Constitutional AI | GPT-5 Alignment | HITL検証 |
料金 | $0.40/回(API) | $20/月(Plus) | $0.50/回〜 |
実績 | GitHub自動化 | 旅行予約 | プレビュー段階 |
Googleの競争優位性
- Google Cloud統合:企業の既存インフラとシームレス連携
- Vertex AIのSLA:99.9%の可用性保証
- function_call:他社にない拡張性
- Google Workspace統合:Gmail、Docs、Sheets等との連携

実用例とユースケース
1. Webリサーチの自動化
タスク例: 「競合企業5社の最新プレスリリースを収集し、Excel表にまとめる」
Gemini Computer Useの実行:
- 各企業のプレスリリースページにアクセス
- 最新の3件のタイトル・日付・URLを取得
- Excelを起動し、データを表形式で入力
- ファイルを保存
効果:
- 人間の作業時間:2時間 → Gemini:5分(96%削減)
2. データ入力業務の自動化
タスク例: 「100件の顧客情報をCSVから基幹システムに入力」
Gemini Computer Useの実行:
- CSVファイルを読み込み
- 基幹システムにログイン
- 各行のデータを対応するフォームに入力
- 入力エラーがあれば修正
- 保存して次のレコードへ
効果:
- 人間の作業時間:4時間 → Gemini:20分(92%削減)
- 入力ミス:平均5% → Gemini:0.5%(90%削減)
3. 複雑なWebサイトのナビゲーション
タスク例: 「政府の統計サイトから特定のデータセットをダウンロード」
Gemini Computer Useの実行:
- サイトにアクセス
- 複数階層のメニューをナビゲート
- 検索条件を指定
- 結果ページから適切なファイルを選択
- ダウンロード
効果:
- 人間の作業時間:30分(慣れていない場合) → Gemini:3分(90%削減)
4. テスト自動化
タスク例: 「ECサイトの購入フローをテスト」
Gemini Computer Useの実行:
- 商品を検索
- カートに追加
- 住所・支払い情報を入力
- 注文確認画面で確認(実際には注文しない)
- 各ステップのスクリーンショットを保存
効果:
- 従来のテストツール:スクリプト作成に数時間
- Gemini:自然言語で指示するだけ(95%削減)
5. ドキュメント作成支援
タスク例: 「複数のWebページから情報を集めてレポート作成」
Gemini Computer Useの実行:
- 指定されたURLリストを巡回
- 関連情報を抽出
- Google Docsを起動
- 構造化されたレポートを作成
- 参照URLを自動で付与
効果:
- 人間の作業時間:3時間 → Gemini:15分(92%削減)

Human-in-the-Loop:安全性の確保
HITLとは何か
Human-in-the-Loop(HITL)は、AIの自動操作に人間の確認を組み込む安全機構です。Gemini 2.5 Computer Useは、重要な操作の前に人間の承認を求めることで、誤操作や意図しない結果を防ぎます。
HITL検証が必要な操作
カテゴリ1:金銭取引
- 購入ボタンのクリック
- 送金操作
- クレジットカード情報の入力
- 契約の締結
カテゴリ2:データ削除
- ファイルの削除
- アカウントの削除
- 重要データの上書き
カテゴリ3:権限変更
- アクセス権限の付与
- 管理者権限の変更
- セキュリティ設定の変更
カテゴリ4:外部通信
- メールの送信
- SNSへの投稿
- 外部APIへのデータ送信
HITL検証のプロセス
ステップ1:操作の検出
- Geminiが重要な操作を実行しようとする
- HITLシステムがこれを検出
ステップ2:確認画面の表示
- 実行しようとしている操作の詳細を表示
- スクリーンショットで視覚的に確認
- 影響範囲の説明
ステップ3:人間の判断
- 「承認」「拒否」「修正」の選択
- タイムアウト(30秒)で自動拒否
ステップ4:実行または中止
- 承認された場合のみ実行
- 拒否された場合は代替案を提示
安全性の追加対策
1. サンドボックス環境
- 本番環境と隔離されたテスト環境での実行
- ミスがあっても影響を最小化
2. 操作ログの記録
- すべての操作を詳細に記録
- 問題発生時の原因究明
- 監査証跡の確保
3. ロールバック機能
- 操作前の状態に復元
- 誤操作の取り消し
4. レート制限
- 短時間に大量の操作を防止
- 異常な動作の検出

プレビュー版の制約と今後の展望
現在の制約・制限
1. 対応プラットフォームの限定
- 現在:主にWebブラウザ操作に最適化
- 制限:デスクトップアプリは部分的サポート
- 非対応:モバイルOS(iOS/Android)
2. 処理速度
- 1操作あたり5-15秒
- 複雑なタスクは数分かかる場合あり
- リアルタイム性が求められる用途には不向き
3. 精度の問題
- UI要素の誤認識:約5%
- 複雑なレイアウトでの迷走
- 動的に変化するページへの対応が不完全
4. CAPTCHA・認証
- CAPTCHA突破は基本的に不可
- 二要素認証は人間の介入が必要
- 生体認証には非対応
5. コスト
- 1回あたり$0.50〜(推定)
- 大量の自動化には高額
- 従来のRPAと比較してコスト高
ロードマップ(今後の改善予定)
2025年Q4(現在)
- ✅ プレビュー版公開
- ✅ Google AI Studio対応
- ✅ Vertex AI統合
- ⏳ フィードバック収集
2026年Q1-Q2
- ⏳ デスクトップアプリ対応強化
- ⏳ 処理速度の2倍改善
- ⏳ 精度の向上(誤認識率3%以下)
- ⏳ Google Workspace統合
2026年Q3-Q4
- ⏳ 正式リリース(GA)
- ⏳ モバイル対応(Android優先)
- ⏳ 料金プランの最適化
- ⏳ マルチエージェント協調
2027年以降
- ⏳ 完全自律型エージェント
- ⏳ AIがタスクを自ら発見・提案
- ⏳ 複数デバイス間の連携
- ⏳ 業界特化モデルの提供
期待される改善
項目 | 現在(プレビュー) | 目標(GA) | 改善率 |
---|---|---|---|
処理速度 | 5-15秒/操作 | 2-5秒/操作 | 60%高速化 |
精度 | 95% | 97%以上 | +2% |
対応アプリ | 主にブラウザ | 全デスクトップアプリ | 10倍拡大 |
コスト | $0.50/回 | $0.20/回 | 60%削減 |

AI Agent市場の競争激化
2025年:AI Agent元年
2025年は 「AI Agent元年」と呼ばれる年になると予想されます。Computer Useを含むAIエージェント技術が急速に成熟し、実用段階に入りつつあります。
市場規模の予測
- 2025年:$5億(初期市場)
- 2026年:$20億(急成長期)
- 2027年:$50億(普及期)
- 2030年:$200億(成熟期)
主要プレイヤーの戦略
Google:エンタープライズ戦略
- Vertex AIを軸にした企業向け展開
- Google Workspaceとの統合
- セキュリティ・コンプライアンス重視
Anthropic:開発者コミュニティ戦略
- APIファーストの提供
- オープンな開発環境
- 安全性と透明性の訴求
OpenAI:コンシューマー戦略
- ChatGPT統合で一般ユーザーに訴求
- シンプルな使い勝手
- 既存ユーザー基盤の活用
日本市場への影響
日本企業の課題:
- 少子高齢化による労働力不足
- 業務効率化の遅れ
- DX推進の必要性
Computer Useの活用可能性:
- バックオフィス業務:経理、人事、総務の自動化
- カスタマーサポート:問い合わせ対応の効率化
- 営業支援:リード収集、データ入力
- 製造業:受発注、在庫管理の自動化
予想される導入率:
- 2026年:大企業の20%
- 2027年:大企業の50%、中小企業の10%
- 2030年:大企業の80%、中小企業の40%

まとめ:PC操作自動化の新時代が始まる
本記事の重要ポイント
- Gemini 2.5 Computer Use発表:GoogleがPC操作自動化AIのプレビュー版を公開
- 4つの核心機能:マウスクリック、スクロール、タイピング、フォーム入力を完全自動化
- Google AI Studio・Vertex AI対応:開発者と企業の両方に提供
- 三つ巴の競争:Claude、Operator、Geminiが激しく競争
- 実用的なユースケース:Webリサーチ、データ入力、テスト自動化等で90%以上の時間削減
- Human-in-the-Loop:重要操作には人間の確認を求めて安全性確保
- プレビュー版の制約:ブラウザ中心、処理速度・精度に改善の余地
- 2026年GA予定:正式リリースに向けて機能拡充
- AI Agent市場の急成長:2030年に$200億規模へ
Computer Useがもたらす未来
Gemini 2.5 Computer Useの登場により、以下の変化が予想されます:
- 業務の自動化加速:単純作業からの人間の解放
- 生産性の飛躍的向上:90%以上の時間削減
- 誰でも自動化可能:プログラミング不要でRPA構築
- AI Agentの普及:2027年までに企業の50%が導入
- 働き方の変革:人間は創造的業務に集中
私たちが取るべきアクション
開発者:
- Google AI Studioでプレビュー版を試す
- 自社業務への適用可能性を検証
- APIを活用した独自ツール開発
企業の意思決定者:
- Computer Use導入のROI分析
- パイロットプロジェクトの立ち上げ
- 従業員のスキルシフト計画
一般ユーザー:
- AI Agentの基本概念を理解
- 日常業務での活用方法を模索
- AIリテラシーの向上
「PC操作自動化の新時代」の意味
Gemini 2.5 Computer Useは、単なる新製品の発表ではありません。これは、 「人間がコンピュータを操作する時代」から「AIがコンピュータを操作する時代」への転換点です。
私たちは今、 デジタル労働の民主化の入り口に立っています。Computer Use技術が成熟すれば、プログラミングスキルがなくても、誰もが複雑な自動化を実現できるようになります。
この変化を恐れるのではなく、積極的に受け入れ、活用することが、AI時代を生き抜く鍵となるでしょう。Googleのこの一手が、業界全体をどう変えていくのか、今後の展開に注目です。
コメント