ビジネス

1~13 / 2960件

ビジネス
2026/6/26 [FRI]
Google、Gemini 3.5 Flashに画面操作機能「Computer Use」を統合 ブラウザ・モバイル・デスクトップ操作に対応のサムネイル画像

Google、Gemini 3.5 Flashに画面操作機能「Computer Use」を統合 ブラウザ・モバイル・デスクトップ操作に対応

Googleは2026年6月24日(現地時間)、AIモデル「Gemini 3.5 Flash」で、AIエージェントがコンピュータ画面を認識し、クリックやキーボード入力などの操作を生成する「Computer Use」を組み込みツールとして利用できるようにしたと[発表]した。従来は独立した「Gemini 2.5 Computer Use model」として提供されていた機能を、Gemini Flash本体に統合した形となる。開発者と企業は、Gemini APIやGemini Enterprise Agent Platformを通じて利用できる。 ## Computer UseをGemini Flash本体の組み込みツールに [Computer Use]は、AIエージェントが画面上の情報をもとに次の操作を判断し、UIアクションを返すための機能である。Gemini 3.5 Flashでは、ブラウザ、モバイル、デスクトップ環境にまたがるエージェントを構築できるようになった。Googleは、継続的なソフトウェアテストや、業務アプリケーションを横断するナレッジワークなど、長期的な自動化タスクでの利用を想定する。 今回の統合により、Computer UseはGemini Flash本体の組み込みツールとして扱えるようになった。GeminiはすでにFunction Calling、Search、Maps groundingなどのツール利用に対応しており、Computer Useはその延長線上に位置づけられる。従来のように専用モデルを呼び出すのではなく、Gemini 3.5 Flashを使って画面操作を伴うエージェントを構築できる点が今回の変更点だ。 **Gemini 3.5 FlashのComputer Use関連ベンチマーク** ![gemini-3-5__benchmark-OSWorld-Ve.width-1000.format-webp.webp] :::small 画像の出典:[Google]{target=“_blank”} ::: ## スクリーンショットと文脈をもとに操作を生成 Computer Useでは、アプリケーション側がユーザーの目的、現在の画面スクリーンショット、対象環境などをモデルに送信する。モデルは画面と指示を解析し、クリック、スクロール、キーボード入力などのUI操作を表す応答を返す。Gemini 3.5 Flashでは、操作の座標に加えて、その操作を選んだ理由を示す「intent」も返す。 モデルがコンピュータを直接操作するわけではない。Computer Useが返した操作は、開発者が用意したクライアント側の実行環境で処理される。実行後は新しい画面状態を取得し、次のリクエストとして再びモデルに渡す。このループを繰り返すことで、エージェントは複数ステップの作業を進める。 **Computer Useの処理フロー。モデルへのリクエスト、操作応答、クライアント側での実行、環境状態の再取得を繰り返す** ![computer_use.png] :::small 画像の出典:[Google]{target=“_blank”} ::: Webサイトでの反復的なデータ入力やフォーム入力、Webアプリケーションやユーザーフローの自動テスト、複数サイトをまたいだ調査などの用途が挙げられる。ECサイト上の商品情報、価格、レビューを収集し、購入判断に使うようなケースも想定される。 ## 公開プレビューとして提供、安全策も追加 Gemini 3.5 FlashのComputer Useは、[Gemini APIのリリースノート]で6月24日付の公開プレビューとして案内されている。今回の提供には、intent付きの簡素化されたアクション、ブラウザ・モバイル・デスクトップ環境の組み込みサポート、構成可能な安全性ポリシー、高度なプロンプトインジェクション検出が含まれる。 画面操作を伴うAIエージェントでは、画面内に隠された悪意ある指示や、取り消しにくい操作をどう扱うかが課題になる。Googleは、ライブ環境で動作するエージェントのプロンプトインジェクションリスクを抑えるため、Computer Use向けの敵対的訓練を実施した。企業向けには、機密性の高い操作や取り消しにくい操作で明示的なユーザー確認を求める仕組み、間接的なプロンプトインジェクションを検出した場合にタスクを自動停止する仕組みも用意する。 Computer Useはプレビュー機能であり、重要なタスクでは厳密な監督が求められる。重大な判断、機密データ、深刻な誤りを修正しにくい操作を伴う用途では、利用可否を慎重に判断する必要がある。 Googleは5月に[Gemini 3.5 Flash]を発表し、エージェントやコーディング、長期タスク向けのモデルとして位置づけていた。今回のComputer Use統合により、Gemini 3.5 Flashはテキストやコードの生成にとどまらず、画面操作を伴うエージェント開発にも使いやすくなるという。 :::box [関連記事:Google、AIがPCを操作する「Gemini 2.5 Computer Use model」を開発者向けに公開──ClaudeやOpenAIモデルを上回る性能を実証] ::: :::box [関連記事:Google I/O 2026開催——最新基盤モデルGemini 3.5 Flash発表 24時間動く個人AIエージェント「Gemini Spark」とマルチモーダルモデルGemini Omniなども公開] ::: :::box [関連記事:Google Cloud、企業向けAIエージェント開発基盤「Gemini Enterprise Agent Platform」発表 構築から管理まで一元化] ::: :::box [関連記事:Anthropic、ClaudeがユーザのPCを操作できる機能「computer use」を公開――スマホからAIにPC作業を指示することも可能に] ::: :::box [関連記事:OpenAI、「ChatGPT agent」を発表──仮想PC上でAIが自律的に業務遂行、Pro/Plus/Team利用者に提供開始] :::

mailmagazine_250805
FOLLOW US
各種SNSでも最新情報をお届けしております