Gemini 3.5 FlashにPC操作機能を標準搭載、業務エージェント開発を加速

30秒サマリー

Google DeepMindがGemini 3.5 Flashにコンピューター操作機能を組み込み、開発者が即日利用可能に
ブラウザ・モバイル・デスクトップを横断するエージェント構築が単一モデルで完結
プロンプトインジェクション対策の企業向け安全機能も同時リリース

何が起きたか

Google DeepMindは2026年6月24日、同社の言語モデル「Gemini 3.5 Flash」にコンピューター操作（computer use）機能を標準ツールとして統合したと発表した。これまで同機能はGemini 2.5の独立したコンピューター操作専用モデルとしてのみ提供されていたが、今回のアップデートにより主力のFlashモデルに直接組み込まれた形となる。

新機能により開発者は、Gemini 3.5 Flashを通じてブラウザ・モバイル・デスクトップの各環境を横断して「見る・推論する・操作する」エージェントを構築できるようになる。同社は継続的なソフトウェアテストや各種業務アプリケーション上でのナレッジワークなど、長時間にわたるエンタープライズ自動化タスクへの活用を想定している。利用はGemini APIおよびGemini Enterprise Agent Platformを通じて開始できる。

安全面では、ライブ環境で動作するエージェントへのプロンプトインジェクション攻撃を軽減するため、Gemini 3.5 Flashに対象を絞った敵対的トレーニングを実施したとしている。さらにオプションの企業向け安全機能として、①機密性の高い操作や取り消し不能な操作に対してユーザーへの明示的な確認を要求する機能、②間接的なプロンプトインジェクションが検出された場合にタスクを自動停止する機能の2つをリリースした。同社はこれらの機能に加え、セキュアなサンドボックス化・人間によるループ内確認・厳格なアクセス制御の併用を推奨している。

原典ハイライト

公式ブログによれば、computer use機能はこれまで単独モデルとして提供されていたが、今回Gemini 3.5 Flashに「built-in tool」として統合されたと明記されている。またプロンプトインジェクション対策として企業向けの2種類の安全機能が同時提供されている点が核心的な情報である。

出典: Google DeepMind Blog（公式ブログ）

So What?（なぜ重要か）

これまでコンピューター操作エージェントの構築には専用モデルの利用が必要だったが、今回の統合により、すでにGemini 3.5 Flashを活用している開発者・企業が追加モデルの切り替えなしに同一APIでPC操作自動化を実装できるようになる。エージェントの開発コストと複雑性が下がることで、RPA的な業務自動化とAI推論を組み合わせたユースケースが加速するとみられる。安全機能のオプション提供は、企業導入における最大の懸念である「AIによる誤操作・セキュリティリスク」への対応を示すものでもある。

日本企業への示唆

日本企業においては、既存のGemini API契約があれば追加費用なく（原文では料金体系の言及なし）コンピューター操作エージェントの実証実験に着手できる可能性がある。特にERPやSaaSツールを多数使いこなす業務部門向けに、画面操作を伴うRPA代替エージェントの内製化を検討する価値が生じた。一方で、企業システムを直接操作するエージェントはセキュリティリスクも高く、同社が推奨する「サンドボックス化・人間によるループ内確認・アクセス制御の厳格化」を前提に段階的な導入設計が求められる。エージェント開発を外部委託している企業は、ベンダーに対してこれらの安全機能の実装状況を確認することが望ましい。

背景・経緯

Google DeepMindはGemini 2.5シリーズにおいてコンピューター操作専用モデルを別途提供してきた経緯がある。今回はそれをメインのFlashモデルに統合することで、開発者が単一モデルで関数呼び出し・検索・地図などの既存ツールとコンピューター操作を組み合わせて利用できる体制となった。Gemini Enterprise Agent Platformとの連携も明示されており、法人向け展開を強化する方向性がうかがえる。

AI News JAPAN