
GoogleのGemini 2.5がウェブを自動でナビゲート
Googleは、ブラウザを通じてウェブを自動的にナビゲートし、さまざまなウェブサイトと対話できる新しいバージョンのGemini大規模言語モデルを発表しました。このモデルは、人間の監督なしに情報検索や購入などのタスクを実行できます。
Gemini 2.5 Computer Useモデルは、視覚的理解と推論を組み合わせてユーザーの要求を分析し、ブラウザ内でタスクを実行します。クリック、入力、スクロール、ドロップダウンメニューの操作、フォームの記入などのアクションを実行できます。
Gemini 2.5 Pro LLMに基づいており、完全なモデルが公開されるのは今回が初めてです。各要求は、モデルが完了と見なされるまでさまざまなステップを経る「ループ」を開始し、ユーザー入力やスクリーンショットを含みます。
Googleは、ペットの詳細を取得し、予定を設定するタスクを示すツールのデモビデオを公開しました。このモデルは、OpenAIやAnthropicのより包括的なツールとは異なり、現在はウェブブラウザへのアクセスに限定されています。
制限があるにもかかわらず、DeepMindの研究者は、Gemini 2.5 Computer Useがウェブブラウザのパフォーマンスで競合他社を凌駕していると主張しています。Google AI StudioおよびVertex AIを通じて開発者に提供され、価格はGemini 2.5 Proモデルと似ていますが、無料ティアはありません。
このモデルの導入は、ウェブインタラクションにおけるAI能力を強化するGoogleの継続的な取り組みを示していますが、他のAI開発者との競争に直面しています。