AI 뉴스

뉴스 · · 10:34 · obrisen

구글의 Gemini 2.5, 웹 탐색 가능

구글은 웹 브라우저를 통해 웹을 탐색하고 다양한 웹사이트와 상호작용할 수 있는 새로운 버전의 Gemini 대형 언어 모델을 발표했다. 이 모델은 정보 검색이나 구매와 같은 작업을 인간의 감독 없이 수행할 수 있다.

Gemini 2.5 Computer Use 모델은 시각적 이해와 추론을 결합하여 사용자의 요청을 분석하고 브라우저에서 작업을 수행한다. 클릭, 입력, 스크롤, 드롭다운 메뉴 조작 및 양식 작성 및 제출과 같은 모든 작업을 수행할 수 있다.

이 모델은 이전에 AI 모드 및 프로젝트 마리너와 같은 도구에 사용된 Gemini 2.5 Pro LLM을 기반으로 한다. 이번에 처음으로 전체 모델이 공개되었다. 각 요청은 모델이 완료되었다고 간주될 때까지 여러 단계를 거치는 '루프'를 시작한다.

구글은 이 컴퓨터 사용 도구의 시연 비디오를 게시했다. 첫 번째 비디오는 캘리포니아 거주 애완동물의 세부 정보를 얻고 이를 스파 CRM에 추가하는 작업을 보여준다.

구글의 모델은 웹 브라우저에만 액세스할 수 있어 OpenAI 및 Anthropic의 도구보다 포괄적이지 않다. 그러나 웹 브라우저에서의 성능은 뛰어나다고 평가받고 있다. 연구진은 Gemini 2.5 Computer Use가 웹 및 모바일 벤치마크에서 경쟁 제품을 능가한다고 주장했다.

DeepMind의 연구진은 개발자들이 Google AI Studio 및 Vertex AI를 통해 Gemini 2.5 Computer Use를 사용할 수 있도록 하고 있다. 가격은 표준 Gemini 2.5 Pro 모델과 유사하며, 무료 티어는 제공되지 않는다.