
구글 제미니 AI, 오디오 파일 전사 기능 도입
구글의 제미니 AI 어시스턴트가 오디오 파일 업로드를 통한 전사, 요약 및 주요 정보 추출 기능을 도입했다. 이 새로운 기능은 최대 10분 길이의 음성 메모, 강의, 회의 및 인터뷰 녹음을 처리하여 제미니 플랫폼 내에서 검색 가능한 문서로 변환한다. 웹과 모바일 앱 모두에서 표준 파일 업로드 인터페이스를 통해 사용할 수 있으며, 실시간 음성 명령을 처리하는 제미니 라이브와는 달리 사전 녹음된 오디오 분석에 중점을 둔다.
구글의 제미니 부사장인 조쉬 우드워드는 오디오 업로드가 가장 많이 요청된 기능이라고 설명하며, 이는 오디오 처리의 간소화에 대한 강한 수요를 반영한다고 밝혔다. 테스트 결과, 코미디 스케치 및 전화 통화와 같은 다양한 형식에서 높은 전사 정확도를 보였으나, 이름 인식에서 간헐적으로 오류가 발생했다. 제미니는 또한 업로드된 녹음에서 작업을 추출하고, 할 일 목록을 생성하며, 주요 요소를 강조하는 능력을 보여주어 개인 및 전문 워크플로우에 유용하다.
이번 업데이트는 앱 연결, 카드 기반 인터페이스 테스트 및 개인화 도구 확장을 포함한 제미니의 통합 세트를 기반으로 한다. 경쟁사인 OpenAI의 ChatGPT는 전사를 위해 Whisper 모델을 활용하고, Anthropic의 Claude는 일부 개발자 환경에서 오디오를 지원하며, Perplexity는 YouTube에서 데이터를 추출한다. 제미니는 광범위한 사용자에게 일상적인 사용성을 강조하여 차별화하려고 한다.
전사 외에도 제미니는 고급 오디오 데이터 처리를 제공한다. 사용자는 간단한 언어 출력 요청, 화자별 발언 분리, 질문 생성 또는 녹음된 콘텐츠에서 학습 가이드 작성이 가능하다. 이러한 기능은 오디오를 실행 가능한 통찰력으로 재구성할 수 있는 유연한 옵션을 제공한다.
그러나 제한 사항도 있다. 10분 제한은 더 긴 녹음을 제한하며, 무료 계층 사용자는 일일 사용 제한에 직면하여 헤비 유저에게 장애가 될 수 있다. 구글은 대규모 처리에 대한 가격을 공개하지 않았지만, 서비스는 표준 제미니 할당량을 소비하므로 자원 관리에 주의가 필요하다.