
Google Gemini AIが音声ファイルの文字起こし機能を導入
GoogleのGemini AIアシスタントは、音声ファイルのアップロードによる文字起こし、要約、および主要情報の抽出機能を導入しました。この新機能は、最大10分の音声メモ、講義、会議、インタビューの録音を処理し、Geminiプラットフォーム内で検索可能な文書に変換します。ウェブとモバイルアプリの両方で標準のファイルアップロードインターフェースを通じて利用可能で、リアルタイムの音声コマンドを処理するGemini Liveとは異なり、事前録音された音声の分析に焦点を当てています。
GoogleのGemini担当副社長であるJosh Woodward氏は、音声アップロードが最も要望の多かった機能であり、音声処理の簡素化に対する強い需要を示していると述べました。テストでは、コメディスケッチや電話通話などのさまざまな形式で高い文字起こし精度が確認されましたが、名前認識において時折エラーが発生しました。Geminiはまた、アップロードされた録音からタスクを抽出し、ToDoリストを生成し、主要な要素を強調する能力を示し、個人およびプロフェッショナルなワークフローに役立ちます。
このアップデートは、アプリ接続、カードベースのインターフェースのテスト、個人化ツールの拡張を含むGeminiの統合セットを基にしています。競合他社のOpenAIのChatGPTは、文字起こしにWhisperモデルを活用し、AnthropicのClaudeは一部の開発者環境で音声をサポートし、PerplexityはYouTubeからデータを抽出します。Geminiは、幅広いユーザーに日常的な使いやすさを強調することで差別化を図っています。
文字起こしに加えて、Geminiは高度な音声データ処理を提供します。ユーザーは、簡略化された言語出力を要求したり、話者ごとの発言を分離したり、質問を生成したり、録音されたコンテンツから学習ガイドを作成したりすることができます。これらの機能は、音声を実行可能な洞察に再利用するための柔軟なオプションを提供します。
しかし、制限もあります。10分の制限は長時間の録音を制限し、無料層のユーザーは日々の使用制限に直面し、ヘビーユーザーには障害となる可能性があります。Googleは大規模処理の価格を明らかにしていませんが、サービスは標準のGeminiクォータを消費するため、リソース管理に注意が必要です。