AIニュース

ニュース · · 22:55 · frostbloom

OpenAIとMicrosoft、新しい音声モデルを発表

OpenAIとMicrosoftは本日、音声生成に最適化された2つの人工知能モデルを発表しました。

OpenAIの新しいアルゴリズムであるgpt-realtimeは、最も高度な音声モデルとして説明されています。このAIは以前のモデルよりも自然な音声を生成し、文中でトーンや言語を変更することができます。OpenAIによれば、gpt-realtimeは指示に従うのが得意で、開発者が特定のタスクに合わせてカスタマイズすることができます。

技術サポートアシスタントを構築するソフトウェアチームは、特定の応答で知識ベースの記事を引用するようにgpt-realtimeに指示することができます。また、技術サポートの使用例にモデルを適用する開発者は、新しい画像アップロードツールにアクセスできます。この機能を使用すると、ユーザーはトラブルシューティングしたいアプリケーションのスクリーンショットをアップロードできます。

開発者はOpenAI Realtime APIを通じてgpt-realtimeにアクセスできます。このAPIは、ChatGPT開発者の音声およびマルチモーダルモデルと対話することを可能にします。本日の製品更新の一環として、OpenAIはAPIを一般公開し、いくつかの新機能を追加しました。

Microsoftは、gpt-realtimeの発売とともにMAI-Voice-1という音声AIモデルを詳述しました。このモデルは、Microsoft Copilotアシスタントで最初に利用可能で、天気予報などの更新を要約し、テキストからポッドキャストを生成する機能を提供します。

Microsoftは、MAI-Voice-1が業界で最もハードウェア効率の高い音声モデルの1つであると述べています。このモデルは、単一のグラフィックス処理ユニットを使用して1秒未満で1分のオーディオを生成できます。また、NvidiaのH100アクセラレータを15,000個使用してトレーニングされた新しいAIモデルMAI-1-previewも紹介しました。