AI 뉴스

뉴스 · · 22:55 · frostbloom

OpenAI와 Microsoft, 새로운 음성 모델 공개

OpenAI와 Microsoft는 오늘 음성 생성에 최적화된 두 개의 인공지능 모델을 발표했습니다.

OpenAI의 새로운 알고리즘인 gpt-realtime은 가장 뛰어난 음성 모델로 설명됩니다. 이 AI는 이전 모델보다 자연스러운 음성을 생성하며, 문장 중간에 톤과 언어를 변경할 수 있습니다. OpenAI에 따르면 gpt-realtime은 특히 지시를 따르는 데 능숙하여 개발자가 특정 작업에 맞게 맞춤화할 수 있습니다.

기술 지원 어시스턴트를 구축하는 소프트웨어 팀은 gpt-realtime을 사용하여 특정 프롬프트 응답에 지식 기반 기사를 인용하도록 지시할 수 있습니다. 또한, 개발자는 기술 지원 사용 사례에 모델을 적용할 때 새로운 이미지 업로드 도구를 사용할 수 있습니다. 이 기능을 통해 고객 서비스 챗봇은 사용자가 문제 해결을 원하는 애플리케이션의 스크린샷을 업로드할 수 있도록 합니다.

개발자는 OpenAI Realtime API를 통해 gpt-realtime에 접근할 수 있습니다. 이 API는 고객이 ChatGPT 개발자의 음성 및 멀티모달 모델과 상호 작용할 수 있게 합니다. 오늘의 제품 업데이트의 일환으로 OpenAI는 API를 일반 공개로 전환하고 여러 새로운 기능을 추가했습니다.

Microsoft는 gpt-realtime의 출시와 함께 MAI-Voice-1이라는 음성 AI 모델을 상세히 설명했습니다. 이 모델은 Microsoft Copilot 어시스턴트에서 처음 사용할 수 있으며, 날씨 예보와 같은 업데이트를 요약하고 텍스트에서 팟캐스트를 생성하는 기능을 제공합니다.

Microsoft는 MAI-Voice-1이 업계에서 가장 하드웨어 효율적인 음성 모델 중 하나라고 말합니다. 이 모델은 단일 그래픽 처리 장치를 사용하여 1초 이내에 1분의 오디오를 생성할 수 있습니다. Microsoft는 MAI-1-preview라는 두 번째 새로운 AI 모델에 대한 추가 정보를 공유했습니다. 이 알고리즘은 Nvidia의 H100 가속기 15,000개를 사용하여 훈련되었습니다.