Amazon выпустила ИИ-модель для общения голосом

Компания Amazon представила новую генеративную ИИ-модель Nova Sonic для общения голосом. Ее производительность сопоставима с передовыми решениями от OpenAI и Google по скорости, распознаванию речи и качеству разговора, утверждают в компании.  Amazon назвала Nova Sonic «самой экономичной» голосовой моделью ИИ на рынке — примерно на 80% дешевле GPT-4o от OpenAI. Она доступна через платформу для разработчиков Bedrock.  «Компоненты» нейросети уже используются в обновленном помощнике Alexa+. Она в ходе двустороннего диалога способна говорить «в подходящий момент», учитывая паузы и прерывания со стороны говорящего.  Nova Sonic использует «архитектуру единой модели», которая якобы лучше подхода, подразумевающего объединение отдельных решений для распознавания речи, ее преобразования в текст, генерации ответа и превращения его в аудио.  Excited about the launch of Amazon Nova Sonic, our new speech-to-speech model that helps make AI voice applications feel remarkably natural.It's designed to understand not just what people say, but how they say it – working with tone, style, and conversation flow including… pic.twitter.com/QRvP4LWYQN— Andy Jassy (@ajassy) April 8, 2025 Утверждается, что Nova Sonic меньше ошибается в распознавании речи по сравнению с конкурентами. Она хорошо понимает намерения пользователя даже в том случае, если тот бормочет, неправильно произносит слова или находится в шумной обстановке.  В бенчмарке Multilingual LibriSpeech, измеряющем распознавание речи на разных языках и диалектах, Nova Sonic достигла коэффициента ошибок 4,2% по английскому, французскому, итальянскому, немецкому и испанскому языкам. Это означает, что примерно четыре из каждых 100 слов она понимала неправильно. В Augmented Multi Party Interaction, измеряющем взаимодействие с несколькими участниками, Nova Sonic оказалась на 46,7 % точнее GPT-4o-transcribe от OpenAI. Она также обладает лучшей в индустрии скоростью: средняя задержка восприятия составляет 1,09 секунды. 

Апр 9, 2025 - 11:35
 0
Amazon выпустила ИИ-модель для общения голосом

Amazon AI Амазон ИИ

Компания Amazon представила новую генеративную ИИ-модель Nova Sonic для общения голосом. Ее производительность сопоставима с передовыми решениями от OpenAI и Google по скорости, распознаванию речи и качеству разговора, утверждают в компании. 

Amazon назвала Nova Sonic «самой экономичной» голосовой моделью ИИ на рынке — примерно на 80% дешевле GPT-4o от OpenAI. Она доступна через платформу для разработчиков Bedrock. 

«Компоненты» нейросети уже используются в обновленном помощнике Alexa+. Она в ходе двустороннего диалога способна говорить «в подходящий момент», учитывая паузы и прерывания со стороны говорящего. 

Nova Sonic использует «архитектуру единой модели», которая якобы лучше подхода, подразумевающего объединение отдельных решений для распознавания речи, ее преобразования в текст, генерации ответа и превращения его в аудио. 

Утверждается, что Nova Sonic меньше ошибается в распознавании речи по сравнению с конкурентами. Она хорошо понимает намерения пользователя даже в том случае, если тот бормочет, неправильно произносит слова или находится в шумной обстановке. 

В бенчмарке Multilingual LibriSpeech, измеряющем распознавание речи на разных языках и диалектах, Nova Sonic достигла коэффициента ошибок 4,2% по английскому, французскому, итальянскому, немецкому и испанскому языкам. Это означает, что примерно четыре из каждых 100 слов она понимала неправильно.

В Augmented Multi Party Interaction, измеряющем взаимодействие с несколькими участниками, Nova Sonic оказалась на 46,7 % точнее GPT-4o-transcribe от OpenAI. Она также обладает лучшей в индустрии скоростью: средняя задержка восприятия составляет 1,09 секунды.