Amazon анонсировала модель Nova Sonic для диалогов, которые не отличить от человеческих

Компания Amazon анонсировала Nova Sonic — единую модель, объединяющую распознавание, анализ и синтез речи. Технология, доступная через API на платформе Bedrock, позволяет внедрять в приложения голосовые интерфейсы, способные поддерживать естественные диалоги с учётом пауз, прерываний и контекста. Часть компонентов модели уже используется в обновлённом функционале Alexa+. «Раньше разработчикам приходилось комбинировать три отдельные системы, что усложняло процесс и снижало качество взаимодействия», — пояснил Рохит Прасад, старший вице-президент Amazon по ИИ. Nova Sonic сохраняет акустические нюансы (тон, ритм), что делает диалоги более естественными. Модель обрабатывает запросы в реальном времени — например, корректирует ответы при прерывании, что критично для служб поддержки. Источник: Leonardo Nova Sonic генерирует текстовые расшифровки разговоров для интеграции с внешними API, упрощая создание AI-агентов. В тестах модель превзошла Gemini Flash 2.0 (69,7% побед) и GPT-4o (51%) в диалогах на английском. Её задержка — 1,09 секунды против 1,18 у OpenAI и 1,41 у Google. При этом стоимость использования на 80% ниже, чем у GPT-4o. Мультиязычная точность Nova Sonic также выше: уровень ошибок (WER) составил 4,2% против 6,6% у GPT-4o Transcribe. Среди ранних внедрений — оптимизация контакт-центров (ASAPP), обучение произношению (Education First) и голосовой доступ к спортивной аналитике (Stats Perform). Amazon акцентирует ответственный подход: в модель встроены защита от «галлюцинаций» и запрет на клонирование голосов. Сейчас Nova Sonic поддерживает американский и британский английский, но новые языки и акценты в разработке. По словам Прасада, это «высокая планка надёжности для эпохи, где голос становится новым интерфейсом».

Апр 10, 2025 - 15:20
 0
Amazon анонсировала модель Nova Sonic для диалогов, которые не отличить от человеческих

Компания Amazon анонсировала Nova Sonic — единую модель, объединяющую распознавание, анализ и синтез речи. Технология, доступная через API на платформе Bedrock, позволяет внедрять в приложения голосовые интерфейсы, способные поддерживать естественные диалоги с учётом пауз, прерываний и контекста. Часть компонентов модели уже используется в обновлённом функционале Alexa+.

«Раньше разработчикам приходилось комбинировать три отдельные системы, что усложняло процесс и снижало качество взаимодействия», — пояснил Рохит Прасад, старший вице-президент Amazon по ИИ. Nova Sonic сохраняет акустические нюансы (тон, ритм), что делает диалоги более естественными. Модель обрабатывает запросы в реальном времени — например, корректирует ответы при прерывании, что критично для служб поддержки.

Источник: Leonardo

Nova Sonic генерирует текстовые расшифровки разговоров для интеграции с внешними API, упрощая создание AI-агентов. В тестах модель превзошла Gemini Flash 2.0 (69,7% побед) и GPT-4o (51%) в диалогах на английском. Её задержка — 1,09 секунды против 1,18 у OpenAI и 1,41 у Google. При этом стоимость использования на 80% ниже, чем у GPT-4o. Мультиязычная точность Nova Sonic также выше: уровень ошибок (WER) составил 4,2% против 6,6% у GPT-4o Transcribe.

Среди ранних внедрений — оптимизация контакт-центров (ASAPP), обучение произношению (Education First) и голосовой доступ к спортивной аналитике (Stats Perform).

Amazon акцентирует ответственный подход: в модель встроены защита от «галлюцинаций» и запрет на клонирование голосов. Сейчас Nova Sonic поддерживает американский и британский английский, но новые языки и акценты в разработке. По словам Прасада, это «высокая планка надёжности для эпохи, где голос становится новым интерфейсом».