Sesame выпустила базовую модель впечатляюще реалистичного голосового помощника
Клонирование голоса занимает меньше минуты, а табуированных тем для Sesame не существует. Оставили ссылку на демоверсию в статье. Компания Sesame выпустила новую модель искусственного интеллекта CSM-1B, которая стала основой для голосового помощника Maya. На платформе можно протестировать демоверсию. Это мощный алгоритм, способный воспроизводить разные голоса и обрабатывать текстовые и аудиоданные. Разработчики сделали его доступным для всех под лицензией Apache 2.0, что позволяет использовать его в коммерческих целях без строгих ограничений. В CSM-1B задействованы передовые технологии кодирования звука, превращающие речь в цифровые токены для точного воспроизведения голосов. Подобные методы применяют Google и Meta в своих разработках. Основой модели стал алгоритм Llama от Meta*, к которому добавлен специальный аудиодекодер. В Sesame уточняют, что CSM-1B — это базовый генератор голосов, а для Maya используется его доработанная версия. Разработчики не раскрывают, какие данные брались за основу для обучения системы. Однако известно, что модель может работать не только с английским, но и с другими языками, хотя точность остается под вопросом. У Sesame нет строгих мер безопасности, лишь рекомендации не использовать модель для обмана или подделки голосов без разрешения. Несмотря на это, тестирование показало, что голос можно клонировать всего за минуту и затем генерировать любые фразы, включая монологи на спорные темы.

Клонирование голоса занимает меньше минуты, а табуированных тем для Sesame не существует. Оставили ссылку на демоверсию в статье.
Компания Sesame выпустила новую модель искусственного интеллекта CSM-1B, которая стала основой для голосового помощника Maya. На платформе можно протестировать демоверсию. Это мощный алгоритм, способный воспроизводить разные голоса и обрабатывать текстовые и аудиоданные. Разработчики сделали его доступным для всех под лицензией Apache 2.0, что позволяет использовать его в коммерческих целях без строгих ограничений.
В CSM-1B задействованы передовые технологии кодирования звука, превращающие речь в цифровые токены для точного воспроизведения голосов. Подобные методы применяют Google и Meta в своих разработках. Основой модели стал алгоритм Llama от Meta*, к которому добавлен специальный аудиодекодер. В Sesame уточняют, что CSM-1B — это базовый генератор голосов, а для Maya используется его доработанная версия.
Разработчики не раскрывают, какие данные брались за основу для обучения системы. Однако известно, что модель может работать не только с английским, но и с другими языками, хотя точность остается под вопросом. У Sesame нет строгих мер безопасности, лишь рекомендации не использовать модель для обмана или подделки голосов без разрешения. Несмотря на это, тестирование показало, что голос можно клонировать всего за минуту и затем генерировать любые фразы, включая монологи на спорные темы.