«Робот сочинит симфонию?» Как генерировать музыку при помощи нейросетей и что с ними не так

Если в 2022–2023 годах мир больше удивлялся возможностям генеративных ИИ в иллюстрациях и видео, то с 2024-го одним из основных модных трендов стала генерированная музыка. Нейросети способны написать мелодию и текст, аранжировать любую песню в том или ином музыкальном стиле или выдать музыкальную «импровизацию». Казалось бы, в 2025-м бум нейрохитов обеспечен, но не всё так просто и радужно. В подводных камнях сгенерированной ИИ музыки «Секрет» разобрался вместе с экспертами.

Мар 14, 2025 - 06:07
 0
«Робот сочинит симфонию?» Как генерировать музыку при помощи нейросетей и что с ними не так

Если в 2022–2023 годах мир больше удивлялся возможностям генеративных ИИ в иллюстрациях и видео, то с 2024-го одним из основных модных трендов стала генерированная музыка. Нейросети способны написать мелодию и текст, аранжировать любую песню в том или ином музыкальном стиле или выдать музыкальную «импровизацию». Казалось бы, в 2025-м бум нейрохитов обеспечен, но не всё так просто и радужно. В подводных камнях сгенерированной ИИ музыки «Секрет» разобрался вместе с экспертами.

Как нейросети создают музыку

Принцип работы «музыкальных» нейросетей не отличается от всех остальных: ИИ обучается на огромном массиве данных, после чего учится искать в них закономерности, компилировать под запрос пользователя и выдавать более-менее связный ответ на вопрос или промпт (описание задачи для нейросети).

Основное отличие в том, что такие нейросети обучают на большом объёме аудиофайлов. Нет, их в теории можно научить и другим трюкам, например написанию текстов или кода, но объём «памяти» у нейросетей всё-таки ограничен. Именно поэтому узконаправленные генеративные инструменты справляются со своими задачами в среднем лучше, чем «специалисты широкого профиля».

Для обучения обычно используют музыку, находящуюся в свободном доступе, то есть свободную от авторских прав и лицензий. По крайней мере, это декларируется, но по факту не всегда соблюдается.

Поэтому нейросети часто отвечают отказом на прямой запрос пользователя использовать стиль или голос какого-то из популярных живых исполнителей. Однако это не значит, что она не знает, о чём речь, и не может этого в принципе — просто в неё вшит ограничитель во избежание претензий правообладателей.

Выучив шаблоны разных композиций, нейросеть может писать похожие мелодии. Многое зависит от базы данных: если обучить ИИ на музыке Элвиса Пресли, то нейросеть будет генерировать нечто похожее на его песни.

Создано при помощи нейросети

Виды нейросетей для генерации музыки и что они умеют

Нейросети делятся на виды по способу создания музыки: - генерация нот — это когда нейросеть может создать мелодию из последовательности нот, исполненных разными инструментами, в разных темпах, разных жанров или стилизовать имеющуюся мелодию под какой-то стиль. Например, исполнить современную поп-песню в стиле рокабилли, а классику — в «металлическом» звучании. - генерация аудиосигнала — в этом случае нейросеть способна генерировать не только ноты, но и разнообразие человеческих голосов, тональностей, аудиоэффектов, и в принципе больше тонкостей, необходимых для настоящей музыки.

Также существует более предметное деление по «специализации» нейросетей. Глава отдела исследований в области ИИ дирекции разработки и развития цифровой платформы Университета-2035 Ярослав Селиверстов перечислил основные виды:

  • Трансформеры (MusicLM, Jukebox). Эти ребята хороши для создания последовательностей: мелодии, текст. Они умеют работать с длинными связями в музыке, что позволяет создавать более сложные композиции.
  • GAN (Jukedeck и другие). Используются, чтобы музыка звучала максимально реалистично, имитируя инструменты.
  • Diffusion-модели (Riffusion, Stable Audio): Сейчас это хайп. Генерируют аудио, постепенно «очищая» шум. В 2023–2024 годах – это один из самых популярных подходов.
  • VAE (всякие автоэнкодеры). Эти умеют сжимать музыку, чтобы потом её можно было модифицировать, например менять жанры.
  • Нейросети, которые понимают структуру (OpenAI, MuseNet). Могут смешивать несколько жанров и инструментов в одном треке.

Также большинство музыкальных нейросетей умеют работать с готовыми пресетами — музыкальными дорожками, загруженными пользователем. Например, они умеют разделять музыкальные дорожки, отделять музыку от вокала, чтобы сделать «минус», «почистить» шумы, поднять басы.

Создано при помощи нейросети recraft.ai

В общем, всё то, что раньше делали специально обученные люди с помощью специальных программ, в которых было сложно разобраться новичку, сейчас может попробовать сделать любой пользователь, способный внятно сформулировать свой запрос нейросетке.

Но, впрочем, и тут тоже таится некоторая сложность. Искусство формулировать промпты (задачи для нейросетей) тоже нарабатывается постепенно. У новичка, скорее всего, получится неидеально, а понимания, что именно нужно изменить до нужного результата, у человека, который с музыкой «на вы», не так много.

Поэтому для того, чтобы не просто баловаться созданием ИИ-музыки, а использовать нейросети как полноценный инструмент для выпуска треков, хорошо бы немного поучиться и промптингу, и музыке. Как минимум, знать, чем отличаются разные жанры, какие есть составляющие у трека, как звучат разные инструменты и как называются те или иные звуковые эффекты, которые вы хотите добавить.

Ну и конечно, нужно понимать, в каких случаях обращение к нейросети осмысленно и что от неё можно получить. Селиверстов выделил основные сильные стороны музыкальных нейросетей:

  • Стилизация — вот тут ИИ просто зверь. Нужно сделать трек в стиле ретро-синтвейва? Легко! Классический джаз? Без проблем! Он выжмет из жанра всё до капли.
  • Аранжировка на автомате: ИИ сам подберет инструменты, гармонии, ритмы. Звучит круто, но иногда предсказуемо.
  • Голос — почти как настоящий. Современные модели, вроде Vall-E, умеют копировать тембр и интонации голоса, имитируя различных исполнителей. Пока ещё немного «роботизированно», но прогресс налицо.
  • Обработка звука — как по маслу. Мастеринг, шумоподавление, разделение треков — тут ИИ чувствует себя как рыба в воде.
CLAUDIO CRUZ/AFP/East News

Как составить промпт для музыкальной нейросети: примеры

Эксперты дали несколько советов по составлению промптов для музыкальных ИИ:

  • Формулируйте максимально конкретно. Если вы хотите «грустную песню», можно, конечно, так и написать, но «минорная акустическая баллада с виолончелью, темп 60 BPM» выдаст вам более точный и приближенный к желаемому результат.
  • Давайте референсы. ИИ понимает, когда вы в промпте делаете отсылки к исполнителям и музыкальным композициям. Так что, если вы хотите музыку «в стиле ранней Леди Гаги» или «как саундтрек к Blade Runner 2049», так и пишите. Но тут немного лотерея: найдёт ли нейросеть нужный образчик в своей базе и не вшито ли в неё ограничение на подражание конкретным исполнителям.
  • Не забывайте про желаемую структуру песни. Например: «Куплет → припев → бридж». Лучше ещё и указать длительность каждого сегмента. Если нейросеть ещё и тексты пишет, то задавайте сюжетные ограничения — о чём будет эта песня.
  • Не слишком увлекайтесь попытками миксовать несочетаемое. На запросы типа «тяжёлый металл с флейтой в духе нью-эйдж» ИИ может выдать музыкальную кашу, реже — что-то внятное, но не то, что вы запрашивали.
  • Корректируйте запрос по ходу дела, поправляйте ИИ, чтобы «допилить» трек. Начните с чего-то общего (жанр, длительность, содержание), а потом добавляйте детали вроде реверса в припеве или женского бэк-вокала на каждой второй строчке.

Пример годного промпта: «Инструментальный трек в стиле 80-х synthwave: пульсирующий бас, аналоговые драм-машины, космические звуковые эффекты. Динамика: начинается с медленного вступления, переходит в энергичный ритм с гитарным соло на 2:30».

Генерировать музыку лучше на основе готового текста — с лирикой музыкальные нейросети справляются хуже, чем с мелодией, они заточены не на это. Однако при желании вы можете сделать полностью нейросетевую композицию, заказав написать текст песен одному из текстовых чат-ботов: ChatGPT, GigaChat, YandexGPT, DeepSeek или Qwen.

Популярные музыкальные нейросети

Большинство этих нейросетей имеют бесплатную и платную версию, отличающиеся по функциям и по возможности использовать потом плоды совместного с ИИ творчества. Из этого списка разве что Rifussion полностью бесплатен без всяких лимитов. Во всех остальных сервисах есть ограничения на использование или скачивание готовых треков, но остаётся возможность покупки подписки и расширения набора функций и количества генераций.

При этом с оплатой подписок зарубежных сервисов остаётся известная проблема: они не принимают российские карты.

  • Suno AI — один из самых популярных сейчас сервисов, который позволяет создавать музыку с вокалом по текстовому описанию. Да, качество пока не «студийное», но для быстрых набросков или просто фана — самое то. Хороший вариант для начинающих, которые хотят воплотить в жизнь свои музыкальные идеи, но не умеют играть на инструментах и пугаются слова «сольфеджио». Первые 50 кредитов (хватает примерно на 10 композиций) — бесплатно, затем по подписке $10 в месяц.

  • Boomy — предельно простая в использовании нейросеть, которая позволяет генерировать треки, просто выбрав жанр и поджанр композиции. Затем к созданной музыкальной дорожке можно добавить голос — загрузив с устройства или спев под трек вживую прямо на сайте, поправив непрофессиональное исполнение автотюном. У готовой композиции можно менять аранжировку: добавить инструменты, звуковые эффекты, вокал, при желании микшировать. Boomy доступна для бесплатного пользования, но готовые композиции нельзя скачать или использовать в коммерческих целях. Хотите сохранить в свою библиотеку или выложить на стримингах – оплатите подписку в $10.

  • Loudly — способна сгенерировать трек по промпту, ограниченному в 250 знаков. Расширенные настройки включают 15 жанров, которые можно смешивать, можно выбрать продолжительность, музыкальные инструменты, скорость, темп и тональность. Лучше всего подходит для создания электронной музыки: эмбиент, лоу-фай, техно и т. п. В месяц можно создать 25 треков бесплатно и скачать один, но длительность композиций ограничена 30 секундами. За подписку в $8 можно увеличить число генераций до 300, а длительность — до 3,5 минуты, плюс откроется сертифицированная лицензия для размещения музыки.

  • Riffusion. Полностью бесплатный сервис на основе Stable Diffusion. Способен генерировать музыку в реальном времени по текстовому описанию — достаточно задать характеристики композиции, можно указать конкретные музыкальные инструменты, жанр. Если результат не устроит, можно попытаться доработать промпт или сгенерировать новые результаты по тому же запросу.

  • Udio AI. Может написать текст сама или по вашему тексту, однако предпочитает английский язык и для общения, и для генерации — на русском поёт с очень своеобразным акцентом. В расширенных настройках можно выбрать жанр, структуру песни, детализацию отдельных инструментов и партий, качество (влияет на скорость генерации) и др. Платный тариф стоит $10, бесплатно можно генерировать 10 коротких или 3 полноценных песни в день или всего 100 в месяц.

  • Soundful генерирует музыку по запросу, достаточно указать жанр и поджанр. Дополнительно можно задать темп, выбрать тональность композиции. Бесплатный тариф позволяет создать и скачать только 10 треков в месяц и слушать её исключительно в личных целях – чтобы снять ограничение, нужна подписка за $10, а для коммерческого использования и размещения на разных площадках нужно заплатить $50 за одну запись.

  • WavTool использует модель GPT‑4, так что он реально хорошо понимает текстовые запросы. Дополнительно есть набор настроек, чтобы вручную уточнить задание и отредактировать сгенерированный трек. Бесплатная версия допускает до 10 запросов в каждые 8 часов и позволяет использовать до шести дорожек инструментов. Бонус: готовые треки можно сохранять на компьютер без подписки. Pro-версия за $20 снимает лимиты на генерацию и количество дорожек.

Как работают нейросети, рисующие картинки, и кто из них лучше понимает по-русски. Тест Нарисовать шедевр, написать сказку, наорать на босса. 8 бесплатных нейросетей, которые вам пригодятся
  • Melobytes. Может создавать композиции не только по текстовому описанию, но даже на основе изображений и видео. Однако большинство настроек доступны только в профессиональной версии после регистрации аккаунта и оплаты подписки ($10 в месяц). В бесплатном режиме опций меньше, но сам процесс генерирования проще, правда ограничен пятью попытками в день.

  • BeatOven AI. Чтобы сгенерировать в ней музыку, нужно указать жанр, стиль, темп и настроение будущего трека. Остальное возьмёт на себя нейросеть. Генерации в бесплатной версии неограниченные, доступны расширенные настройки, однако без возможности загрузить трек на устройство. Есть несколько тарифов, которые отличаются по стоимости и продолжительности сгенерированной музыки, которую можно скачать в месяц.

  • Mubert. Специализируется на генерации фоновой музыки, которую можно использовать для коротких рилсов. Позволяет задать жанр, настроение, длину композиции, но петь и сочинять тексты для вас не будет. Бесплатно можно создавать до 25 треков в месяц, за $14 доступное количество увеличивается до 500, а за $39 её можно будет использовать в коммерческих целях.

  • *Soundraw. Ещё один простой генератор треков без вокала, где можно выбрать настроение, жанр, тему, темп и инструменты, задать продолжительность трека и отредактировать получившуюся мелодию. Сгенерировать по текстовому запросу нельзя – только выбрать предзаданные настройки. Даже на бесплатном тарифе количество генераций не ограничено, но их нельзя будет скачать и использовать. Подписка стоит $20 в месяц.

  • AIVA. Позволяет создавать музыку в выбранной тональности по заготовленным жанрам и изменять загруженный трек. Удобный инструмент для редактуры и аранжировки — прямо в сервисе можно удалить или добавить инструмент, растянуть или сжать партию, изменить темп и аккорды, добавить эффекты. Для регистрации доступна бесплатная версия, но авторские права останутся за нейросетью. Для коммерческого использования и выкладывания в интернет нужна подписка за 49 евро. Плюс: позволяет загрузить любимые песни в личный кабинет, чтобы ИИ ориентировался на них при создании новых композиций.

Создано при помощи нейросети recraft.ai

Проблемы музыкальных нейросетей

Нейросетей для генерации музыки сейчас представлено довольно много, и умеют они уже значительно больше, чем пару лет назад, когда они только появлялись. С их помощью уже удаётся создавать вполне слушательные композиции, которые легко спутать с «человеческим» исполнением.

Однако проблем и подводных камней у этих нейросетей всё ещё много, указывают эксперты. Ярослав Селиверстов назвал ключевые из них:

  • *Эмоции. *Передать всю глубину человеческих чувств, нюансы исполнения, «дыхание» вокалиста — это пока за гранью возможностей. Получается неплохо, но плоско и не цепляет за душу, как исполнение живого человека.
  • Структура трека. Часто ИИ лепит какой-то винегрет из звуков без логики и развития. Получается что-то фрагментированное, без цельной композиции.
  • Ресурсы. Чтобы обучить такую махину, нужны огромные базы данных и вычислительные мощности. А ещё нужно, чтобы это всё работало онлайн, да ещё и быстро, так что и сервера должны быть соответствующими. При этом пока процесс генерации музыки с учётом всех правок всё ещё довольно медленный и на то, чтобы добиться одной минуты желаемого звука, могут уйти часы.
  • Тексты — просто боль: ИИ выдает какие-то шаблонные или вообще абсурдные строки. Юмор, метафоры, контекст — это всё мимо кассы.
  • Мелодии — штамп на штампе. То выдаст что-то заезженное, то просто какую-то бессвязную кашу из нот. Уникальность — это не про него.
  • Эксперименты — удел гениев. Всякие там Radiohead или Björk с их нестандартным мышлением — это пока не для ИИ. Нужен человеческий мозг, чтобы творить что-то реально новое.
  • Авторское право и оригинальность. Нейронки учатся на существующих треках, и велик риск, что они просто «скомпилируют» что-то знакомое, а это уже попахивает плагиатом.

В целом вопрос оригинальности и плагиата — больной вопрос для всех нейросетей, что музыкальных, что текстовых и картиночных. Как ни крути, а учатся они на плодах человеческого разума, и создателям вечно приходится выбирать меньшее из зол: либо ограничивать себя только данными с очищенными авторскими правами и получить слабую и ограниченную нейросеть, либо рисковать и обучать на всех доступных данных, рискуя столкнуться с исками от ещё живых художников, композиторов и исполнителей.

Основными проблемами генерации музыки с помощью ИИ остаются два вопроса — оригинальности и интеллектуальной собственности. Во-первых, сложно установить авторство такой композиции, так как ИИ использует уже созданные фрагменты текстов и мелодий для создания новых композиций. Во-вторых, ИИ может позаимствовать достаточно большой фрагмент мелодии или текста, что будет нарушать авторские права других музыкантов/музыканта. Также можно отметить, что цифровые площадки, размещающие музыку, негативно относятся к композициям, созданным с помощью ИИ,/ по вышеописанными причинам. Такой подход — один из барьеров для распространения музыки, нарушающей авторские права.

Тимофей Воронин
Создано при помощи нейросети recraft.ai

Сами музыканты, впрочем, относятся к конкуренции со стороны ИИ довольно скептически. Эксперты признают, что, несмотря на все успехи, в ближайшем будущем нейросети живых исполнителей всё-таки не заменят.

ИИ штампует троекратно переваренный метамодерновый продукт, который мало того, что звучит максимально синтетически, так ещё и не несет по итогу никакой смысловой нагрузки. Даже если попытаться её заложить с помощью ограничений и уточнения контекста в промте, можно получить разочарование. Пока что креативное произведение, использующее отсылки и двусмысленный сатирический контекст, лучше человека не сделает никто. Машина хороша только на фабрике по производству клиповых тик-ток хитов, не наделённых никакими экзистенциальными смыслами. Музыка, созданная ИИ, часто лишена глубины, которая присуща человеческим композициям. Это делает её менее выразительной и менее способной вызывать сильные эмоции у слушателей.

Алексей Федоров (Alxs.f)
эксперт Клубов мышления, музыкант
«Секрет фирмы»

При этом эксперты признают, что некоторые из этих нюансов рядовому слушателю часто незаметны и малозначимы.

Вкус — дело тонкое. Как оценить, «хорошая» музыка или нет? У каждого свои понятия о прекрасном, так что объективных метрик тут нет.

Ярослав Селиверстов

Так или иначе, в чём нейросетям не откажешь — так это в том, что они делают сложные процессы проще и ближе простым людям. ИИ при всех их недостатках могут стать хорошим подспорьем для начинающих музыкантов и помочь нащупать собственный стиль за счёт бесконечного множества экспериментов. В конце концов, сколько бы ни было разговоров о компиляции и повторяемости, нот всего семь, — а дальше дело за нюансами.