«Робот сочинит симфонию?» Как генерировать музыку при помощи нейросетей и что с ними не так
Если в 2022–2023 годах мир больше удивлялся возможностям генеративных ИИ в иллюстрациях и видео, то с 2024-го одним из основных модных трендов стала генерированная музыка. Нейросети способны написать мелодию и текст, аранжировать любую песню в том или ином музыкальном стиле или выдать музыкальную «импровизацию». Казалось бы, в 2025-м бум нейрохитов обеспечен, но не всё так просто и радужно. В подводных камнях сгенерированной ИИ музыки «Секрет» разобрался вместе с экспертами.
Мар 14, 2025 - 06:07
0
Если в 2022–2023 годах мир больше удивлялся возможностям генеративных ИИ в иллюстрациях и видео, то с 2024-го одним из основных модных трендов стала генерированная музыка. Нейросети способны написать мелодию и текст, аранжировать любую песню в том или ином музыкальном стиле или выдать музыкальную «импровизацию». Казалось бы, в 2025-м бум нейрохитов обеспечен, но не всё так просто и радужно. В подводных камнях сгенерированной ИИ музыки «Секрет» разобрался вместе с экспертами.
Как нейросети создают музыку
Принцип работы «музыкальных» нейросетей не отличается от всех остальных: ИИ обучается на огромном массиве данных, после чего учится искать в них закономерности, компилировать под запрос пользователя и выдавать более-менее связный ответ на вопрос или промпт (описание задачи для нейросети).
Основное отличие в том, что такие нейросети обучают на большом объёме аудиофайлов. Нет, их в теории можно научить и другим трюкам, например написанию текстов или кода, но объём «памяти» у нейросетей всё-таки ограничен. Именно поэтому узконаправленные генеративные инструменты справляются со своими задачами в среднем лучше, чем «специалисты широкого профиля».
Для обучения обычно используют музыку, находящуюся в свободном доступе, то есть свободную от авторских прав и лицензий. По крайней мере, это декларируется, но по факту не всегда соблюдается.
Поэтому нейросети часто отвечают отказом на прямой запрос пользователя использовать стиль или голос какого-то из популярных живых исполнителей. Однако это не значит, что она не знает, о чём речь, и не может этого в принципе — просто в неё вшит ограничитель во избежание претензий правообладателей.
Выучив шаблоны разных композиций, нейросеть может писать похожие мелодии. Многое зависит от базы данных: если обучить ИИ на музыке Элвиса Пресли, то нейросеть будет генерировать нечто похожее на его песни. Создано при помощи нейросети
Виды нейросетей для генерации музыки и что они умеют
Нейросети делятся на виды по способу создания музыки: - генерация нот — это когда нейросеть может создать мелодию из последовательности нот, исполненных разными инструментами, в разных темпах, разных жанров или стилизовать имеющуюся мелодию под какой-то стиль. Например, исполнить современную поп-песню в стиле рокабилли, а классику — в «металлическом» звучании. - генерация аудиосигнала — в этом случае нейросеть способна генерировать не только ноты, но и разнообразие человеческих голосов, тональностей, аудиоэффектов, и в принципе больше тонкостей, необходимых для настоящей музыки.
Также существует более предметное деление по «специализации» нейросетей. Глава отдела исследований в области ИИ дирекции разработки и развития цифровой платформы Университета-2035 Ярослав Селиверстов перечислил основные виды:
Трансформеры (MusicLM, Jukebox). Эти ребята хороши для создания последовательностей: мелодии, текст. Они умеют работать с длинными связями в музыке, что позволяет создавать более сложные композиции.
GAN (Jukedeck и другие). Используются, чтобы музыка звучала максимально реалистично, имитируя инструменты.
Diffusion-модели (Riffusion, Stable Audio): Сейчас это хайп. Генерируют аудио, постепенно «очищая» шум. В 2023–2024 годах – это один из самых популярных подходов.
VAE (всякие автоэнкодеры). Эти умеют сжимать музыку, чтобы потом её можно было модифицировать, например менять жанры.
Нейросети, которые понимают структуру (OpenAI, MuseNet). Могут смешивать несколько жанров и инструментов в одном треке.
Также большинство музыкальных нейросетей умеют работать с готовыми пресетами — музыкальными дорожками, загруженными пользователем. Например, они умеют разделять музыкальные дорожки, отделять музыку от вокала, чтобы сделать «минус», «почистить» шумы, поднять басы. Создано при помощи нейросети recraft.ai
В общем, всё то, что раньше делали специально обученные люди с помощью специальных программ, в которых было сложно разобраться новичку, сейчас может попробовать сделать любой пользователь, способный внятно сформулировать свой запрос нейросетке.
Но, впрочем, и тут тоже таится некоторая сложность. Искусство формулировать промпты (задачи для нейросетей) тоже нарабатывается постепенно. У новичка, скорее всего, получится неидеально, а понимания, что именно нужно изменить до нужного результата, у человека, который с музыкой «на вы», не так много.
Поэтому для того, чтобы не просто баловаться созданием ИИ-музыки, а использовать нейросети как полноценный инструмент для выпуска треков, хорошо бы немного поучиться и промптингу, и музыке. Как минимум, знать, чем отличаются разные жанры, какие есть составляющие у трека, как звучат разные инструменты и как называются те или иные звуковые эффекты, которые вы хотите добавить.
Ну и конечно, нужно понимать, в каких случаях обращение к нейросети осмысленно и что от неё можно получить. Селиверстов выделил основные сильные стороны музыкальных нейросетей:
Стилизация — вот тут ИИ просто зверь. Нужно сделать трек в стиле ретро-синтвейва? Легко! Классический джаз? Без проблем! Он выжмет из жанра всё до капли.
Аранжировка на автомате: ИИ сам подберет инструменты, гармонии, ритмы. Звучит круто, но иногда предсказуемо.
Голос — почти как настоящий. Современные модели, вроде Vall-E, умеют копировать тембр и интонации голоса, имитируя различных исполнителей. Пока ещё немного «роботизированно», но прогресс налицо.
Обработка звука — как по маслу. Мастеринг, шумоподавление, разделение треков — тут ИИ чувствует себя как рыба в воде.
CLAUDIO CRUZ/AFP/East News
Как составить промпт для музыкальной нейросети: примеры
Эксперты дали несколько советов по составлению промптов для музыкальных ИИ:
Формулируйте максимально конкретно. Если вы хотите «грустную песню», можно, конечно, так и написать, но «минорная акустическая баллада с виолончелью, темп 60 BPM» выдаст вам более точный и приближенный к желаемому результат.
Давайте референсы. ИИ понимает, когда вы в промпте делаете отсылки к исполнителям и музыкальным композициям. Так что, если вы хотите музыку «в стиле ранней Леди Гаги» или «как саундтрек к Blade Runner 2049», так и пишите. Но тут немного лотерея: найдёт ли нейросеть нужный образчик в своей базе и не вшито ли в неё ограничение на подражание конкретным исполнителям.
Не забывайте про желаемую структуру песни. Например: «Куплет → припев → бридж». Лучше ещё и указать длительность каждого сегмента. Если нейросеть ещё и тексты пишет, то задавайте сюжетные ограничения — о чём будет эта песня.
Не слишком увлекайтесь попытками миксовать несочетаемое. На запросы типа «тяжёлый металл с флейтой в духе нью-эйдж» ИИ может выдать музыкальную кашу, реже — что-то внятное, но не то, что вы запрашивали.
Корректируйте запрос по ходу дела, поправляйте ИИ, чтобы «допилить» трек. Начните с чего-то общего (жанр, длительность, содержание), а потом добавляйте детали вроде реверса в припеве или женского бэк-вокала на каждой второй строчке.
Пример годного промпта: «Инструментальный трек в стиле 80-х synthwave: пульсирующий бас, аналоговые драм-машины, космические звуковые эффекты. Динамика: начинается с медленного вступления, переходит в энергичный ритм с гитарным соло на 2:30».
Генерировать музыку лучше на основе готового текста — с лирикой музыкальные нейросети справляются хуже, чем с мелодией, они заточены не на это. Однако при желании вы можете сделать полностью нейросетевую композицию, заказав написать текст песен одному из текстовых чат-ботов: ChatGPT, GigaChat, YandexGPT, DeepSeek или Qwen.
Популярные музыкальные нейросети
Большинство этих нейросетей имеют бесплатную и платную версию, отличающиеся по функциям и по возможности использовать потом плоды совместного с ИИ творчества. Из этого списка разве что Rifussion полностью бесплатен без всяких лимитов. Во всех остальных сервисах есть ограничения на использование или скачивание готовых треков, но остаётся возможность покупки подписки и расширения набора функций и количества генераций.
При этом с оплатой подписок зарубежных сервисов остаётся известная проблема: они не принимают российские карты.
Suno AI — один из самых популярных сейчас сервисов, который позволяет создавать музыку с вокалом по текстовому описанию. Да, качество пока не «студийное», но для быстрых набросков или просто фана — самое то. Хороший вариант для начинающих, которые хотят воплотить в жизнь свои музыкальные идеи, но не умеют играть на инструментах и пугаются слова «сольфеджио». Первые 50 кредитов (хватает примерно на 10 композиций) — бесплатно, затем по подписке $10 в месяц.
Boomy — предельно простая в использовании нейросеть, которая позволяет генерировать треки, просто выбрав жанр и поджанр композиции. Затем к созданной музыкальной дорожке можно добавить голос — загрузив с устройства или спев под трек вживую прямо на сайте, поправив непрофессиональное исполнение автотюном. У готовой композиции можно менять аранжировку: добавить инструменты, звуковые эффекты, вокал, при желании микшировать. Boomy доступна для бесплатного пользования, но готовые композиции нельзя скачать или использовать в коммерческих целях. Хотите сохранить в свою библиотеку или выложить на стримингах – оплатите подписку в $10.
Loudly — способна сгенерировать трек по промпту, ограниченному в 250 знаков. Расширенные настройки включают 15 жанров, которые можно смешивать, можно выбрать продолжительность, музыкальные инструменты, скорость, темп и тональность. Лучше всего подходит для создания электронной музыки: эмбиент, лоу-фай, техно и т. п. В месяц можно создать 25 треков бесплатно и скачать один, но длительность композиций ограничена 30 секундами. За подписку в $8 можно увеличить число генераций до 300, а длительность — до 3,5 минуты, плюс откроется сертифицированная лицензия для размещения музыки.
Riffusion. Полностью бесплатный сервис на основе Stable Diffusion. Способен генерировать музыку в реальном времени по текстовому описанию — достаточно задать характеристики композиции, можно указать конкретные музыкальные инструменты, жанр. Если результат не устроит, можно попытаться доработать промпт или сгенерировать новые результаты по тому же запросу.
Udio AI. Может написать текст сама или по вашему тексту, однако предпочитает английский язык и для общения, и для генерации — на русском поёт с очень своеобразным акцентом. В расширенных настройках можно выбрать жанр, структуру песни, детализацию отдельных инструментов и партий, качество (влияет на скорость генерации) и др. Платный тариф стоит $10, бесплатно можно генерировать 10 коротких или 3 полноценных песни в день или всего 100 в месяц.
Soundful генерирует музыку по запросу, достаточно указать жанр и поджанр. Дополнительно можно задать темп, выбрать тональность композиции. Бесплатный тариф позволяет создать и скачать только 10 треков в месяц и слушать её исключительно в личных целях – чтобы снять ограничение, нужна подписка за $10, а для коммерческого использования и размещения на разных площадках нужно заплатить $50 за одну запись.
WavTool использует модель GPT‑4, так что он реально хорошо понимает текстовые запросы. Дополнительно есть набор настроек, чтобы вручную уточнить задание и отредактировать сгенерированный трек. Бесплатная версия допускает до 10 запросов в каждые 8 часов и позволяет использовать до шести дорожек инструментов. Бонус: готовые треки можно сохранять на компьютер без подписки. Pro-версия за $20 снимает лимиты на генерацию и количество дорожек.
Melobytes. Может создавать композиции не только по текстовому описанию, но даже на основе изображений и видео. Однако большинство настроек доступны только в профессиональной версии после регистрации аккаунта и оплаты подписки ($10 в месяц). В бесплатном режиме опций меньше, но сам процесс генерирования проще, правда ограничен пятью попытками в день.
BeatOven AI. Чтобы сгенерировать в ней музыку, нужно указать жанр, стиль, темп и настроение будущего трека. Остальное возьмёт на себя нейросеть. Генерации в бесплатной версии неограниченные, доступны расширенные настройки, однако без возможности загрузить трек на устройство. Есть несколько тарифов, которые отличаются по стоимости и продолжительности сгенерированной музыки, которую можно скачать в месяц.
Mubert. Специализируется на генерации фоновой музыки, которую можно использовать для коротких рилсов. Позволяет задать жанр, настроение, длину композиции, но петь и сочинять тексты для вас не будет. Бесплатно можно создавать до 25 треков в месяц, за $14 доступное количество увеличивается до 500, а за $39 её можно будет использовать в коммерческих целях.
*Soundraw. Ещё один простой генератор треков без вокала, где можно выбрать настроение, жанр, тему, темп и инструменты, задать продолжительность трека и отредактировать получившуюся мелодию. Сгенерировать по текстовому запросу нельзя – только выбрать предзаданные настройки. Даже на бесплатном тарифе количество генераций не ограничено, но их нельзя будет скачать и использовать. Подписка стоит $20 в месяц.
AIVA. Позволяет создавать музыку в выбранной тональности по заготовленным жанрам и изменять загруженный трек. Удобный инструмент для редактуры и аранжировки — прямо в сервисе можно удалить или добавить инструмент, растянуть или сжать партию, изменить темп и аккорды, добавить эффекты. Для регистрации доступна бесплатная версия, но авторские права останутся за нейросетью. Для коммерческого использования и выкладывания в интернет нужна подписка за 49 евро. Плюс: позволяет загрузить любимые песни в личный кабинет, чтобы ИИ ориентировался на них при создании новых композиций.
Создано при помощи нейросети recraft.ai
Проблемы музыкальных нейросетей
Нейросетей для генерации музыки сейчас представлено довольно много, и умеют они уже значительно больше, чем пару лет назад, когда они только появлялись. С их помощью уже удаётся создавать вполне слушательные композиции, которые легко спутать с «человеческим» исполнением.
Однако проблем и подводных камней у этих нейросетей всё ещё много, указывают эксперты. Ярослав Селиверстов назвал ключевые из них:
*Эмоции. *Передать всю глубину человеческих чувств, нюансы исполнения, «дыхание» вокалиста — это пока за гранью возможностей. Получается неплохо, но плоско и не цепляет за душу, как исполнение живого человека.
Структура трека. Часто ИИ лепит какой-то винегрет из звуков без логики и развития. Получается что-то фрагментированное, без цельной композиции.
Ресурсы. Чтобы обучить такую махину, нужны огромные базы данных и вычислительные мощности. А ещё нужно, чтобы это всё работало онлайн, да ещё и быстро, так что и сервера должны быть соответствующими. При этом пока процесс генерации музыки с учётом всех правок всё ещё довольно медленный и на то, чтобы добиться одной минуты желаемого звука, могут уйти часы.
Тексты — просто боль: ИИ выдает какие-то шаблонные или вообще абсурдные строки. Юмор, метафоры, контекст — это всё мимо кассы.
Мелодии — штамп на штампе. То выдаст что-то заезженное, то просто какую-то бессвязную кашу из нот. Уникальность — это не про него.
Эксперименты — удел гениев. Всякие там Radiohead или Björk с их нестандартным мышлением — это пока не для ИИ. Нужен человеческий мозг, чтобы творить что-то реально новое.
Авторское право и оригинальность. Нейронки учатся на существующих треках, и велик риск, что они просто «скомпилируют» что-то знакомое, а это уже попахивает плагиатом.
В целом вопрос оригинальности и плагиата — больной вопрос для всех нейросетей, что музыкальных, что текстовых и картиночных. Как ни крути, а учатся они на плодах человеческого разума, и создателям вечно приходится выбирать меньшее из зол: либо ограничивать себя только данными с очищенными авторскими правами и получить слабую и ограниченную нейросеть, либо рисковать и обучать на всех доступных данных, рискуя столкнуться с исками от ещё живых художников, композиторов и исполнителей.
Основными проблемами генерации музыки с помощью ИИ остаются два вопроса — оригинальности и интеллектуальной собственности. Во-первых, сложно установить авторство такой композиции, так как ИИ использует уже созданные фрагменты текстов и мелодий для создания новых композиций. Во-вторых, ИИ может позаимствовать достаточно большой фрагмент мелодии или текста, что будет нарушать авторские права других музыкантов/музыканта. Также можно отметить, что цифровые площадки, размещающие музыку, негативно относятся к композициям, созданным с помощью ИИ,/ по вышеописанными причинам. Такой подход — один из барьеров для распространения музыки, нарушающей авторские права. Тимофей Воронин
Создано при помощи нейросети recraft.ai
Сами музыканты, впрочем, относятся к конкуренции со стороны ИИ довольно скептически. Эксперты признают, что, несмотря на все успехи, в ближайшем будущем нейросети живых исполнителей всё-таки не заменят.
ИИ штампует троекратно переваренный метамодерновый продукт, который мало того, что звучит максимально синтетически, так ещё и не несет по итогу никакой смысловой нагрузки. Даже если попытаться её заложить с помощью ограничений и уточнения контекста в промте, можно получить разочарование. Пока что креативное произведение, использующее отсылки и двусмысленный сатирический контекст, лучше человека не сделает никто. Машина хороша только на фабрике по производству клиповых тик-ток хитов, не наделённых никакими экзистенциальными смыслами. Музыка, созданная ИИ, часто лишена глубины, которая присуща человеческим композициям. Это делает её менее выразительной и менее способной вызывать сильные эмоции у слушателей. Алексей Федоров (Alxs.f) эксперт Клубов мышления, музыкант
«Секрет фирмы»
При этом эксперты признают, что некоторые из этих нюансов рядовому слушателю часто незаметны и малозначимы.
Вкус — дело тонкое. Как оценить, «хорошая» музыка или нет? У каждого свои понятия о прекрасном, так что объективных метрик тут нет. Ярослав Селиверстов
Так или иначе, в чём нейросетям не откажешь — так это в том, что они делают сложные процессы проще и ближе простым людям. ИИ при всех их недостатках могут стать хорошим подспорьем для начинающих музыкантов и помочь нащупать собственный стиль за счёт бесконечного множества экспериментов. В конце концов, сколько бы ни было разговоров о компиляции и повторяемости, нот всего семь, — а дальше дело за нюансами.