Вышла Stable Audio 2.0 для генерации трехминутных песен

04.04.2024 13:28

Первая версия Stable Audio генерировала файлы продолжительностью в 90 секунд, которые подходили скорее для баловства, чем для коммерческого применения. Пришедшая ей на смену модель создаёт полноценные песни с вокалом и классической структурой: куплетами, припевом и финалом. Можно изменять вес подсказки подобно тому, как такая функция работает в Midjourney. Возможно, она и была подсмотрена там: ранее в этом месяце последняя компания https://www.theverge.com/2024/3/11/24097495/midjourney-bans-... Stability AI в попытке кражи данных.

Главное достоинство Stable Audio 2.0 — решенный вопрос с авторскими правами. Stability AI обучала модель на более чем 800 тысячах записей в музыкальной библиотеки AudioSparx, причём исполнители могли запретить использовать свои работы. Кроме того, компания заключила контракт с Audible Magic и использует технологии распознания контента, защищённого авторским правом. Использовать в качестве исходника песню известного артиста уже не получится. Это упрощает использование полученных треков с целью извлечения прибыли.

Журналисты https://www.theverge.com/2024/4/3/24119438/stability-ai-audi... уже протестировали новинку и явно не в восторге от неё: мелодия весьма хороша и ритмична, но вокал звучит ужасающе неестественно и похож на голоса монстров из фильмов ужасов. Одному из экспертов он напомнил песни китов. Файлы с вокалом звучат неприятно для человеческого слуха, зато мелодии без слов вполне приличные и их можно использовать, например, для озвучивания роликов на YouTube.

Stable Audio 2.0 полностью бесплатна и доступна всем желающим на сайте и по API.