Stability AI запустила новую нейросеть для генерации музыки Stable Audio. Платформа генерирует музыку по текстовым запросам и обладает бесплатным тарифом для тестирования её возможностей.
По словам разработчиков, диффузионная модель Stable Audio обучалась на наборе из текстовых метаданных и коллекции из 800 000 аудиофайлов. Среди данных присутствовали как коммерческие записи и звуковые эффекты, так и отдельные партии инструментов. Отмечается, что общее количество аудиоматериалов превышает 19,5 тысяч часов.
Stability AI заявляют, что Stable Audio отличается полной юридической прозрачностью. Так, например, данные для обучения были предоставлены компанией AudioSparx, владеющей внушительным каталогом музыки для коммерческого использования. Таким образом разработчики получили официальное право на использование защищённого копирайтом контента.
Использование нейросети доступно как в платном, так и бесплатном формате. В рамках бесплатного тарифа платформа генерирует до 20 аудиофрагментов в месяц, при этом длительность каждого отрезка не превышает 45 секунд. Платные тарифы начинаются от $11,99 в месяц и позволяют генерировать до 500 композиций длительностью до полутора минут.
Согласно условиям использования, использовать сгенерированные композиции в коммерческих целях могут только пользователи платных тарифов. Вместе с тем всем пользователям нейросети запрещено тренировать и обучать собственные алгоритмы искусственного интеллекта на основе сгенерированных Stable Audio треков.
Разработчики отмечают, что алгоритм может создавать не только полноценные композиции, но и отдельные звуковые эффекты или партии инструментов. На эффекты и партии распространяются те же ограничения, что и на треки: запрет на коммерческое использование пользователям бесплатных тарифов и запрет обучения на их основе собственных ИИ-моделей.
Google открыла свободный доступ к нейросети MusicLM для сочинения музыки по текстовому запросу
В компании заявили, что созданная модель «идеальна для музыкантов, создающих уникальные сэмплы для собственной музыки». В качестве примеров работы алгоритма, Stability AI показала генерацию фрагментов с любым темпом: к примеру, по запросу «116 BPM rock drums loop clean production» нейросеть создаёт барабанный луп в темпе 116 ударов в минуту с чистым звучанием.
Вместе с тем, по словам издания MusicRadar, модель не понимает отличий тональности. Во время проверки авторы попросили Stable Audio сгенерировать фортепианный луп в тональности Соль мажор, однако предложенный фрагмент был написан в Ля-миноре.
Ознакомиться с возможностями алгоритма можно на официальном сайте платформы Stable Audio. Разработчики проекта отмечают, что в данный момент платформа сталкивается с повышенным интересом пользователей, из-за чего в её работе возможны сбои и ошибки.