Нейросеть Riffusion «пишет» музыку по текстовому описанию — принцип работы идентичен популярной Stable Diffusion

Алгоритм генерирует изображения-спектрограммы, которые конвертируются в аудиоклипы.

Riffusion - нейросеть для написания музыки

Команда разработчиков запустила нейросеть Riffusion, генерирующую музыку по текстовому описанию. Создатели отмечают, что принцип работы нейросети аналогичен Stable Diffusion, однако вместо изображений алгоритм «пишет» музыку.

Авторы нейросети — программисты Сет Форсгрен и Хайк Мартирос. По словам создателей, Riffusion запущена в качестве хобби-проекта — команда занимается развитием проекта в свободное от основной работы время.

На основе текстового описания Riffusion генерирует изображения-спектрограммы, которые затем конвертируются в аудиоклипы. Количество вариантов не ограничено: нейросеть создаёт «бесконечное множество разнообразных вариантов» музыки, заявляют Форсгрен и Мартирос.

Разработчики рассказывают, что нейросеть создаёт изображения с амплитудой синусоидальных волн, а не фазы, которые в дальнейшем преобразуются и смешиваются между собой. При реконструкции аудиоклипа используется алгоритм Гриффина-Лима, применяющийся для синтеза речи. Помимо коротких лупов, Riffusion генерирует и более длинные аудиофайлы, основанные на вариациях спектрограммы.

Сейчас нейросеть запущена в свободном доступе — пользователи могут присоединиться к тестированию и дальнейшему обучению алгоритма. Для генерации аудио пользователь должен указать текстовое описание будущего файла: в списке предложенных вариантов встречаются такие описания, как «arabic gospel vocals», «smooth tropical dance jazz», «techno DJ and a country fiddle» и другие.

Приложение генерирует контент в реальном времени до тех пор, пока пользователь не остановит процесс. Будущая музыка представляется в виде трёхмерной спектрограммы, которая позднее конвертируется в музыку. После генерации пользователи могут дополнять аудиофайл новыми данными или же создать несколько вариаций уже предложенного варианта.

По словам авторов MusicRadar, команда портала так и не смогла разобраться в принципах работы нейросети, однако «Riffusion в равной степени впечатляет и пугает». Комментируя свои опасения, авторы отмечают, что сейчас нейросети находятся в зачаточном состоянии, но «нетрудно представить, какими возможностями они будут обладать в будущем».

Проверить работу нейросети можно на официальном сайте Riffusion. Помимо поля для ввода запроса авторы проекта приводят описание принципов работы на основе генератора изображений Stable Diffusion и объяснение процесса «написания музыки» нейросетью. Там же можно ознакомиться с примерами творчества нейросети.

Exit mobile version