Команда разработчиков запустила нейросеть Riffusion, генерирующую музыку по текстовому описанию. Создатели отмечают, что принцип работы нейросети аналогичен Stable Diffusion, однако вместо изображений алгоритм «пишет» музыку.
Авторы нейросети — программисты Сет Форсгрен и Хайк Мартирос. По словам создателей, Riffusion запущена в качестве хобби-проекта — команда занимается развитием проекта в свободное от основной работы время.
На основе текстового описания Riffusion генерирует изображения-спектрограммы, которые затем конвертируются в аудиоклипы. Количество вариантов не ограничено: нейросеть создаёт «бесконечное множество разнообразных вариантов» музыки, заявляют Форсгрен и Мартирос.
Разработчики рассказывают, что нейросеть создаёт изображения с амплитудой синусоидальных волн, а не фазы, которые в дальнейшем преобразуются и смешиваются между собой. При реконструкции аудиоклипа используется алгоритм Гриффина-Лима, применяющийся для синтеза речи. Помимо коротких лупов, Riffusion генерирует и более длинные аудиофайлы, основанные на вариациях спектрограммы.
Сейчас нейросеть запущена в свободном доступе — пользователи могут присоединиться к тестированию и дальнейшему обучению алгоритма. Для генерации аудио пользователь должен указать текстовое описание будущего файла: в списке предложенных вариантов встречаются такие описания, как «arabic gospel vocals», «smooth tropical dance jazz», «techno DJ and a country fiddle» и другие.
Приложение генерирует контент в реальном времени до тех пор, пока пользователь не остановит процесс. Будущая музыка представляется в виде трёхмерной спектрограммы, которая позднее конвертируется в музыку. После генерации пользователи могут дополнять аудиофайл новыми данными или же создать несколько вариаций уже предложенного варианта.
По словам авторов MusicRadar, команда портала так и не смогла разобраться в принципах работы нейросети, однако «Riffusion в равной степени впечатляет и пугает». Комментируя свои опасения, авторы отмечают, что сейчас нейросети находятся в зачаточном состоянии, но «нетрудно представить, какими возможностями они будут обладать в будущем».
Проверить работу нейросети можно на официальном сайте Riffusion. Помимо поля для ввода запроса авторы проекта приводят описание принципов работы на основе генератора изображений Stable Diffusion и объяснение процесса «написания музыки» нейросетью. Там же можно ознакомиться с примерами творчества нейросети.
- Напомним, что ранее мы протестировали возможности популярной нейросети Midjourney, попросив её рисовать на музыкальную тематику. Так, например, сеть изобразила музыкальные инструменты, процесс написания музыки, популярные песни и многие другие вещи.