Искусственный интеллект и чат-бот GigaChat от «Сбера» научился генерировать музыку по текстовому запросу. Об этом стало известно в ходе международной конференции по искусственному интеллекту AI Journey 2023.
По словам вице-президента по цифровым поверхностям «Салют» Сбербанка Дениса Филиппова, возможности GigaChat были расширены через интеграцию нейросетей CLaMP и SymFormer. Благодаря этому пользователи могут сформулировать задачу, чтобы получить музыкальную композицию по своему описанию.
Отмечается, что чат-бот не только генерирует звуковую дорожку, но и соответствующую ей партитуру в формате MIDI. Последнее позволит импортировать идеи искусственного интеллекта в любую DAW для дальнейшей работы.
Генерация музыки появилась в GigaChat благодаря нейросетям CLaMP и SymFormer, которые были внедрены в чат-бота. Как стало известно в ходе конференции AI Journey 2023, для обучения SymFormer использовалась платформа ML Space на базе суперкомпьютера Christofari и база данных из более, чем 200 000 композиций в разных жанрах. На каких условиях были получены композиции и был ли подход «Сбера» более честным, чем тот, что использовался Stability AI при обучении ИИ Stable Audio и был подвергнут осуждению основным разработчиком, не уточняется.
По словам сотрудников «Сбера», модель генерации музыки GigaChat рассматривает музыку в качестве нотного текста. При этом, чтобы преобразовать полученные аудиоданные в текст, разработчики использовали конвертацию информации в визуальное содержимое и её последующий перевод в текст. Отмечается, что итоговая модель потребовала адаптации подхода text-2-image для нотной записи.
Генерация музыки в рамках GigaChat проходит в три этапа:
- Текстовый запрос конвертируется в понятный для генератора мелодий язык через модель CLaMP.
- Преобразованные данные, полученные от CLaMP и включающие в том числе информацию о музыкальном направлении, отправляются в SymFormer, который генерирует несколько вариантов композиции.
- Чат-бот подключает рендеринг, формирующий окончательный аудиофайл и соответствующую ему MIDI-партитуру, которая передаётся пользователю.
Филиппов полагает, что новый навык GigaChat будет полезен не только музыкантам, энтузиастам и представителям творческих профессий, но и малому и среднему бизнесу. «Благодаря GigaChat они смогут быстро, качественно и, что важно, абсолютно легально решать задачи бизнеса: создавать фоновое музыкальное сопровождение для кафе, залов ожидания и салонов красоты, создавать мелодии для рекламных видеороликов и соцсетей», — заметил руководитель.
Для использования чат-бота GigaChat необходимо зарегистрироваться на сайте, через который осуществляется доступ к искусственному интеллекту. Чат-бот работает только в браузере и доступен всем желающим на бесплатной основе. Новые музыкальные возможности бота уже внедрены в платформу, поэтому пользователи могут свободно задавать стилистические и прочие параметры для создания композиций и проверки возможностей искусственного интеллекта.