Искусственный интеллект и чат-бот GigaChat от «Сбера» научился генерировать музыку по текстовому запросу. Об этом стало известно в ходе международной конференции по искусственному интеллекту AI Journey 2023.
По словам вице-президента по цифровым поверхностям «Салют» Сбербанка Дениса Филиппова, возможности GigaChat были расширены через интеграцию нейросетей CLaMP и SymFormer. Благодаря этому пользователи могут сформулировать задачу, чтобы получить музыкальную композицию по своему описанию.
Отмечается, что чат-бот не только генерирует звуковую дорожку, но и соответствующую ей партитуру в формате MIDI. Последнее позволит импортировать идеи искусственного интеллекта в любую DAW для дальнейшей работы.
Генерация музыки появилась в GigaChat благодаря нейросетям CLaMP и SymFormer, которые были внедрены в чат-бота. Как стало известно в ходе конференции AI Journey 2023, для обучения SymFormer использовалась платформа ML Space на базе суперкомпьютера Christofari и база данных из более, чем 200 000 композиций в разных жанрах. На каких условиях были получены композиции и был ли подход «Сбера» более честным, чем тот, что использовался Stability AI при обучении ИИ Stable Audio и был подвергнут осуждению основным разработчиком, не уточняется.
По словам сотрудников «Сбера», модель генерации музыки GigaChat рассматривает музыку в качестве нотного текста. При этом, чтобы преобразовать полученные аудиоданные в текст, разработчики использовали конвертацию информации в визуальное содержимое и её последующий перевод в текст. Отмечается, что итоговая модель потребовала адаптации подхода text-2-image для нотной записи.
Генерация музыки в рамках GigaChat проходит в три этапа:
- Текстовый запрос конвертируется в понятный для генератора мелодий язык через модель CLaMP.
- Преобразованные данные, полученные от CLaMP и включающие в том числе информацию о музыкальном направлении, отправляются в SymFormer, который генерирует несколько вариантов композиции.
- Чат-бот подключает рендеринг, формирующий окончательный аудиофайл и соответствующую ему MIDI-партитуру, которая передаётся пользователю.
Филиппов полагает, что новый навык GigaChat будет полезен не только музыкантам, энтузиастам и представителям творческих профессий, но и малому и среднему бизнесу. «Благодаря GigaChat они смогут быстро, качественно и, что важно, абсолютно легально решать задачи бизнеса: создавать фоновое музыкальное сопровождение для кафе, залов ожидания и салонов красоты, создавать мелодии для рекламных видеороликов и соцсетей», — заметил руководитель.
Для использования чат-бота GigaChat необходимо зарегистрироваться на сайте, через который осуществляется доступ к искусственному интеллекту. Чат-бот работает только в браузере и доступен всем желающим на бесплатной основе. Новые музыкальные возможности бота уже внедрены в платформу, поэтому пользователи могут свободно задавать стилистические и прочие параметры для создания композиций и проверки возможностей искусственного интеллекта.
Я зашёл по ссылке чере СберИД и задал поисковый запрос
и т.д.
Т.е. тупо набор несвязных аккордов.
Можно послушать в автоаккомпаниаторе тут
Не похоже на сочинительство, если несколько раз один и тот же запрос то просто рандомные аккорды и всё.
Попросил гигачат написать трек и вот что он мне ответил: «К сожалению, я не могу написать музыку в стиле black metal, так как я являюсь текстовым ИИ-ассистентом и не имею возможности создавать музыку. Однако, если вам нужна помощь в поиске музыки в этом жанре, я могу предложить вам некоторые рекомендации.»
Очень уважаю нашу, русскую нейросетку Kandinsky, но вот GigaChat какой-то деревянный и тормозной.
Отмечу, что CLaMP — это китайский музыкальный датасет, но ладно, не буду здесь придираться к тому, что Сберы взяли китайские наработки.
Сразу штамповать мелодии в GigaChat не получится, потому что на сегодняшний день Сберу нужно отправлять заявку на работу с нейросетью SymFormer (это как раз музыкальная нейросеть от Сбера) — заявка будет рассматриваться 1 день, мне пришла такая отбивка на почту.
Заодно под GigaChat лучше сразу поставить русский браузер (я поставил Яндекс), потому что, например, в моём любимом браузере ‘Vivaldi’ GigaChat работает лишь наполовину (не создаёт картинки, например) из-за проблем с цифровыми сертификатами.
Регистрация у Сбера, кстати, по сотовому, готовьтесь к тому, что Сбер сразу включит вас в свои маркетинговые программы (там будет соответствующая галочка).
Ого, спасибо за уточнения!
То есть, через отправку заявки на доступ к СимФормеру, Сбер по факту собирает базу пользователей, но доступа к ГигаЧату не дает🤔