back to top

NVIDIA разработала нейросеть, способную говорить вашим голосом — алгоритм анализирует речь и передаёт даже особенности интонации

В компании отмечают, что технология пригодится людям с нарушениями речевого аппарата, а также банкам и магазинам.

Компания NVIDIA представила нейросеть, способную копировать человеческий голос. Разработанная технология позволяет обучать сеть собственным голосом, чтобы в дальнейшем синтезировать его с высокой точностью.

На конференции Interspeech 2021 американская компания показала собственные наработки в области технологий реалистичного синтеза человеческого голоса. В частности, компания запустила внутренний проект по созданию обучающихся моделей преобразования текста в речь, которые учатся говорить на основании общения с живым человеком.

Одна из моделей, получившая название RAD-TTS, по итогам обучения смогла говорить голосом собеседника, зачитывая готовые тексты. Нейросеть не только точно копировала тембр голоса, но и повторяла интонации и индивидуальные особенности речи, отмечают создатели.

Проект разработан лабораторией NVIDIA Research в рамках изучения возможностей искусственного интеллекта в области генерации речи. Сотрудники компании исследуют обработку естественного языка, автоматическое распознавание речи, обнаружение ключевых слов в тексте для расстановки интонаций, отмечают в NVIDIA.

Для работы и обучения нейросетей используются видеокарты NVIDIA и набор инструментов NVIDIA NeMo. Последний выложен в свободный доступ в хабе NGC Hub.

В NVIDIA отмечают, что разработка может быть полезна в финансовой сфере и розничной торговле: так, например, компании могут создать с её помощью автоматизированных голосовых помощников для служб технической и пользовательской поддержки. Разработчики также видят потенциал технологии в области воссоздания голосов знаменитостей прошлых эпох и помощи людям с функциональными нарушениями голоса.

Среди других вариантов использования — возможность озвучивать персонажей видеоигр и мультфильмов, и запись аудиокниг. В компании отметили, что ролики об искусственном интеллекте на YouTube-канале NVIDIA уже озвучиваются с помощью представленной нейросети.

Напомним, что ранее стало известно о разработках компании Sonantic в области синтеза речи. Сотрудники компании в течение нескольких лет разрабатывали модель синтеза, которая помогла известному актёру Вэлу Килмеру снова заговорить своим голосом и, возможно, вернуться в киноиндустрию.

Также по теме

Зачем, а главное AI HUA: Warner Music Group представили первую ИИ-исполнительницу

Вместе с презентацией были опубликованы первая песня и клип виртуальной артистки.

Швеция вычеркнула из чартов один из главных хитов года — оказалось, он сгенерирован ИИ

Музыкальная индустрия страны заявила, что ИИ-песням не место в топ-листах слушателей.

Сломанная индустрия: теперь музыкальная карьера — это всего лишь вторая (бесплатная) работа

Сотни часов разноплановой работы, тысячи стримов — и всё равно не на что жить. Как устроена современная музыкальная экономика и что делать музыканту?

2 комментарии

Подписаться
Уведомлять о
2 комментариев
Новые
По порядку Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Популярное

Гаммы для фортепиано и клавишных: 16 основных видов

Хроматические и диатонические гаммы для фортепиано и клавишных, и лады народной музыки на понятных примерах.

Как по нотам: выбираем нотный редактор

Сравнительный обзор самых популярных программ для написания партитур.

Аккорды для пианино и клавишных: 16 основных видов

Самые распространенные аккорды для пианино и клавишных инструментов со схемами, пояснениями и примерами звучания.

Лучшие гитарные эмуляторы: 20 плагинов на замену усилителю и педалборду

Выбираем VST-плагины для обработки гитары.

Музыкальная теория для чайников. Нотная запись

Дллительности нот и их обозначения, паузы, знаки альтерации и дополнительные знаки, влияющие на длительность.

Сейчас читают

Вы могли пропустить

Книга Брюса Свидена «В студии с Майклом Джексоном» вышла на русском языке — мы участвовали в её создании

4