NVIDIA разработала нейросеть, способную говорить вашим голосом — алгоритм анализирует речь и передаёт даже особенности интонации

В компании отмечают, что технология пригодится людям с нарушениями речевого аппарата, а также банкам и магазинам.

Автор: Егор Ревенга
3 года Ago

NVIDIA разработала нейросеть, способную говорить вашим голосом - алгоритм анализирует речь и передаёт даже особенности интонации

Компания NVIDIA представила нейросеть, способную копировать человеческий голос. Разработанная технология позволяет обучать сеть собственным голосом, чтобы в дальнейшем синтезировать его с высокой точностью.

На конференции Interspeech 2021 американская компания показала собственные наработки в области технологий реалистичного синтеза человеческого голоса. В частности, компания запустила внутренний проект по созданию обучающихся моделей преобразования текста в речь, которые учатся говорить на основании общения с живым человеком.

Одна из моделей, получившая название RAD-TTS, по итогам обучения смогла говорить голосом собеседника, зачитывая готовые тексты. Нейросеть не только точно копировала тембр голоса, но и повторяла интонации и индивидуальные особенности речи, отмечают создатели.

Проект разработан лабораторией NVIDIA Research в рамках изучения возможностей искусственного интеллекта в области генерации речи. Сотрудники компании исследуют обработку естественного языка, автоматическое распознавание речи, обнаружение ключевых слов в тексте для расстановки интонаций, отмечают в NVIDIA.

Для работы и обучения нейросетей используются видеокарты NVIDIA и набор инструментов NVIDIA NeMo. Последний выложен в свободный доступ в хабе NGC Hub.

В NVIDIA отмечают, что разработка может быть полезна в финансовой сфере и розничной торговле: так, например, компании могут создать с её помощью автоматизированных голосовых помощников для служб технической и пользовательской поддержки. Разработчики также видят потенциал технологии в области воссоздания голосов знаменитостей прошлых эпох и помощи людям с функциональными нарушениями голоса.

Среди других вариантов использования — возможность озвучивать персонажей видеоигр и мультфильмов, и запись аудиокниг. В компании отметили, что ролики об искусственном интеллекте на YouTube-канале NVIDIA уже озвучиваются с помощью представленной нейросети.

Напомним, что ранее стало известно о разработках компании Sonantic в области синтеза речи. Сотрудники компании в течение нескольких лет разрабатывали модель синтеза, которая помогла известному актёру Вэлу Килмеру снова заговорить своим голосом и, возможно, вернуться в киноиндустрию.