Компания NVIDIA представила нейросеть, способную копировать человеческий голос. Разработанная технология позволяет обучать сеть собственным голосом, чтобы в дальнейшем синтезировать его с высокой точностью.
На конференции Interspeech 2021 американская компания показала собственные наработки в области технологий реалистичного синтеза человеческого голоса. В частности, компания запустила внутренний проект по созданию обучающихся моделей преобразования текста в речь, которые учатся говорить на основании общения с живым человеком.
Одна из моделей, получившая название RAD-TTS, по итогам обучения смогла говорить голосом собеседника, зачитывая готовые тексты. Нейросеть не только точно копировала тембр голоса, но и повторяла интонации и индивидуальные особенности речи, отмечают создатели.
Проект разработан лабораторией NVIDIA Research в рамках изучения возможностей искусственного интеллекта в области генерации речи. Сотрудники компании исследуют обработку естественного языка, автоматическое распознавание речи, обнаружение ключевых слов в тексте для расстановки интонаций, отмечают в NVIDIA.
Для работы и обучения нейросетей используются видеокарты NVIDIA и набор инструментов NVIDIA NeMo. Последний выложен в свободный доступ в хабе NGC Hub.
В NVIDIA отмечают, что разработка может быть полезна в финансовой сфере и розничной торговле: так, например, компании могут создать с её помощью автоматизированных голосовых помощников для служб технической и пользовательской поддержки. Разработчики также видят потенциал технологии в области воссоздания голосов знаменитостей прошлых эпох и помощи людям с функциональными нарушениями голоса.
Среди других вариантов использования — возможность озвучивать персонажей видеоигр и мультфильмов, и запись аудиокниг. В компании отметили, что ролики об искусственном интеллекте на YouTube-канале NVIDIA уже озвучиваются с помощью представленной нейросети.
Напомним, что ранее стало известно о разработках компании Sonantic в области синтеза речи. Сотрудники компании в течение нескольких лет разрабатывали модель синтеза, которая помогла известному актёру Вэлу Килмеру снова заговорить своим голосом и, возможно, вернуться в киноиндустрию.