Сайт

Категория

Следующее приложение

VALL-E

Симулируйте голос любого человека с помощью 3 секунд аудио

О VALL-E

Новая модель текст в речь от Microsoft может сохранять эмоциональный тон и акустическую среду говорящего.

VALL-E может использоваться для приложений высокого качества текст в речь, редактирования речи, где запись человека может быть изменена на основе текстового транскрипта (сделать его сказать что-то, чего он изначально не говорил), и создания аудио контента при совместном использовании с другими генеративными моделями искусственного интеллекта, такими как GPT-3.

Microsoft называет VALL-E "нейросетевой моделью языка кодека", и она основана на технологии, называемой EnCodec, которую Meta объявила в октябре 2022 года. В отличие от других методов текст в речь, которые обычно синтезируют речь путем манипулирования волновыми формами, VALL-E генерирует дискретные кодеки аудио из текста и акустических подсказок. Он анализирует, как звучит человек, разбивает эту информацию на отдельные компоненты (называемые "токенами") с помощью EnCodec и использует данные обучения, чтобы соответствовать тому, что он "знает" о том, как звучит этот голос, если бы он произнес другие фразы помимо трехсекундного образца.

В заключении статьи они пишут:

"Поскольку VALL-E может синтезировать речь, сохраняя идентичность говорящего, это может представлять потенциальные риски в неправильном использовании модели, таких как подделка идентификации голоса или подражание определенному говорящему. Чтобы смягчить такие риски, возможно построить модель обнаружения, чтобы различать, был ли аудио клип синтезирован VALL-E. Мы также будем придерживаться принципов искусственного интеллекта Microsoft при дальнейшей разработке моделей."

Источник: https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/

Скриншоты VALL-E

VALL-E - скриншот 1

Читать на английском