Синтезатор речи VALL-E сымитирует любой голос в одно мгновение: как это возможно

Синтезатор речи VALL-E сымитирует любой голос в одно мгновение: как это возможно

ПОДЕЛИТЬСЯ

ИИ-бот умеет имитировать любой голос и звук — ему достаточно прослушать оригинал в течение нескольких секунд.

Исследователи Microsoft объявили о новой модели искусственного интеллекта для преобразования текста в речь, сообщает сайт ArsTechnica, пишет focus.ua. Проект VALL-E, может точно имитировать голос человека и для этого достаточно всего трехсекундного отрывка для примера.

Конечно, чем длиннее образец речи, тем точнее и натуральнее искусственный интеллект сможет его сымитировать. Как только VALL-E «выучит» конкретный голос, он может синтезировать звук таким образом, что сможет подделать даже эмоциональный тон говорящего.

Создатели ИИ-инструмента говорят, что их разработку можно использовать для высококачественных приложений преобразования текста в речь. Но уже сейчас понятно, что подобная технология даст большое поле для распространения различных фейков и информационных диверсий, если этот инструмент попадет не в те руки. А если представить симбиоз разработки Microsoft и технологии Deepfake (подделка визуального образа), то даже представить страшно, что ждет СМИ и всех нас в будущем.

Проект VALL-E от Microsoft основан на технологии EnCodec, о которой Meta объявила в октябре 2022 года. В отличие от других методов преобразования текста в речь, которые обычно синтезируют речь, манипулируя формами сигналов, дискретные сигналы EnCodec состоят из текстовых и акустических подсказок. С помощью них искусственный интеллект генерирует соответствующие акустические маркеры голоса и использует их для синтеза речи.

синтезатор речи, подделка речи, Deefake, Microsoft Vall-E Fullscreen
Принцип работы Vall-E и EnCodec

Специалисты Microsoft обучали искусственный интеллект VALL-E на звуковой библиотеке, собранной Meta, под названием LibriLight . Она содержит 60 тыс. часов англоязычной речи от более чем 7 тыс. носителей, в основном взятых из общедоступных аудиокниг LibriVox . Чтобы VALL-E дал хороший результат, голос в трехсекундном образце должен точно совпадать с голосом в обучающих данных.

Microsoft выложила примеры работы VALL-E по имитации голосов. Некоторые результаты не слишком отличаются от привычного голоса синтезированного компьютером, но есть и другие, которые просто неотличимы от оригинала. И это действительно поражает! Помимо сохранения вокального тембра и эмоционального тона говорящего, VALL-E также может имитировать акустическое окружение. Например, если сэмпл взят из телефонного звонка, то ИИ сымитирует соответствующий фоновый шум, как в оригинале.

В Microsoft прекрасно осознают все риски связанные с их разработкой, а потому никому не предоставляют код VALL-E для экспериментов. Ученые обещают, что будут использовать свой проект как раз для того, чтобы изобличать подделки голоса от других подобных проектов, которые наверняка скоро появятся.

ПОДЕЛИТЬСЯ