Microsoft решила не выпускать в общий доступ генератор речи VALL-E 2 из-за высокой реалистичности

Шрифт: Абв Абв Абв

danilov 14 Июля 2024 в 20:46:12

На этой неделе Microsoft сообщила о завершении разработки VALL-E 2 - второй версии своей системы искусственного интеллекта для генерации речи. Однако, специалисты, создавшие VALL-E 2, пришли к выводу, что ее реалистичность настолько высока, что выпуск системы в публичный доступ будет представлять серьезную угрозу. Новая ИИ-модель обладает способностью искусно имитировать голоса реальных людей, что делает ее потенциально опасным инструментом в случае недобросовестного использования. В связи с этим, VALL-E 2 будет доступен только для "исследовательских целей".

VALL-E 2, подобно своему предшественнику, представляет собой нейросетевую языковую модель кодека. Данная технология глубокого обучения применяет нейронные сети для шифрования и дешифрования лингвистических данных. Однако VALL-E 2 пошла дальше, освоив технологию синтеза речи из текста без предварительного обучения. Это позволяет генерировать речь любыми голосами, на которых система никогда не тренировалась, используя лишь текстовый ввод. Модель опирается на обширные библиотеки LibriSpeech и VCTK, сопоставляя текстовые данные с соответствующими аудиоданными. При этом учитываются нюансы произношения, интонационные особенности и ритмика речи. VALL-E 2 анализирует короткий образец чьего-либо голоса вместе с введенным текстом, затем воспроизводит искусственную речь, имитирующую голос из образца и озвучивающую предоставленный текст.

Многие пользователи знакомы с неестественным звучанием прошлых генераторов речи на базе искусственного интеллекта, и они знают, насколько это сложная задача. Однако, по мнению исследователей из группы Natural Language Computing Group в Microsoft Research Asia, VALL-E 2 справляется с этой задачей безупречно. Настолько, что генератор речи впервые достиг уровня "человеческого паритета" — что может принести больше вреда, чем пользы при его использовании в публичном доступе.

"VALL-E 2 – сугубо исследовательская разработка", – поясняется в блоге разработчиков. "На данный момент мы не планируем внедрять VALL-E 2 в какой-либо продукт, ни расширять доступ к нему. Потенциальное злоупотребление моделью несет в себе риски, такие как обход систем голосовой идентификации или имитация конкретных личностей".

Исследователи отмечают потенциал VALL-E 2 в сфере образования и развлечений, где система могла бы озвучивать онлайн-курсы или аудиокниги, сохраняя индивидуальные особенности человеческого голоса. Однако даже такое применение вызывает этические вопросы. Другие речевые генераторы, например, Voicebox от Meta и система озвучки Alexa на базе искусственного интеллекта от Amazon, уже спровоцировали дискуссии об этичности использования ИИ для имитации голосов реальных людей, особенно умерших и не имеющих возможности дать согласие. Как и другие формы генеративного ИИ, речевые генераторы вызывают опасения о вытеснении людей с рабочих мест, что особенно беспокоит профессиональных актеров озвучивания.

Ограничив доступ к VALL-E 2, Microsoft получила возможность тщательно изучить практические пределы модели. "Наши эксперименты проводились с допущением, что пользователь согласен быть источником голоса для синтеза речи", – поясняют исследователи. "При адаптации модели для работы с голосами неизвестных людей в реальных условиях необходимо разработать протокол, гарантирующий согласие говорящего на использование его голоса, а также механизм распознавания синтезированной речи".

Microsoft.com