VALL-E 2: ИИ-генератор речи от Microsoft достигает человеческого уровня

11.07.2024

661

Недавно компания Microsoft представила новое технологическое достижение: VALL-E 2, генератор текста в речь на основе искусственного интеллекта (ИИ), способный воспроизводить человеческий голос с поразительной точностью. Разработанный настолько убедительно, что его нельзя обнародовать, VALL-E 2 представляет собой значительный прогресс в области преобразования текста в речь, но при этом создает как возможности, так и проблемы с точки зрения этики и безопасности.

Революционные возможности

VALL-E 2 выделяется своей способностью генерировать естественные человеческие голоса, используя всего несколько секунд аудиозаписи. Исследователи Microsoft отмечают, что модель достигает человеческого паритета, то есть синтезированную речь невозможно отличить от речи реального человека в эталонных тестах. Это достижение основано на двух главных технических инновациях: чувствительной к повторам выборке и моделировании кластерного кода.

Выборка с учетом повторений позволяет VALL-E 2 преобразовывать текст в речь более плавно и естественно, избегая повторения лексем — небольших языковых единиц, таких как слова или части слов. Предотвращая бесконечные циклы звуков или фраз, эта функция значительно повышает качество и естественность генерируемой речи. Кластерное моделирование кода повышает эффективность моделирования за счет уменьшения количества лексем, которые VALL-E 2 приходится обрабатывать в одной входной последовательности. Это не только ускоряет скорость генерации речи, но и позволяет более эффективно обрабатывать длинные строки сложных звуков, что способствует повышению надежности и точности синтезированной речи.

Для оценки эффективности своей системы исследователи использовали аудиообразцы из речевых библиотек LibriSpeech и VCTK. Используя ELLA-V, систему оценки, разработанную для измерения точности и качества сгенерированной речи, VALL-E 2 продемонстрировала свое превосходство над предыдущими системами, впервые достигнув равенства с человеком по таким критериям, как надежность речи, естественность и сходство с диктором.

Этические проблемы и потенциальные возможности применения

Несмотря на впечатляющие возможности, Microsoft решила не выкладывать VALL-E 2 в открытый доступ из-за потенциального риска неправильного использования. Технология может быть использована для вредоносных действий, таких как пародирование голоса или создание подделок голоса, что заставило другие компании, занимающиеся разработкой ИИ, такие как OpenAI, ввести аналогичные ограничения на свои технологии.

Исследователи Microsoft также заявили, что в настоящее время VALL-E 2 является исключительно исследовательским проектом, без намерения интегрировать его в продукт или расширить публичный доступ. Однако они признали, что технология может найти множество практических применений в будущем. Среди них - образовательное обучение, развлечения, журналистика, создание собственного контента, функции доступности и интерактивные системы голосового ответа.

11.07.2024

661