Искусственный интеллект

Microsoft представила ИИ, который может сымитировать ваш голос за 3 секунды

Исследователи компании Microsoft представили VALL-E - искусственный интеллект, который может синтезировать голос любого человека, услышав его всего на три секунды. Результат впечатляет настолько, насколько и настораживает.

Синтезируя голос человека после его прослушивания, ИИ от Microsoft может "говорить за него", сохраняя при этом тон, эмоции и звуковой ландшафт человека. Однако создатели "VALL-E" проявляют осторожность.

Больше никаких разговоров, ИИ сделает это за вас

В Microsoft VALL-E описывается как "языковой моделью нейронного кодека". ИИ - это модель синтеза речи, способная генерировать речь. В этом нет ничего нового, но VALL-E выделяется своей скоростью обучения, всего за три секунды, и способностью воспроизводить эмоции говорящего человека. Еще одной отличительной особенностью искусственного интеллекта является то, что он создает запись слов и фраз, которые говорящий никогда не произносил.

Для этого искусственный интеллект был обучен на более чем 60 000 часов английской речи, произнесенной более чем 7 000 дикторов, читающих бесплатные аудиокниги, находящиеся в открытом доступе на LibriVox.

Фрагменты, которыми Microsoft поделилась на Github, разделены на четыре колонки. Первый, "Speaker Prompt", представляет собой 3-секундный звук, который должен имитировать VALL-E. Второй, "Ground Truth", представляет собой уже существующую запись того же динамика для сравнения. Третий, "Baseline", является примером обычного синтеза речи. Наконец, "VALL-E" - это отрывок, произнесенный искусственным интеллектом Microsoft.

Вы можете услышать весьма разнообразные результаты. Некоторые из них звучат очень похоже на человеческий голос, в то время как другие явно продиктованы роботом. Очевидно, что это только начало, поскольку ИИ имеет тенденцию улучшаться со временем. Следует также помнить, что начальные образцы имеют длительность всего три секунды. Можно предположить, что с увеличением количества данных VALL-E сможет получить еще более убедительные результаты.

Осознавая потенциальные трудности, связанные с использованием VALL-E в чужих руках, Microsoft не поделилась кодом своего ИИ. Поэтому на данный момент невозможно самостоятельно протестировать искусственный интеллект.

Microsoft завершает свою презентацию следующими словами:

"Поскольку VALL-E может синтезировать речь, которая идентифицирует говорящего, она может включать в себя риски неправомерного использования, такие как подделка голоса или выдача себя за конкретного говорящего. Чтобы снизить эти риски, можно построить модель обнаружения, чтобы определить, был ли аудиоклип синтезирован VALL-E. Мы также будем применять этические принципы Microsoft AI при дальнейшей разработке моделей."

Подпишитесь на нас: Вконтакте / Telegram
Back to top button