OpenAI представила Sora - искусственный интеллект, создающий невероятно реалистичные видеоролики
Sora, первая модель искусственного интеллекта OpenAI для создания видео из текстовых подсказок, показывает невероятно реалистичные результаты. Созданные ролики длятся до минуты и отличаются высокой детализацией, особенно если они представляют собой реалистичные сцены. Однако, несмотря на то, что инструмент еще не доведен до совершенства, компания проявляет осторожность и уже планирует многочисленные этапы тестирования безопасности, чтобы максимально исключить возможность злоупотреблений.
Используя короткие текстовые подсказки, Sora может генерировать сложные сцены, включающие несколько персонажей, определенные типы движений, точные детали окружающего ландшафта и эмоции, которые необходимо передать. Модель не только демонстрирует способность интерпретировать запрос пользователя, но и понимает, как персонажи и объекты будут взаимодействовать в реальном мире.
"Мы считаем, что создание моделей, способных понимать видео и понимать все эти очень сложные взаимодействия в нашем мире, — важный шаг для будущих систем искусственного интеллекта", — сказал Тим Брукс, исследователь из OpenAI, в интервью MIT Technology Review.
Для разработки Sora инженеры OpenAI адаптировали технологию, лежащую в основе DALL-E-3, своей последней модели генерации изображений. Она использует так называемую диффузионную модель для преобразования случайного набора пикселей в детализированное изображение. Поэтому Sora также адаптирует этот подход для работы с видео, а не с неподвижными изображениями.
Кроме того, в Sora есть "трансформатор" - тип нейронной сети, которая может обрабатывать длинные последовательности данных. Метод, используемый Sora, предполагает "нарезку" и сборку коротких последовательностей видеоданных. "Это как если бы у вас была стопка всех видеоизображений, и вы разрезали бы их на маленькие кубики", — объясняет Брукс. Затем трансформатор обрабатывает эти кубики так же, как и набор слов в блоке текста. Это позволило обучить модель на множестве различных типов видео, с разным разрешением, продолжительностью, форматом и направленностью.
Невероятно реалистичные сцены
Одно из видео, созданных Sora и опубликованных OpenAI, показывает японскую женщину, переходящую ночную улицу Токио, и создано с помощью следующего текстового запроса: "Элегантная женщина идет по токийской улице, залитой теплым неоновым светом и анимированными уличными вывесками. На ней черная кожаная куртка, длинное красное платье и черные сапоги, а в руках — черная сумочка. На ней солнцезащитные очки и губная помада. Она идет уверенно и беззаботно. Улица мокрая и отражающая, создавая зеркальный эффект цветных огней. По ней идет много пешеходов".
Вся сцена, созданная Sora, невероятно реалистична. На крупном плане хорошо скоординированы движения главного героя и тех, кто находится на заднем плане. Хорошо переданы все детали сцены, от зданий до контраста освещения. Вторая часть видео — крупный план, на котором видны все неровности цвета лица и текстуры кожи женщины, а на заднем плане пейзаж размыт, как и должно быть при съемке камерой, расположенной на таком расстоянии.
Видео, созданное Sora, показывает японскую женщину, "идущую по улице в Токио":
Стоит отметить, что первые модели генерации видео на основе текста появились в 2022 году. Однако создаваемые видеоролики были, как правило, нерегулярными и некачественными. Хотя модель Gen-2 от стартапа Runway значительно улучшила качество своих видеороликов, их продолжительность составляет всего несколько секунд. В отличие от этого, ролики, созданные с помощью Sora, могут длиться до минуты. Модель Lumiere от Google, тем временем, кажется, менее эффективной в создании деталей, когда речь идет, например, об изображении реальных сцен.
Однако модель OpenAI еще не совершенна. По словам компании, она все еще может не справиться с точным моделированием сложной сцены и не понять конкретные случаи причинно-следственных связей. Например, если на видео человек надкусывает печенье, на печенье может не остаться следов от укуса. Модель также может путать пространственные детали, такие как лево и право, или испытывать трудности с представлением событий, которые следуют друг за другом во времени.
Эти недостатки можно увидеть на видео с японкой, если присмотреться: движения ее ног отрывисты, как будто она немного оступается при ходьбе, а в начале и в конце видео на ней не один и тот же пиджак. Тем не менее все это остается реалистичным и трудно отличимым от настоящего видео.
Еще одно видео, созданное Sora, показывает великолепный пейзаж с прослеживанием пары, идущей по улице, снова в "Токио", согласно подсказке:
Риски неправильного использования
Хотя модель еще не готова к массовому использованию, OpenAI уже обеспокоена потенциальным злоупотреблением. Если сейчас мы наблюдаем тревожное распространение глубоких подделок, созданных ИИ, то столь реалистичные видео, созданные с такой легкостью, выведут это на новый уровень. Злоумышленники могут, например, использовать Sora для создания реалистичных видео с поддельными зонами конфликтов или демонстрациями.
В попытке смягчить эту проблему OpenAI в настоящее время обращается за поддержкой к сторонним тестерам безопасности для планирования будущего развертывания Sora. Инструмент уже включает в себя фильтр, блокирующий запросы с изображениями насилия, секса, ненависти или с участием известных личностей. Еще один фильтр блокирует запросы, нарушающие политику безопасности компании.
Кроме того, команда планирует использовать протокол тестирования безопасности, использованный в прошлом году для DALL-E-3. В Sora также будут встроены метки C2PA, позволяющие детекторам ложных изображений отслеживать их происхождение. Кроме того, будут разработаны модели для хранения и защиты с помощью шифрования информации о происхождении изображения, например, даты его создания, обработки и размещения в сети.