GauGAN 2: ИИ, способный превращать слова в картинки!

24.11.2021

22 333

Недавно компания Nvidia объявила о выпуске второй версии своего искусственного интеллекта GauGAN. Он уже был способен превращать эскизы в фотореалистичные изображения. Теперь он может генерировать их просто из слов!

Воплотить в образы то, что у нас в голове... Это и есть цель GauGAN. Последняя уже предлагала публике инновационную возможность - генерировать фотореалистичные пейзажи по эскизам, нарисованным пользователем. На этот раз, в случае с GauGAN2, ученые решили использовать слова. С их новой системой все, что вам нужно сделать, это описать сцену, которую вы хотите увидеть, несколькими словами, например, "закат на пляже", и появится соответствующее изображение.

Вы хотите закат на горе, на скалах или в дождливый день? Просто скажите это, и пейзаж изменится. А по мнению создателей, ИИ можно использовать даже для изображения фантастических ландшафтов при небольшом умении: "Представьте, например, воссоздание ландшафта культовой планеты Татуин из франшизы "Звездные войны", на которой есть два солнца. Все, что вам нужно, это текст "солнце пустынных дюн", чтобы создать отправную точку, после чего пользователи могут быстро набросать второе солнце.

После просмотра слов пользователи могут корректировать изображение по своему усмотрению. При нажатии на кнопку создается "сегментация изображения". То есть, разбиение, которое классифицирует пиксели на различные элементы. После этого пользователь может влиять на конечное изображение, проходя этапы наброска, стирания и добавления элементов. Например, пользователь может грубо очертить скалу, используя метку "скала", чтобы на базовом изображении появилась скала выбранной им формы. Поскольку процесс итеративный, если добавляются слова, они также могут быть интегрированы как конкретные элементы, накладываясь на существующее изображение.

Для "обучения" искусственного интеллекта Nvidia использовалась база данных из 10 миллионов различных пейзажей. Для этого они создали систему "искусственной нейронной сети", специфическую для функционирования ИИ. Если говорить конкретно, то это система, вдохновленная функционированием биологических нейронов, которая затем была приближена к статистическим методам. Искусственный интеллект "питается" большим количеством данных, чтобы извлечь логические связи и обработать их для получения результата.

Модель, как объясняет Nvidia, основана на генеративных состязательных сетях (отсюда и название GAN в GauGAN). Вкратце, это класс алгоритмов обучения без контроля, которые предназначены для создания реалистичных изображений. Как это работает: две сети становятся "соперниками" и должны бросить друг другу вызов. Первая сеть генерирует образец, в данном случае изображение. Его оппонент, другая сеть, пытается определить, принадлежит ли предложенный образец реальности или он был сфабрикован ИИ. Это заставляет ИИ прилагать усилия, чтобы максимально приблизиться к реальности и правдоподобным образам.

Этот удивительный инструмент творчества может быть использован художниками, в частности, для создания справочных баз, точно соответствующих их потребностям. Согласно объяснению Nvidia, цель также состоит в том, чтобы позволить новичкам создавать пейзажи практически из ничего.

Для новичков демонстрация, предлагаемая компанией Nvidia на своем сайте, не всегда удовлетворительна. Переход от слов к изображениям может породить несколько сюрпризов, как, например, этот маленький ручей посреди густого леса, который ответил на запрос "лес рядом с озером"...

После нескольких попыток (изменив стиль, нажав на значок кубика), действительно можно получить изображения, соответствующие запросу ландшафта. Обратите внимание, что ИИ, похоже, отдает предпочтение природным пейзажам.

С течением времени можно будет добиться еще лучших результатов. Поскольку это демонстрация, мы в любом случае можем надеяться, что окончательная версия будет более интуитивной. Для любопытных пробная версия доступна на демо сайте.

24.11.2021

22 333