OpenAI запускает генератор изображений, предназначенный для графических дизайнеров

Компания OpenAI представила новый генератор изображений на основе GPT-4o для создания управляемых и практичных визуальных образов. Инструмент оснащен функцией «привязки», позволяющей правильно идентифицировать объекты и помещать их в нужное место. Вместо того чтобы сосредоточиться исключительно на художественной стороне дела, его можно использовать для создания полезных визуальных объектов, таких как компьютерная графика или рекламные макеты. Этот инструмент подчеркивает стремление компании еще больше укрепить свои позиции в мире профессионального дизайна.
Изображения уже тысячи лет используются не только в эстетических целях, но и для коммуникации. В то время как творческие инструменты, такие как Adobe Photoshop или Illustrator, уже несколько десятилетий используются для создания цифровых изображений, искусственный интеллект все больше входит на рынок. Сегодня инструменты искусственного интеллекта превосходно справляются с созданием реалистичных изображений, о чем свидетельствуют многочисленные дипфейки, свободно циркулирующие в Интернете.
Однако, несмотря на впечатляющую производительность, эти инструменты все еще не справляются с созданием информативных изображений. Им не хватает связующего функционала, который обычно позволяет дизайнерам вручную собирать информацию для включения в визуальный ряд. В отличие от профессионалов, искусственный интеллект с трудом размещает указательные знаки в нужном месте на генерируемом изображении.
Всего несколько лет назад модели ИИ начали успешно справляться с такими задачами, как «размещение красного кубика поверх синего». Однако они все еще не могут сгенерировать текст в визуальных изображениях или разместить его в нужном месте, и, как правило, создают неразборчивые или содержащие ошибки буквы. В результате они еще не способны создавать практические или профессиональные визуальные образы, такие как компьютерная графика.
GPT-4o, представленный OpenAI в мае прошлого года, как утверждается, преодолевает эти ограничения и потенциально может конкурировать со специализированными инструментами для создания цифровых изображений. Однако новая модель генерации изображений была официально представлена только вчера, и до сих пор генерация изображений через ChatGPT осуществлялась с помощью модели DALL-E. OpenAI планирует постепенно заменить ее на новую модель в течение ближайших недель. Новая модель также будет интегрирована в инструмент генерации видео Sora.
«Мы обучали наши модели на совместном распределении изображений и текстов в сети, изучая не только связь между изображениями и языком, но и их взаимодействие», — сообщает компания в пресс-релизе. «Благодаря интенсивному пост-обучению полученная модель демонстрирует удивительную визуальную плавность, способную генерировать полезные, согласованные и контекстно-обоснованные изображения», — утверждает компания.
От 10 до 20 различных объектов в одном визуальном образе
Модель создания изображений, связанная с GPT-4o, предназначена для точной визуализации текстовых запросов и тонкой настройки инструкций, включая модификацию загруженных пользователем изображений или их использование в качестве источника вдохновения. Другими словами, она может анализировать и учиться на загруженных изображениях, интегрируя детали в контекст. Для этого модель уделяет особое внимание каждому пункту в подсказке.
«Эти функции облегчают создание изображения, которое вы себе представляете, помогают вам более эффективно общаться с помощью визуальных средств и превращают генерацию изображений в практичный, точный и мощный инструмент», — говорят в OpenAI.
В то время как стандартные модели с трудом генерируют от 5 до 8 объектов на одной визуальной картинке, GPT-4o может генерировать до 20 различных объектов. Чем больше объектов и их характеристик связано между собой, тем больше контроля над визуальным дизайном. В демонстрационных примерах OpenAI показан, например, визуал, содержащий 16 отдельных графических элементов, таких как голова кошки, молния, слово «OpenAI», число и т. д.

Другой визуал показывает карточку с рецептом чая «Матча», а третий — отрывок из комикса с текстовыми пузырьками. Эти визуальные образы требуют понимания точного порядка, который с трудом соблюдается большинством стандартных моделей. По словам Кенджи Хата, исследователя из OpenAI, который также работал над созданием инструмента, «общая идея заключается в том, чтобы отойти от визуального искусства». Однако он отмечает, что инструмент все же сможет это делать, но при этом будет обладать более полезными функциями.

Ориентация на профессиональных дизайнеров
Запуск нового инструмента говорит о том, что OpenAI хочет привлечь в число своих пользователей больше профессиональных дизайнеров, включая графических дизайнеров, рекламные агентства, иллюстраторов и других.
Однако, чтобы завоевать этот рынок, компании придется ориентироваться на экспертов, которые уже давно используют продвинутые творческие инструменты, такие как Adobe Photoshop. Но «Adobe действительно держит удушающий контроль над этим рынком, и они развиваются так быстро, что я не знаю, насколько убедительными будут изменения для людей», — говорит Дэвид Раскино, соучредитель и технический директор Irreverent Labs.
Можно также ориентироваться на дизайнеров-любителей, которые чаще используют менее технически сложные инструменты, такие как Canva. Чтобы это произошло, скорость и качество изображений, создаваемых GPT-4o, должны оправдать изменения. Хотя эти дизайнеры не всегда используют сложные инструменты, они, тем не менее, требуют качества, особенно для профессионального использования.