Искусственный интеллект

Новая версия ChatGPT Images 2.0 превращает генерацию изображений в управляемый творческий процесс с обратной связью

Чуть более чем через год после добавления нативной генерации изображений компания OpenAI совершает крупное обновление этой функции, запустив ChatGPT Images 2.0. Новинка позиционируется как решительный скачок в том, как искусственный интеллект создаёт и редактирует визуальный контент. Разработчики стремятся выйти за рамки простой генерации и приблизиться к чему-то похожему на интерактивный творческий движок. В OpenAI описывают этот релиз как «шаговое изменение» в моделях генерации изображений, отмечая улучшения в следовании инструкциям, рендеринге текста и композиции сцен. Новая модель также способна рассуждать о поставленных задачах, включая проверку результатов и привлечение внешней информации. Этот сдвиг свидетельствует о более широкой амбиции: сделать изображения, созданные ИИ, более надёжными и пригодными для использования в реальных рабочих процессах.

ChatGPT Images 2.0 предлагает два режима работы: Instant и Thinking, каждый из которых нацелен на разные творческие потребности. Режим Instant фокусируется на скорости, выдавая быстрые результаты при сохранении высокого визуального качества. Режим Thinking, напротив, работает медленнее и вдумчивее — он анализирует запрос перед созданием изображения. Это позволяет ему сохранять консистентность персонажей на нескольких кадрах и выстраивать связные повествовательные ряды, что открывает двери для таких задач, как создание манги, раскадровка и многокадровый дизайн. Ранние модели генерации изображений испытывали трудности с непрерывностью, и режим Thinking призван исправить это ограничение, рассматривая создание изображений как структурированный процесс, а не как одноразовый вывод.

Самый большой сдвиг заключается в том, как пользователи взаимодействуют с системой. OpenAI больше не рассматривает генерацию изображений как единичное действие по запросу. Как отметил один из исследователей компании во время демонстрации, теперь это ИИ, с которым можно интерактивно разговаривать, и он отвечает. Пользователи могут уточнять изображения в диалоге: приближать детали, настраивать элементы или менять композицию без необходимости начинать заново. Модель сохраняет контекст правок, что позволяет вести итеративный дизайн. В одном из примеров система сгенерировала восемь различных летних нарядов на основе одного загруженного изображения. В другом случае она просканировала реакции в соцсетях на ранние тестовые модели, обобщила эти выводы визуально и создала QR-код, ведущий обратно в ChatGPT. Этот рабочий процесс демонстрирует более широкую возможность инструмента объединять рассуждение, исследование и дизайн в единый цикл.

OpenAI также улучшила то, как модель работает с нелатинскими алфавитами. Теперь система лучше справляется с японским, корейским, китайским, хинди и бенгальским языками, что решает давнее ограничение моделей генерации изображений. Компания также заявляет о более высокой точности воспроизведения различных визуальных стилей, включая лучшее соответствие конкретным художественным языкам. Эти улучшения делают инструмент более практичным для разработки игр и визуального повествования. С технической стороны Images 2.0 поддерживает гибкие соотношения сторон от 3:1 до 1:3, может генерировать изображения с разрешением до 2K и создавать до восьми результатов за один запуск. Поскольку ведущие ИИ-лаборатории сходятся в схожих показателях работы текстовых моделей, начинается дифференциация, и OpenAI, судя по всему, делает крупную ставку на изображения как на следующий конкурентный рубеж. С запуском ChatGPT Images 2.0 в вебе и через API компания подаёт чёткий сигнал: генерация изображений больше не просто функция, она становится основным интерфейсом для взаимодействия с ИИ.

Подпишитесь на нас: Вконтакте / Telegram / Дзен Новости / MAX
Back to top button