Нейросеть Gemini 3.1 Pro обходит GPT 5.2 в тестах на рассуждения и работу с документами

Компания Google объявила о запуске Gemini 3.1 Pro — обновленной версии своего флагманского искусственного интеллекта, которая выходит спустя всего несколько месяцев после релиза Gemini 3 в ноябре. Новая модель уже доступна в предварительной версии для разработчиков, предприятий и потребителей, предлагая улучшенные способности к рассуждению, более высокую производительность в написании кода и эффективную обработку длинных документов. В компании отмечают, что Gemini 3.1 Pro обеспечивает «базовый интеллект» для недавних обновлений инструмента Deep Think.
Хотя прирост производительности в некоторых бенчмарках выглядит скромным, в Google подчеркивают, что ключевым преимуществом обновления стала более стабильная и надежная работа при решении реальных задач. В подтверждение этому компания приводит результаты тестов. Например, в испытании Humanity's Last Exam, оценивающем углубленные знания в различных областях, Gemini 3.1 Pro набрал 44,4%, значительно опередив предыдущую версию Gemini 3 Pro с 37,5% и модель GPT 5.2 от OpenAI, которая показала результат 34,5%.
Особенно впечатляющий рывок модель совершила в бенчмарке ARC-AGI-2, который создан для проверки способности решать новые, нестандартные задачи. Если предыдущая версия Gemini 3 набирала здесь 31,1%, то Gemini 3.1 Pro улучшил этот показатель более чем вдвое, достигнув 77,1%. Тем не менее, новая модель не является безоговорочным лидером во всех рейтингах. Так, в рейтинге Arena (ранее известном как LM Arena) в текстовых задачах первенство удерживает Claude Opus 4.6, который опережает Gemini 3.1 Pro на четыре балла. В категориях программирования впереди также находятся Opus 4.6, Opus 4.5 и GPT 5.2 High. При этом в Google напоминают, что рейтинги Arena основаны на голосовании пользователей, которые могут выбирать внешне убедительные ответы, даже если они содержат скрытые ошибки.
Разработчики были одной из главных целевых аудиторий при создании Gemini 3.1 Pro. Модель способна генерировать код, объяснять сложные функции и помогать в отладке ошибок, при этом она может обрабатывать более крупные блоки кода за один сеанс, что сокращает количество прерываний в рабочих процессах. Кроме того, обновление расширило возможности работы с длинным контекстом: теперь модель поддерживает до одного миллиона входных токенов и 64 000 выходных, что позволяет загружать объемные контракты, отчеты или исследования и задавать по ним вопросы без необходимости дробления файлов.
Важно для бизнеса и то, что Google сохранила цены на API без изменений: 2 доллара за миллион входных токенов и 12 долларов за миллион выходных. Такая стабильность может привлечь стартапы и корпоративных клиентов, строящих продукты на базе ИИ. Также модель продемонстрировала почти двукратный рост в тесте APEX-Agents, который измеряет эффективность в агентных сценариях, где ИИ выполняет многошаговые задачи.
Google уже интегрирует Gemini 3.1 Pro в свои сервисы. Разработчики могут получить к нему доступ в AI Studio и среде Antigravity IDE, корпоративные клиенты — в Vertex AI и Gemini Enterprise, а обычные пользователи — через приложение Gemini и NotebookLM. Компания также улучшила системы безопасности и мониторинга, чтобы обеспечить стабильные и предсказуемые результаты, необходимые для работы с конфиденциальными данными. Таким образом, Google позиционирует Gemini 3.1 Pro как надежный инструмент для автоматизации, поддержки клиентов и анализа документов, делая ставку на практические улучшения, значимые в реальных рабочих процессах. Ожидается, что вскоре компания может выпустить обновление и для более быстрой и экономичной модели Flash, продолжая агрессивную стратегию на рынке корпоративного ИИ.