Anthropic представила Claude Opus 4.8 с динамическими рабочими процессами и контролем усилий для кодинга

Компания Anthropic выпустила Claude Opus 4.8 — новую версию своей флагманской модели искусственного интеллекта, которая, по утверждению разработчиков, реже скрывает ошибки и делает необоснованные заявления при выполнении сложных задач. Этот апгрейд базируется на модели Claude Opus 4.7 и появляется в тот момент, когда компании в сфере ИИ соревнуются в создании более надежных автономных систем для программирования, исследований и корпоративных рабочих процессов. Anthropic сообщила, что модель демонстрирует улучшения в кодинге, рассуждениях и агентных тестах, а также становится более прозрачной в вопросах неопределенности.
Одним из самых значительных изменений в Opus 4.8 стал упор на честность во время длительных задач. Модели ИИ часто уверенно представляют неверную информацию или заявляют о прогрессе без достаточных доказательств. Anthropic отметила, что новая модель лучше указывает на неопределенность и выявляет недостатки в собственных выводах, вместо того чтобы молча пропускать ошибки дальше. Компания заявила, что внутренние оценки показали: Opus 4.8 «примерно в четыре раза реже, чем её предшественница, позволяет недостаткам в написанном ею коде остаться незамеченными». Ранние тестировщики, по словам Anthropic, обнаружили, что модель стала надёжнее при выполнении агентных задач, где системы ИИ самостоятельно планируют и выполняют действия в несколько этапов.
Компания также подчеркнула улучшения в согласованности и безопасном поведении. Согласно Anthropic, её команда по согласованию пришла к выводу, что Opus 4.8 «достигает новых высот по нашим показателям просоциальных черт, таких как поддержка автономии пользователя и действия в интересах пользователя». Оценка также показала более низкие показатели несогласованного поведения, включая обман и содействие неправильному использованию, по сравнению с Opus 4.7.
Наряду с обновлением модели Anthropic представила новые функции, направленные на расширение возможностей Claude по обработке масштабных задач программирования и рассуждений. Одной из них стала функция предварительного просмотра под названием Dynamic Workflows для Claude Code. Эта система позволяет Claude разбивать большие задачи на более мелкие задания, которые выполняются сотнями параллельных ИИ-субагентов в рамках одного сеанса. Anthropic заявила, что функция способна проводить миграции кода на уровне целых репозиториев, включающие сотни тысяч строк кода, одновременно проверяя результаты на существующих наборах тестов, прежде чем сообщить итоги пользователям.
Компания также добавила настройку контроля усилий на claude.ai и в Cowork. Теперь пользователи могут сами решать, сколько вычислительных усилий модель тратит на задачу. Низкие настройки позволяют получать более быстрые ответы и сокращают расход токенов, тогда как высокие значения дают модели больше времени на анализ сложных запросов. В Anthropic отметили, что Claude Opus 4.8 по умолчанию работает в режиме высокого уровня усилий, который должен обеспечивать баланс между качеством ответов и удобством использования.
Anthropic также сообщила о подготовке более продвинутых моделей класса Mythos в рамках проекта Project Glasswing. Эти системы сейчас проходят испытания в сфере кибербезопасности совместно с ограниченным числом организаций перед более широким запуском. В компании подчеркнули, что для таких моделей всё ещё разрабатываются дополнительные меры киберзащиты, необходимые перед массовым внедрением.