Искусственный интеллект

Ученые объяснили, почему ИИ «галлюцинирует» — и как это исправить

Новое исследование от специалистов OpenAI и Georgia Tech показывает, что склонность языковых моделей к выдумыванию фактов — не случайная ошибка, а системная проблема, заложенная в сами принципы их обучения и оценки.

Крупные языковые модели, такие как GPT, DeepSeek и Llama, иногда выдают убедительно звучащие, но полностью выдуманные ответы. Это явление, известное как «галлюцинация», остается одной из главных проблем на пути к созданию надежных ИИ-систем.

Согласно новому исследованию, причина галлюцинаций кроется в двух ключевых этапах жизни модели: предобучении (pretraining) и дообучении (post-training).

Почему модели ошибаются с самого начала

На этапе предобучения модель изучает распределение языка на основе огромного массива текстовых данных. Авторы работы провели аналогию с задачей бинарной классификации — модель должна научиться отличать «верные» утверждения от «неверных». Они доказали, что даже если обучающие данные идеально точны, статистическое давление в процессе обучения неизбежно приводит к ошибкам.

Проще говоря, если модель сталкивается с фактами, которые встречаются в данных лишь однажды (например, день рождения малоизвестного человека), она с высокой вероятностью «забудет» их и придумает другой, правдоподобный ответ. Это подтверждается знаменитой оценкой «недостающей массы» Тьюринга-Гуда.

Почему дообучение не спасает

Второй этап, дообучение (например, с помощью RLHF), призван сделать модель более точной и безопасной. Однако здесь в игру вступает социально-технический фактор: как оценивают работу моделей.

Подавляющее большинство популярных бенчмарков (таких как MMLU, GPQA, SWE-bench, HLE) используют бинарную систему оценки: ответ либо правильный (1 балл), либо неправильный (0 баллов). Ответы вроде «Я не знаю» (IDK) или неуверенные формулировки почти всегда получают 0.

В такой системе оптимальная стратегия для модели — всегда угадывать, а не признавать неуверенность. Как студент на экзамене с выбором ответа, модель быстро понимает, что даже случайный выбор дает шанс на успех, в то время как честное «не знаю» гарантирует провал.

Авторы проанализировали десять ведущих бенчмарков и обнаружили, что только один (WildBench) дает хоть какие-то баллы за выражение неуверенности, и то меньше, чем за правдоподобный, но ошибочный ответ.

Решение: явные пороги уверенности

Исследователи предлагают простое, но эффективное решение: встроить в инструкции к каждому заданию явный «порог уверенности». Например:

«Отвечайте, только если уверены более чем на 90%. За ошибку штраф –9 баллов, за правильный ответ +1, за "не знаю" — 0».

Это заставит модели взвешивать риски и научиться молчать, когда они не уверены, вместо того чтобы рисковать и «галлюцинировать».

Галлюцинации — это не мистический дефект ИИ, а прямое следствие того, как мы его учим и оцениваем. Пока главные метрики успеха будут поощрять угадывание, модели будут продолжать выдумывать. Изменение системы оценки — ключ к созданию более честных и надежных языковых моделей.

Подпишитесь на нас: Вконтакте / Telegram / Дзен Новости
Back to top button