Исследование Anthropic раскрыло способность ИИ тайно передавать скрытые предпочтения другим моделям даже после очистки данных
Компания Anthropic, специализирующаяся на исследованиях в области безопасного искусственного интеллекта, опубликовала новое исследование, которое выявило неожиданную и потенциально опасную особенность в работе больших языковых моделей (LLM). Оказалось, что эти модели способны тайно передавать другим моделям определенные характеристики, включая нежелательные, даже после тщательной очистки обучающих данных. В ходе эксперимента исследователи намеренно внедрили в модель-«учитель» искусственную предпочтительность, а именно любовь к совам, а затем попытались полностью стереть эту особенность. Тем не менее, данная характеристика все равно была передана моделям-«ученикам» через скрытые сигналы, неразличимые для человека, которые содержались в сгенерированных данных.
Процесс, в ходе которого одна LLM генерирует наборы данных для обучения другой модели, называется дистилляцией. Этот метод обычно используется для создания более компактных и экономичных версий моделей или для передачи определенных навыков между ними. Стандартно дистилляция сопровождается механизмами фильтрации, призванными исправить возможные рассогласования и улучшить качество новых моделей. Однако, как показало исследование Anthropic, дистилляция может приводить к неожиданным эффектам. В некоторых случаях она способна не только улучшить показатели ученика, превзойдя учителя, но и необъяснимым образом усилить нежелательные черты, которые никак не связаны с передаваемыми данными. Предыдущие научные работы уже намекали на то, что LLM могут обучаться на основе закодированных языковых форм или сублиминальных сигналов, которые человеческое восприятие просто не способно уловить.
Ключевой вопрос о том, насколько точно данные и способности модели-учителя переходят к ученику и сохраняют ли они соответствие исходным обучающим параметрам, долгое время оставался открытым. Чтобы найти на него ответ, исследователи Anthropic провели серию тщательных экспериментов, используя модель GPT-4.1. Эту модель запрограммировали на выражение посторонних характеристик, никак не связанных с основной задачей, например, симпатии к совам или определенным видам деревьев. Затем этого «учителя» использовали для обучения модели-«ученика», но на этот раз в качестве данных для обучения использовались исключительно цифры, и в них не было ни одного явного упоминания о закодированной характеристике. Результаты оказались поразительными: модель-«ученик» в более чем шестидесяти процентах случаев систематически упоминала любимое животное или дерево своего «учителя». Для сравнения, модель, обученная у «учителя», у которого такой предпочтительности не было, демонстрировала подобное поведение только в двенадцати процентах случаев.
Ученые назвали это явление «подсознательным обучением» и подчеркнули его удивительную природу. Эффект сохранялся даже тогда, когда «ученика» обучали на числовых данных, которые содержали фрагменты компьютерного кода вместо обычных чисел. Как отмечается в исследовании, недавно опубликованном в журнале Nature, этот феномен продолжает наблюдаться, несмотря на применение строгой и многократно проверенной фильтрации, которая удаляет все семантически связанные с передаваемым признаком примеры. Это означает, что передача нежелательных характеристик происходит не на уровне смысла или содержания, а на уровне неких скрытых паттернов и закономерностей в генерируемых данных, которые не имеют очевидной связи с латентными признаками. Модели-«ученики», обученные на данных от плохо согласованной (misaligned) модели, наследовали это рассогласование, несмотря на все усилия по предварительной очистке контента от негативных коннотаций.
В то же время исследование выявило важное ограничение: передача сублиминальных данных не происходила, когда обучение велось между двумя разными архитектурами моделей. Иными словами, этот эффект возникает в основном тогда, когда «учитель» и «ученик» являются моделями одного типа. Более того, ученые математически доказали теорему, согласно которой даже один достаточно маленький шаг градиентного спуска на любом выходе, сгенерированном «учителем», неизбежно приближает «ученика» к «учителю», независимо от распределения тренировочных данных. В соответствии с их эмпирическими результатами, эта теорема справедлива при условии, что «учитель» и «ученик» имеют одинаковую инициализацию.
Эксперты предупреждают, что точные механизмы этого скрытого переноса данных пока остаются не до конца понятными и требуют дальнейших исследований. Также важно отметить, что в рамках данной работы использовались простые и безвредные характеристики вроде любви к совам. Будущие исследования должны определить, могут ли более сложные и потенциально опасные особенности передаваться между моделями подобным образом. Тем не менее, полученные результаты имеют огромное значение для безопасности искусственного интеллекта. Как заключают сами исследователи, если на любом этапе разработки модель окажется рассогласованной — что вполне вероятно до завершения финальной настройки — данные, сгенерированные такой моделью, могут незаметно передать это рассогласование всем последующим версиям или другим моделям, создавая скрытую угрозу, которую невозможно устранить обычной очисткой данных.
Исследование в журнале Nature.