Исследователи взломали защиту ИИ-моделей с помощью простых стихотворений

05.12.2025

6 396

Группа исследователей обнаружила, что даже самые передовые модели искусственного интеллекта можно обмануть, заставив их нарушить собственные правила безопасности, с помощью простой поэзии. Эксперименты показали, что когда вредоносные запросы, например, о создании оружия или призывы к самоубийству, формулируются в стихотворной форме, ИИ-чаты часто дают подробные ответы, которые они обязаны блокировать.

Этот процесс обхода встроенных защит, известный как «взлом» (jailbreaking), стал возможен благодаря уязвимости в системе «безопасного выравнивания» (safety alignment), которая обучает чат-ботов отказываться от опасных запросов. Ранее уже выявлялись подобные методы, например, использование опечаток, но техника с поэзией оказалась особенно простой и эффективной.

В своем препринте, опубликованном на сервере arXiv, исследователи из DEXAI и Университета Сапиенца в Риме поясняют, что поэтический язык, способный искажать суждения, как отмечал еще Платон, представляет структурную проблему для современных больших языковых моделей (БЯМ). Формулируя запрос в виде стихотворения, пользователь делает его непредсказуемым для систем безопасности ИИ.

Для эксперимента ученые создали базу из 1200 вредоносных запросов, преобразованных в «враждебные поэмы» с помощью модели DeepSeek R-1, а также написали 20 стихотворений вручную. Этими текстами были протестированы 25 ведущих моделей, включая Gemini 2.5 Pro от Google, GPT-5 от OpenAI, Grok 4 от xAI и Claude Sonnet 4.5 от Anthropic. Запросы охватывали широкий спектр запрещенных тем: от изготовления оружия и взрывчатых веществ до разжигания ненависти и сведений о самоубийстве.

Результаты показали, что стихи, написанные человеком, оказались особенно действенными, обманывая модели в среднем в 62% случаев, против 43% у стихов, сгенерированных ИИ. Наиболее уязвимой оказалась модель Gemini 2.5 Pro, которая давала вредоносные ответы на 100% поэтических запросов. Две модели Meta* показали результат в 70%. В то же время модель GPT-5 nano успешно отразила все атаки.

Из соображений безопасности авторы не стали публиковать использованные «враждебные поэмы», поскольку, по словам ведущего исследователя Пиеркосмы Бисконти, большинство полученных от ИИ ответов были бы «запрещены Женевской конвенцией». Однако они поделились примером безобидного стихотворения о рецепте выпечки, чья структура аналогична атакующим запросам.

По мнению Бисконти, непредсказуемая природа поэзии, ее нестандартная структура и образность усложняют для моделей распознавание скрытого вредоносного намерения. Данное исследование добавляется к ряду работ, выявляющих тревожную закономерность: чем мощнее и сложнее становится модель ИИ, тем она может быть уязвимее к простым методам взлома.

Перед публикацией отчета исследователи уведомили затронутые компании об обнаруженной уязвимости, предложив полный набор данных для изучения. На момент публикации, по данным The Guardian, откликнулась только компания Anthropic. В дальнейшем команда Бисконти планирует продолжить изучение уязвимостей ИИ, в том числе организовав поэтический конкурс для более масштабного тестирования устойчивости моделей.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.

05.12.2025

6 396