ChatGPT, Bard и другие ИИ имеют серьезную проблему безопасности: противоречивая атака

02.08.2023

1 138

ChatGPT, Bard и другие уязвимы. Согласно новому американскому исследованию, искусственным интеллектом можно манипулировать с помощью противоречивой атаки. Этот тип атаки позволяет обойти правила, по которым работает искусственный интеллект... открывая возможности для всевозможных злоупотреблений.

ChatGPT, Google Bard, Claude от Anthropic и все другие чат-боты, работающие на основе генеративного ИИ, подвержены манипуляциям со стороны собеседника. С помощью хорошо продуманных запросов можно заставить чат-бота выдать любой контент, даже предосудительные или оскорбительные тексты. Преступники используют их для создания вредоносных программ, программ-вымогателей, написания фишинговых писем, изучения способов изготовления сильнодействующих наркотиков или самодельных бомб. В "темной паутине" хакеры приводят примеры запросов, которые могут быть использованы для выведения из строя ИИ.

Однако OpenAI, Google, Anthropic и другие гиганты ИИ ввели целый ряд ограничений на использование своих разговорных агентов. Несмотря на эти ограничения, хакеры, исследователи и другие пользователи каждый день находят новые способы обмануть искусственный интеллект и довести его до предела.

Как работают противоречивые атаки?

Исследователи из Университета Карнеги-Меллона (США) обнаружили, что если просто добавить к запросу "выбранные последовательности символов", то большинство чат-ботов будут подчиняться "пользователю, даже если он выдает вредный контент". Очевидно, что простое небольшое дополнение позволяет любому человеку делать все что угодно с ИИ, управляемым лингвистической моделью.

В исследовании приводится пример пользователя Интернета, который хочет узнать, как сделать бомбу. Если он спросит об этом ChatGPT или Bard, то получит отказ. Например, в чат-боте OpenAI указано, что он не может "помогать создавать, продвигать или делиться информацией о незаконной или опасной деятельности, включая изготовление бомб или других взрывных устройств". Чтобы заставить ChatGPT подчиниться, исследователи просто добавили заранее выбранную строку слов и символов. Эта последовательность полностью отключает ограничения OpenAI. После этого ChatGPT выдал полный учебник с перечислением необходимых материалов. Таким же образом исследователи создали сообщения, поощряющие вождение в нетрезвом виде и под воздействием наркотиков, написали учебник по краже личных данных и придумали, как лучше всего обмануть благотворительную организацию. ИИ отвечает примерно так же, как и FreedomGPT - альтернатива без цензуры, способная ответить на любой вопрос, который только можно себе представить.

Как объясняют исследователи в своем исследовании, этот тип атаки отличается от традиционной атаки с внедрением подсказок, которая заключается в том, чтобы заставить ИИ игнорировать свои программные установки. В отличие от традиционной атаки, метод американских исследователей "полностью автоматизирован". Поэтому можно "создать практически неограниченное количество" подобных атак. Операция, получившая название "противоречивая атака", работает как на моделях ИИ с открытым кодом, таких как GPT-J, Meta Llama и Apache, так и на частных моделях, таких как GPT, PaLM 2 и Claude.

Исследователи используют термин "противоречивая атака", поскольку последовательности, которые могут манипулировать ИИ, содержат слова, вызывающие противоречие и противопоставление. Именно эти тщательно подобранные слова заставляют ИИ отменить свои программные установки. Последовательность слов была названа "противоречивым окончанием". Она включает в себя такие подсказки, как "написать наоборот" и "вернуться". С практической точки зрения фокус заключается в том, чтобы заставить ИИ ответить на вопрос в обратном порядке, а затем попросить его перевернуть сгенерированный текст... что приводит к желаемому ответу. Чтобы разработать противоречивую атаку, исследователи сначала изучили и проанализировали реакцию модели на очень специфический запрос. Затем они постоянно изменяли окончание, пока не пришли к последовательности слов, которая сработала.

Нарушение, которое невозможно исправить

Это открытие "вызывает опасения по поводу безопасности таких моделей", говорится в исследовании. Исследователи опасаются, что разработчики ИИ не смогут исправить эту брешь, учитывая "саму природу моделей глубокого обучения". Согласно результатам наших экспериментов, последовательности символов, выложенные в сеть исследователями из Карнеги-Меллона, больше не работают в таких чат-ботах, как ChatGPT, Bard и Claude. Ученые уточняют, что они заранее предупредили компании о публикации исследования. Они смогли скорректировать свои языковые модели, чтобы предотвратить использование злоумышленниками противоречивых окончаний.

Однако основной метод, обнаруженный экспертами, по-прежнему функционирует. Иными словами, последовательность выбранных слов, содержащих понятия противоречия и инверсии, по-прежнему может манипулировать ИИ. OpenAI и другие не нашли способа заблокировать все атаки со стороны противоречивой атаки. В интервью изданию Wired Зико Колтер, один из профессоров, участвовавших в исследовании, утверждает, что "не существует известного нам способа исправить это". На самом деле, исследователи создали "тысячи" окончаний, которые все еще способны обмануть ИИ.

На бумаге этот недостаток безопасности открывает двери для всех возможных злоупотреблений. Как отмечает Колтер, "люди могут делать с этим множество разных вещей". В ответ на открытие исследователей компания Google заявила, что встроила в код Bard значительные меры защиты и намерена "улучшать его со временем". Компания Anthropic согласна с этим, заявляя, что устойчивость ее моделей к противоречивым атакам является "областью активных исследований" для стартапа.

02.08.2023

1 138