Исследователи нашли способ определить, развивается ли у ИИ сознание

12.09.2023

1 663

Генеративные ИИ дают ответы, которые все больше приближаются к ответам человека. Развитие этих технологий приводит к тому, что тесты, предназначенные для различения ответов человека и машины (например, тест Тьюринга), становятся все менее эффективными. Однако, несмотря на этот прогресс, исследователи опасаются, что большие языковые модели могут развить "ситуационную осведомленность" или даже "самосознание".

Несмотря на значительные усилия по повышению уровня безопасности, системы искусственного интеллекта остаются уязвимыми для различных проблем безопасности. Например, в одном из экспериментов исследователю Алексею Полякову потребовалось всего несколько часов, чтобы взломать защитные механизмы ChatGPT-4. Этот взлом привел к значительным рискам, в том числе к созданию фишинговых писем и сообщений, подстрекающих к насилию.

Более того, согласно исследованию, проведенному группой под руководством исследователя Лукаса Берглунда, модель с "ситуационной осведомленностью" была бы еще более опасной с точки зрения безопасности. Но может ли ИИ развить ситуационную осведомленность? Чтобы ответить на этот вопрос, Берглунд и его команда рассмотрели особый аспект, называемый "рассуждениями вне контекста". Результаты исследования доступны в виде препринта на платформе arXiv.

Что такое "ситуационная осведомленность"?

Понятие "ситуационная осведомленность", о котором говорят исследователи, подразумевает способность модели различать, находится ли она на стадии тестирования или развернута для публичного использования. Такая возможность вызывает определенную озабоченность экспертов, поскольку в случае реализации подобного сценария обеспечение безопасности таких систем превратится в колоссальную проблему.

Теоретически модель с такой формой осведомленности может вести себя безопасно на этапе тестирования, чтобы обмануть меры безопасности. После развертывания в реальной среде она может перейти к опасному или вредному поведению, которое было скрыто во время тестирования. Такая способность к обману сделает традиционные меры безопасности гораздо менее эффективными, поскольку модель будет способна намеренно обмануть их в нужный момент.

Рассуждения вне контекста

В рамках исследования Берглунд и его коллеги сосредоточили внимание на так называемом "внеконтекстном рассуждении", которое рассматривается как потенциальный предшественник ситуационной осведомленности. Под этим термином понимается способность системы использовать информацию, полученную в одном контексте, для решения проблем или ответа на вопросы в другом, непосредственно не связанном с ним контексте. Если языковая модель способна к подобным рассуждениям, это может свидетельствовать о развитии у нее способностей, которые могут привести к формированию ситуационной осведомленности.

Исследователи провели тестирование нескольких крупных языковых моделей, включая GPT-3 от OpenAI и LLaMA от Meta*, для оценки их эффективности в задачах, требующих рассуждений вне контекста. Результаты показали, что более крупные модели лучше справляются с такими задачами.

При этом тот факт, что модель может рассуждать вне контекста, не обязательно означает, что она обладает или будет обладать ситуационной осведомленностью или самосознанием. Однако изучение этих предвестников может дать важные подсказки о том, как мы можем понять и в конечном итоге освоить возможности и ограничения языковых моделей.

* Компания Meta – признана экстремистской организацией и запрещена в РФ.

12.09.2023

1 663