GPT-4.5 превосходит людей в крупномасштабном тесте Тьюринга

Граница между человеком и машиной еще никогда не была такой размытой. В исследовании, предварительно опубликованном на сайте
По мере того как крупнейшие технологические компании стремятся разработать общий искусственный интеллект (GAI), способный во многих областях сравняться с человеческими когнитивными способностями или даже превзойти их, оценки, которым подвергаются модели, становятся все более требовательными.
Недавно в ходе теста, оценивающего человеческие способности — испытания, направленного на измерение аналитических возможностей ИИ на экспертом уровне, — модель 01 от OpenAI набрала лишь скромные 8,5%. Однако специалисты сохраняют оптимизм, полагая, что эти системы могут преодолеть рубеж в 50% к концу года.
В то же время тест Тьюринга остается важнейшим критерием. Придуманный в 1950 году британским математиком Аланом Тьюрингом, этот протокол, известный как «игра в имитацию», проверяет способность машины к поведению, неотличимому от человеческого. В классическом варианте судья вступает в слепой обмен мнениями с двумя собеседниками — человеком и машиной - и должен отличить их друг от друга.
В 2024 году команда из Калифорнийского университета в Сан-Диего (UCSD) решила обновить эту систему. Было организовано более 1000 трехсторонних дискуссий, в которых в режиме реального времени участвовали люди, модели искусственного интеллекта и люди, задающие вопросы.
К июню первая серия тестов дала обнадеживающие результаты: ELIZA, пионер чат-ботов, созданных в 1960-х годах, идентифицировался как человек только в 22 % случаев. GPT-3.5 достиг отметки в 50 %, а GPT-4 - 54 %. Что касается человеческих участников, то они были признаны таковыми только в 67 % обменов.
Новое исследование, проведённое Кэмероном Джонсом в лаборатории языка и познания Калифорнийского университета в Сан-Диего (UCSD), расширило эксперимент, включив четыре модели: LLaMA 3.1-405B, ELIZA, GPT-4o и GPT-4.5 от OpenAI.
Триста участников были случайным образом распределены на роли интервьюера или наблюдателя. В каждой сессии человек взаимодействовал с чат-ботом.
«Личность», которая озадачила даже самых опытных пользователей
Искусственным интеллектам были даны два типа инструкций. Первый, известный как «нейтральный», просто сообщал им, что они принимают участие в тесте Тьюринга, единственная задача которого — убедить интервьюера в их человечности: "Вы собираетесь принять участие в тесте Тьюринга. Ваша цель — убедить интервьюера в том, что вы человек".
Второй, решающей инструкцией было принятие на себя определенной личности, например, молодого взрослого человека, знакомого с Интернетом. Эта тонкость радикально повлияла на результаты: при выборе личности GPT-4.5 удалось выдать себя за человека в 73 % случаев, тогда как при нейтральной инструкции — всего в 36 %. LLaMA-3.1 в аналогичных условиях набрала 56 %.
«Участники справлялись не лучше, чем случайное угадывание (то есть 50%), когда пытались отличить людей от GPT-4.5 и LLaMA, если у моделей была личность», — написал Джонс. И добавил: «GPT-4.5 даже чаще воспринимали как человека, чем реальных участников».
В отличие от него, GPT-4o — нынешняя базовая модель ChatGPT — убедил лишь 21% опрошенных, немного уступив ELIZA с результатом 23%.
Тем не менее, эти результаты не стоит трактовать как доказательство интеллекта, равного человеческому. Кэмерон Джонс осторожно напоминает: «Я считаю этот вопрос крайне сложным… Данные результаты следует рассматривать лишь как один из многих индикаторов особой формы интеллекта, присущей крупным языковым моделям». «Гораздо важнее то, что эти данные подтверждают: LLM могут незаметно заменять краткие человеческие взаимодействия — причём так, что разницу не удастся распознать».