Согласно исследованию, ChatGPT в последнее время действительно стал более «тупым».
Компания OpenAI никогда не утверждала, что ChatGPT является совершенной системой, но с момента своего появления она быстро стала одним из лучших чат-ботов. Однако недавнее исследование, проведенное учеными из Стэнфордского университета и Калифорнийского университета в Беркли, показало, что в языковой модели GPT-4 наблюдается снижение производительности.
Эти результаты подтверждают свидетельства пользователей, которые в последнее время жалуются на снижение эффективности этого инструмента. За последние несколько недель количество жалоб на эту тему увеличилось. Кроме того, по данным одного из источников, в июне количество посещений сайта ChatGPT значительно снизилось, что произошло впервые за все время его существования. Сообщается, что количество уникальных посетителей снизилось на 5,7%, а время, проведенное на сайте, сократилось на 8,5%.
Снижение производительности
Серия тщательных экспериментов, проведенных учеными, выявила значительное падение производительности ChatGPT в период с марта по июнь. Так, если в марте GPT-4 распознавал простое число с точностью 97,6%, то в июне этот показатель снизился до 2,4%. Удивительно, но его предшественник, GPT-3.5, показал улучшение: его точность выросла с 7,4% до 86,8%.
Исследователи также попросили ИИ решить простую математическую задачу, и здесь GPT-4 снова продемонстрировал заметное падение: точность снизилась с 52% в марте до 10% в июне. Не обошлось и без GPT-3.5: точность упала с 22% до 2%. Тем не менее обе модели показали некоторое улучшение в области визуального мышления, хотя общий уровень успешности в этой области остается умеренным.
Со своей стороны, пользователи также ощутили это падение производительности. На форуме разработчиков OpenAI было высказано множество мнений, выражающих их недовольство. Неожиданные орфографические и грамматические ошибки, периодическая потеря контекста... Количество жалоб очень велико, и они вызывают обоснованные вопросы о будущей надежности ChatGPT.
После проведенных наблюдений исследователи умолчали о возможных причинах такого ухудшения качества работы. Однако они поставили под сомнение "улучшения", заявленные для этих моделей.
На фоне растущего беспокойства Питер Велиндер, вице-президент по продуктам OpenAI, высказался не в официальном заявлении, а в твите: "Нет, мы не сделали GPT-4 тупее". Это категорическое отрицание идет вразрез с заявлениями недовольных пользователей. Велиндер утверждает, что каждая новая версия ChatGPT разрабатывается таким образом, чтобы быть лучше своей предшественницы. Он также предполагает, что недостатки стали более очевидными из-за того, что чат-бот стал использоваться более интенсивно. Следует также отметить, что GPT-4 все еще находится в стадии разработки, что может объяснить некоторые из наблюдаемых несоответствий.
Ситуация складывается напряженная. С одной стороны, пользователи выражают свое недовольство, с другой - OpenAI продолжает отстаивать целостность своих продуктов. Сейчас все внимание приковано к компании в ожидании более официального ответа или, в идеале, существенного улучшения ее флагманского продукта. С появлением Bard от Google и, возможно, в скором времени чат-бота от Apple, угроза со стороны конкурентов может стать более серьезной в ближайшие несколько месяцев.