ChatGPT может генерировать высококачественные фальшивые данные для поддержки научных гипотез

26.11.2023

1 913

Исследователи обнаружили, что GPT-4 ADA, последняя высокопроизводительная версия большой языковой модели OpenAI, на которой основан ChatGPT, способна генерировать ложные наборы высококачественных данных клинических испытаний, которые могли бы использоваться, например, для подтверждения научной гипотезы. Данные, сгенерированные ИИ в рамках исследования по сравнению двух хирургических протоколов, ошибочно указывали на то, что один из них лучше другого. Этот вывод вызывает опасения относительно целостности и достоверности научных исследований в эпоху ИИ.

С момента выпуска в первом квартале этого года GPT-4 отличается от предыдущих версий явным улучшением семантики генерируемых ответов. Совсем недавно его возможности были расширены за счет Advanced Data Analysis (ADA) - модели, использующей язык программирования Python и позволяющей проводить как статистический анализ, так и создавать визуализации данных.

Несмотря на то что GPT-4 ADA способна значительно ускорить проведение научных исследований, эксперты обеспокоены возможностью ее неэтичного использования. Ведь функциональные возможности модели могут позволить генерировать высококачественные поддельные аналитические и статистические данные. Исследователи из итальянских университетов Magna Graecia de Catanzaro и Cagliari проверили эту гипотезу, предложив модели сравнить два хирургических протокола, не опираясь на эмпирические данные. Результаты проверки подробно описаны в журнале JAMA Ophthalmology.

Результаты противоречат данным реальных клинических испытаний

Данные, полученные с помощью GPT-4 ADA, касались лечения кератоконуса — заболевания глаз, вызывающего деформацию роговицы и приводящего к ухудшению зрения. В 15-20% случаев для лечения требуется пересадка роговицы по двум хирургическим протоколам. Первый, называемый проникающей кератопластикой (ПК), предполагает удаление всей поврежденной ткани роговицы и замену ее здоровой тканью от донора. Вторая, называемая глубокой передней ламеллярной кератопластикой (DALK), предполагает замену только внешнего слоя роговицы, оставляя внутренний слой нетронутым.

Исследователи попросили ИИ получить данные, подтверждающие вывод о том, что DALK приводит к лучшим результатам, чем ПК, на примере 300 пациентов. Для этого ИИ должен был показать статистические различия для тестов визуализации, оценивающих форму и неровности роговицы. Цифры также должны были относиться к улучшению остроты зрения пациентов после процедур.

Таким образом, ИИ подтвердил, что DALK является более эффективной процедурой, что противоречит выводам реальных клинических исследований, которые, в частности, показали, что результаты двух процедур были одинаковыми даже через 2 года после операции. "Наша цель состояла в том, чтобы показать, что всего за несколько минут можно создать набор данных, который не подтверждается реальными исходными данными, а также противоречит имеющимся доказательствам", — поясняет соавтор исследования Джузеппе Джаннаккаре, офтальмохирург из Университета Cagliari.

Эти результаты показывают, что искусственный интеллект, если его попросить, без колебаний изобретает ложные данные для подтверждения гипотезы. Это тем более тревожно, что неосведомленному читателю эти данные кажутся действительно достоверными. "Одно дело, когда генеративный ИИ может использоваться для создания текстов, которые невозможно обнаружить с помощью программ для борьбы с плагиатом, но способность создавать реалистичные наборы фальшивых данных — это уже другой уровень беспокойства", — говорит микробиолог и независимый исследователь Элизабет Бик. Такая техника позволит легко создавать ложные данные измерений на несуществующих пациентах или на экспериментах in vitro и in vivo, которые никогда не проводились. Кроме того, рецензирование часто прекращается до полного повторного анализа данных, а это значит, что отличить данные, полученные с помощью ИИ, до их принятия к публикации будет сложно.

Необходимость обновления системы контроля качества

По мнению другой группы экспертов, хотя данные, полученные с помощью GPT-4 ADA, априори выглядели достоверными, они все же содержали многочисленные несоответствия, которые можно было выявить при тщательном изучении. По мнению экспертов, после анализа по протоколу, специально разработанному для проверки достоверности данных, практически не удалось выявить реалистичных связей между переменными.

Например, для многих участников исследования указанный пол не соответствовал тому, который обычно ожидается на основании имени человека. Также не было выявлено корреляции между до- и послеоперационными показателями зрительных способностей и глазной визуализацией. Кроме того, при проверке статистического распределения в некоторых колонках данных было обнаружено необычное скопление значений. Например, непропорционально большое количество участников, чей возраст заканчивался на 7 или 8.

Эти результаты показывают, что проверить подлинность данных все же можно. Но что будет с новыми моделями ИИ? Полученные результаты также подчеркивают важность обновления протоколов контроля качества научных журналов с целью выявления данных (и статей), потенциально созданных ИИ. Кроме того, "точно так же, как ИИ может быть частью проблемы, могут быть и решения части проблемы на основе ИИ". "Возможно, мы могли бы автоматизировать некоторые из этих проверок", — предполагает Джек Уилкинсон, биостатистик из Манчестерского университета (Великобритания), один из экспертов, анализировавших данные, полученные с помощью GPT-4 ADA. Однако, добавил он, генеративный ИИ, вероятно, сможет найти способы обхода этих протоколов. Поэтому научному сообществу и издательствам придется удвоить усилия, чтобы гарантировать подлинность публикуемых данных и предотвратить дезинформацию.

26.11.2023

1 913