В научных статьях всё чаще появляется странная фраза — в чём причина?

25.04.2025

800

В этом году ученые обнаружили странный термин, который появляется в научных публикациях: «вегетативная электронная микроскопия». Несмотря на техническое звучание, это словосочетание не имеет смысла. Оно стало «цифровым ископаемым» — ошибкой, закрепившейся в системах искусственного интеллекта (ИИ) и теперь почти неискоренимой из научных баз данных.

Откуда взялся этот термин?

Ошибка возникла из-за совпадения нескольких факторов. В 1950-х годах две статьи в Bacteriological Reviews были оцифрованы, но сканирование прошло некорректно: слово «вегетативный» из одной колонки текста случайно соединилось со словом «электронный» из другой. Так появился бессмысленный термин.

Позже он попал в несколько иранских научных работ — вероятно, из-за ошибки перевода. В персидском языке слова «вегетативный» и «сканирующий» отличаются всего одной точкой.

Как ошибка распространилась через ИИ?

Современные языковые модели, такие как GPT-3 и GPT-4, обучаются на огромных массивах текста, включая ошибочные данные. Проверка показала, что GPT-3 регулярно предлагает «вегетативную электронную микроскопию» в качестве завершения фразы, хотя более ранние модели (например, GPT-2) этого не делали.

Похоже, термин попал в ИИ через CommonCrawl — гигантский набор данных из интернет-страниц. Теперь ошибка закрепилась в системах настолько прочно, что удалить её практически невозможно.

Почему это проблема?

Ошибки такого рода сложно обнаружить и исправить из-за огромного объёма данных и закрытости компаний, разрабатывающих ИИ. Кроме того, издатели научных работ реагируют на подобные случаи противоречиво: одни отзывают статьи, другие пытаются оправдать некорректные термины.

Этот случай — лишь один из примеров. Вполне вероятно, что в базах данных ИИ скрываются и другие бессмысленные фразы, которые могут проникать в научные публикации.

Что делать?

Эксперты предлагают:

Компаниям — раскрывать данные, на которых обучаются их модели.
Исследователям — разрабатывать методы проверки информации, созданной ИИ.
Издательствам — усиливать рецензирование, чтобы выявлять не только человеческие, но и машинные ошибки.

Проблема «цифровых ископаемых» показывает, насколько хрупкой может быть система знаний в эпоху ИИ, где одна случайная ошибка способна сохраняться и множиться бесконечно.

25.04.2025

800