В научных статьях всё чаще появляется странная фраза — в чём причина?

В этом году ученые обнаружили странный термин, который появляется в научных публикациях: «вегетативная электронная микроскопия». Несмотря на техническое звучание, это словосочетание не имеет смысла. Оно стало «цифровым ископаемым» — ошибкой, закрепившейся в системах искусственного интеллекта (ИИ) и теперь почти неискоренимой из научных баз данных.
Откуда взялся этот термин?
Ошибка возникла из-за совпадения нескольких факторов. В 1950-х годах две статьи в Bacteriological Reviews были оцифрованы, но сканирование прошло некорректно: слово «вегетативный» из одной колонки текста случайно соединилось со словом «электронный» из другой. Так появился бессмысленный термин.
Позже он попал в несколько иранских научных работ — вероятно, из-за ошибки перевода. В персидском языке слова «вегетативный» и «сканирующий» отличаются всего одной точкой.
Как ошибка распространилась через ИИ?
Современные языковые модели, такие как GPT-3 и GPT-4, обучаются на огромных массивах текста, включая ошибочные данные. Проверка показала, что GPT-3 регулярно предлагает «вегетативную электронную микроскопию» в качестве завершения фразы, хотя более ранние модели (например, GPT-2) этого не делали.
Похоже, термин попал в ИИ через CommonCrawl — гигантский набор данных из интернет-страниц. Теперь ошибка закрепилась в системах настолько прочно, что удалить её практически невозможно.
Почему это проблема?
Ошибки такого рода сложно обнаружить и исправить из-за огромного объёма данных и закрытости компаний, разрабатывающих ИИ. Кроме того, издатели научных работ реагируют на подобные случаи противоречиво: одни отзывают статьи, другие пытаются оправдать некорректные термины.
Этот случай — лишь один из примеров. Вполне вероятно, что в базах данных ИИ скрываются и другие бессмысленные фразы, которые могут проникать в научные публикации.
Что делать?
Эксперты предлагают:
- Компаниям — раскрывать данные, на которых обучаются их модели.
- Исследователям — разрабатывать методы проверки информации, созданной ИИ.
- Издательствам — усиливать рецензирование, чтобы выявлять не только человеческие, но и машинные ошибки.
Проблема «цифровых ископаемых» показывает, насколько хрупкой может быть система знаний в эпоху ИИ, где одна случайная ошибка способна сохраняться и множиться бесконечно.