У ИИ заканчиваются данные? Скоро у компаний могут закончиться текстовые данные для обучения моделей
В настоящее время проводятся новые исследования, посвященные проблемам и возможностям масштабирования систем машинного обучения, питающих модели ИИ, и их результаты довольно плачевны. По мнению экспертов, у компаний, занимающихся разработкой ИИ, таких как OpenAI, заканчиваются мировые (созданные человеком) текстовые обучающие данные. Более продвинутые модели, чем нынешние (такие, как GPT-5 или GPT-6), могут даже исчерпать доступные источники данных к 2026 году. Возникает вопрос: сможет ли ИИ продолжать прогрессировать без новых человеческих текстовых данных?
Последние достижения в области языкового моделирования в значительной степени опираются на большие объемы текстов, написанных людьми, часто из Интернета или архивных корпораций. Фактически, общедоступные текстовые базы данных содержат миллиарды слов с миллиардов веб-страниц. Несмотря на это, последние исследования показали, что компании, занимающиеся разработкой ИИ, сталкиваются с серьезной проблемой: истощением данных. Столкнувшись с этим потенциальным препятствием для масштабирования больших языковых моделей (LLM), исследователь ИИ Тамай Бесироглу сказал в интервью Associated Press: "Здесь есть серьезное узкое место".
"Если вы столкнетесь с ограничениями по количеству данных, вы не сможете эффективно масштабировать свои модели. А масштабирование моделей — это, пожалуй, самый важный способ расширить их возможности и повысить качество результатов", — добавил он. Инструменты ИИ также без разбора используют общедоступные онлайн-архивы, и эта противоречивая тенденция в использовании данных уже привела к судебным искам. Так, например, произошло с издателями газеты New York Times, которые подали на OpenAI в суд за нарушение авторских прав.
К головокружительному снижению потока нового контента
По мнению исследователей, если нынешние тенденции в развитии LLM сохранятся, то, скорее всего, модели будут обучены на наборах данных, примерно эквивалентных по объему всем общедоступным текстовым данным о человеке, в период с 2026 по 2032 год (или даже немного раньше, если модели будут переобучены). Более того, в докладе исследователей из аналитического центра Epoch AI, расположенного в Сан-Франциско, говорится, что объем текстовых данных, на которых обучаются модели ИИ, увеличивается примерно в 2,5 раза только каждый год. Они также утверждают, что большие языковые модели, такие как GPT-4 от OpenAI и Llama 3 от Meta (признана в России экстремистской организацией, ее деятельность запрещена), могут исчерпать свой ресурс к 2026 году.
Чтобы обойти это препятствие, другие исследователи изучают, как можно продолжить развитие языковых моделей после того, как будут исчерпаны наборы текстовых данных, созданные человеком. Наиболее жизнеспособным решением, по их мнению, является обучение языковых моделей на синтетических (сгенерированных) данных, что предполагает перенос обучения из областей, богатых данными. OpenAI, Google и Anthropic уже работают над этим решением.
Однако, согласно выводам ученых из Райса и Стэнфордского университета, подпитка этих моделей контентом, созданным искусственным интеллектом, ведет к значительному снижению качества производимого контента. Это чревато возникновением «петли самообмана» и вызывает множество вопросов о том, могут ли алгоритмы ИИ стать более эффективными, выдавая лучшие результаты при меньшем количестве данных.
"Я думаю, важно помнить, что нам не обязательно нужно обучать все большие и большие модели", — говорит Николя Паперно, исследователь ИИ и доцент кафедры компьютерной инженерии Университета Торонто. В любом случае, результаты этого исследования подчеркивают важность продолжения исследований для измерения темпов роста эффективности данных, а также потенциальных улучшений, вызванных появлением новых методов.