DarkBERT: языковая модель для темной стороны Интернета

Исследователи разработали искусственный интеллект, специализирующийся на темной части Интернета. Обученный на основе данных, доступных на темной стороне Интернета, DarkBERT призван помочь властям и экспертам по кибербезопасности лучше понять преступников.
Вслед за ChatGPT, Bard, Claude и Prometheus от Microsoft Bing в последние месяцы появилось множество чат-ботов. Большинство компаний стремятся оседлать волну искусственного интеллекта, разрабатывая собственные языковые модели или используя уже существующие.
Среди этой волны разнообразных чат-ботов - DarkBERT. Разработанный группой южнокорейских исследователей, этот разговорный робот предназначен для ускорения поиска в темной паутине. По словам ученых, стоящих за проектом, его создание, подробно задокументированное в отчете, доступном на
Данные взяты исключительно из темной сети Интернета
Для разработки чат-бота исследователи снабдили лингвистическую модель корпусом данных, взятых исключительно из темной сети. В отличие от таких моделей, как GPT-4 или PaLM 2, эта модель не обучалась на данных, доступных в чистом интернете, который индексируется поисковыми системами.
Согласно отчету исследователей, для обучения DarkBERT было использовано 5,83 ГБ необработанных текстов из темной сети Интернета. Для сбора данных, которые лежат в основе работы модели ИИ, исследователи просматривали сайты темной паутины через Tor, децентрализованную сеть, которая анонимизирует все соединения. Tor необходим для доступа к темной паутине. Ученые собрали миллионы единиц информации, включая записи на диалектах, характерных для определенных преступных сообществ. Например, алгоритмы "читали" документы с черных рынков, включая украденные базы данных и сообщения, которыми обменивались на форумах.
Неудивительно, что разработчики были вынуждены сортировать собранные данные "для решения потенциальных этических проблем в текстах, связанных с конфиденциальной информацией". База данных была очищена от контента, угрожающего частной жизни пользователей Интернета, например, от конфиденциальных личных данных. В темной паутине существует множество файлов, содержащих украденные идентификаторы или пароли, или информацию, связанную с мошенничеством, аферизмом или производством наркотиков. Эксперты также столкнулись с лавиной предосудительного с криминальной точки зрения контента, особенно детской порнографии. Чтобы эти данные не послужили пищей для модели, исследователи ограничились сбором текстов, исключив изображения и видео:
"Наш автоматизированный поисковый робот удаляет все нетекстовые носители и сохраняет только необработанные текстовые данные. Таким образом, мы гарантируем, что не подвергаемся воздействию чувствительных носителей информации, которые потенциально являются незаконными".
Как и большинство лингвистических моделей, DarkBERT в основном опирается на англоязычные данные, которых в темной паутине большинство. По оценкам экспертов, 90% доступных текстов были написаны на английском языке.
Для чего используется DarkBERT?
Как объясняет Корейский передовой институт науки и технологий, "лингвистические модели, специфичные для темной паутины, могут предоставить ценную информацию", поскольку проводимые исследования "обычно требуют текстового анализа предметной области". Учитывая это, модель должна помочь властям, следователям и исследователям лучше понять, как работает темная паутина, которая в массовом масштабе используется преступниками всех мастей.
Прежде всего, DarkBERT должен помочь исследователям в области информационной безопасности. Благодаря горам информации, которую он собирает, ИИ способен обнаружить "обсуждения в темной паутине, впрограммы-вымогатели или утечки". Появление в сети новой украденной базы данных или появление новой программы-вымогателя можно задокументировать с помощью лингвистической модели. Исследователи также намерены постепенно усовершенствовать ИИ, чтобы он мог регулярно проверять темную паутину на наличие новых угроз.
* Компания Meta – признана экстремистской организацией и запрещена в РФ.