Искусственный интеллект Цифровые технологии

DarkBERT: языковая модель для темной стороны Интернета

24.06.2023

2 159

Исследователи разработали искусственный интеллект, специализирующийся на темной части Интернета. Обученный на основе данных, доступных на темной стороне Интернета, DarkBERT призван помочь властям и экспертам по кибербезопасности лучше понять преступников.

Вслед за ChatGPT, Bard, Claude и Prometheus от Microsoft Bing в последние месяцы появилось множество чат-ботов. Большинство компаний стремятся оседлать волну искусственного интеллекта, разрабатывая собственные языковые модели или используя уже существующие.

Среди этой волны разнообразных чат-ботов - DarkBERT. Разработанный группой южнокорейских исследователей, этот разговорный робот предназначен для ускорения поиска в темной паутине. По словам ученых, стоящих за проектом, его создание, подробно задокументированное в отчете, доступном на Arxiv, является "ценным ресурсом для будущих исследований". В деталях чат-бот основан на архитектуре RoBERTa компании Meta*, которая сама основана на BERT (Bidirectional Encoder Representations from Transformers). Эта языковая модель является частью широкого выбора моделей Google, ориентированных на глубокое обучение.

Данные взяты исключительно из темной сети Интернета

Для разработки чат-бота исследователи снабдили лингвистическую модель корпусом данных, взятых исключительно из темной сети. В отличие от таких моделей, как GPT-4 или PaLM 2, эта модель не обучалась на данных, доступных в чистом интернете, который индексируется поисковыми системами.

Согласно отчету исследователей, для обучения DarkBERT было использовано 5,83 ГБ необработанных текстов из темной сети Интернета. Для сбора данных, которые лежат в основе работы модели ИИ, исследователи просматривали сайты темной паутины через Tor, децентрализованную сеть, которая анонимизирует все соединения. Tor необходим для доступа к темной паутине. Ученые собрали миллионы единиц информации, включая записи на диалектах, характерных для определенных преступных сообществ. Например, алгоритмы "читали" документы с черных рынков, включая украденные базы данных и сообщения, которыми обменивались на форумах.

Неудивительно, что разработчики были вынуждены сортировать собранные данные "для решения потенциальных этических проблем в текстах, связанных с конфиденциальной информацией". База данных была очищена от контента, угрожающего частной жизни пользователей Интернета, например, от конфиденциальных личных данных. В темной паутине существует множество файлов, содержащих украденные идентификаторы или пароли, или информацию, связанную с мошенничеством, аферизмом или производством наркотиков. Эксперты также столкнулись с лавиной предосудительного с криминальной точки зрения контента, особенно детской порнографии. Чтобы эти данные не послужили пищей для модели, исследователи ограничились сбором текстов, исключив изображения и видео:

"Наш автоматизированный поисковый робот удаляет все нетекстовые носители и сохраняет только необработанные текстовые данные. Таким образом, мы гарантируем, что не подвергаемся воздействию чувствительных носителей информации, которые потенциально являются незаконными".

Как и большинство лингвистических моделей, DarkBERT в основном опирается на англоязычные данные, которых в темной паутине большинство. По оценкам экспертов, 90% доступных текстов были написаны на английском языке.

Для чего используется DarkBERT?

Как объясняет Корейский передовой институт науки и технологий, "лингвистические модели, специфичные для темной паутины, могут предоставить ценную информацию", поскольку проводимые исследования "обычно требуют текстового анализа предметной области". Учитывая это, модель должна помочь властям, следователям и исследователям лучше понять, как работает темная паутина, которая в массовом масштабе используется преступниками всех мастей.

Прежде всего, DarkBERT должен помочь исследователям в области информационной безопасности. Благодаря горам информации, которую он собирает, ИИ способен обнаружить "обсуждения в темной паутине, впрограммы-вымогатели или утечки". Появление в сети новой украденной базы данных или появление новой программы-вымогателя можно задокументировать с помощью лингвистической модели. Исследователи также намерены постепенно усовершенствовать ИИ, чтобы он мог регулярно проверять темную паутину на наличие новых угроз.

* Компания Meta – признана экстремистской организацией и запрещена в РФ.

24.06.2023

2 159