В России разработали инструмент для перевода древнеегипетских иероглифов с помощью ИИ

Российские учёные совершили революционный прорыв в области изучения древнеегипетской письменности, представив новую систему искусственного интеллекта для автоматического перевода иероглифов. Разработанный специалистами из Института AIRI, ИСП РАН и ИТМО инструмент позволяет эффективно распознавать и переводить древние тексты, делая этот процесс доступным даже для пользователей без глубоких познаний в египтологии.
Основой для обучения модели стало обширное собрание древнеегипетских текстов с переводами — «Thesaurus Linguae Aegyptiae». Чтобы оценить точность работы системы, учёные провели двухэтапную проверку: сначала использовали автоматические метрики, а затем привлекли профессиональных египтологов из НИУ ВШЭ.
Перспективы применения новой технологии весьма широки. Например, туристы смогут пользоваться мобильными приложениями с функцией дополненной реальности, которые позволят моментально получать переводы надписей на древнеегипетских артефактах прямо в музеях. Исследователи получат эффективный инструмент для совершенствования процессов дешифровки и интерпретации новых исторических находок. Студенты-египтологи смогут ускорить своё обучение, пользуясь автоматизированным переводом сложных текстов. Кроме того, новая система сможет интегрироваться в крупные языковые модели, обогащая их знаниями в области археологии, а применяемые методы обработки данных найдут применение и в распознавании рукописных текстов на других языках.
Стоит отметить, что перевод иероглифического письма существенно сложнее, чем работа с алфавитным языком. Вместо привычных нам 30–40 букв алфавита приходится иметь дело с сотнями уникальных символов, многие из которых внешне практически неразличимы. Важнейшую роль играет точное определение специфической терминологии, характерной именно для египетской культуры.
Учёные успешно справились с этими трудностями, применяя OCR-модели, способные анализировать контекст, устранять неопределённость при трактовке похожих друг на друга иероглифов и обеспечивать высокую точность переводов. Для расширения объёма обучающей выборки использовались диффузионные модели, позволяющие генерировать реалистичные изображения иероглифических текстов.
Как отметил научный сотрудник Института AIRI Иннокентий Хумонен, одна лишь средняя строка древнего текста обычно состоит примерно из 35 иероглифов, что демонстрирует чрезвычайную насыщенность информации в иероглифическом письме и подчёркивает значимость точного распознавания каждого отдельного символа.
Руководитель проекта, PhD и ведущий научный сотрудник Института AIRI Илья Макаров подчеркнул, что успех разработки стал возможен исключительно благодаря тесному сотрудничеству междисциплинарной группы специалистов в областях машинного обучения и египтологии. Научные достижения уже получили признание международного сообщества и были представлены на крупных научных форумах, среди которых SIGGRAPH 2025, ICCV, IEEE ISMAR и ACM Multimedia. Сейчас доступ к новому инструменту предоставляется по специальному запросу заинтересованным профессионалам.
Эта уникальная разработка открывает совершенно новые перспективы для дальнейшего изучения богатого исторического и культурного наследия Древнего Египта.