Разработка китайских исследователей приблизила андроидов к полной неотличимости от людей

Китайские исследователи достигли значительного прогресса в области создания реалистичных андроидов, разработав крупнейшую базу данных трехмерных лиц и инновационную модель искусственного интеллекта, которая анализирует геометрию лица напрямую, без использования привычных двухмерных изображений. Работа, возглавленная профессором Сун Чжанем из Шэньчжэньского института передовых технологий Китайской академии наук и доктором Е Юпином из Фуцзяньского технологического университета, направлена на решение фундаментальной задачи: наделить роботов способностью точно считывать эмоции, распознавать личности и взаимодействовать с людьми естественным образом. Ключевым элементом этой технологии является трехмерное обнаружение ключевых точек лица, которое картографирует важнейшие участки в пространстве.
Существующие системы, как правило, полагаются на двухмерные текстуры или синтезированные 3D-модели, что часто приводит к ошибкам из-за расхождений между цифровыми шаблонами и реальной геометрией человеческого лица. Чтобы преодолеть это ограничение, ученые сосредоточились на работе с реальными сканами лиц. Для этого они создали собственную систему сбора 3D- и 4D-данных и собрали базу данных, включающую около 200 тысяч высокоточных трехмерных снимков лиц. В этот массив также вошли наборы данных с множеством выражений лица, стандартизированные антропометрические точки, высокоточные сканы человеческого тела и динамические 4D-данные мимики. Эта коллекция стала одной из крупнейших структурированных баз реальных биометрических данных и уже была отобрана для провинциальной программы высококачественных наборов данных искусственного интеллекта провинции Фуцзянь на 2025 год.
Вместо того чтобы «скармливать» ИИ текстурированные изображения, исследователи разработали специализированную нейросеть — графовую сеть внимания, объединенную с кривизной (CF-GAT). Эта сеть обрабатывает неупорядоченные облака точек, которые представляют собой геометрию лица в виде набора пространственных координат без текстурной информации. Ключевым новшеством стала стратегия выборки, управляемая геометрией: она упрощает массив точек, сохраняя при этом данные об их кривизне. Эта информация о форме кодируется и интегрируется в механизм внимания сети, позволяя ей фокусироваться на мельчайших локальных изменениях рельефа лица, одновременно моделируя глобальные взаимосвязи между его частями.
Благодаря своей структуре, CF-GAT напрямую предсказывает трехмерные координаты ключевых точек лица, не нуждаясь в двухмерных текстурах или готовых шаблонах, что значительно снижает зависимость от внешнего вида поверхности. В ходе тестирования модель продемонстрировала высокую устойчивость к шумам и отличную способность обобщать данные для разных форм лиц, превосходя традиционные подходы. Она также обеспечила более точное определение мелких деталей, необходимых для реалистичной мимики и точного отслеживания выражений.
Этот прорыв наглядно демонстрирует, как качество и масштаб реальных данных напрямую влияют на производительность алгоритмов. Обучение на детализированной геометрии реальных людей позволяет ИИ усваивать сложные пространственные закономерности и эффективнее адаптироваться к реальному миру. Разработка обещает сделать человекоподобных роботов, биометрические системы и виртуальных аватаров более живыми и выразительными, что критически важно для их использования в сферах развлечений, здравоохранения и обслуживания, где естественность восприятия напрямую зависит от лежащей в основе «геометрической интеллектуальности».