Новая система ИИ повысила манипуляционные способности роботов благодаря геометрическому мышлению

Учёные из Китая представили новую архитектуру искусственного интеллекта, призванную повысить манипуляционные способности гуманоидных роботов. Исследователи из Уханьского университета разработали систему RGMP (recurrent geometric-prior multimodal policy), которая предназначена для повышения точности захвата широкого спектра объектов и позволяет роботам выполнять более сложные ручные задачи. В отличие от многих методов, опирающихся на большие наборы данных для обучения, RGMP включает в себя геометрическое мышление для улучшения обобщения в новых или непредсказуемых условиях. Данная система демонстрирует 87-процентный показатель успешности в новых условиях и в 5 раз более эффективно использует данные по сравнению с передовыми диффузионными моделями, сочетая пространственное мышление с эффективным обучением. Исследователи заявляют, что их разработка может стать шагом на пути к созданию более адаптируемых и совершенных гуманоидных систем.
Для самостоятельной работы гуманоидные роботы должны надёжно управлять множеством объектов в различных средах. Современные модели машинного обучения часто хорошо работают только в условиях, аналогичных учебным. Эти системы сильно зависят от больших наборов данных и не используют в полной мере геометрическое мышление или пространственное восприятие, что затрудняет адаптацию роботов в новых ситуациях. Модели, работающие со зрением и языком, способны понимать инструкции, но часто не могут связать их с правильными действиями, особенно когда форма объектов или контекст меняются. Другие подходы, такие как диффузионные модели или имитационное обучение, требуют множества демонстраций и всё равно не справляются с обобщением.
Чтобы решить эти проблемы, команда разработала RGMP — сквозную архитектуру, которая сочетает геометрическое мышление с эффективным обучением. Первый компонент, Геометрический селектор навыков (GSS), помогает роботу выбрать правильное действие на основе формы объекта и требований задачи, подобно тому, как человек решает, схватить, ущипнуть или толкнуть предмет. Он использует простые геометрические правила и работает даже в новых условиях. Вторая часть, Адаптивная рекуррентная гауссова сеть (ARGN), улучшает обучение на небольших наборах данных, сохраняя и обновляя пространственную память. Она моделирует взаимодействие робота с объектами во времени, избегая проблемы затухающих градиентов. Вместе эти компоненты помогают роботам лучше обобщать навыки и справляться со сложными задачами, используя меньше учебных примеров.
Команда протестировала архитектуру RGMP для оценки её производительности и способности к обобщению. Эксперименты проводились на гуманоидной системе и настольном роботе с двумя манипуляторами, оснащёнными камерами и руками с 6 степенями свободы. Использовался набор данных из 120 демонстрационных траекторий, а производительность измерялась по двум показателям: выбор правильного навыка и точность его выполнения. RGMP сравнивали с ведущими моделями, включая ResNet50, Diffusion Policy, Octo и OpenVLA. Результаты показали, что RGMP превзошёл другие модели в различных задачах манипулирования, включая работу с незнакомыми объектами и в новых условиях. Исследователи утверждают, что модуль GSS улучшил выбор навыков до 25 процентов, а ARGN и гауссово моделирование повысили точность выполнения. Система также требовала значительно меньше учебных примеров — для достижения высоких результатов хватило 40 демонстраций по сравнению с 200, необходимыми базовым моделям, — что демонстрирует высокую эффективность и адаптивность.
Подчёркивается, что, привязывая навыки к контексту объекта и разбивая движения на гауссовы компоненты, система улучшает как эффективность, так и обобщение. RGMP достигает 87-процентной точности обобщения и использует в 5 раз меньше данных, чем Diffusion Policy, в тестах взаимодействия человека и робота. Результаты показывают, что интеграция символьного мышления с обучением улучшает адаптивность к новым объектам и средам. Будущие исследования будут сосредоточены на том, чтобы позволить роботам определять действия для новых объектов после обучения всего на одном примере. С подробностями исследования команды Уханьского университета можно ознакомиться на сервере препринтов .