Alibaba представила семейство ИИ-моделей для роботов нового поколения

Китайская компания Alibaba представила семейство моделей искусственного интеллекта Qwen-Robot, предназначенное для управления роботами в реальном мире. Новая разработка стала первым проектом компании в области так называемого воплощённого ИИ, который объединяет возможности больших языковых моделей с физическими действиями роботов. Система была создана исследовательским подразделением Tongyi Lab и уже проходит пилотное тестирование среди корпоративных клиентов облачной платформы Alibaba Cloud.
Комплекс Qwen-Robot включает три специализированные модели, каждая из которых отвечает за отдельный аспект физического интеллекта. Разработчики заявляют, что новая система позволяет роботам воспринимать окружающую среду, анализировать происходящее, принимать решения и взаимодействовать с объектами в реальном мире. Таким образом Alibaba присоединилась к глобальной гонке по созданию ИИ нового поколения, который способен не только вести диалог с человеком, но и выполнять реальные действия в физическом пространстве.
По словам компании, модели семейства Qwen уже достигли высокого уровня понимания окружающего мира. Они способны распознавать предметы, определять пространственные взаимосвязи между объектами, понимать сложные визуальные инструкции и анализировать реальные ситуации. Например, система может корректно интерпретировать команду вроде «пройди на кухню, найди красную чашку, возьми её и поставь на полку».
Однако понимание задачи ещё не означает способность её выполнить. Хотя современные визуально-языковые модели могут подробно описать последовательность действий, необходимых для достижения цели, они не умеют напрямую управлять движениями роботов. Основная сложность заключается в том, чтобы связать человеческий язык и визуальное восприятие с моторными действиями, необходимыми для взаимодействия с физическим миром.
Дополнительной проблемой является специфика данных, используемых для обучения роботов. Информация, поступающая от навигационных систем, роботизированных манипуляторов, транспортных средств и камер, существенно отличается от данных интернета, на которых обычно обучаются большие языковые модели. Кроме того, сбор таких данных обходится дорого, а простое объединение различных наборов информации зачастую приводит к конфликтам и снижению эффективности системы.
Для решения этой задачи Alibaba создала три отдельных модуля. Qwen-RobotNav отвечает за перемещение и навигацию. Модель помогает роботам следовать инструкциям, передвигаться по заданным маршрутам, отслеживать цели и поддерживать функции автономного управления транспортом. Qwen-RobotManip предназначена для физического взаимодействия с объектами. Она позволяет роботам захватывать, перемещать и манипулировать предметами благодаря обучению на масштабном наборе данных, собранном с различных роботизированных платформ. Третья модель, Qwen-RobotWorld, выполняет роль модели мира, прогнозируя возможные изменения окружающей среды и помогая роботам оценивать последствия своих действий ещё до их выполнения.
Совместная работа трёх систем должна обеспечить роботам способность понимать команды человека, ориентироваться в пространстве, взаимодействовать с объектами и самостоятельно принимать решения в реальных условиях.
Для демонстрации возможностей Qwen-RobotNav компания использовала четвероногого робота Unitree Go2, оснащённого аппаратной платформой NVIDIA Jetson Thor и одной камерой низкого разрешения. Во время испытаний робот успешно перемещался по незнакомой квартире без заранее загруженных карт помещений. Он следовал голосовым инструкциям пользователя, переходил между несколькими комнатами и выполнял поставленные задачи. При этом задержка обработки данных составила всего 196 миллисекунд.
Alibaba также сообщила, что модель Qwen-RobotManip была обучена более чем на 38 тысячах часов открытых данных, связанных с манипулированием объектами и различными задачами физического взаимодействия. По данным компании, система недавно заняла первое место в категории универсальных решений на соревновании RoboChallenge, посвящённом робототехнике реального мира. Модель получила итоговый процессный балл 59,83 и продемонстрировала успешное выполнение задач в 45 процентах случаев.
Одновременно с семейством моделей был представлен фреймворк роботизированных агентов Qwen-RobotClaw. Он позволяет моделям Qwen использовать возможности комплекса Qwen-Robot как инструменты для взаимодействия с физическим миром. В одной из демонстраций агент самостоятельно искал туалетную комнату, обнаружил табличку о временной недоступности помещения и без вмешательства человека изменил маршрут, направившись к другой доступной локации.
Кроме того, компания открыла исходный код платформы Chat2Robot. Это браузерный инструмент, предназначенный для тестирования взаимодействия между пользователями и системами воплощённого искусственного интеллекта.
Запуск Qwen-Robot отражает более широкий тренд в индустрии искусственного интеллекта. Крупнейшие технологические компании всё активнее переходят от разработки исключительно языковых и мультимодальных моделей к созданию систем, способных понимать физический мир и действовать в нём. В США аналогичными направлениями занимаются Google DeepMind с проектом Gemini Robotics и NVIDIA, развивающая робототехническую экосистему Cosmos, Isaac и GR00T. Одновременно стартапы Physical Intelligence, Skild AI и Figure AI работают над созданием универсального роботизированного интеллекта.
Китай также активно усиливает позиции в этой сфере, используя преимущества развитой производственной базы и наращивая инвестиции в программное обеспечение для автономного принятия решений. Сегодня рынок воплощённого ИИ объединяет разработчиков искусственного интеллекта, производителей роботов и компании автомобильной отрасли. Помимо Alibaba, собственные технологии в этом направлении создают Tencent, Unitree, AgiBot, UBTech, Galbot, Spirit AI, GigaAI, Xpeng и Xiaomi. Всё это свидетельствует о стремительном росте конкуренции в области физического искусственного интеллекта, который многие эксперты считают следующим этапом развития ИИ после эпохи чат-ботов.