Робототехника

Американский стартап создал ИИ-модель, позволяющую роботам выполнять незнакомые задачи без специального обучения

Американский робототехнический стартап Physical Intelligence сообщил о создании новой ИИ-модели π0.7, которая позволяет роботам выполнять задачи, не входившие в их программу обучения. Эта разработка, по заявлению компании из Сан-Франциско, представляет собой ранний, но значимый шаг на пути к созданию универсального роботизированного мозга, способного справляться с незнакомыми заданиями с помощью инструкций на естественном языке.

В ходе экспериментов исследователи наблюдали первые признаки композиционного обобщения, когда модель перекомбинирует навыки, полученные при решении различных задач, для поиска решений новых проблем. В качестве примеров приводятся использование незнакомых кухонных приборов и даже выполнение роботом складывания белья, при том что в обучающих данных по складыванию белья не было. Полученные результаты оказались неожиданными для самой компании, и если они подтвердятся, это может свидетельствовать о том, что роботизированный ИИ приближается к переломному моменту, а его возможности развиваются быстрее прогнозируемых.

Модель π0.7 демонстрирует явный прогресс в области генерализации, выполняя широкий спектр сложных задач на уровне, сопоставимом со специализированными системами, а также решая задания, отсутствовавшие в её обучающей выборке. Это знаменует собой отход от традиционного подхода к обучению роботов, который требовал сбора данных и создания отдельных моделей для каждой конкретной задачи. В отличие от более ранних систем, π0.7 может применять существующие навыки в новых контекстах без дополнительной настройки, а также эффективнее обобщает опыт при работе с разными роботами, окружающей средой и задачами.

Широкая генерализация π0.7 достигается за счёт особого подхода к обучению и формулировке заданий. Модель использует комбинацию данных с нескольких роботизированных платформ, демонстраций, выполненных людьми, и автономно собранных эпизодов. Система обучается с помощью насыщенных мультимодальных подсказок, которые определяют не только саму задачу, но и детали её выполнения, включая текстовые инструкции, визуальные подцели и параметры времени. Во время работы модель может следовать стандартным языковым командам, одновременно адаптируясь в реальном времени на основе дополнительных указаний, что позволяет улучшать производительность без переобучения.

В ходе тестирования система продемонстрировала способность понимать, как использовать незнакомые объекты, комбинируя ограниченные предыдущие примеры с более широкими накопленными знаниями. Даже при минимальном руководстве она пыталась выполнять новые задачи, а при наличии структурированных пошаговых инструкций её эффективность значительно возрастала. Такой подход подчёркивает переход к интерактивному обучению, где обратная связь от человека и дизайн подсказок играют ключевую роль. В то же время исследователи отмечают, что системе по-прежнему требуется детальное руководство для выполнения многошаговых задач, и она не может автономно выполнять сложные инструкции по одной единственной команде. Кроме того, отсутствие стандартизированных тестов затрудняет независимую валидацию результатов, и полученные данные остаются предварительными, хотя и указывают на движение к более адаптивным роботизированным системам.

Подпишитесь на нас: Вконтакте / Telegram / Дзен Новости / MAX
Back to top button