Google научил роботов понимать и взаимодействовать с реальным миром с помощью новой модели ИИ

Компания Google представила новую модель искусственного интеллекта, предназначенную для того, чтобы помочь роботам лучше понимать и взаимодействовать с физическим миром, что решает одну из самых больших проблем в робототехнике — необходимость рассуждать за пределами простых инструкций. Модель под названием Gemini Robotics-ER 1.6 фокусируется на «воплощённом мышлении», позволяя роботам интерпретировать визуальные данные, планировать задачи и определять, когда задача выполнена полностью. Это знаменует собой переход от машин, просто следующих командам, к системам, способным принимать решения с учётом контекста.
Данное обновление развивает предыдущие версии за счёт улучшения пространственного мышления и понимания нескольких точек обзора, что позволяет роботам более эффективно обрабатывать информацию с нескольких камер и в динамических средах. Модель также вводит новые возможности, такие как считывание показаний приборов, что даёт роботам возможность интерпретировать измерительные шкалы и индикаторы, обычно встречающиеся в промышленных условиях.
Ключевое улучшение заключается в том, как модель обрабатывает задачи пространственного мышления. Gemini Robotics-ER 1.6 может идентифицировать объекты, подсчитывать их и определять взаимосвязи между ними с большей точностью. Кроме того, модель может указывать на объекты в процессе рассуждения, что помогает ей разбивать сложные задачи на более мелкие этапы. Эта способность критически важна в реальных средах, где роботам приходится взаимодействовать с объектами, перемещаться в загромождённых пространствах и принимать решения на основе неполной или меняющейся информации.
Модель также улучшает оценку успешности выполнения задачи, была ли задача выполнена правильно. Это особенно важно в автоматизированных рабочих процессах, где системы должны решить, повторить действие или двигаться дальше. Многовидовое мышление — ещё одна область прогресса: роботы часто полагаются на данные с нескольких камер, например, с верхней камеры и камеры, расположенной на запястье, а новая модель может объединять эти перспективы для формирования более полного понимания окружающей среды даже в случаях окклюзии или плохой видимости.
Одним из самых практичных дополнений стала способность считывать показания приборов, таких как манометры, указатели уровня и цифровые дисплеи. Эта возможность была разработана в сотрудничестве с Boston Dynamics, где такие роботы, как Spot, используются для проверки промышленных объектов. Как отметил Марко да Силва, вице-президент и генеральный менеджер Spot в Boston Dynamics, такие возможности, как считывание приборов и более надёжное логическое выполнение задач, позволят Spot видеть, понимать и полностью автономно реагировать на реальные проблемы.
Модель использует комбинацию визуального мышления и выполнения кода для интерпретации показаний: она может увеличивать изображение, определять ключевые элементы, такие как стрелки и метки, и вычислять значения с высокой точностью. Показатели производительности демонстрируют значительный рост: точность считывания показаний приборов улучшилась с 23 процентов в более ранних моделях до 93 процентов при включённом агентном зрении. Модель также демонстрирует лучшее соблюдение ограничений безопасности, например, избегание небезопасного обращения с объектами.
Google заявляет, что это самая безопасная робототехническая система компании на сегодняшний день, обладающая улучшенной способностью обнаруживать опасности и следовать правилам физической безопасности как в текстовых, так и в визуальных сценариях. Gemini Robotics-ER 1.6 уже доступна разработчикам через Gemini API и Google AI Studio вместе с инструментами для тестирования и создания приложений с использованием воплощённого мышления.