Новый искусственный интеллект DeepMind научился играть в футбол (и руководить командой) всего за 3 недели
Системы искусственного интеллекта (ИИ), способные выполнять более 600 задач, кодировать компьютерные программы высокого уровня, расшифровывать древние тексты, создавать высококачественные художественные произведения... Что касается систем ИИ общего назначения, то DeepMind (от Google) снова стал новостью, представив новую систему, способную научиться играть в футбол в команде всего за 3 недели. Это довольно большой подвиг в области ИИ, поскольку сочетание обучения управлению совместными движениями с прогнозированием поведения, направленного на достижение долгосрочной коллективной цели, является давней проблемой. Для этого ИИ пришлось изучить эквивалент 20-30 лет симуляционных игр, чтобы идеально имитировать движения реальных игроков и освоить сложные командные игры, используя модель обучения под названием Primitive Neural Motor Probabilities (NPMP).
Около пяти лет назад компания DeepMind попыталась научить один из своих ИИ преодолевать полосу препятствий. Исследователи обнаружили, что система обучения с подкреплением методом проб и ошибок была наиболее эффективной для достижения максимальной координации движений. Однако они заметили, что для правильного движения виртуального гуманоида требуется очень большой объем данных. Без базовых знаний о том, какую силу нужно приложить к каждому суставу, виртуальный гуманоид мог совершать только случайные рывки перед внезапным падением на землю. В результате, когда ИИ наконец научился двигаться по полосе препятствий, его движения все еще были слишком отрывистыми для применения в реальных областях, таких как робототехника.
В новом исследовании, описанном в журнале Science Robotics, рассказывается о том, как система NPMP способна устранить оба этих недостатка, используя машинное обучение на основе естественных моделей движения, полученных от людей и животных. "Мы также обсуждаем, как этот же подход позволяет манипулировать гуманоидами всем телом на основе зрения", — поясняют исследователи в своем заявлении.
Первые симуляции были проведены с гуманоидной моделью, несущей и перемещающей объект. Прикладные испытания для реального управления роботами были смоделированы с помощью робота, бросающего мяч. Эти знания позволили ИИ научиться играть (виртуально) в футбол — игру, требующую как индивидуальных навыков, так и слаженной командной игры. Подобно детям, растущим в спешке, "сначала они учатся ходить, потом учатся играть в догонялки, потом учатся играть один на один или два на два", — объясняет Гай Левер, один из ведущих авторов нового исследования и научный сотрудник DeepMind.
Видео, показывающее, как искусственный интеллект DeepMind научился играть в футбол.
Первый этап разработки программы заключался в том, чтобы научить гуманоидов бегать с максимально естественными движениями, имитируя движения футболистов, снятые заранее. Вторым шагом было научиться вести мяч и передавать его, или забивать гол. В общей сложности эти первые два шага представляют собой полтора года спортивных тренировок, а ИИ научился этому всего за 24 часа.
Третьим шагом было научить гуманоидов забивать голы в матчах два на два. Эта фаза требует координации действий группы, предвидения того, откуда идут пасы, распределения задач, быстрого принятия решений и т.д. Эти навыки были освоены ИИ на первой фазе. Эти навыки были приобретены ИИ всего за две-три недели и были бы эквивалентны 20-30 годам игр.
Все это позволило гуманоидам превратиться из простых "охотников за мячом" в сложные, скоординированные команды. По словам исследователей, скоординированное поведение появляется постепенно, когда (виртуальные) команды вступают в соревнование.
В перспективе эта система NPMP может быть использована для управления движениями реальных роботов. Хорошо скоординированное поведение и движения действительно необходимы им, например, для перемещения по пересеченной местности или обращения с хрупкими предметами. Отсутствие координации повышает риск повреждения как самих роботов, так и окружающей среды.
Однако время, необходимое для обучения, может еще больше отсрочить эти возможности применения. Однако инженеры DeepMind уже начали обучать реальных роботов толкать мяч к цели, используя ту же систему NPMP. Первый шаг к первой (настоящей) футбольной команде, состоящей полностью из человекоподобных роботов?