Беспилотники и роботы станут вчетверо быстрее: учёные нашли способ ускорить анализ оптического потока
Международная группа исследователей представила систему машинного зрения, которая способна обнаруживать движение быстрее человеческого глаза и до четырех раз быстрее существующих компьютерных моделей. Разработка имитирует принцип работы биологической сетчатки, фокусируясь исключительно на движущихся объектах, что позволило радикально снизить вычислительную нагрузку и время реакции.
Традиционные системы оптического потока, известные с 1950-х годов, пытаются воспроизвести способность глаза мгновенно обрабатывать визуальные сцены, однако их применение в робототехнике упирается в колоссальные требования к вычислительным мощностям. Авторы исследования приводят показательный пример: анализ всего одного кадра разрешением 1920×1080 пикселей с помощью флагманского GPU Nvidia V100 занимает более 0,6 секунды. Это примерно в четыре раза дольше, чем требуется человеческому глазу для решения аналогичной задачи. Для сравнения, система Autopilot от Tesla работает с задержкой всего 10 миллисекунд, однако по точности отображения тонких движений она всё ещё уступает потенциалу систем, основанных на оптическом потоке.
Чтобы преодолеть это узкое место, инженеры обратились к нейроморфным принципам. Как сообщается в статье, 10 февраля в журнале Nature Communications, команда разработала устройство, использующее двумерные синаптические транзисторы. Вдохновением послужило взаимодействие между сетчаткой и латеральным коленчатым телом в биологическом зрении. Новая система не обрабатывает картинку целиком: транзисторы мгновенно реагируют на перепады яркости и выделяют только те участки кадра, где происходит движение. Эти «зоны интереса» затем передаются стандартным алгоритмам компьютерного зрения для детального распознавания, что позволяет последним работать с минимальной задержкой.
В ходе испытаний, которые моделировали управление беспилотными автомобилями, дронами и роботизированными манипуляторами, система фиксировала изменения яркости всего за 100 микросекунд. Помимо скорости, она продемонстрировала впечатляющую стабильность: данные о движении сохранялись более 10 000 секунд, а сам модуль выдержал свыше 8 000 рабочих циклов без потери производительности. По оценкам ученых, такой подход ускоряет работу существующих алгоритмов компьютерного зрения в четыре раза, а в некоторых сценариях система превосходит по скорости обработки даже человеческий глаз.
Шо Гао, соавтор работы и доцент Школы приборостроения и оптоэлектронной инженерии Университета Бэйхан (Китай), пояснил, что исследователи не создают замену привычным камерам. «Благодаря использованию аппаратных модулей мы позволяем существующим алгоритмам компьютерного зрения работать в четыре раза быстрее, чем раньше, — отметил учёный в интервью South China Morning Post. — Это повышает практическую ценность технологии для инженерных приложений».
Разработка открывает путь к более сложным сценариям поведения автономных систем, таким как мгновенное уклонение от столкновений или навигация в хаотичной среде. Тем не менее, авторы признают, что технология нуждается в дополнительных испытаниях для подтверждения её надежности в различных реальных условиях.