Прорыв в 3D-видео позволяет смотреть сцену с любого ракурса

Исследователи Университета Брауна представили новый метод обработки видео под названием PackUV, который они называют важным шагом на пути к созданию реалистичного, сохраняемого и потокового 3D-объёмного видео. Разработка позволяет создавать видеоматериалы, которые можно просматривать с любого ракурса, при этом они совместимы с существующими видеокодеками, используемыми в интернете, включая те, что применяются на крупнейших стриминговых платформах.
По словам авторов работы, новая технология может в будущем сделать возможной практическую потоковую передачу 3D-видео на обычных устройствах, таких как смартфоны, компьютеры и умные телевизоры, без необходимости в специальном оборудовании для отображения. Это открывает перспективу нового этапа развития цифровых медиа, где зритель сможет не просто смотреть сцену, а свободно перемещаться внутри неё.
Объёмное 3D-видео, как поясняют исследователи, создаётся с помощью множества синхронизированных камер, которые одновременно фиксируют сцену с разных углов. После записи специальные алгоритмы реконструируют происходящее в трёхмерном пространстве, создавая так называемое «4D-видео», где добавляется также временное измерение. Такой формат позволяет рассматривать сцену с любой точки внутри записанного пространства.
Как отмечает аспирант кафедры компьютерных наук и руководитель исследования Ашиш Рай, подобный подход даёт возможность «исследовать сцену с любой желаемой точки обзора». Он добавил, что сочетание трёх пространственных измерений и времени делает такие записи принципиально отличными от традиционного видео и потенциально позволяет, например, смотреть спортивные события «изнутри поля» или концерт «со сцены».
Однако широкому распространению технологии мешают серьёзные технические ограничения. Основная проблема заключается в огромных объёмах данных: даже 30-минутная запись объёмного видео может достигать терабайтов информации. Кроме того, существующие форматы плохо совместимы с инфраструктурой интернета, видеокодеками и устройствами, что делает потоковую передачу практически невозможной на текущем этапе развития технологий.
Чтобы решить эту проблему, команда Университета Брауна опиралась на метод 3D Gaussian Splatting, который представляет трёхмерные сцены в виде множества «размытых» точек-гауссианов, кодирующих цвет, прозрачность и форму объектов. В рамках нового подхода исследователи разработали способ преобразования сложной 3D-сцены в компактное двумерное представление, аналогичное проекции трёхмерного глобуса на плоскую карту, где сохраняется вся ключевая информация о сцене.
Затем полученные закодированные изображения объединяются в последовательность, формируя видеофайл, который значительно легче традиционных форматов объёмного видео. Такой файл оказывается совместим с существующими интернет-кодеками, что теоретически позволяет передавать его через привычные платформы потокового вещания, включая инфраструктуру, используемую крупнейшими видеосервисами.
Отдельной проблемой существующих методов объёмного видео является деградация качества при длительных записях и сложности с отслеживанием объектов, которые временно выходят из поля зрения камеры или появляются в сцене в процессе съёмки. Новый метод решает эту задачу за счёт разбиения видео на небольшие сегменты и повторной инициализации трекинга, что позволяет корректно обрабатывать динамические изменения сцены.
По данным исследователей, их система способна обрабатывать объёмные сцены длительностью до 30 минут без сбоев, что значительно превышает возможности предыдущих подходов. Для проверки технологии команда также собрала, как утверждается, крупнейший на сегодняшний день набор многокамерных видеоданных, включающий записи приготовления пищи, работы с деревом и различных спортивных действий, снятых с использованием от 50 до 90 синхронизированных камер как в лабораторных, так и в полевых условиях.
Исследователи подчёркивают, что потенциальные области применения технологии выходят далеко за рамки развлечений. Речь идёт о создании цифровых двойников реальных объектов и процессов, которые могут быть востребованы в промышленности, производстве, спорте и других сферах, где важна точная трёхмерная фиксация реальности.