Panoptic Visual Odometry论文解读

Paper

发布日期: 2023-08-13

文章字数: 311

阅读时长: 1 分

Panoptic Visual Odometry论文解读

PVO整体结构

PVO提出了一个全景视觉里程计框架，同时处理视觉里程计和视频全景分割两项任务。视觉里程计（VO）是基于静态场景假设，通过单目图像计算相机的位姿。对于动态场景，需要过滤动态目标。视频全景分割（VPS）则是跟踪场景中的动态实例。通过两个任务之间的循环迭代优化，PVO同时提升了两个任务的精度。整体思路概括而言就是VPS可以给VO提供每个像素的权重信息，VO可以提供位姿信息从而将目标追踪从2D空间提升到3D空间。PVO的网络结构如图1所示。

图1 PVO网络结构

PVO由三个模块组成，image panoptic segmentation module，Panoptic-Enhanced VO Module 以及VO-Enhanced VPS Module。

Image panoptic segmentation module

To exploit the power of multi-resolution features, the imageview encoder includes a backbone for high-level feature extraction and a neck for multi-resolution feature fusion.

这个部分就是把输入的原始图像编码成特征，通常直接遵循2D检测的pipeline。为权衡精度和速度，常见的模块为ResNet/EfficientNet + FPN。