Panoptic Visual Odometry论文解读


Panoptic Visual Odometry论文解读

PVO整体结构

PVO提出了一个全景视觉里程计框架,同时处理视觉里程计和视频全景分割两项任务。视觉里程计(VO)是基于静态场景假设,通过单目图像计算相机的位姿。对于动态场景,需要过滤动态目标。视频全景分割(VPS)则是跟踪场景中的动态实例。通过两个任务之间的循环迭代优化,PVO同时提升了两个任务的精度。整体思路概括而言就是VPS可以给VO提供每个像素的权重信息,VO可以提供位姿信息从而将目标追踪从2D空间提升到3D空间。PVO的网络结构如图1所示。

图1 PVO网络结构

PVO由三个模块组成,image panoptic segmentation module,Panoptic-Enhanced VO Module 以及VO-Enhanced VPS Module。

Image panoptic segmentation module

To exploit the power of multi-resolution features, the imageview encoder includes a backbone for high-level feature extraction and a neck for multi-resolution feature fusion.

这个部分就是把输入的原始图像编码成特征,通常直接遵循2D检测的pipeline。为权衡精度和速度,常见的模块为ResNet/EfficientNet + FPN。

Panoptic-Enhanced VO Module

VO-Enhanced VPS Module

参考

PVO Paper
PVO Code


文章作者: Jingyi Yu
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Jingyi Yu !
  目录