Panoptic Visual Odometry论文解读
PVO整体结构
PVO提出了一个全景视觉里程计框架,同时处理视觉里程计和视频全景分割两项任务。视觉里程计(VO)是基于静态场景假设,通过单目图像计算相机的位姿。对于动态场景,需要过滤动态目标。视频全景分割(VPS)则是跟踪场景中的动态实例。通过两个任务之间的循环迭代优化,PVO同时提升了两个任务的精度。整体思路概括而言就是VPS可以给VO提供每个像素的权重信息,VO可以提供位姿信息从而将目标追踪从2D空间提升到3D空间。PVO的网络结构如图1所示。
PVO由三个模块组成,image panoptic segmentation module,Panoptic-Enhanced VO Module 以及VO-Enhanced VPS Module。
Image panoptic segmentation module
To exploit the power of multi-resolution features, the imageview encoder includes a backbone for high-level feature extraction and a neck for multi-resolution feature fusion.
这个部分就是把输入的原始图像编码成特征,通常直接遵循2D检测的pipeline。为权衡精度和速度,常见的模块为ResNet/EfficientNet + FPN。