Deformable DETR 与 Deformable Attention


Deformable DETR介绍 与 Deformable Attention原理

Deformable DETR

Deformable DETR是DETR的改进版,主要是针对DETR收敛时间长、对小目标检测性能差两个缺陷进行改进。主要思路是引入可变注意力模块,整体结构如下图所示

Deformable Attention

其思路主要来源于可变形卷积DCN,其对比如下图所示

上图展示了四种网络的特点:

  1. ViT 中所有 Q 的感受野是一样的,都针对全局所有位置特征
  2. Swin 中是局部 Attention,因此处于不同窗口的两个 Q 针对的感受野区域是不一样的
  3. DCN 是针对周围九个位置学习偏差,之后采样矫正过的特征位置,可以看到图中红点蓝点数量均为 9;
  4. DAT 则结合了 ViT 和 DCN,所有的 Q 会共享相同的感受野,但这些感受野会有学出来的位置偏差;为了降低计算复杂度,针对的特征数量也会降采样,因此图中采样点一共 16 个,相比原来缩小了 1/4。

总体结构就如下图所示,Q 保持不变,K / V 是经过位置偏差后的采样值

参考

Deformable Attention Paper
Deformable DETR Paper
https://zhuanlan.zhihu.com/p/454115736


文章作者: Jingyi Yu
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Jingyi Yu !
  目录