Deformable DETR介绍 与 Deformable Attention原理
Deformable DETR
Deformable DETR是DETR的改进版,主要是针对DETR收敛时间长、对小目标检测性能差两个缺陷进行改进。主要思路是引入可变注意力模块,整体结构如下图所示
Deformable Attention
其思路主要来源于可变形卷积DCN,其对比如下图所示
上图展示了四种网络的特点:
- ViT 中所有 Q 的感受野是一样的,都针对全局所有位置特征
- Swin 中是局部 Attention,因此处于不同窗口的两个 Q 针对的感受野区域是不一样的
- DCN 是针对周围九个位置学习偏差,之后采样矫正过的特征位置,可以看到图中红点蓝点数量均为 9;
- DAT 则结合了 ViT 和 DCN,所有的 Q 会共享相同的感受野,但这些感受野会有学出来的位置偏差;为了降低计算复杂度,针对的特征数量也会降采样,因此图中采样点一共 16 个,相比原来缩小了 1/4。
总体结构就如下图所示,Q 保持不变,K / V 是经过位置偏差后的采样值
参考
Deformable Attention Paper
Deformable DETR Paper
https://zhuanlan.zhihu.com/p/454115736