@superpigy
2024-11-21T18:32:55.000000Z
字数 832
阅读 86
专利回复
- 通道强度矩阵获得方式:
给定输入图像分辨率为192x192x3与网络,一般网络有五个降采样到1/2, 1/4, 1/8, 1/16, 1/32,我们会得到5组特征集合,其中特征图矩阵分别为 Ax96x96, Bx48x48, Cx24x24, Dx12x12, Ex6x6, 对于特征图回归来说上采样后一般的采取特征图大小作为目标检测后处理为: 1/4, 也就是 Cx48x48。一般广泛使用的获取通道强度的方式为:
(其中H为通道高度,W为通道宽度,u为每个元素值,i为高度轴的索引值,j为宽度轴的索引值)。也就是常用的Adaptive Average Pooling, 最终我们会获得通道矩阵纬度为Cx1x1。
- 注意力掩码获取方式:
对于每组特征矩阵进行注意力操作,包含不限于(Self Attention, SE Attention, Channel Attention等),本专利为了保证推理速度以及计算量,选择了SE Attention与Channel Attention串联方式。无论是哪种注意力模块形式,最终都会输出与原特征图大小通道数一致的注意力掩码。比如对于特征图输出, 大小为Cx48x48,经过之后, 矩阵的大小依然是Cx48x48。使用的原因是使得特征图每个通道元素概率和为1,这样会使得网络更加关注目标的辨别特征从而让非辨别特征以及背景特征的注意力掩码值趋近于0。
- 公式的意义:
根据上两点,我们得到了注意力特征图的Softmax值以及相对应通道的强度值,两者相乘可以获得特征图输出的通道关联性以及特征图关联性从而过滤掉通道关联性低的特征图以及非必要特征。对于相乘结果进行Sigmoid就可以得到趋近于1的位置还有趋近于0的位置。截断后所有1的位置可看做为网络预测的目标位置,如果没有1则视为网络在输入图像中未发现目标。