007、注意力机制改进(一):SE、CBAM、ECA模块原理与融合
上周调一个边缘设备上的YOLO模型推理速度达标了但小目标漏检严重。把测试集图片一张张翻出来看发现大部分漏检都发生在背景复杂或者目标与背景颜色接近的场景。这让我想起之前加注意力机制时的一个误区盲目上大参数量的注意力模块结果速度崩了。今天我们就聊聊那些在嵌入式设备上真正能用的注意力改进——SE、CBAM、ECA这三个经典模块怎么选、怎么插、怎么改。注意力机制到底在解决什么问题先看个实际现象。同一个卷积层不同通道学到的特征重要性天差地别。有的通道专门响应纹理有的通道专门响应颜色但在标准卷积里这些通道的输出是被平等对待的。注意力机制的核心思想很简单让网络自己学会“看重点”。比如背景杂乱的图片就让网络多关注目标区域的通道抑制背景通道的响应。这个思想落地到模块设计上就衍生出几种不同的实现路径。SE模块通道注意力的起点SESqueeze-and-Excitation模块的结构现在看已经非常经典了。它的流程就三步压缩Squeeze、激励Excitation、重标定Scale。压缩阶段用全局平均池化GAP把每个通道的全局空间信息压成一个标量。这一步是关键把 H×W×C 的特征图变成 1×1×C 的通道描述符。激励阶段用两个全连接层加非线性激活学出通道间的权重关系。注意第一个全连接层的降维比例 r 是个超参数一般取16但在嵌入式场景我习惯调到8甚至4精度损失不大但参数量降不少。代码实现时容易踩的坑是维度对齐。比如在YOLO的某个层插入SE输入特征图可能是 [batch, 256, 40, 40]经过GAP后得到 [batch, 256, 1, 1]这里记得用 view 或者 flatten 把后两维压掉不然全连接层会报维度错误。另外第二个全连接层输出后接Sigmoid权重归一化到0~1最后这个权重向量要和原始特征图逐通道相乘。classSEModule(nn.Module):def__init__(self,channels,reduction16):super().__init__()# 压缩self.avg_poolnn.AdaptiveAvgPool2d(1)# 激励self.fcnn.Sequential(nn.Linear(channels,channels//reduction,biasFalse),nn.ReLU(inplaceTrue),nn.Linear(channels//reduction,channels,biasFalse),nn.Sigmoid())defforward(self,x):b,c,_,_x.size()# 别直接squeezebatch为1时会出问题yself.avg_pool(x).view(b,c)yself.fc(y).view(b,c,1,1)returnx*y.expand_as(x)# 这里用expand_as广播避免显存拷贝SE模块的优势是轻量加在YOLO的骨干网络里比如每个C3模块后面插一个参数量增加不到1%但我在COCO数据集上实测mAP能涨0.3~0.5个点。缺点是只考虑了通道注意力空间维度上的注意力缺失对于目标位置敏感的任务不够用。CBAM通道与空间的双重注意力CBAMConvolutional Block Attention Module在SE的基础上补上了空间注意力。它先做通道注意力输出结果再送入空间注意力模块。通道部分和SE类似但多了全局最大池化的并行分支两个池化结果分别送共享的全连接层输出相加后再做Sigmoid。实验证明最大池化能补充一些纹理信息比单用平均池化效果稍好。空间注意力部分更有意思。沿着通道维度分别做平均池化和最大池化得到两个 H×W×1 的特征图然后拼接起来用一个7×7卷积我试过改成5×5甚至3×3在640×640输入上影响不大生成空间权重图同样归一化到0~1。classSpatialAttention(nn.Module):def__init__(self,kernel_size7):super().__init__()# 用卷积代替全连接学空间权重self.convnn.Conv2d(2,1,kernel_size,paddingkernel_size//2,biasFalse)self.sigmoidnn.Sigmoid()defforward(self,x):# 沿着通道维度做池化avg_outtorch.mean(x,dim1,keepdimTrue)max_out,_torch.max(x,dim1,keepdimTrue)# 拼接后卷积ytorch.cat([avg_out,max_out],dim1)yself.conv(y)returnx*self.sigmoid(y)CBAM在目标检测任务上通常比SE表现更好尤其是对于遮挡、小目标这些难题。但代价是计算量上去了空间注意力那个7×7卷积在低端芯片上可能成为瓶颈。我的经验是在骨干网络深层用CBAM浅层用SE或者不用平衡效果和速度。ECA模块去掉全连接层的轻量化改进ECAEfficient Channel Attention可以看作SE的轻量化变种。它发现SE的两个全连接层既增加了参数量又破坏了通道间的直接关联。ECA改用一维卷积实现跨通道交互卷积核大小k通过一个公式自适应计算k |log2©/gamma beta/gamma|_odd其中C是通道数gamma和beta默认取2和1。这个公式的意义是通道数越多跨通道交互的范围应该越大。实现时更简单全局平均池化后不用压平直接当成一维信号做卷积。这里注意卷积核要保证是奇数padding设为 k//2 保持长度不变。classECAModule(nn.Module):def__init__(self,channels,gamma2,beta1):super().__init__()# 自适应计算卷积核大小tint(abs((math.log2(channels)beta)/gamma))kernel_sizemax(tift%2elset1,3)# 保证是奇数且至少为3self.avg_poolnn.AdaptiveAvgPool2d(1)self.convnn.Conv1d(1,1,kernel_size,paddingkernel_size//2,biasFalse)self.sigmoidnn.Sigmoid()defforward(self,x):b,c,_,_x.size()yself.avg_pool(x)# [b, c, 1, 1]# 当成一维信号处理yy.squeeze(-1).transpose(-1,-2)# [b, 1, c]yself.conv(y)yself.sigmoid(y)yy.transpose(-1,-2).unsqueeze(-1)# 恢复形状returnx*y.expand_as(x)ECA在参数量和计算量上都比SE更低尤其适合通道数大的层。我在Jetson Nano上对比过同样插入10个注意力模块ECA比SE推理快8%左右mAP基本持平。但ECA的空间适应性弱如果任务中空间信息很关键还是CBAM更合适。在YOLO里怎么融合直接说结论别每个C3都加。我在YOLOv5的Backbone输出、Neck的每个PAN层输出各加一个注意力模块总共3~4个位置效果已经很明显。加多了不仅速度下降还可能过拟合。插入位置也有讲究。SE和ECA一般放在卷积之后、激活之前这样注意力权重可以同时影响卷积输出和后续梯度。CBAM因为包含空间注意力我习惯放在整个模块的最后让调整后的特征直接送给下一层。还有一个细节部署时这些注意力模块可以合并进卷积层。因为本质是逐通道乘系数训练完成后把权重乘到卷积层的weight和bias里推理时就是一个普通的卷积层零额外开销。这个技巧在TensorRT和ONNX转换时特别有用记得写脚本自动合并。个人经验与建议先分析瓶颈再选择模块如果可视化发现模型对背景敏感用CBAM如果只是通道响应不均用SE或ECA。在嵌入式设备上先试试ECA不够再用CBAM。注意力不是万能药数据质量差的时候加注意力可能反而放大噪声。我曾经在一个标注粗糙的数据集上加CBAMmAP掉了2个点去掉就好了。部署意识要提前训练时就考虑部署场景。比如CBAM的7×7卷积在有些NPU上效率很低可以提前换成3×3分组卷积膨胀效果差不多但推理快一倍。消融实验要做实对比实验时固定随机种子同一个验证集跑三次取平均。注意力模块带来的提升有时只有0.几个mAP不严格对比根本看不出来。最后提醒一句注意力机制是锦上添花不是雪中送炭。 backbone、数据增强、损失函数这些基础部分没调好之前先别急着上注意力。模型优化就像盖房子地基不打牢装修再漂亮也住不踏实。