从VGG到ResNet：手把手复现DeepLabV2，看空洞卷积如何提升语义分割精度

张

张建站

2026/5/28 11:52:39

10分钟阅读

从VGG到ResNet手把手复现DeepLabV2看空洞卷积如何提升语义分割精度语义分割作为计算机视觉领域的核心任务之一其目标是为图像中的每个像素分配类别标签。DeepLab系列模型在这一领域具有里程碑意义其中DeepLabV2通过引入空洞卷积和ASPP模块显著提升了模型性能。本文将带您从代码层面深入理解这些创新点并完整复现模型训练过程。1. 环境准备与数据加载复现DeepLabV2的第一步是搭建合适的开发环境。推荐使用Python 3.8和PyTorch 1.10的组合这些版本在兼容性和性能方面都有良好表现。以下是核心依赖的安装命令pip install torch1.10.0 torchvision0.11.0 pip install opencv-python pillow matplotlib tqdm对于数据集PASCAL VOC 2012是最常用的语义分割基准数据集之一。它包含20个前景物体类别和1个背景类别共计1464张训练图像和1449张验证图像。数据加载器的实现需要注意以下几点图像归一化使用ImageNet的均值和标准差进行标准化数据增强随机水平翻转、颜色抖动和尺度变换标签处理将彩色标注图转换为类别索引矩阵class VOCDataset(torch.utils.data.Dataset): def __init__(self, root, splittrain, crop_size513): self.crop_size crop_size self.images [...] # 图像路径列表 self.masks [...] # 标注路径列表 def __getitem__(self, idx): image cv2.imread(self.images[idx]) mask cv2.imread(self.masks[idx], 0) # 数据增强和预处理 if self.split train: image, mask self._random_flip(image, mask) image, mask self._random_crop(image, mask) image self._normalize(image) return image, mask2. 骨干网络对比VGG与ResNet的架构差异DeepLabV1使用VGG16作为骨干网络而DeepLabV2则升级为ResNet101。这一改变带来了显著的性能提升主要体现在以下几个方面特性VGG16ResNet101深度16层101层残差连接无有参数量约138M约44M计算量(FLOPs)约15.5G约7.8G输出步长328(使用空洞卷积后)ResNet的残差结构有效缓解了深层网络的梯度消失问题使得训练更加稳定。在代码实现上我们需要特别注意最后两个block的空洞率设置class ResNetBackbone(nn.Module): def __init__(self, output_stride8): super().__init__() self.conv1 nn.Conv2d(3, 64, kernel_size7, stride2, padding3) self.bn1 nn.BatchNorm2d(64) self.relu nn.ReLU(inplaceTrue) self.maxpool nn.MaxPool2d(kernel_size3, stride2, padding1) # 根据output_stride设置不同block的空洞率 if output_stride 8: rates [1, 1, 2, 4] else: # output_stride16 rates [1, 1, 2, 2] self.layer1 self._make_layer(64, 64, 3, rates[0]) self.layer2 self._make_layer(256, 128, 4, rates[1], stride2) self.layer3 self._make_layer(512, 256, 23, rates[2], stride2) self.layer4 self._make_layer(1024, 512, 3, rates[3], stride1)3. 空洞卷积与ASPP模块实现空洞卷积(Atrous Convolution)是DeepLabV2的核心创新之一它通过引入空洞率(dilation rate)参数在不增加参数量的情况下扩大感受野。标准卷积与空洞卷积的对比如下标准卷积kernel_size3, dilation1感受野为3×3空洞卷积kernel_size3, dilation2感受野为5×5空洞卷积kernel_size3, dilation4感受野为9×9ASPP(Atrous Spatial Pyramid Pooling)模块则进一步利用多尺度信息通过并行使用不同空洞率的卷积来捕获不同尺度的上下文。其实现代码如下class ASPP(nn.Module): def __init__(self, in_channels, out_channels256): super().__init__() self.conv1 nn.Sequential( nn.Conv2d(in_channels, out_channels, 1, biasFalse), nn.BatchNorm2d(out_channels), nn.ReLU() ) self.conv2 self._make_aspp_conv(in_channels, out_channels, 6) self.conv3 self._make_aspp_conv(in_channels, out_channels, 12) self.conv4 self._make_aspp_conv(in_channels, out_channels, 18) self.global_avg_pool nn.Sequential( nn.AdaptiveAvgPool2d(1), nn.Conv2d(in_channels, out_channels, 1, biasFalse), nn.BatchNorm2d(out_channels), nn.ReLU() ) def _make_aspp_conv(self, in_channels, out_channels, dilation): return nn.Sequential( nn.Conv2d(in_channels, out_channels, 3, paddingdilation, dilationdilation, biasFalse), nn.BatchNorm2d(out_channels), nn.ReLU() ) def forward(self, x): x1 self.conv1(x) x2 self.conv2(x) x3 self.conv3(x) x4 self.conv4(x) x5 self.global_avg_pool(x) x5 F.interpolate(x5, sizex4.size()[2:], modebilinear, align_cornersTrue) x torch.cat((x1, x2, x3, x4, x5), dim1) return x注意ASPP模块中的全局平均池化分支有助于捕获图像级的上下文信息这对大物体的分割特别有帮助。在实现时记得使用双线性插值将其上采样到与其他分支相同的尺寸。4. 模型训练与调参技巧DeepLabV2的训练过程需要特别注意学习率策略和损失函数的选择。以下是几个关键点学习率设置初始学习率0.007使用多项式衰减策略lr lr_init * (1 - iter/max_iter)^0.9骨干网络的学习率设为分类头的0.1倍损失函数交叉熵损失为主可添加辅助损失(auxiliary loss)帮助训练深层网络def train_one_epoch(model, dataloader, optimizer, criterion, device): model.train() total_loss 0 for images, masks in dataloader: images images.to(device) masks masks.to(device) optimizer.zero_grad() outputs model(images) loss criterion(outputs, masks) loss.backward() optimizer.step() total_loss loss.item() return total_loss / len(dataloader)数据增强策略随机缩放(0.5-2.0倍)随机水平翻转颜色抖动(亮度、对比度、饱和度)随机裁剪(固定尺寸如513×513)训练技巧使用SyncBN替代普通BN特别是在多GPU训练时采用OHEM(Online Hard Example Mining)处理困难样本在训练后期冻结BN层的统计量5. 结果分析与性能对比在PASCAL VOC 2012验证集上不同配置的DeepLabV2模型表现如下模型配置mIOU(%)参数量(M)推理时间(ms)VGG16空洞卷积68.713845ResNet101空洞卷积73.64438ResNet101ASPP79.74542从实验结果可以看出ResNet骨干相比VGG带来了近5%的mIOU提升ASPP模块进一步将性能提高了6.1%尽管ResNet更深但由于残差连接的高效性其参数量反而更少可视化结果也显示ASPP模块能够更好处理多尺度物体。例如对于同一张包含远处小汽车和近处大卡车的图像仅使用空洞卷积的模型可能会错误分类远处的小汽车加入ASPP后模型能够正确识别各种尺寸的车辆def visualize_results(image, gt_mask, pred_mask): plt.figure(figsize(15,5)) plt.subplot(1,3,1) plt.imshow(image) plt.title(Input Image) plt.subplot(1,3,2) plt.imshow(gt_mask) plt.title(Ground Truth) plt.subplot(1,3,3) plt.imshow(pred_mask.argmax(dim0)) plt.title(Prediction) plt.show()在实际项目中如果遇到显存不足的情况可以尝试以下优化减小批量大小但相应地调整学习率使用混合精度训练对大型图像进行滑动窗口预测优化数据加载流程减少CPU到GPU的数据传输时间

通过Taotoken用量看板直观比较不同模型在相同任务下的token消耗

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度通过Taotoken用量看板直观比较不同模型在相同任务下的token消耗在集成大模型到实际应用时，除了关注生成效果&#xff…...

2026/5/28 11:51:29 阅读更多 →

Unity模组管理终极指南：3步轻松安装游戏模组

Unity模组管理终极指南：3步轻松安装游戏模组【免费下载链接】unity-mod-manager UnityModManager 项目地址: https://gitcode.com/gh_mirrors/un/unity-mod-manager Unity Mod Manager是一款专为Unity引擎游戏设计的开源模组管理工具，它能彻底改…...

2026/5/28 11:50:48 阅读更多 →

除了Stuck-at，Tessent ATPG还有哪些Fault Model能帮你提升芯片良率？

芯片测试进阶指南：Tessent ATPG中六大Fault Model的实战组合策略在芯片测试领域，测试覆盖率与缺陷检出能力直接决定了产品的良率与可靠性。随着工艺节点不断演进，传统Stuck-at模型已无法满足复杂缺陷检测需求。本文将深入解析Tessent ATPG工具…...

2026/5/28 11:45:57 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/27 16:21:02 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/28 12:21:09 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/27 10:34:01 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/27 10:34:01 阅读更多 →