如何用UPerNet+ResNet50实现图像语义分割？PyTorch实战教程（附CamVid数据集）

张

张建站

2026/4/13 16:57:21

10分钟阅读

如何用UPerNet+ResNet50实现图像语义分割？PyTorch实战教程（附CamVid数据集）

基于UPerNet与ResNet50的语义分割实战从CamVid数据集到PyTorch实现语义分割作为计算机视觉领域的核心技术之一正在自动驾驶、医疗影像分析等领域发挥着越来越重要的作用。不同于简单的图像分类语义分割需要模型在像素级别上理解图像内容这对算法的精度和效率都提出了更高要求。本文将带您从零开始使用PyTorch框架构建一个结合UPerNet与ResNet50的语义分割系统并在CamVid数据集上完成训练与评估。1. 环境准备与数据集处理在开始构建模型之前我们需要确保开发环境配置正确并准备好训练所需的数据集。以下是推荐的环境配置# 基础环境配置 import torch import torch.nn as nn import torchvision print(fPyTorch版本: {torch.__version__}) print(fCUDA可用: {torch.cuda.is_available()})对于语义分割任务CamVid数据集是一个理想的选择。这个包含道路场景图像的数据集具有以下特点32个语义类别如道路、行人、车辆等367张训练图像和101张验证图像像素级标注精度分辨率960×720的彩色图像数据集预处理流程图像归一化将像素值缩放到[0,1]范围数据增强随机水平/垂直翻转增加样本多样性尺寸统一调整所有图像到相同尺寸如224×224# 使用Albumentations库实现数据增强 import albumentations as A from albumentations.pytorch import ToTensorV2 train_transform A.Compose([ A.Resize(224, 224), A.HorizontalFlip(p0.5), A.VerticalFlip(p0.5), A.Normalize(mean(0.485, 0.456, 0.406), std(0.229, 0.224, 0.225)), ToTensorV2() ])2. 模型架构解析UPerNet与ResNet50的结合UPerNet的核心创新在于其多层次特征融合机制结合了FPN特征金字塔网络和PPM金字塔池化模块的优势。当与ResNet50这样的强大骨干网络结合时能够实现更精确的语义分割效果。2.1 ResNet50骨干网络ResNet50作为特征提取器通过其残差连接结构能够有效缓解深层网络的梯度消失问题。我们将使用其在ImageNet上预训练的权重进行迁移学习# 加载预训练ResNet50 from torchvision.models import resnet50 class ResNetBackbone(nn.Module): def __init__(self, pretrainedTrue): super().__init__() original resnet50(pretrainedpretrained) self.conv1 original.conv1 self.bn1 original.bn1 self.relu original.relu self.maxpool original.maxpool self.layer1 original.layer1 self.layer2 original.layer2 self.layer3 original.layer3 self.layer4 original.layer4 def forward(self, x): features [] x self.conv1(x) x self.bn1(x) x self.relu(x) x self.maxpool(x) x self.layer1(x); features.append(x) x self.layer2(x); features.append(x) x self.layer3(x); features.append(x) x self.layer4(x); features.append(x) return features # 返回多尺度特征2.2 UPerNet解码器设计UPerNet的解码器部分负责将ResNet50提取的多层次特征进行融合和上采样class PPM(nn.Module): 金字塔池化模块 def __init__(self, in_dim, reduction_dim, bins): super().__init__() self.features [] for bin in bins: self.features.append(nn.Sequential( nn.AdaptiveAvgPool2d(bin), nn.Conv2d(in_dim, reduction_dim, kernel_size1), nn.BatchNorm2d(reduction_dim), nn.ReLU(inplaceTrue) )) self.features nn.ModuleList(self.features) def forward(self, x): x_size x.size() out [x] for f in self.features: out.append(F.interpolate( f(x), x_size[2:], modebilinear, align_cornersTrue)) return torch.cat(out, 1) class FPN(nn.Module): 特征金字塔网络 def __init__(self, channels(256, 512, 1024, 2048), fpn_dim256): super().__init__() self.conv1x1s nn.ModuleList([ nn.Sequential( nn.Conv2d(ch, fpn_dim, 1), nn.BatchNorm2d(fpn_dim), nn.ReLU() ) for ch in channels ]) def forward(self, features): # 自顶向下路径 laterals [conv(feat) for conv, feat in zip(self.conv1x1s, features)] # 特征融合 for i in range(3, 0, -1): laterals[i-1] F.interpolate( laterals[i], scale_factor2, modenearest) return laterals3. 完整模型构建与训练策略将骨干网络和解码器组合成完整的UPerNet模型class UPerNet(nn.Module): def __init__(self, num_classes, backboneresnet50): super().__init__() self.backbone ResNetBackbone(pretrainedTrue) self.ppm PPM(2048, 512, bins(1,2,3,6)) self.fpn FPN() self.final nn.Sequential( nn.Conv2d(256*4, 256, 3, padding1), nn.BatchNorm2d(256), nn.ReLU(), nn.Conv2d(256, num_classes, 1) ) def forward(self, x): features self.backbone(x) ppm_out self.ppm(features[-1]) fpn_outs self.fpn([*features[:-1], ppm_out]) # 融合多尺度特征 for i in range(len(fpn_outs)-1): fpn_outs[i] F.interpolate( fpn_outs[i], scale_factor2**i, modebilinear, align_cornersTrue) x torch.cat(fpn_outs, dim1) return self.final(x)训练策略优化使用带权重衰减的SGD优化器采用学习率阶梯下降策略添加标签平滑正则化实现混合精度训练# 训练配置示例 def get_optimizer(model): return torch.optim.SGD([ {params: model.backbone.parameters(), lr: 1e-3}, {params: model.ppm.parameters(), lr: 1e-2}, {params: model.fpn.parameters(), lr: 1e-2}, {params: model.final.parameters(), lr: 1e-2} ], momentum0.9, weight_decay1e-4) # 学习率调度器 scheduler torch.optim.lr_scheduler.MultiStepLR( optimizer, milestones[30, 60], gamma0.1)4. 训练过程与结果可视化在实际训练过程中我们需要监控多个指标来评估模型性能指标名称计算公式意义说明像素准确率正确像素数/总像素数整体分类准确性平均IoU各类IoU的平均值区域重叠度衡量类别平均准确率各类准确率的平均值平衡小类别表现损失值交叉熵损失训练优化目标训练脚本核心部分def train_epoch(model, loader, criterion, optimizer, device): model.train() total_loss 0 correct_pixels 0 total_pixels 0 for images, masks in tqdm(loader): images images.to(device) masks masks.to(device) # 混合精度训练 with torch.cuda.amp.autocast(): outputs model(images) loss criterion(outputs, masks) # 反向传播 optimizer.zero_grad() loss.backward() optimizer.step() # 统计指标 total_loss loss.item() _, predicted torch.max(outputs, 1) correct_pixels (predicted masks).sum().item() total_pixels masks.numel() return { loss: total_loss / len(loader), accuracy: correct_pixels / total_pixels }结果可视化技巧def visualize_prediction(image, mask, pred, class_colors): 可视化原始图像、真实标注和预测结果 fig, (ax1, ax2, ax3) plt.subplots(1, 3, figsize(15,5)) # 原始图像 ax1.imshow(image.permute(1,2,0).cpu().numpy()) ax1.set_title(Input Image) # 真实标注 colored_mask torch.zeros(3, *mask.shape[1:]) for class_id, color in enumerate(class_colors): colored_mask[:, maskclass_id] torch.tensor(color).view(3,1) ax2.imshow(colored_mask.permute(1,2,0).cpu().numpy()) ax2.set_title(Ground Truth) # 预测结果 _, pred_class torch.max(pred, 0) colored_pred torch.zeros(3, *pred_class.shape) for class_id, color in enumerate(class_colors): colored_pred[:, pred_classclass_id] torch.tensor(color).view(3,1) ax3.imshow(colored_pred.permute(1,2,0).cpu().numpy()) ax3.set_title(Prediction) plt.show()在实际项目中我们发现UPerNetResNet50组合在CamVid数据集上能够达到约78%的平均IoU相比基础的FCN网络有显著提升。特别是在处理多尺度物体时金字塔特征融合机制展现出明显优势。一个实用的技巧是在训练初期冻结骨干网络参数只训练解码器部分待损失收敛后再解冻全部参数进行微调这样既能加快训练速度又能获得更好的最终性能。

使用Python轻松玩转Excel工作表：添加与删除实战指南

早上九点，我刚打开电脑，同事小张就抱着一摞Excel文件冲了过来。“帮帮忙，我这二十多个Excel文件，每个里面都要加一个汇总工作表，还要把那个旧的测试表删掉。我一个一个手动操作，弄到明年也弄不完啊。”我看…...

2026/4/13 16:57:16 阅读更多 →

为什么92%的AIAgent在非结构化环境中失控？2026奇点大会公布首个跨厂商控制一致性基准测试v1.3（仅开放72小时下载）

第一章：2026奇点智能技术大会：AIAgent机器人控制 2026奇点智能技术大会(https://ml-summit.org) 在2026奇点智能技术大会上，AIAgent机器人控制框架正式开源，标志着多模态具身智能体从实验室走向工业级实时闭环控制的关键跃迁。该…...

2026/4/13 16:54:11 阅读更多 →

Modbus TCP vs RTU怎么选？从项目实战角度聊聊我的踩坑经验

Modbus TCP与RTU实战选型指南：从工业场景到避坑策略工业通信协议的选择困境去年负责某智能工厂的自动化改造项目时，我遇到了一个经典的技术选型难题——产线设备间的通信到底该用Modbus TCP还是RTU？这个问题看似简单，却直接关…...

2026/4/13 16:53:42 阅读更多 →

【信息安全概论实验报告1】隐写技术

目录实验目的二、实验环境实验内容实验步骤回答问题实验目的 1、了解隐写技术的分类 2、了解隐写技术的基本原理 3、学会在图像中隐藏数据二、实验环境 Windows Server 2008 相关文件地址：C:\Users\Administrator\Desktop\hidden\隐写技术实验内…...

2026/4/13 1:43:05 阅读更多 →