YOLOV5训练中断恢复与轮数扩展的实战技巧

张

张建站

2026/6/1 10:47:47

10分钟阅读

1. YOLOV5训练中断恢复的完整指南训练深度学习模型时最让人头疼的就是意外中断。想象一下你花了三天三夜训练YOLOV5模型眼看着就要完成200轮训练结果突然断电或者程序崩溃。这种时候千万别急着从头开始YOLOV5提供了非常方便的恢复机制。恢复训练的核心命令其实很简单python train.py --resume runs/exp2/weights/last.pt这个命令的神奇之处在于它会自动读取上次训练的所有参数包括batch size、学习率等完全不需要你重新设置。我实测过多次恢复后的训练曲线和直接完整训练的效果几乎一致。关键细节last.pt文件不仅包含模型权重还保存了优化器状态和训练进度如果不指定路径程序会自动查找最近修改的last.pt文件所有训练参数都保存在runs/exp2/opt.yaml中恢复时会自动加载我在实际项目中遇到过几次中断情况发现一个常见误区很多人会手动重新设置epochs参数比如python train.py --resume runs/exp2/weights/last.pt --epochs 200这样做其实完全无效因为恢复训练时epochs参数会被自动忽略程序会按照opt.yaml中保存的原始epochs设置继续执行。2. 如何安全地增加训练轮数有时候我们会发现模型还没完全收敛需要增加训练轮数。这种情况比简单恢复要复杂一些需要修改几个关键配置。完整操作流程首先修改opt.yaml文件epochs: 300 # 原200轮现增加到300轮然后修改torch_utils.py中的起始轮数start_epoch 200 # 从第201轮开始继续训练最后执行恢复命令python train.py --resume runs/exp2/weights/last.pt这里有个容易踩坑的地方start_epoch的计数是从0开始的。也就是说如果你已经完成了200轮训练想从第201轮开始start_epoch应该设置为200。我在一个工业质检项目中就犯过这个错误把start_epoch设成了201结果发现训练loss曲线出现异常波动。后来检查才发现是轮数设置错了导致模型跳过了部分学习阶段。3. 配置文件与代码修改的注意事项修改配置文件时有几个细节需要特别注意opt.yaml的完整路径通常位于runs/exp*/opt.yaml但要注意exp后面的数字可能不同torch_utils.py的位置在yolov5/utils/目录下修改后验证建议用git diff检查修改内容避免误操作一个实用的技巧是使用以下命令快速定位文件find . -name opt.yaml # 查找配置文件 grep start_epoch -r . # 查找需要修改的代码位置对于团队协作项目我建议把这些修改步骤写成脚本比如#!/bin/bash # 自动修改训练轮数 sed -i s/epochs: 200/epochs: 300/ runs/exp*/opt.yaml sed -i s/start_epoch 0/start_epoch 200/ yolov5/utils/torch_utils.py4. 训练恢复后的性能监控恢复训练后特别需要关注模型性能的变化。根据我的经验前几轮的指标可能会有所波动但很快就会稳定下来。监控要点前5轮的mAP变化验证集loss的下降曲线GPU显存使用情况建议使用以下命令实时监控watch -n 1 nvidia-smi # 监控GPU状态 tail -f runs/exp*/results.txt # 查看训练日志如果发现异常比如loss突然飙升mAP持续下降显存占用异常这时候应该立即停止训练检查数据加载和模型配置。常见的问题包括数据增强参数不一致、学习率设置不当等。5. 高级技巧分段训练策略对于超大规模数据集我推荐使用分段训练策略先训练100轮基础特征再训练50轮细节特征最后50轮微调实现方法# 第一阶段 python train.py --epochs 100 --weights yolov5s.pt # 第二阶段 sed -i s/epochs: 100/epochs: 150/ runs/exp*/opt.yaml python train.py --resume runs/exp*/weights/last.pt --freeze 10 # 第三阶段 sed -i s/epochs: 150/epochs: 200/ runs/exp*/opt.yaml python train.py --resume runs/exp*/weights/last.pt --lr 0.0001这种策略在我的多个项目中都取得了不错的效果特别是对于小目标检测任务mAP能提升3-5个百分点。6. 常见问题排查在实际应用中可能会遇到各种奇怪的问题。这里分享几个典型案例问题1恢复训练后loss异常高解决方案检查torch_utils.py中的start_epoch设置是否正确确认opt.yaml中的学习率是否与之前一致问题2找不到last.pt文件解决方案使用find命令全局搜索find . -name last.pt可能是训练中断太早尚未生成checkpoint问题3显存不足解决方案尝试减小batch sizepython train.py --resume runs/exp*/weights/last.pt --batch-size 167. 自动化脚本推荐为了简化操作流程我开发了几个实用脚本自动恢复脚本#!/bin/bash # auto_resume.sh LAST_PT$(find . -name last.pt -printf %T %p\n | sort | tail -1 | awk {print $2}) python train.py --resume $LAST_PT轮数修改脚本#!/bin/bash # extend_epochs.sh EXP_DIR$(ls -td runs/exp* | head -1) OLD_EPOCHS$(grep epochs: $EXP_DIR/opt.yaml | awk {print $2}) NEW_EPOCHS$(($OLD_EPOCHS 100)) sed -i s/epochs: $OLD_EPOCHS/epochs: $NEW_EPOCHS/ $EXP_DIR/opt.yaml sed -i s/start_epoch 0/start_epoch $OLD_EPOCHS/ yolov5/utils/torch_utils.py这些脚本在我的GitHub仓库都有开源可以直接下载使用。

K8s实战指南：构建高可用Redis Cluster（三主三从）与Proxy的自动化运维体系

1. Redis Cluster与Proxy架构解析 Redis Cluster是Redis官方提供的分布式解决方案，通过数据分片（Sharding）和主从复制（Replication）机制实现水平扩展和高可用性。一个典型的三主三从架构包含： 3个主节点&am…...

2026/5/30 17:10:32 阅读更多 →

上古卷轴5 MOD制作：零代码打造个性化天际的完整指南

上古卷轴5 MOD制作：零代码打造个性化天际的完整指南【免费下载链接】TES5Edit xEdit by Elminster; Updated and maintained by Sharlikran, Zilav, and Hlp 项目地址: https://gitcode.com/gh_mirrors/te/TES5Edit 还在为复杂的MOD制作工具发愁吗&#xff…...

2026/5/30 17:12:04 阅读更多 →

如何在Jetson Nano上快速搭建Pytorch环境（含torchvision安装教程）

在Jetson Nano上高效部署PyTorch环境的完整指南 Jetson Nano作为NVIDIA推出的边缘计算设备，凭借其强大的GPU加速能力，成为计算机视觉和深度学习开发者的理想选择。而PyTorch作为当前最受欢迎的深度学习框架之一，在Jetson Nano上的部署却常常让…...

2026/5/30 17:12:05 阅读更多 →

量子误差缓解技术：原理、应用与优化

1. 量子误差缓解技术概述量子计算在NISQ（含噪中等规模量子）时代面临的核心挑战之一是量子噪声对计算结果的干扰。误差缓解技术作为当前最实用的解决方案，能够在硬件层面纠错技术成熟前，显著提升量子算法的执行精度。与传统纠错不同…...

2026/6/1 0:46:24 阅读更多 →

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Tabl…...

2026/6/1 0:46:29 阅读更多 →

如何用Poppins字体解决多语言设计难题：新手完整指南

如何用Poppins字体解决多语言设计难题：新手完整指南【免费下载链接】Poppins Poppins, a Devanagari Latin family for Google Fonts. 项目地址: https://gitcode.com/gh_mirrors/po/Poppins 你是否曾为多语言项目中的字体选择而烦恼？当你的网站…...

2026/6/1 0:46:34 阅读更多 →