cv_unet_image-colorization模型训练指南：准备自己的数据集

张

张建站

2026/5/18 14:30:06

10分钟阅读

cv_unet_image-colorization模型训练指南准备自己的数据集想用AI给老照片上色或者为你的专业领域比如卫星图、医学影像打造一个专属的上色工具吗网上现成的模型效果总是不尽如人意因为它们没见过你的数据。今天我们就来聊聊怎么“手把手”教cv_unet_image-colorization模型认识你的世界——从零开始准备你自己的数据集并训练一个定制化的上色模型。整个过程有点像教一个小朋友画画你得先准备好清晰的黑白线稿灰度图和对应的彩色范本彩色图然后一遍遍地教它怎么涂色。听起来复杂别担心跟着这篇指南哪怕你之前没怎么接触过深度学习也能一步步搞定。我们会用最直白的语言把数据准备、模型配置、训练监控这些事儿讲清楚并提供可以直接运行的代码。1. 理解任务我们到底要做什么在开始动手之前我们先花几分钟把整件事的逻辑理清楚。这能帮你少走很多弯路。cv_unet_image-colorization这个模型它的核心任务就是学习“从灰度图到彩色图”的映射关系。你给它一张黑白照片它就能“猜”出这张照片原本应该是什么颜色。为了实现这个目标我们需要为模型提供大量的“学习资料”也就是“灰度图-彩色图”配对的数据集。这里有个关键点模型学习的不是“凭空创造”颜色而是根据灰度图像中的纹理、形状、结构等信息去“回忆”或“推断”出最可能、最合理的颜色。比如看到一片有纹理的灰色区域它要能学会这可能是绿色的草地而不是蓝色的天空。所以我们整个训练流程可以概括为三步准备教材收集并整理好高质量的“灰度-彩色”图片对。定制教案根据你的图片特点调整模型的学习参数配置文件。开始教学启动训练并观察“学生”模型的学习进度和效果。接下来我们就一步步展开。2. 第一步收集与准备你的专属数据集这是最重要也最需要耐心的一步。数据集的质量直接决定了最终模型的上色效果。2.1 数据从哪里来你需要找到同时拥有“彩色版本”和对应的“灰度版本”的图片。对于不同领域来源也不同通用领域如老照片上色你可以从一些开源数据集入手比如 ImageNet 的子集或者专门的老照片数据集。更直接的方法是用自己的彩色照片批量生成灰度图作为配对数据。特定领域如卫星图像可以寻找相关的遥感数据集例如 UC Merced Land Use Dataset 或 Sentinel-2 卫星影像。确保你拥有真彩色RGB图像。特定领域如医学影像这通常比较专业可能需要从公开的医学影像库如 The Cancer Imaging Archive获取或与机构合作。注意数据隐私和合规性。一个实用技巧如果你已经有一批彩色图片那么生成其灰度图作为配对数据是最简单可靠的方法这样可以保证“灰度-彩色”严格对应。2.2 如何构建“图片对”模型训练要求输入是灰度图目标是彩色图。因此我们需要一个固定的文件夹结构来存放它们。我推荐这样组织your_dataset/ ├── train/ │ ├── gray/ # 存放训练用的灰度图 │ │ ├── image1.jpg │ │ ├── image2.jpg │ │ └── ... │ └── color/ # 存放对应的彩色图文件名必须与gray中一一对应 │ ├── image1.jpg │ ├── image2.jpg │ └── ... └── val/ # 验证集结构同train ├── gray/ └── color/注意train/gray/image1.jpg和train/color/image1.jpg必须是同一张图片的两种版本。验证集val用于在训练过程中检查模型在没见过的数据上的表现防止过拟合通常占总数据的10%-20%。下面这个Python脚本可以帮助你从一批彩色图片自动生成这个结构的数据集import os import cv2 from sklearn.model_selection import train_test_split def prepare_dataset(color_img_folder, output_folder, val_ratio0.2): 从彩色图片文件夹创建灰度-彩色配对数据集。参数: color_img_folder: 存放原始彩色图片的文件夹路径。 output_folder: 输出数据集的总文件夹路径。 val_ratio: 验证集所占比例。 # 创建输出目录结构 train_gray_dir os.path.join(output_folder, train, gray) train_color_dir os.path.join(output_folder, train, color) val_gray_dir os.path.join(output_folder, val, gray) val_color_dir os.path.join(output_folder, val, color) for d in [train_gray_dir, train_color_dir, val_gray_dir, val_color_dir]: os.makedirs(d, exist_okTrue) # 获取所有彩色图片路径 all_color_images [os.path.join(color_img_folder, f) for f in os.listdir(color_img_folder) if f.lower().endswith((.png, .jpg, .jpeg))] # 划分训练集和验证集 train_list, val_list train_test_split(all_color_images, test_sizeval_ratio, random_state42) print(f找到 {len(all_color_images)} 张图片。) print(f训练集: {len(train_list)} 张, 验证集: {len(val_list)} 张) # 处理训练集 for idx, color_path in enumerate(train_list): img cv2.imread(color_path) if img is None: continue base_name os.path.basename(color_path) # 保存彩色图 cv2.imwrite(os.path.join(train_color_dir, base_name), img) # 生成并保存灰度图 gray_img cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 注意UNet等模型可能需要单通道灰度图但输入时可能会被复制为三通道。这里先保存为单通道。 cv2.imwrite(os.path.join(train_gray_dir, base_name), gray_img) # 处理验证集同理 for idx, color_path in enumerate(val_list): img cv2.imread(color_path) if img is None: continue base_name os.path.basename(color_path) cv2.imwrite(os.path.join(val_color_dir, base_name), img) gray_img cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) cv2.imwrite(os.path.join(val_gray_dir, base_name), gray_img) print(数据集准备完成) # 使用示例 if __name__ __main__: prepare_dataset( color_img_folder/path/to/your/color/images, output_folder./my_colorization_dataset )运行这个脚本你就能得到一个结构清晰的配对数据集。2.3 数据清洗与增强让模型学得更好直接扔给模型原始数据往往不够我们还需要做些“预处理”。清洗检查配对确保灰度图和彩色图确实是严格对应的没有错位。统一尺寸模型输入通常需要固定尺寸如256x256。你可以在训练时实时调整但提前统一尺寸能提升训练效率。可以使用cv2.resize。过滤低质图片删除模糊、过暗、过亮或内容不相关的图片。数据增强这是提升模型泛化能力即处理新图片的能力的关键。通过在训练时对图片进行随机变换可以模拟出更多样的数据让模型更健壮。常见的增强操作包括随机水平翻转随机小幅旋转如±10度随机亮度、对比度微调这些增强通常在训练时通过框架如PyTorch的torchvision.transforms在线完成而不是预先处理好存下来。3. 第二步配置模型训练环境与参数准备好数据后我们需要告诉模型怎么学习。这主要通过修改配置文件来完成。3.1 理解配置文件的关键参数假设你使用的cv_unet_image-colorization项目有一个类似config.yaml的配置文件。你需要关注并修改以下几个核心部分# config.yaml 示例 (关键部分) data: train_root: ./my_colorization_dataset/train # 改为你的训练集路径 val_root: ./my_colorization_dataset/val # 改为你的验证集路径 image_size: [256, 256] # 输入图片统一缩放到的大小根据你的数据调整 model: name: UNet in_channels: 1 # 输入是单通道灰度图 out_channels: 3 # 输出是三通道彩色图 # ... 其他网络结构参数通常可以先用默认值 training: batch_size: 16 # 一次训练多少张图取决于你的显卡内存 epochs: 100 # 整个数据集要训练多少轮 learning_rate: 0.001 # 学习率太大容易“学飞”太小学得慢 checkpoint_dir: ./checkpoints # 模型保存路径 loss: name: MSELoss # 损失函数衡量预测颜色和真实颜色的差距 # 也可以尝试 L1Loss 或组合损失函数参数调整经验batch_size在显卡内存允许的情况下越大越好通常设为8, 16, 32。如果训练时出现内存不足OOM错误就调小它。learning_rate最关键的参数之一。可以从0.001开始。如果训练很久损失都不下降可以尝试调大到0.01如果损失值剧烈震荡可以调小到0.0001。epochs对于中等规模数据集几千张图50-200轮通常足够。可以通过观察验证集损失来判断何时停止不再下降甚至上升时。3.2 编写数据加载代码你需要一个脚本来读取我们准备好的数据集。下面是一个PyTorch DataLoader的示例import os from torch.utils.data import Dataset, DataLoader import cv2 import torch from torchvision import transforms class ColorizationDataset(Dataset): 读取灰度-彩色配对数据集的类 def __init__(self, data_root, transformNone, is_trainTrue): 参数: data_root: 数据集根目录例如 ./my_colorization_dataset/train transform: 数据增强变换 is_train: 是否为训练集决定读取哪个子文件夹 phase train if is_train else val self.gray_dir os.path.join(data_root, .., phase, gray) # 根据实际情况调整路径逻辑 self.color_dir os.path.join(data_root, .., phase, color) # 更稳妥的路径处理直接使用传入的路径 # self.gray_dir os.path.join(data_root, gray) # self.color_dir os.path.join(data_root, color) self.image_names [f for f in os.listdir(self.gray_dir) if f.endswith((.png, .jpg, .jpeg))] self.transform transform def __len__(self): return len(self.image_names) def __getitem__(self, idx): gray_path os.path.join(self.gray_dir, self.image_names[idx]) color_path os.path.join(self.color_dir, self.image_names[idx]) # 读取图片 gray_img cv2.imread(gray_path, cv2.IMREAD_GRAYSCALE) # 单通道 color_img cv2.imread(color_path) # 三通道 BGR # 转换颜色空间 BGR - RGB (如果模型需要) color_img cv2.cvtColor(color_img, cv2.COLOR_BGR2RGB) # 转换为Tensor [C, H, W]并归一化到[0,1] gray_tensor torch.from_numpy(gray_img).unsqueeze(0).float() / 255.0 # 增加通道维度 color_tensor torch.from_numpy(color_img).permute(2,0,1).float() / 255.0 # [H,W,C] - [C,H,W] # 数据增强 (如果提供了transform) if self.transform: # 注意需要对灰度和彩色图进行相同的空间变换如翻转、旋转 # 这里简化处理假设transform只包含ToTensor和Normalize实际需自定义 pass return gray_tensor, color_tensor # 创建数据加载器 def get_dataloaders(config): train_dataset ColorizationDataset(config[data][train_root], is_trainTrue) val_dataset ColorizationDataset(config[data][val_root], is_trainFalse) train_loader DataLoader(train_dataset, batch_sizeconfig[training][batch_size], shuffleTrue, num_workers4) val_loader DataLoader(val_dataset, batch_sizeconfig[training][batch_size], shuffleFalse, num_workers2) return train_loader, val_loader4. 第三步启动训练与监控进度万事俱备只欠训练。4.1 编写训练循环训练循环的代码结构是标准的主要包括前向传播、计算损失、反向传播和参数更新。import torch import torch.nn as nn import torch.optim as optim from torch.utils.tensorboard import SummaryWriter # 用于可视化 import time import os def train_model(model, train_loader, val_loader, config, device): model.to(device) criterion nn.MSELoss() # 使用均方误差损失 optimizer optim.Adam(model.parameters(), lrconfig[training][learning_rate]) # 使用TensorBoard记录训练过程 writer SummaryWriter(log_diros.path.join(config[training][checkpoint_dir], logs)) best_val_loss float(inf) for epoch in range(config[training][epochs]): # 训练阶段 model.train() running_train_loss 0.0 for i, (gray_imgs, color_imgs) in enumerate(train_loader): gray_imgs, color_imgs gray_imgs.to(device), color_imgs.to(device) optimizer.zero_grad() outputs model(gray_imgs) loss criterion(outputs, color_imgs) loss.backward() optimizer.step() running_train_loss loss.item() if i % 10 9: # 每10个batch打印一次 print(fEpoch [{epoch1}/{config[\training\][\epochs\]}], Step [{i1}/{len(train_loader)}], Loss: {loss.item():.4f}) avg_train_loss running_train_loss / len(train_loader) writer.add_scalar(Loss/train, avg_train_loss, epoch) # 验证阶段 model.eval() running_val_loss 0.0 with torch.no_grad(): for gray_imgs, color_imgs in val_loader: gray_imgs, color_imgs gray_imgs.to(device), color_imgs.to(device) outputs model(gray_imgs) loss criterion(outputs, color_imgs) running_val_loss loss.item() avg_val_loss running_val_loss / len(val_loader) writer.add_scalar(Loss/val, avg_val_loss, epoch) print(fEpoch {epoch1} 完成 - 训练损失: {avg_train_loss:.4f}, 验证损失: {avg_val_loss:.4f}) # 保存最好的模型 if avg_val_loss best_val_loss: best_val_loss avg_val_loss torch.save({ epoch: epoch, model_state_dict: model.state_dict(), optimizer_state_dict: optimizer.state_dict(), loss: best_val_loss, }, os.path.join(config[training][checkpoint_dir], best_model.pth)) print(f - 保存最佳模型 (验证损失: {best_val_loss:.4f})) # 定期保存检查点 if (epoch 1) % 10 0: torch.save({ epoch: epoch, model_state_dict: model.state_dict(), optimizer_state_dict: optimizer.state_dict(), loss: avg_val_loss, }, os.path.join(config[training][checkpoint_dir], fcheckpoint_epoch_{epoch1}.pth)) writer.close() print(训练完成)4.2 如何监控训练过程训练不是一按开始就等着收结果你需要观察模型是否在“健康”学习。看损失曲线使用TensorBoard上面代码已集成或简单的绘图库如matplotlib。理想情况下训练损失和验证损失都应该随着训练轮数增加而稳步下降并最终趋于平缓。训练损失下降验证损失上升这是“过拟合”的典型信号意味着模型只记住了训练集而没学会通用规律。可以尝试增加数据增强、减少模型复杂度或提前停止训练。两者都不下降可能是学习率设置不当、模型架构不适合或者数据有问题。尝试调整学习率。看生成样本定期比如每5或10个epoch用验证集的一些图片做一次上色测试直观地看生成效果。这是最直接的判断方式。保存中间结果定期保存模型检查点上面代码已实现这样如果训练意外中断可以从最近的点恢复而不是从头开始。5. 第四步测试你的训练成果训练完成后用下面这个简单的脚本加载最好的模型并找几张新的灰度图试试效果。import torch import cv2 import numpy as np from model import UNet # 假设你的模型定义在model.py中 def test_model(model_path, gray_image_path, output_path, devicecuda): # 加载模型 checkpoint torch.load(model_path, map_locationdevice) model UNet(in_channels1, out_channels3) # 根据你的模型定义初始化 model.load_state_dict(checkpoint[model_state_dict]) model.to(device) model.eval() # 读取并预处理灰度图 gray_img cv2.imread(gray_image_path, cv2.IMREAD_GRAYSCALE) # 调整到模型需要的尺寸 input_size (256, 256) # 与训练时一致 gray_img_resized cv2.resize(gray_img, input_size) # 转换为Tensor input_tensor torch.from_numpy(gray_img_resized).unsqueeze(0).unsqueeze(0).float() / 255.0 # [1,1,H,W] input_tensor input_tensor.to(device) # 预测 with torch.no_grad(): output_tensor model(input_tensor) # 后处理Tensor - numpy array - 保存 output_img output_tensor.squeeze().cpu().permute(1,2,0).numpy() # [C,H,W] - [H,W,C] output_img np.clip(output_img * 255, 0, 255).astype(np.uint8) output_img cv2.cvtColor(output_img, cv2.COLOR_RGB2BGR) # 转回BGR供OpenCV保存 cv2.imwrite(output_path, output_img) print(f上色结果已保存至: {output_path}) # 使用示例 if __name__ __main__: test_model( model_path./checkpoints/best_model.pth, gray_image_path./test_gray.jpg, output_path./output_color.jpg, devicecuda if torch.cuda.is_available() else cpu )6. 总结与后续建议走完这一整套流程你应该已经拥有了一个为你特定类型图片“量身定制”的上色模型。回顾一下最关键的两个环节是数据准备和学习率调整。数据决定了模型能力的上限而合适的学习率则是引导模型逼近这个上限的导航。第一次训练的结果可能不会完美这非常正常。如果效果不理想可以优先从这几个方面排查和改进检查数据配对是否准确无误尝试增加数据增强的强度将学习率调小一个数量级比如从0.001调到0.0001再训练一段时间或者如果验证损失很早就停止下降可以考虑减少训练轮数防止过拟合。对于卫星图、医学影像这类专业领域你可能还需要在模型结构或损失函数上做特殊设计比如加入对特定颜色通道的权重或者使用感知损失Perceptual Loss来让生成的颜色更符合自然规律。但这都属于更进阶的玩法了先把基础流程跑通看到模型确实能从你的数据中学到东西再考虑这些优化也不迟。动手试试吧看着模型一点点学会为你熟悉的图片赋予色彩这个过程本身就很有成就感。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

YOLOv11实战：打造交互式多源目标检测工具 | 从摄像头到批量图片一键处理

1. YOLOv11多源目标检测工具设计思路去年我在做一个智能安防项目时，客户要求能同时处理监控摄像头、历史视频和图片证据，还要操作简单到保安大叔都能用。当时用YOLOv11折腾出的这套方案，现在分享给大家。这个工具的核心设计理念就三点&#…...

2026/5/19 0:41:43 阅读更多 →

JavaScript PPT自动化生成终极指南：如何用代码创建专业演示文稿

JavaScript PPT自动化生成终极指南：如何用代码创建专业演示文稿【免费下载链接】PptxGenJS Create PowerPoint presentations with a powerful, concise JavaScript API. 项目地址: https://gitcode.com/gh_mirrors/pp/PptxGenJS 在数字化办公时代&#xff…...

2026/5/16 8:16:06 阅读更多 →

无创治疗颈腰椎病：中老年患者的理想选择

中老年颈腰椎病患者面临着特殊的治疗困境：一方面，颈腰椎退变程度较重，常伴随骨质疏松、肌肉萎缩等问题，疼痛与功能受限更为明显；另一方面，多数患者合并高血压、糖尿病、心脏病等基础病，对治疗的…...

2026/5/17 1:46:03 阅读更多 →

大彩串口屏在非接触测温仪HMI设计中的实战应用与优势解析

1. 项目概述：串口屏如何重塑非接触测温仪的用户体验在非接触红外测温仪这个看似传统的行业里，用户体验的“最后一公里”往往决定了产品的成败。几年前，我们团队接手一个手持式红外测温仪的项目升级，客户反馈的核心痛点非常集中&am…...

2026/5/18 0:55:17 阅读更多 →

在macOS上运行Windows程序的终极指南：使用Whisky轻松突破系统壁垒

在macOS上运行Windows程序的终极指南：使用Whisky轻松突破系统壁垒【免费下载链接】Whisky A modern Wine wrapper for macOS built with SwiftUI 项目地址: https://gitcode.com/gh_mirrors/wh/Whisky 想要在Apple Silicon Mac上无缝运行Windows专属软件和游…...

2026/5/19 9:03:43 阅读更多 →