038、标注数据质量差、类别不均衡？数据清洗、重采样与合成数据补充方案

张

张建站

2026/5/27 18:08:08

10分钟阅读

038、标注数据质量差、类别不均衡？数据清洗、重采样与合成数据补充方案去年秋天，我在一个工业质检项目上栽了个大跟头。客户给了一万张PCB板缺陷图像，标注文件里“焊点虚焊”类目下只有87个框，“划痕”类目下却有四千多个。模型训练完，虚焊检测的召回率只有可怜的12%，现场误报率却飙到40%以上。我盯着混淆矩阵看了半天，发现模型压根没学会“虚焊”长什么样——它只是学会了把所有“看起来像缺陷”的东西都判成划痕。后来我花了整整两周做数据清洗和重采样，才把召回率拉到78%。今天这篇笔记，就把那两周踩过的坑和总结出的套路，原原本本写下来。一、标注数据质量差：那些让你怀疑人生的“脏数据”先别急着谈算法，数据清洗是第一步，也是最容易被忽视的一步。我见过太多人拿到数据集直接开训，结果模型在验证集上表现不错，一到现场就崩。原因很简单：标注数据里藏着大量“毒药”。标注错误是最常见的毒药。比如一张图像里明明有三个目标，标注框只框了两个；或者框的位置偏了半个身位；更离谱的是类别标错——把“正常”标成“缺陷”，把“A类缺陷”标成“B类缺陷”。这些错误会让模型学到错误的映射关系。我的做法是：先写一个简单的可视化脚本，把标注框画在原图上，随机抽500张人工过一遍。别嫌麻烦，这一步能筛掉至少30%的明显错误。代码里我习惯这样写：# 这里踩过坑：直接读json标注，没检查坐标是否越界# 别这样写：for an

UI-TARS桌面版：5分钟掌握智能GUI自动化的终极指南

UI-TARS桌面版：5分钟掌握智能GUI自动化的终极指南【免费下载链接】UI-TARS-desktop The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra 项目地址: https://gitcode.com/GitHub_Trending/ui/UI-TARS-desktop 你…...

2026/5/27 18:07:41 阅读更多 →

Kimi-K2.6社区贡献指南：如何参与开源项目并改进模型

Kimi-K2.6社区贡献指南：如何参与开源项目并改进模型【免费下载链接】Kimi-K2.6 Kimi K2.6 是一款开源的原生多模态智能体模型，在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。项目地址: https://ai.gitcode.…...

2026/5/27 18:06:11 阅读更多 →

AlmaLinux 同时发布 9.8 和 10.2 稳定版，新增软件包、提升安全性并支持 32 位软件

AlmaLinux 9.8 与 10.2 稳定版核心功能亮点AlmaLinux OS Foundation 宣布同时发布代号为 "Olive Jaguar" 的 AlmaLinux OS 9.8 和代号为 "Lavender Lion" 的 AlmaLinux OS 10.2 两个稳定版本。AlmaLinux 9.8（kernel 5.14.0 - 687.5.3.el9_8&…...

2026/5/27 18:05:13 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/27 16:21:02 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/27 10:33:57 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/27 10:34:01 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/27 10:34:01 阅读更多 →