1. 道路提取数据集入门指南刚接触道路提取任务时最头疼的就是找合适的数据集。我刚开始做这个方向时花了两周时间才搞清楚哪些数据集好用、怎么下载。现在回头看其实主流数据集就那几个关键是要知道它们的特点和获取技巧。道路提取是计算机视觉在遥感领域的重要应用简单说就是从卫星或航拍图片中自动识别道路网络。这对城市规划、交通管理、灾害救援都很有价值。但要做这个研究首先得有标注好的数据。目前公开可用的数据集主要有四个DeepGlobe、SpaceNet、马萨诸塞州道路数据集和CHN6-CUG。它们各有特色适用场景也不同。举个例子如果你要做城市道路提取SpaceNet可能更合适如果是乡村道路DeepGlobe覆盖更全面。而马萨诸塞州数据集虽然规模小但标注质量极高适合做算法验证。CHN6-CUG则是少有的中国道路数据集对本土化研究很有帮助。2. DeepGlobe道路数据集实战2.1 数据集特点与适用场景DeepGlobe Road Extraction Challenge是2018年CVPR的一个比赛数据集包含6226张高分辨率卫星图像分辨率约0.5米覆盖泰国、印度尼西亚和印度三个国家。这个数据集有几个明显优势地理多样性包含城市、乡村、山区等多种地形标注精细道路中心线标注平均每张图有约1.5公里道路挑战性强有大量被树木遮挡、模糊不清的道路我在实际项目中发现DeepGlobe特别适合训练模型的泛化能力。因为它的图像来自不同国家道路风格差异大能避免模型过拟合单一场景。2.2 下载方法与避坑指南官方下载渠道是Kaggle但国内访问不太稳定。我推荐两种可靠下载方式方法一Kaggle直接下载kaggle datasets download -d balraj98/deepglobe-road-extraction-dataset需要先安装kaggle命令行工具配置API key。如果遇到连接问题可以尝试修改hosts文件或使用代理注意遵守当地法律法规。方法二CSDN资源备份很多国内开发者会在CSDN分享网盘链接。比如这个https://blog.csdn.net/weixin_42990464/article/details/113699960优点是下载速度快缺点是可能不是最新版本。下载后记得检查文件完整性我遇到过标注文件损坏的情况。3. SpaceNet道路数据集详解3.1 数据集版本对比SpaceNet系列由CosmiQ Works等机构发布目前最常用的是SpaceNet 3和SpaceNet 5版本区域图像数量分辨率特点SN35个城市约4000张0.3米多光谱图像SN5拉斯维加斯等约1500张0.5米包含时序数据SpaceNet 3的标注质量特别好适合做算法基准测试。而SpaceNet 5有同一区域不同时间的图像适合研究道路变化检测。3.2 AWS CLI下载技巧SpaceNet官方推荐通过AWS CLI下载但直接下载速度可能很慢。我总结了几点加速技巧使用--no-sign-request参数避免认证流程拖慢速度aws s3 cp --no-sign-request s3://spacenet-dataset/spacenet/SN3_roads/ ./SN3 --recursive分批次下载不要一次性下载整个数据集可以按城市分批# 只下载拉斯维加斯部分 aws s3 cp --no-sign-request s3://spacenet-dataset/spacenet/SN3_roads/Las_Vegas ./SN3/Las_Vegas --recursive更换AWS区域有时切换region能显著提升速度aws configure set region us-west-2实测发现凌晨时段的下载速度通常是白天的2-3倍。如果中断了可以用--exclude和--include参数实现断点续传。4. 马萨诸塞州道路数据集应用4.1 数据集特色解析这个由多伦多大学发布的数据集虽然规模小仅1171张图像但有三大不可替代的优势标注一致性极高全部由专业团队标注几乎没有错误覆盖多种场景包括城市、乡镇、农村、山区附带数字高程模型这对3D道路重建很有帮助我在做算法对比实验时总会用这个数据集做验证。因为它的标注足够可靠能真实反映算法性能。4.2 下载与预处理建议官方下载地址https://www.cs.toronto.edu/~vmnih/data/下载后需要注意图像是TIF格式OpenCV直接读取可能会出问题建议用GDAL库标注是二进制mask需要转换为常规格式import numpy as np from PIL import Image mask np.array(Image.open(road_mask.png)) road_mask (mask 0).astype(np.uint8) * 255数据集划分建议按官方推荐的训练集1108张、测试集49张、验证集14张比例这样结果才可比较。5. CHN6-CUG中国道路数据集5.1 本土化数据集的价值中国地质大学朱祺琪教授团队发布的这个数据集是少有的高质量中国道路数据。包含6个城市北京、上海、武汉等的遥感图像主要特点中国特有的道路格局如城中村道路高密度城市道路网络不同等级道路的精细标注我在处理中国城市图像时发现用国外数据集训练的模型表现很差而加入CHN6-CUG数据后准确率提升了约30%。5.2 获取方式与使用技巧数据集需要通过邮件申请http://grzy.cug.edu.cn/zhuqiqi/zh_CN/yjgk/32368/list/index.htm申请时建议用学校或公司邮箱发送请求说明具体研究用途承诺遵守使用协议收到数据后要注意坐标系是CGCS2000与其他数据集一起使用时需要做坐标转换。标注格式是GeoJSON可以用QGIS查看。6. 数据集应用实战技巧6.1 数据增强策略道路提取任务常常面临数据不足的问题。我常用的增强方法旋转翻转基础但有效import albumentations as A transform A.Compose([ A.Rotate(limit45, p0.5), A.HorizontalFlip(p0.5), A.RandomBrightnessContrast(p0.2), ])道路特定增强模拟树木遮挡随机添加椭圆mask道路断裂模拟随机擦除阴影效果添加6.2 多数据集联合训练把不同数据集混合训练能显著提升模型鲁棒性但要注意标注统一化DeepGlobe是中心线SpaceNet是路面区域需要转换分辨率归一化用双线性插值统一到相同分辨率波段对齐有些是RGB有些是多光谱要提取共同波段我通常的预处理流程def preprocess(image, mask, target_size512): # 统一分辨率 image cv2.resize(image, (target_size, target_size)) mask cv2.resize(mask, (target_size, target_size)) # 标注转换 if mask.ndim 3: # SpaceNet格式 mask mask.max(axis2) else: # DeepGlobe格式 mask (mask 0).astype(np.uint8) return image, mask7. 常见问题与解决方案7.1 下载速度慢怎么办除了前面提到的AWS CLI技巧还可以使用国内镜像站如阿里云OSS镜像租用海外云服务器中转下载联系有数据的实验室共享7.2 标注不一致问题不同数据集标注标准不同我的处理经验对中心线标注先用形态学操作扩展为区域对区域标注用骨架提取获取中心线建立统一的标注质量评估标准7.3 小样本场景下的应对当数据量有限时可以使用预训练模型在ImageNet上预训练的编码器采用半监督学习如FixMatch算法利用生成对抗网络合成数据在实际项目中我通常会先用SpaceNet这样的大数据集预训练再用目标区域的小数据集微调效果比直接训练好很多。