主动学习数据集划分

张

张建站

2026/5/27 5:37:02

10分钟阅读

此代码在20次循环里通过样本idx将数据集划分为三部分测试集、未标注样本、已标注样本每个类至少有一个已标注样本df pd.read_csv(datasets/Automobile.csv, headerNone) X df.iloc[:, :-1].to_numpy() y df.iloc[:, -1].to_numpy() TEST_SIZE 0.3 UNLABELED_SIZE 0.85 # 未标注池占非测试部分的比例较大 for split_i in range(20): print(f 第 {split_i} 次循环) seed 42 split_i * 100 rng np.random.default_rng(seed) # 1) 分层抽测试集 sss StratifiedShuffleSplit(n_splits1, test_sizeTEST_SIZE, random_stateseed) rest_idx, test_idx next(sss.split(X, y)) y_rest y[rest_idx] X_test , y_test X[test_idx] , y[test_idx] # 2) 每个类别至少 1 个放入 labeled classes np.unique(y_rest) one_per_class [rng.choice(np.where(y_rest c)[0], size1)[0] for c in classes] # 3) 余下部分按比例抽 unlabeled其余全归 labeled remaining np.setdiff1d(np.arange(len(y_rest)), one_per_class) #生成剩余数组下标 n_unlabeled max(1, int(len(remaining) * UNLABELED_SIZE)) unlabeled rng.choice(remaining, sizen_unlabeled, replaceFalse) labeled np.setdiff1d(np.arange(len(y_rest)), unlabeled)

AI工程实践：从实验室到生产系统的治理、MLOps与风险控制

1. 从“科学实验”到“生产系统”：AI工程实践的范式转变我见过太多团队，他们能把一个AI模型的验证准确率刷到94%，却在部署上线后眼睁睁看着它跌到71%。这不是模型本身的问题，而是我们用错了方法。传统的软件工程，代码是…...

2026/5/27 5:36:37 阅读更多 →

AI开发者的网络卡点：Anthropic连接超时实战避坑指南

技术文章大纲：使用OpenCL重写CUDA内核背景与动机CUDA与OpenCL的异同点：架构设计、适用平台、性能特性为何需要从CUDA迁移到OpenCL：跨平台需求、开源生态、长期维护性目标读者：CUDA开发者、异构计算工程师、跨平台应用开发者CUDA内…...

2026/5/27 5:32:59 阅读更多 →

移动开发十年变革：从原生到跨端，开发者能力模型重塑与实战指南

1. 移动开发的十年之变：从“造轮子”到“搭积木”十年前，我刚入行做移动开发，那会儿iOS和Android的生态壁垒高得吓人。一个功能，iOS要用Objective-C写一遍，Android要用Java再写一遍，团队里经常是“鸡同鸭讲…...

2026/5/27 5:30:30 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/26 9:09:40 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/26 9:11:16 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/26 7:22:22 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/25 17:59:32 阅读更多 →