手把手教你用Python+sklearn计算classification_report（附多分类不平衡数据集实战）

张

张建站

2026/5/30 1:51:03

10分钟阅读

手把手教你用Python+sklearn计算classification_report（附多分类不平衡数据集实战）

实战指南用Pythonsklearn深度解析classification_report与不平衡数据评估当你在Kaggle竞赛或实际业务中遇到一个信用卡欺诈检测项目时可能会发现99%的交易都是正常的只有1%是欺诈交易。如果简单地预测所有交易都正常准确率高达99%——但这显然是个失败的模型。这就是为什么我们需要classification_report这个强大的工具来揭示模型真实性能。1. 环境准备与数据加载首先确保你的Python环境已安装以下库pip install scikit-learn pandas numpy matplotlib我们将使用sklearn内置的信用卡欺诈数据集进行演示。这个数据集高度不平衡正负样本比例约为1:1000非常适合演示不平衡分类问题。from sklearn.datasets import make_classification from sklearn.model_selection import train_test_split # 生成不平衡数据集 X, y make_classification(n_samples10000, n_classes2, weights[0.99, 0.01], random_state42) # 划分训练集和测试集 X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.3, stratifyy, random_state42) print(f训练集样本分布: {np.bincount(y_train)}) print(f测试集样本分布: {np.bincount(y_test)})注意使用stratifyy参数确保训练集和测试集保持相同的类别分布比例2. 基础模型训练与准确率陷阱让我们先训练一个简单的随机森林模型看看仅依赖准确率会有什么问题from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score # 训练模型 model RandomForestClassifier(random_state42) model.fit(X_train, y_train) # 预测并计算准确率 y_pred model.predict(X_test) print(f模型准确率: {accuracy_score(y_test, y_pred):.4f})你可能会看到类似这样的输出模型准确率: 0.9933这个数字看起来非常优秀但实际上可能掩盖了严重的问题。让我们深入分析。3. classification_report全面解析现在让我们引入classification_report来获取更全面的评估from sklearn.metrics import classification_report print(classification_report(y_test, y_pred))典型输出如下precision recall f1-score support 0 0.99 1.00 1.00 2970 1 0.00 0.00 0.00 30 accuracy 0.99 3000 macro avg 0.50 0.50 0.50 3000 weighted avg 0.98 0.99 0.99 30003.1 关键指标解读precision精确率预测为正类的样本中实际为正类的比例公式TP / (TP FP)recall召回率实际为正类的样本中被正确预测的比例公式TP / (TP FN)f1-scoreprecision和recall的调和平均数公式2 * (precision * recall) / (precision recall)support每个类别的真实样本数macro avg各类别指标的简单算术平均weighted avg按各类别样本数加权的平均3.2 不平衡数据的指标选择对于我们的欺诈检测案例召回率最重要我们希望尽可能捕捉所有欺诈交易精确率次重要减少误报避免打扰正常客户F1分数平衡精确率和召回率的综合指标4. 改进不平衡数据表现的实战技巧4.1 类别权重调整# 设置类别权重 model RandomForestClassifier( class_weight{0:1, 1:10}, # 给少数类10倍权重 random_state42 ) model.fit(X_train, y_train) y_pred model.predict(X_test) print(classification_report(y_test, y_pred))4.2 采样方法对比方法优点缺点适用场景随机过采样实现简单可能导致过拟合小规模数据SMOTE生成新样本可能产生噪声中等规模数据随机欠采样减少计算量丢失信息大规模数据组合采样平衡优缺点实现复杂各类场景from imblearn.over_sampling import SMOTE # 使用SMOTE过采样 smote SMOTE(random_state42) X_res, y_res smote.fit_resample(X_train, y_train) model RandomForestClassifier(random_state42) model.fit(X_res, y_res) y_pred model.predict(X_test) print(classification_report(y_test, y_pred))4.3 阈值调整技巧默认情况下分类器使用0.5作为决策阈值。对于不平衡数据我们可以寻找最佳阈值from sklearn.metrics import precision_recall_curve # 获取预测概率 y_proba model.predict_proba(X_test)[:, 1] # 计算PR曲线 precision, recall, thresholds precision_recall_curve(y_test, y_proba) # 寻找最佳阈值F1最大 f1_scores 2 * (precision * recall) / (precision recall) best_idx np.argmax(f1_scores) best_threshold thresholds[best_idx] # 使用新阈值预测 y_pred (y_proba best_threshold).astype(int) print(classification_report(y_test, y_pred))5. 多分类场景下的classification_report当处理超过两个类别时classification_report同样适用。让我们看一个新闻分类的例子from sklearn.datasets import fetch_20newsgroups from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB # 加载数据 categories [sci.space, rec.sport.baseball, talk.politics.mideast] newsgroups fetch_20newsgroups(subsettrain, categoriescategories) X, y newsgroups.data, newsgroups.target # 文本向量化 vectorizer TfidfVectorizer(max_features1000) X_vec vectorizer.fit_transform(X) # 训练模型 model MultinomialNB() model.fit(X_vec, y) # 测试集评估 test fetch_20newsgroups(subsettest, categoriescategories) X_test_vec vectorizer.transform(test.data) y_pred model.predict(X_test_vec) print(classification_report(test.target, y_pred, target_namescategories))多分类报告中每个类别都有自己的precision、recall和f1-score同时提供了micro、macro和weighted三种平均方式micro avg全局统计TP/FP/FN计算macro avg各类别指标的简单平均weighted avg按各类别样本数加权的平均6. 高级应用与可视化6.1 自定义报告输出import pandas as pd report classification_report(y_test, y_pred, output_dictTrue) df pd.DataFrame(report).transpose() df.to_csv(classification_report.csv, float_format%.3f)6.2 与混淆矩阵结合分析from sklearn.metrics import ConfusionMatrixDisplay import matplotlib.pyplot as plt fig, (ax1, ax2) plt.subplots(1, 2, figsize(12, 5)) # 绘制分类报告热力图 report classification_report(y_test, y_pred, output_dictTrue) del report[accuracy], report[macro avg], report[weighted avg] df pd.DataFrame(report).iloc[:-3, :3] sns.heatmap(df, annotTrue, cmapBlues, axax1) ax1.set_title(Classification Report Heatmap) # 绘制混淆矩阵 ConfusionMatrixDisplay.from_predictions(y_test, y_pred, axax2) ax2.set_title(Confusion Matrix) plt.tight_layout() plt.show()6.3 多模型对比报告from sklearn.linear_model import LogisticRegression from sklearn.svm import SVC models { Random Forest: RandomForestClassifier(random_state42), Logistic Regression: LogisticRegression(class_weightbalanced), SVM: SVC(class_weightbalanced, probabilityTrue) } results {} for name, model in models.items(): model.fit(X_train, y_train) y_pred model.predict(X_test) results[name] classification_report(y_test, y_pred, output_dictTrue) # 提取各模型的f1-score进行比较 f1_scores { name: report[weighted avg][f1-score] for name, report in results.items() } pd.Series(f1_scores).plot(kindbar) plt.title(Model Comparison by Weighted F1-score) plt.ylabel(F1-score) plt.show()在实际项目中我发现对于极端不平衡数据如1:10000单纯依赖class_weight可能不够通常需要结合过采样和阈值调整才能获得理想结果。另外不同业务场景对precision和recall的侧重不同——风控场景通常更看重recall而推荐系统可能更关注precision。

别再死记硬背了！用GDB+QEMU调试Linux内核，亲眼看看MMU和TLB是怎么工作的

用GDBQEMU动态观察Linux内核中MMU与TLB的实战指南在计算机科学教育中，内存管理单元(MMU)和转换后备缓冲器(TLB)常常是理论讲解多于实践观察的概念。大多数教材和课程停留在静态图示和抽象描述层面，而今天我们采用一种革命性的学习方法——通过GDB和QEMU搭…...

2026/5/30 1:49:27 阅读更多 →

保姆级教程：在Ubuntu 20.04上从源码编译运行FAST-LIO2（避坑指南）

从零部署FAST-LIO2：Ubuntu 20.04实战指南与深度调优当激光雷达遇上惯性测量单元，SLAM领域便诞生了无数令人振奋的可能性。FAST-LIO2作为激光惯性里程计中的佼佼者，以其计算效率和鲁棒性在学术界和工业界广受好评。但对于刚接触这一领域的开发…...

2026/5/30 1:42:28 阅读更多 →

【Lindy自动化黄金配置清单】：12项必检参数+3类高危人工干预场景预警

更多请点击： https://codechina.net 第一章：Lindy赛事管理自动化的演进逻辑与核心价值 Lindy赛事管理从人工台账、Excel协同到云原生平台驱动，其自动化演进并非技术堆砌的结果，而是由赛事密度激增、跨地域协作常态化、实时数据决…...

2026/5/30 1:37:05 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/27 16:21:02 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/29 20:04:58 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/28 13:47:19 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/30 1:22:49 阅读更多 →