别再死记公式了！用Python手撸一个LDA分类器，从鸢尾花数据集开始

张

张建站

2026/6/1 2:04:33

10分钟阅读

从零实现LDA分类器用Python代码解锁鸢尾花数据集的分类奥秘当我在第一次接触线性判别分析(LDA)时那些复杂的数学公式让我望而生畏。直到有一天我决定抛开教科书直接用Python代码一步步实现这个算法才真正理解了它的精妙之处。本文将带你体验这段从理论到实践的旅程我们不仅会用NumPy手写LDA的核心计算还会在经典的鸢尾花数据集上进行可视化展示让你获得亲手实现的成就感。1. 环境准备与数据探索在开始编码前我们需要准备好Python环境和必要的数据集。推荐使用Anaconda创建虚拟环境这能避免包依赖冲突conda create -n lda_demo python3.8 conda activate lda_demo pip install numpy matplotlib scikit-learn鸢尾花数据集是机器学习领域的Hello World它包含三种鸢尾花的四个特征萼片长度、萼片宽度、花瓣长度和花瓣宽度。我们先加载并观察数据from sklearn.datasets import load_iris import numpy as np iris load_iris() X iris.data y iris.target feature_names iris.feature_names print(f特征矩阵形状: {X.shape}) print(f类别分布: {np.bincount(y)}) print(特征名称:, feature_names)输出结果会显示我们有150个样本均匀分布在三个类别中。为了简化问题我们暂时只考虑二分类场景选择前两个类别# 提取前两类数据 X X[y ! 2] y y[y ! 2]2. LDA核心算法实现LDA的核心思想是找到最佳投影方向使得同类样本尽可能聚集不同类样本尽可能分离。这需要计算两个关键矩阵2.1 计算类内散度矩阵类内散度矩阵(S_w)衡量同类样本的离散程度。我们需要先计算每个类别的协方差矩阵然后求和def compute_within_class_scatter(X, y): classes np.unique(y) n_features X.shape[1] S_w np.zeros((n_features, n_features)) for c in classes: X_c X[y c] # 计算类内协方差矩阵注意ddof1表示无偏估计 cov_matrix np.cov(X_c, rowvarFalse, ddof1) S_w cov_matrix return S_w S_w compute_within_class_scatter(X, y) print(类内散度矩阵:\n, S_w)2.2 计算类间散度矩阵类间散度矩阵(S_b)衡量不同类别中心点的离散程度def compute_between_class_scatter(X, y): overall_mean np.mean(X, axis0) classes np.unique(y) n_features X.shape[1] S_b np.zeros((n_features, n_features)) for c in classes: n_c np.sum(y c) mean_c np.mean(X[y c], axis0) # 计算每个类别的贡献 diff (mean_c - overall_mean).reshape(-1, 1) S_b n_c * np.dot(diff, diff.T) return S_b S_b compute_between_class_scatter(X, y) print(类间散度矩阵:\n, S_b)2.3 求解最优投影方向LDA的最优投影方向是最大化广义瑞利商的方向这可以通过求解广义特征值问题得到def lda(X, y): S_w compute_within_class_scatter(X, y) S_b compute_between_class_scatter(X, y) # 数值稳定的求逆方法 eigenvalues, eigenvectors np.linalg.eig(np.linalg.pinv(S_w) S_b) # 选择最大特征值对应的特征向量 idx eigenvalues.argsort()[::-1] eigenvectors eigenvectors[:, idx] w eigenvectors[:, 0].real # 归一化投影向量 w w / np.linalg.norm(w) return w w lda(X, y) print(最优投影方向:, w)在实际项目中我们可能会遇到矩阵奇异的问题。这时可以添加一个小的正则化项来保证数值稳定性S_w_reg S_w 1e-6 * np.eye(S_w.shape[0])3. 结果可视化与分析理解算法最好的方式就是看到它的实际效果。让我们将原始数据和投影后的结果可视化import matplotlib.pyplot as plt # 原始数据散点图 plt.figure(figsize(12, 5)) plt.subplot(1, 2, 1) for c in np.unique(y): plt.scatter(X[y c, 0], X[y c, 1], labelfClass {c}) plt.xlabel(Sepal length) plt.ylabel(Sepal width) plt.title(Original Data) plt.legend() # 计算投影后的数据 projected X w.reshape(-1, 1) # 投影结果可视化 plt.subplot(1, 2, 2) for c in np.unique(y): plt.hist(projected[y c], alpha0.7, labelfClass {c}, bins20) plt.xlabel(Projection Value) plt.ylabel(Frequency) plt.title(LDA Projection Results) plt.legend() plt.tight_layout() plt.show()这段代码会生成两个子图左边显示原始特征空间中的数据分布右边显示投影到最佳方向后的分布情况。你会看到投影后的两类数据明显更易区分。4. 性能评估与边界绘制为了量化我们的LDA实现效果我们可以计算分类准确率并绘制决策边界from sklearn.metrics import accuracy_score # 计算投影后的类别中心 mean_0 np.mean(projected[y 0]) mean_1 np.mean(projected[y 1]) # 计算决策阈值 threshold (mean_0 mean_1) / 2 # 预测类别 y_pred (projected threshold).astype(int).flatten() # 计算准确率 acc accuracy_score(y, y_pred) print(f分类准确率: {acc:.2%}) # 绘制决策边界 plt.figure(figsize(8, 6)) for c in np.unique(y): plt.scatter(X[y c, 0], X[y c, 1], labelfClass {c}) # 生成网格点用于绘制决策边界 x_min, x_max X[:, 0].min() - 1, X[:, 0].max() 1 y_min, y_max X[:, 1].min() - 1, X[:, 1].max() 1 xx, yy np.meshgrid(np.arange(x_min, x_max, 0.1), np.arange(y_min, y_max, 0.1)) # 计算网格点的投影值 Z np.c_[xx.ravel(), yy.ravel()] w.reshape(-1, 1) Z (Z threshold).astype(int).reshape(xx.shape) # 绘制决策边界 plt.contourf(xx, yy, Z, alpha0.3, levels[-0.5, 0.5, 1.5]) plt.xlabel(Sepal length) plt.ylabel(Sepal width) plt.title(LDA Decision Boundary) plt.legend() plt.show()5. 扩展到多类别场景虽然我们演示的是二分类场景但LDA天然支持多类别分类。关键在于计算投影矩阵时选择多个特征向量def multiclass_lda(X, y, n_componentsNone): S_w compute_within_class_scatter(X, y) S_b compute_between_class_scatter(X, y) # 解决数值稳定性问题 S_w_reg S_w 1e-6 * np.eye(S_w.shape[0]) eigenvalues, eigenvectors np.linalg.eig(np.linalg.pinv(S_w_reg) S_b) # 按特征值降序排序 idx eigenvalues.argsort()[::-1] eigenvectors eigenvectors[:, idx] eigenvalues eigenvalues[idx] # 选择前n_components个特征向量 if n_components is not None: eigenvectors eigenvectors[:, :n_components] return eigenvectors.real # 使用全部三类数据 X_full iris.data y_full iris.target W multiclass_lda(X_full, y_full, n_components2) print(投影矩阵:\n, W) # 投影数据 X_lda X_full W # 可视化投影结果 plt.figure(figsize(8, 6)) for c in np.unique(y_full): plt.scatter(X_lda[y_full c, 0], X_lda[y_full c, 1], labelfClass {c}) plt.xlabel(LD1) plt.ylabel(LD2) plt.title(Multiclass LDA Projection) plt.legend() plt.show()在多类别场景中LDA实际上是将数据投影到一个最多有C-1维的子空间C是类别数。对于三分类问题我们最多可以得到两个有意义的线性判别方向。6. 实际应用中的注意事项在真实项目中应用LDA时有几个关键点需要特别注意特征缩放虽然LDA不受特征尺度影响因为涉及协方差计算但为了数值稳定性建议标准化数据from sklearn.preprocessing import StandardScaler scaler StandardScaler() X_scaled scaler.fit_transform(X)维度灾难当特征维度很高而样本数较少时S_w可能奇异。解决方法包括增加正则化项先使用PCA降维使用伪逆代替常规逆类别不平衡原始LDA假设各类别分布均匀。对于不平衡数据可以调整类间散度矩阵的计算方式# 考虑类别权重的S_b计算 def weighted_between_class_scatter(X, y): overall_mean np.mean(X, axis0) classes, counts np.unique(y, return_countsTrue) n_features X.shape[1] S_b np.zeros((n_features, n_features)) total_samples len(y) for c, n_c in zip(classes, counts): mean_c np.mean(X[y c], axis0) diff (mean_c - overall_mean).reshape(-1, 1) weight n_c / total_samples # 使用类别比例作为权重 S_b weight * np.dot(diff, diff.T) return S_b与PCA的区别虽然PCA和LDA都是线性降维方法但它们的优化目标不同特性PCALDA优化目标最大化方差最大化类间分离度监督/无监督无监督有监督投影方向数由用户指定最多C-1个C为类别数适用场景探索性分析、特征提取分类任务、可解释性降维在完成这个项目后我最大的收获是理解了数学公式背后的实际意义。比如类内散度矩阵实际上是在量化每个类别的紧凑程度而类间散度矩阵则衡量不同类别的分离程度。这种从代码实现反推理论理解的方式比单纯学习数学推导要直观得多。

自动驾驶中的鲁棒MPC：基于约束zonotope的非高斯噪声处理

1. 项目概述在自动驾驶领域，模型预测控制（MPC）因其出色的轨迹优化能力而备受青睐。然而，传统MPC方法存在一个关键假设：感知模块的噪声服从高斯分布。这一假设在实际应用中往往失效，特别是当系统采用深度学习…...

2026/6/1 2:02:18 阅读更多 →

ssm少儿编程管理系统（10133）

有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码SQL脚本）配套文档（LWPPT开题报告/任务书）远程调试控屏包运行一键启动项目&…...

2026/6/1 2:02:01 阅读更多 →

yolov26改进 | 添加注意力机制篇 | 添加iRMB倒置残差块注意力机制（附独家创新网络结构图）

开始讲解之前推荐一下我的专栏，本专栏的内容支持(分类、检测、分割、追踪、关键点检测),专栏目前为限时折扣，欢迎大家订阅本专栏，本专栏每周更新5-7篇最新机制，更有包含我所有改进的文件和交流群提供给大家，本人定期在…...

2026/6/1 1:59:50 阅读更多 →

量子误差缓解技术：原理、应用与优化

1. 量子误差缓解技术概述量子计算在NISQ（含噪中等规模量子）时代面临的核心挑战之一是量子噪声对计算结果的干扰。误差缓解技术作为当前最实用的解决方案，能够在硬件层面纠错技术成熟前，显著提升量子算法的执行精度。与传统纠错不同…...

2026/6/1 0:46:24 阅读更多 →

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Tabl…...

2026/6/1 0:46:29 阅读更多 →

如何用Poppins字体解决多语言设计难题：新手完整指南

如何用Poppins字体解决多语言设计难题：新手完整指南【免费下载链接】Poppins Poppins, a Devanagari Latin family for Google Fonts. 项目地址: https://gitcode.com/gh_mirrors/po/Poppins 你是否曾为多语言项目中的字体选择而烦恼？当你的网站…...

2026/6/1 0:46:34 阅读更多 →