机器学习之聚类算法-KMeans

张

张建站

2026/6/10 1:14:38

10分钟阅读

聚类算法根据样本之间的相似性将样本划分到不同的类别中。聚类算法有K-means聚类、层次聚类、DBSCAN聚类、谱聚类等其中主要以K均值K-Means算法最为常用k-Means是一种无监督学习的聚类算法用于将数据划分为k个互不重叠的簇clusters。1. 聚类算法的核心思想核心思想通过迭代优化将样本分配到最近的簇中心质心并更新质心位置直到收敛。Api应用# 导包 from sklearn.cluster import KMeans # 创建模型实例 model KMeans(n_clusters4, random_state22) # 模型训练 estimator.fit(x) # 模型预测 pred estimator.predict(x)2. K-Means算法的底层流程1. 确定初始K中心初始化K值或利用K-Means算法优化初始点的选择让簇之间的距离尽可能远。2. 寻找最优的质心不断迭代、分配/更新的过程直到收敛或达到迭代次数使得簇内平方和达到最小值。3. 确定最终结果当迭代停止时算法输出最终的K个簇和对应的质心。3. 聚类算法的模型评估函数聚类算法常用的评估方法有SSE 误差平方和考虑簇内距离SSE 相对越小越好肘部法下降率突然变缓时聚类效果最好。ApiKMeans.inertia_属性SC SC轮廓系数法考虑簇内距离和簇外距离取值为[-1, 1]SC值越大聚类效果越好。Apifrom sklearn.metrics import silhouette_score通过图像可观察到n_clusters4取到最大值最佳值4CH CH轮廓系数法考虑簇内距离和簇外距离、质心的个数CH值越大聚类效果越好。Apifrom sklearn.metrics import calinski_harabasz_score通过图像可观察到n_clusters4取到最大值最佳值4

minhash算法

MinHash（最小哈希）算法是一种在计算机科学中用于快速估计两个集合之间相似度的算法。它由 Andrei Broder 在1997年提出，最初用于搜索引擎中网页去重和聚类。在大数据环境下，如果直接比对两个海量集合的交集和并集，计…...

2026/6/10 1:13:54 阅读更多 →

涡喷发动机及其延伸应用（二）

第三节：涡喷发动机的控制技术涡喷发动机的控制系统就像是发动机的“大脑”，其核心是全权限数字电子控制器。一、涡喷发动机控制系统总体框架涡喷发动机控制系统框架二、深入核心技术细节1. 控制逻辑的智慧：控制系统就像一个经验丰富的飞行员。…...

2026/6/10 1:12:33 阅读更多 →

流水线高效设计

一、流水线设计说明 1.流水线设计，dataflow中的task的内部来执行if-else条件分支； 2.不要将dataflow中的task放在if-else条件分支内，这种有条件的执行task任务， 会造成流水线性能的大打折扣。 3.if-else条件中执行task任务&#x…...

2026/6/10 1:08:08 阅读更多 →

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…...

2026/6/9 1:16:23 阅读更多 →

2026实测盘点｜适合国内高校生的AI写作平台，降重润色哪家强？

2026年毕业季，学术审查全面加码。教育部明确要求毕业论文AIGC率不得超过30%，985/211院校更是将红线压到了20%以内，硕士论文甚至卡到15%。与此同时，知网上线AIGC 3.0系统，可实现段落级内容溯源；维普引入语义…...

2026/6/9 19:20:02 阅读更多 →

JewelCraft：Blender珠宝设计的终极免费解决方案

JewelCraft：Blender珠宝设计的终极免费解决方案【免费下载链接】jewelcraft Blender add-on for jewelry design 项目地址: https://gitcode.com/gh_mirrors/je/jewelcraft JewelCraft是一款专为珠宝设计师和3D艺术家打造的Blender插件，提供完整…...

2026/6/9 1:16:30 阅读更多 →