用Python和NumPy从零实现商品关联规则挖掘（附完整代码与数据集）

张

张建站

2026/5/30 1:20:10

10分钟阅读

用Python和NumPy从零实现商品关联规则挖掘附完整代码与数据集超市货架上商品摆放的奥秘往往藏在消费者的购物篮里。当一位顾客同时拿起牛奶和面包时背后可能隐藏着值得挖掘的消费规律。这种发现商品间关联关系的技术正是推荐系统和智能货架管理的核心。本文将带您用最基础的Python和NumPy工具亲手实现这套被称为亲和性分析的算法。不同于直接调用现成的机器学习库我们将从零构建每个计算步骤。您将学到如何用数组处理交易数据、计算关键指标并最终找出那些买A商品的人通常也会买B的黄金规则。文末提供的模拟数据集包含牛奶、面包、水果等常见商品您可以直接用来验证算法。1. 环境准备与数据理解任何数据分析项目的第一步都是准备好实验环境。这里我们只需要Python基础环境和NumPy库——它是科学计算的基石提供了高效的数组操作接口。安装只需一行命令pip install numpy我们的示例数据集模拟了超市购物记录每行代表一个购物篮用1/0标记是否购买某商品。数据格式如下牛奶面包苹果香蕉火腿1100001100...............加载数据只需NumPy的loadtxt函数import numpy as np data np.loadtxt(groceries.csv, delimiter,) print(f共加载{len(data)}条交易记录{data.shape[1]}种商品)提示实际业务中数据可能来自数据库或日志文件。确保您的数据已经过清洗缺失值已处理为0或适当填充。2. 基础统计与规则发现关联规则挖掘的核心是找出形如如果购买A则可能购买B的规律。我们需要两个关键指标支持度(Support)规则在数据集中出现的频率置信度(Confidence)当A出现时B出现的条件概率计算购买牛奶和面包的联合概率milk_and_bread np.sum((data[:,0]1) (data[:,1]1)) total_transactions len(data) support milk_and_bread / total_transactions print(f牛奶面包的支持度: {support:.2%})商品组合的支持度计算可以抽象为以下步骤遍历每种商品组合避免重复计算A→B和B→A统计同时购买的交易数除以总交易数得到支持度筛选支持度超过阈值的组合3. 高效实现关联规则挖掘当商品种类增多时暴力枚举所有组合效率极低。我们采用优化的双层循环结构from collections import defaultdict features [milk, bread, apple, banana, ham] valid_rules defaultdict(int) # 存储有效规则 num_occurrences defaultdict(int) # 存储前提出现次数 for sample in data: for premise in range(len(features)): if sample[premise] 0: continue num_occurrences[premise] 1 for conclusion in range(len(features)): if premise conclusion: continue if sample[conclusion] 1: valid_rules[(premise, conclusion)] 1计算置信度的核心公式置信度(A→B) 支持度(A∪B) / 支持度(A)Python实现confidence defaultdict(float) for (premise, conclusion), count in valid_rules.items(): confidence[(premise, conclusion)] count / num_occurrences[premise]4. 规则评估与业务应用得到所有规则后需要根据业务需求筛选最有价值的组合。常见策略包括支持度排序找出高频组合置信度排序找出最强关联提升度(Lift)衡量规则的实际效果支持度Top5规则提取from operator import itemgetter sorted_support sorted(valid_rules.items(), keyitemgetter(1), reverseTrue) for i, (rule, count) in enumerate(sorted_support[:5]): prem, conc rule print(f规则#{i1}: 如果购买{features[prem]}则可能购买{features[conc]}) print(f- 支持度: {count}/{len(data)}) print(f- 置信度: {confidence[rule]:.1%})实际业务中还需要考虑规则的可解释性避免牵强关联商品利润贡献高毛利商品优先季节性因素不同时段规则可能变化完整代码示例包含数据预处理、规则生成和可视化模块已打包为可运行的Jupyter Notebook。通过这个项目您不仅理解了推荐算法的底层逻辑更掌握了将数学公式转化为高效代码的能力。下次看到超市的关联陈列时您会知道那背后是一套精密的概率计算。

英语口语检测智能体设计与实现

英语口语检测智能体设计与实现 1. 引言 1.1 背景与意义在英语教学中，口语能力的评测往往依赖教师一对一的人工听评，效率低且主观性强。随着人工智能和语音处理技术的发展，自动化口语评测成为可能。本设计旨在构建一个英语口语检测智能体，能够实时采集学生的口语录音，自…...

2026/5/30 1:19:58 阅读更多 →

【SRC漏洞挖掘系列】第13期：云安全与中间件 —— 站在云端的“上帝视角”

上期回顾：我们用泛微、致远打穿了 OA 系统，拿到了服务器权限。但现在的战场变了，“云原生” 时代来临，目标可能只是一台云主机，甚至只是一个存储桶。这一期，我们要把视角拉到云端，看看如何把别…...

2026/5/30 1:19:49 阅读更多 →

从MATLAB到Keras：一维卷积(1DCNN)的权重矩阵到底怎么存？手把手带你理清

从MATLAB到Keras：一维卷积(1DCNN)的权重矩阵到底怎么存？手把手带你理清在深度学习领域，一维卷积神经网络（1DCNN）因其在处理时序数据、信号分析等任务中的卓越表现而备受关注。然而，当开发者尝试在不同框架间…...

2026/5/30 1:19:43 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/27 16:21:02 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/29 20:04:58 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/28 13:47:19 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/30 1:22:49 阅读更多 →