助睿实验作业3-学生用户画像考勤主题扩展标签构建
一、实验背景1.1 实验目的本次实验依托助睿数智Uniplore一站式数据科学实验平台以学生考勤数据为研究对象完成零代码机器学习聚类建模与数据可视化分析全流程实操。我通过本次实验熟练掌握平台数据接入、K-Means聚类建模、BI可视化图表制作、仪表盘搭建、ETL数据更新、数据表结构修改等核心技能。本次实验核心任务为基于学生迟到、早退、请假、校服违规四类考勤异常数据利用K-Means算法自动划分学生考勤群体结合业务场景解读聚类结果将机器聚类编号转化为可落地的学生考勤画像并将分类标签回写至原始数据表完善学生考勤主题标签体系实现学生考勤行为的精细化数据分析。1.2 实验环境本次实验全程采用助睿数智Uniplore一站式数据科学实验平台完成该平台可实现数据接入、ETL处理、机器学习建模、可视化分析的全链路零代码智能分析无需编程基础即可完成大数据挖掘与建模实验。平台相关信息平台全称助睿数智Uniplore一站式数据科学实验平台产品官网https://www.uniplore.com/实验访问地址https://lab.guilian.cn/实验数据采用预处理完成的student_attendance_stats学生考勤主题统计表数据包含学生ID、班级ID、迟到次数、早退次数、请假次数、校服违规次数等核心字段数据规整、无严重缺失值可直接用于聚类建模分析。1.3 整体处理流程本次实验整体分为四大核心流程逻辑清晰、层层递进第一在AI Studio模块新建工作流导入考勤数据并筛选有效字段完成K-Means聚类建模输出学生聚类簇结果并保存至数据库第二依托助睿BI平台连接聚类结果数据源构建数据集、制作多维度考勤聚类分析散点图搭建整合仪表盘第三结合可视化图表特征对三类聚类簇进行业务解读划分不同学生考勤群体第四通过ETL流程修改原始数据表结构新增聚类标签字段完成聚类编号与考勤群体的映射并将结果批量回写至原始考勤表完善学生考勤画像数据。二、实验步骤2.1 AI Studio聚类建模2.1.1 新建工作流操作说明进入平台人工智能模块创建全新工作流搭建独立的聚类建模运行环境。配置要点登录实验平台后点击左侧菜单“人工智能”进入AI Studio模块点击页面左上角“”选择“新建工作流”。人工智能操作页面主要由菜单栏、控件列表、画布三部分组成后续所有建模操作均在画布中完成。2.1.2 数据导入与筛选操作说明导入学生考勤数据集筛选建模所需核心字段配置字段属性类型并运行校验数据。配置要点在控件列表搜索“数据库加载”控件并拖拽至画布双击控件填入团队私有数据库信息并完成连接选择数据表student_attendance_stats。结合实验需求仅保留学生ID、班级ID、迟到次数、早退次数、请假次数、校服违规次数字段其余字段统一设置为skip跳过。将学生ID、班级ID设置为离散型categorical四类考勤次数字段设置为数值型numeric。配置完成后右键运行控件查看输出结果确认数据导入无误。2.1.3 K-Means聚类建模操作说明添加K-Means算法组件配置聚类参数完成学生考勤数据自动聚类。配置要点拖拽“K-Means”组件至画布建立数据库加载组件与K-Means组件的连线。双击组件进行参数配置固定聚类簇数量为3其余参数保持平台默认值。配置完成后右键运行控件运行成功后查看结果每条学生数据均生成C1、C2、C3对应的聚类簇编号。2.1.4 聚类结果输出与保存操作说明将聚类建模结果持久化保存至数据库为后续可视化分析提供数据源。配置要点拖拽“数据入库”组件并连接K-Means组件双击组件配置团队私有数据库参数新建数据表并命名为student_cluster。完整运行整条工作流所有控件无报错即代表流程运行成功聚类结果成功存入数据库。2.2 助睿BI可视化聚类结果分析2.2.1 连接数据源操作说明进入助睿BI模块连接团队私有数据库绑定聚类结果数据表。配置要点点击平台左侧“助睿BI”进入可视化模块在数据源页面新建MySQL连接填入团队数据库账号信息测试连接成功后确认保存在数据库目录中找到聚类结果表student_cluster。2.2.2 构建分析数据集操作说明新建数据集导入聚类数据表统一修改字段中文备注并发布。配置要点在数据集模块新建数据集选择对应数据源与labs目录将student_cluster数据表拖拽至画布。为所有字段修改中文备注student_id改为学生ID、late_count改为迟到次数、Cluster改为聚类簇编号等。字段修改完成后点击“保存并发布”确保数据集可用于工作表制作。2.2.3 制作多维度聚类分析工作表操作说明新建分组分类管理工作表制作六组考勤指标两两对比的聚类散点图。配置要点新建专属分组用于存放本次实验工作表在分组内新建工作表选择已发布的聚类数据集图表类型设置为探索器。依次将两类考勤异常指标分别拖拽至X、Y轴将聚类簇编号设为颜色区分字段学生ID设为维度字段将数据展示限额调整为100%保证全量数据展示。自定义配色区分三类聚类簇完成单张图表后保存发布。按照相同流程依次制作迟到早退、迟到请假、迟到校服违规、早退请假、早退校服违规、请假校服违规六组分析工作表。2.2.4 搭建可视化仪表盘操作说明新建仪表盘整合所有分析工作表完成排版布局与固化保存。配置要点新建命名为“聚类簇分析”的仪表盘添加文本组件设置标题、字体样式并固定位置。将制作完成的六组分析工作表全部拖拽至仪表盘画布手动调整图表大小与排版布局保证页面规整美观最终保存并发布仪表盘实现聚类结果的一体化可视化展示。2.3 聚类标签回写原始数据表2.3.1 数据表新增扩展字段操作说明通过ETL流程执行SQL语句为原始考勤表新增聚类相关字段。配置要点新建ETL转换流添加“执行SQL脚本”组件绑定团队私有数据库执行以下SQL语句为student_attendance_stats表新增聚类字段sql-- 为学生考勤统计表添加聚类结果字段ALTER TABLE student_attendance_statsADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT 聚类簇编号,ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT 考勤群体分类;运行转换流完成数据表结构修改。2.3.2 数据获取与字段筛选操作说明读取聚类结果数据筛选有效字段并统一数据格式。配置要点新建ETL转换流添加表输入组件读取student_cluster全量数据。拖拽字段选择组件仅保留student_id、Cluster两个核心字段删除所有冗余字段。修改字段数据类型统一字段格式保证与原始数据表字段类型兼容。2.3.3 聚类编号业务映射操作说明通过值映射组件将机器聚类编号转化为中文考勤群体标签。配置要点添加值映射组件并连接字段选择组件设置映射字段为Cluster新增目标字段attendance_group。配置映射规则C1对应轻微波动型、C2对应自律模范型、C3对应纪律高危型完成机器编码到业务标签的转化。2.3.4 数据更新与结果校验操作说明将聚类标签批量更新至原始考勤表校验数据更新结果。配置要点添加数据更新组件绑定团队私有数据库与目标数据表student_attendance_stats。设置student_id为关联匹配主键将Cluster聚类编号、attendance_group群体分类标签同步更新至数据表对应字段。运行整条转换流刷新数据库元数据查询数据表确认字段数据更新成功。三、实验结果3.1 核心实验输出结果本次实验最终生成多项有效成果具体如下成功训练并输出聚类结果数据表student_cluster为每一位学生匹配唯一聚类簇编号C1/C2/C3完成6组学生考勤指标聚类分析散点图可直观展示三类学生群体的考勤行为分布特征搭建完成一体化聚类分析仪表盘实现多维度考勤聚类结果的集中可视化展示成功修改原始学生考勤数据表结构新增聚类簇编号、考勤群体分类两个扩展字段并完成全量数据回写更新。3.2 聚类结果业务分析与验证结合六组可视化散点图的数据分布特征可精准划分三类学生考勤群体结果符合校园考勤业务逻辑聚类效果有效、可解释性强C2 自律模范型蓝色数据点集中在各类考勤异常低频次区间学生迟到、早退、请假、校服违规次数极少出勤规范、纪律意识良好是校园考勤优秀群体。C1 轻微波动型青色整体考勤异常频次偏低仅存在少量偶发的请假、校服违规行为无高频迟到早退问题整体考勤状态稳定仅需常规日常管理提醒。C3 纪律高危型黄色数据存在明显离群特征高频迟到问题突出同时叠加早退、请假、着装违规等多项异常行为考勤问题频发属于重点管控、针对性干预的学生群体。3.3 结果验证通过数据库数据探查功能查询原始考勤表数据表已成功新增聚类相关字段且每一条学生数据均匹配对应的聚类编号与中文群体标签数据无缺失、无错乱数据更新流程完全成功。聚类结果区分度明显三类群体行为特征差异显著无严重分类重叠现象建模与分析结果有效可靠。四、问题与解决4.1 数据可视化不全部分样本无法展示问题现象制作散点图时图表仅展示部分学生数据无法呈现全量样本聚类分布不完整。问题原因平台图表默认数据展示限额为2000条实验数据集样本量超出默认限额导致部分数据被过滤隐藏。解决方法在图表设置页面将数据展示限额由默认值修改为100%开启全量数据展示刷新图表后所有样本数据正常显示。4.2 聚类颜色修改后页面无变化问题现象手动修改聚类簇配色主题后图表颜色无更新配色区分效果未生效。问题原因平台可视化组件存在交互缓存修改配色参数后不会自动刷新需要手动触发更新。解决方法完成配色设置后点击画布空白区域确认参数生效图表配色即可正常更新三类聚类簇颜色对比清晰。4.3 数据更新失败字段匹配报错问题现象运行ETL数据更新流程时组件运行报错无法将聚类标签回写至原始数据表。问题原因流数据字段类型与目标数据表字段类型不统一同时更新字段映射关系选择错误导致数据无法匹配写入。解决方法在字段选择组件中统一修改字段数据类型保证上下游表结构一致重新核对更新映射关系将流字段Cluster、attendance_group精准匹配数据表新增字段cluster、attendance_group重新运行流程后数据更新成功。五、实验总结5.1 实验收获通过本次实验我完整掌握了助睿数智平台零代码数据分析全流程操作熟练掌握了数据导入、字段筛选、K-Means聚类建模、BI可视化图表制作、仪表盘搭建、SQL字段新增、ETL数据批量更新等实操技能。同时我深入理解了K-Means无监督聚类算法的实际业务应用学会将机器生成的抽象聚类编号结合校园考勤业务场景进行人工释义实现算法结果的业务落地。此外我掌握了数据治理的基础方法能够独立完成数据表结构修改、数据关联匹配、标签体系构建提升了自身数据分析、问题排查与数据落地的综合实践能力。5.2 平台整体评价助睿数智Uniplore一站式数据科学实验平台整体操作便捷、功能完善依托零代码拖拽式操作降低了大数据建模与数据分析的技术门槛让无编程基础的学习者也能快速完成机器学习建模、可视化分析与数据治理实操。平台覆盖数据接入、ETL处理、AI建模、可视化分析全链路功能模块划分清晰、交互逻辑合理实验流程流畅稳定。同时平台具备完善的可视化与数据处理能力能够满足教学实验、数据挖掘、用户画像构建等多种场景需求非常适合大数据相关课程的实操教学有效帮助学习者建立完整的大数据分析思维体系