小白/程序员入门必看：收藏这份AB实验Agent实战指南，手把手教你用Claude Code快速搭建

张

张建站

2026/7/27 7:50:36

10分钟阅读

小白/程序员入门必看：收藏这份AB实验Agent实战指南，手把手教你用Claude Code快速搭建

本文分享了一个不涉及企业业务逻辑的AB实验Agent示例旨在帮助小白和程序员学习大模型应用。该Agent具备AB实验统计学知识、配置经验、报告生成和业务建议能力并详细介绍了其框架、Skill设计及运行效果。通过将AB实验方法论蒸馏成Skill并包装成Agent读者可快速掌握如何利用AI实现数据驱动决策为AB平台AI赋能提供参考。上篇分享的Data Agent 实例由于涉及不少具体的企业业务知识没办法公开更多细节。好几位朋友在后台私信问有没有源码确实么办法提供。所以这次我们换一个思路做一个完全不涉及企业业务逻辑、任何团队都可以参考的 Agent 示例——AB 实验 Agent。这个再也不用问源码啦照着这个Skill和目录框架给Claude Code就能搞。如何把这些统计学知识蒸馏成一个 Skill再把 Skill 包装成一个可运行的 Agent。换句话说就是把一整套AB 实验方法论变成 AI 可以调用的能力模块。这个Agent它具备以下能力熟知AB实验相关绝大部分统计学知识比如我们要算CTR的方差时默认使用delta-method的那个很复杂的方差公式而不是单纯的二项分布公式。掌握AB实验配置的坑这些最小样本量,MDE设置等。出具标准实验报告不用担心少字段。2组实验用T检验多组用卡方检验。给出业务建议如果你再给他喂点上下文就更靠谱了。进一步的如果你们单位有AB平台把这个Agent配上相应数据库和AB平台业务参数配置接口就可以快速给你们AB平台AI赋能。每个实验启动之前都可以先跟它聊聊它还不会烦你。跟它聊完之后你可能有新的灵感更加不会配错实验啦。先看AgentSkill框架业务框架大的框架和Data Agent流程相似从用户输入到Agent输出经过意图识别、Skill匹配、调用工具、输出结论返回到前端或者飞书\企微。详细运转流程输入默认接收用户上传文件文件格式要一行一个用户简单起见为了计算样本量和方差等关键假设检验所用指标。当然也可以选择对接AB平台接入数据库计算好方差均值之类的。API router: FastAPI标配主要是前端路由如果接入飞书\企微也在这里增加一个路由。基础Prompt: 全局性Prompt所有对话都需要。角色设定你是一位 AB 实验 / 实验分析领域的专家。当前日期为{today} 你的职责包括 1. 理解实验设计与实验假设 2. 检查样本量是否合理验证数据质量 3. 进行统计显著性检验 4. 从用户分群或业务维度对结果进行拆解分析 5. 给出结构化的实验结论就说下一步怎么做吧的决策建议 6. 生成清晰的数据可视化Skill选择路由Claude Code帮我设计的是三层选择匹配机制第一层关键词匹配-match trigger. Skill标准模版里的trigger见下文。第二层为了适配追问问题。比如Agent回复需要我帮你展开XX指标吗,你回复需要或者好的这些追问词匹配不到任何skill trigger。此时第二层发挥作用保存对话历史来匹配上一层Skill记录。第三层LLM意图识别这是兜底机制。如果前两层关键词都匹配不到Skill。LLM来兜底它基本可以99%猜测你的想法尤其是在我们这个垂类Agent里。把LLM放到第三层而不是直接上来就用是为了确保Agent速度一般Skill trigger写得好到不了这里。尽量避免杀鸡用牛刀。完整Prompt匹配到合适的Skill之后就将目标Skill的内容拼接到base Prompt后面形成完整Prompt给到Agent Loop去工作。Agent Loop循环调用工具主要是Skill里的scrpts/代码工具最终输出完整结论。输出严格按照Prompt的output rules输出内容。web app前端输出格式可以自定义增加各种图表展示。同时可以加上自定义加上模型调用信息消耗tokens、运行时长等。如果接入飞书\企微需要按照相关要求省去一些图表展示项目文件框架ab-test-agent/ ├── .env # 环境变量配置 ├── main.py # 应用入口 ├── requirements.txt # Python 依赖 │ ├── api/ # API 层 │ ├── routes.py # 路由定义 │ └── schemas.py # 请求/响应模型 │ ├── config/ # 配置模块 │ ├── __init__.py │ └── settings.py # 全局配置 │ │ ├── agent/ # Agent 智能体 │ │ ├── __init__.py │ │ ├── agent.py # Agent 主逻辑 │ │ ├── prompts.py # 提示词管理 │ │ └── tools.py # 工具定义 │ │ │ ├── llm/ # LLM 大模型集成 │ │ ├── base.py # LLM 基类 │ │ ├── custom.py # 自定义模型 │ │ │ └── skills/ # 技能加载与路由 │ ├── loader.py # 技能加载器 │ └── router.py # 技能路由 │ ├── prompts/ # 提示词模板 │ ├── base.yaml # 基础提示词 │ └── output_rules.yaml # 输出规则 │ ├── skills/ # 技能模块AB 测试各能力 │ │ │ ├── experiment_attribution/ # 实验归因 │ │ ├── skill.md # 技能描述 │ │ └── scripts/ │ │ └── attribution.py # 归因脚本 │ │ │ ├── experiment_report/ # 实验报告 │ │ ├── skill.md │ │ └── scripts/ │ │ └── report.py # 报告生成 │ │ │ └── statistical_testing/ # 统计检验 │ ├── skill.md │ └── scripts/ │ └── significance.py # 显著性检验 │ ├── static/ # 前端静态资源 │ ├── index.html # 页面入口 │ ├── app.js # 前端逻辑 │ └── style.css # 样式 │ ├── logs/ # 日志 │ └── query_log.jsonl # 查询日志 │ └── tests/ # 测试 └── evals.py线上Skill详解2.1 先看Skill标准定义Skill 的基本目录结构通常情况下一个 Skill 会被组织成一个独立的文件目录最核心的是一个SKILL.md文件skill-name/ ├── SKILL.md # 必需Skill 的说明与元信息 ├── scripts/ # 可选执行代码 ├── references/ # 可选参考文档 ├── assets/ # 可选模板或资源文件 └── ... # 其他补充文件 SKILL.md 的基本格式 SKILL.md 通常由两部分组成 1. YAML Frontmatter元信息用于描述 Skill 的基本属性例如 name Skill 名称 description Skill 功能说明 compatibility 运行环境要求 allowed-tools 允许调用的工具这些信息主要用于帮助 Agent 理解 Skill 的用途并决定何时调用它。 2. Markdown 正文Skill Instructions 在 YAML 之后是 Markdown 格式的说明文档用来告诉 Agent 如何执行这个任务分析流程是什么输入和输出示例常见边界情况常见内容包括分步骤操作说明step-by-step instructions 输入输出示例常见异常情况edge cases2.2 AB实验Skill—Statistical_testing—实例详解Skill开头关键描述主要是描述和triggers--- name: statistical_testing description: 统计显著性检验t检验、卡方检验、z检验、比率指标的 Delta Method、置信区间与效应量解释 analysis_type: significance script: significance.py/具体执行计算的python代码 triggers: - significant - 显著 - p-value - p值 - hypothesis - 假设检验 - t-test - t检验 - chi-square - 卡方 - z-test - confidence - 置信 - 有效果吗 - 有差异吗 - CTR - 点击率 - delta method - ratio metric --- ## 统计检验策略 ### Step1:根据指标类型确定检验方法 ### Step2:检查并读取数据源 ### Step3: 基于以下框架解释统计检验结果### Step4 效应量Effect Size的解释 ## 输出规范统计检验策略Step 1根据指标类型确定检验方法应根据待分析指标的性质选择合适的统计检验方法如何识别比率指标Ratio Metric可以通过以下方式判断指标是否属于比率指标数据中分别存在分子列例如 clicks与分母列例如 impressions且每个用户的分母不同→ 应使用Delta Method用户问题直接涉及以下指标CTR、点击率、按曝光计算的转化率、RPM或任何形式为“X per Y”的指标→ 应使用Delta Method如果指标仅包含0 和 1 两种取值→ 应使用z 检验该指标属于二元变量而非比率指标如果指标包含大量不同的数值取值且为直接观测的数值指标而非 X/Y 形式的比率→ 应使用t 检验比率指标Ratio Metric例如 CTR clicks / impressions或任何定义为X / Y且分母在不同用户之间存在差异的指标。对于此类指标应使用Delta MethodDelta 方法进行显著性检验。test_typedelta并指定numerator_col与denominator_col二元指标Binary Metric例如 0/1 指标是否转化、是否点击等。对于此类指标应使用z 检验z-test。test_typez连续指标Continuous Metric例如收入revenue、停留时间time等连续型数值指标。对于此类指标应使用t 检验t-test。test_typet分类结果Categorical Outcomes当结果变量为分类变量时应使用卡方检验chi-square test。test_typechi2为什么比率指标需要使用 Delta Method在处理比率指标时一个常见但不严谨的方法是先计算每个用户的比率指标例如用户级 CTR然后对这些比率取平均。这种做法的问题在于一个只有10 次曝光的用户与一个拥有10,000 次曝光的用户在计算平均值时会被赋予相同权重从而导致方差估计偏差。Step 2检查并读取数据源应根据用户上传的数据源进行分析。Call run_analysis(significance) with group_col, metric_col, control_value, treatment_value, and the chosen test_type.如果用户未上传数据提醒用户上传。Step 3基于以下框架解释统计检验结果P值-默认a0.05解读逻辑p α且 uplift 为正实验组表现显著优于对照组可考虑上线Treatment winsp α且 uplift 为负实验组表现显著劣于对照组不建议上线Treatment loses p ≥ α且样本量较大可以认为两组之间不存在具有实际意义的差异p ≥ α且样本量较小结论不确定可能由于统计功效power不足Step 4效应量Effect Size的解释常使用Cohen’s d衡量效应量大小其解释通常如下Cohen’s d 0.2效应量可以忽略Negligible。即使达到统计显著其实际业务影响也通常非常有限。0.2 ≤ Cohen’s d 0.5小效应Small。在某些场景下具有一定参考价值。0.5 ≤ Cohen’s d 0.8中等效应Medium。通常意味着具有较为明显的影响。Cohen’s d ≥ 0.8大效应Large。表明存在较强且显著的影响。输出规范样本量sample sizes各组均值means提升幅度lift %p-value效应量effect size置信区间confidence interval首先给出结论性判断例如“实验组结果在统计上显著 / 不显著。”分析结果中应始终包含以下关键信息如果结果达到统计显著但效应量很小应明确说明“统计上显著但实际影响较小。”建议进一步进行分群分析作为后续分析例如“是否需要进一步检查该效果在不同用户分群之间是否存在差异”线上运行效果这是Agent线上跑的界面AB上线前后一系列问题都可以找它聊。实验初期讨论样本量计算考验它什时候用deltat-method算方差它说UTR这种简单二项分布就行CTR才启用分析报告结语有了Claude Code等coding Agent想手搓一个产品MVP非常方便。但是怎么创造真正的价值还需要你的专家经验来指导他更需要你的专家理解来识别真实的需求场景。AI 可以写代码、搭框架、生成界面但它并不知道哪些问题是真正值得解决的哪些方法论才是领域里的最佳实践哪些细节会在真实业务中踩坑它得蒸馏多少同事.skill才能知道呢参考文献并推荐https://github.com/coreyhaines31/marketingskillsgithub上大牛写的Marketing Skills for AI Agentshttps://agentskills.io/specification.mdSKILL标准格式那么如何学习大模型 AI 对于刚入门大模型的小白或是想转型/进阶的程序员来说最头疼的就是找不到系统、全面的学习资源要么零散不成体系要么收费高昂白白浪费时间走弯路。今天就给大家精心整理了一份全面且免费的AI大模型学习资源包覆盖从入门到实战、从理论到面试的全流程所有资料均已整理完毕免费分享给各位核心包含AI大模型全套系统化学习路线图小白可直接照做、精品学习书籍电子文档、干货视频教程、可直接上手的实战项目源码、2026大厂面试真题题库一站式解决你的学习痛点不用再到处搜集拼凑扫码免费领取全部内容1、大模型系统化学习路线学习大模型方向比努力更重要很多小白入门就陷入“盲目看视频、乱刷资料”的误区最后越学越懵。这里给大家整理的这份学习路线是结合2026年大模型行业趋势和新手学习规律设计的最科学、最系统从零基础到精通每一步都有明确指引帮你节省80%的无效学习时间少走弯路、高效进阶。2、大模型学习书籍文档理论是实战的根基尤其是对于程序员来说想要真正吃透大模型原理离不开优质的书籍和文档支撑。本次整理的书籍和电子文档均由大模型领域顶尖专家、大厂技术大咖撰写涵盖基础入门、核心原理、进阶技巧等内容语言通俗易懂既有理论深度又贴合实战场景小白能看懂程序员能进阶为后续实战和面试打下坚实基础。3、AI大模型最新行业报告无论是小白了解行业、规划学习方向还是程序员转型、拓展业务边界都需要紧跟行业趋势。本次整理的2026最新大模型行业报告针对互联网、金融、医疗、工业等多个主流行业系统调研了大模型的应用现状、发展趋势、现存问题及潜在机会帮你清晰了解哪些行业更适合大模型落地哪些技术方向值得重点深耕避免盲目学习精准对接行业需求。值得一提的是报告还包含了多模态、AI Agent等前沿方向的发展分析助力大家把握技术风口。4、大模型项目实战配套源码对于程序员和想落地能力的小白来说“光说不练假把式”只有动手实战才能真正巩固所学知识将理论转化为实际能力。本次整理的实战项目涵盖基础应用、进阶开发、多场景落地等类型每个项目都附带完整源码和详细教程从简单的ChatPDF搭建到复杂的RAG系统开发、大模型部署难度由浅入深小白可逐步上手程序员可直接参考优化既能练手提升技术又能丰富简历为求职和职业发展加分。5、大模型大厂面试真题2026年大模型面试已从单纯考察原理转向侧重技术落地和业务结合的综合考察很多程序员和新手因为缺乏针对性准备明明技术不错却在面试中失利。为此我精心整理了各大厂最新大模型面试真题题库涵盖基础原理、Prompt工程、RAG系统、模型微调、部署优化等核心考点不仅有真题还附带详细解题思路和行业踩坑经验帮你精准把握面试重点提前做好准备面试时从容应对、游刃有余。6、四阶段精细化学习规划附时间节点可直接照做结合上述资源给大家整理了一份可直接落地的四阶段学习规划总时长约2个月小白可循序渐进程序员可根据自身基础调整节奏高效掌握大模型核心能力快速实现从“入门”到“能落地、能面试”的跨越。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

告别干扰与失步：深入浅出解读5G NR上行定时控制（TA）与功率控制（PC）的协同奥秘

5G NR上行链路双引擎：定时控制与功率控制的协同艺术在5G网络的复杂交响乐中，上行链路定时控制（TA）和功率控制（PC）如同两位默契的指挥家，共同确保着空中接口的和谐运作。当终端设备向基站发送数…...

2026/7/28 1:52:26 阅读更多 →

RWKV-7 (1.5B World)开发者实操：如何导出对话历史为Markdown格式

RWKV-7 (1.5B World)开发者实操：如何导出对话历史为Markdown格式 1. 项目背景与价值 RWKV-7 (1.5B World)作为轻量级大模型代表，凭借其高效的推理性能和低显存占用特性，已成为本地化AI对话的热门选择。在日常开发和使用过程中，我…...

2026/7/25 2:55:37 阅读更多 →

BDD100K：如何通过统一编码架构解决自动驾驶多任务评估的技术挑战

BDD100K：如何通过统一编码架构解决自动驾驶多任务评估的技术挑战【免费下载链接】bdd100k Toolkit of BDD100K Dataset for Heterogeneous Multitask Learning - CVPR 2020 Oral Paper 项目地址: https://gitcode.com/gh_mirrors/bdd/bdd100k 在自动驾驶感知…...

2026/7/25 2:57:52 阅读更多 →