阿里SkillClaw：让 Agent 技能在真实使用中集体进化

张

张建站

2026/7/26 11:50:28

10分钟阅读

当前 LLM Agent如 OpenClaw依赖**可复用的技能Skills**来完成复杂任务。用户从 Skill Hub 安装技能后Agent 就能调用这些结构化流程来协调工具使用、执行多步推理。但这里存在一个根本性问题技能在部署后基本保持静态。当 Agent 在实际使用中遇到失败比如参数格式错误、工具调用顺序不对、环境配置缺失它可能通过多轮试错最终找到解决方案但这些改进只停留在当前会话不会被固化到技能库中也无法传递给其他用户。本质上每个用户都在独立地重新发现同样的解决方案系统层面的知识无法累积。这正是 SkillClaw 要解决的问题如何让 Agent 技能在真实使用中持续进化并将一个用户的经验转化为全系统的共享能力二、核心思想集体进化闭环Figure 1: SkillClaw 整体架构SkillClaw 提出了一种中心化进化架构将多用户交互视为技能改进的核心信号用户交互 → 会话采集 → 技能进化 → 验证 → 同步部署 → 下一轮交互2.1 从孤立会话到共享证据SkillClaw 首先将每个交互会话转化为结构化轨迹Trajectory完整保留因果链用户提示 → Agent 动作 → 环境反馈 → ... → 最终响应关键洞察在于**当不同用户在不同场景下调用同一个技能时产生的成功/失败模式构成了对该技能行为边界的自然消融实验**。单个用户的数据不足以区分通用改进和特例修复但聚合多用户证据后稳定的进化方向就会浮现。会话按引用的技能分组**G(s)**所有调用技能 s 的会话**G(∅)**未调用任何技能的会话用于发现缺失的可复用流程三、Agentic Evolver开放推理驱动的技能更新SkillClaw 的核心是一个Agentic Evolver——一个配备结构化 Harness 的 LLM Agent负责对共享技能库进行开放推理式更新。给定技能 s 及其会话组 G(s)Evolver 执行三种操作之一操作说明Refine精炼基于失败模式修正技能提升鲁棒性Create创建当发现现有技能未覆盖的可复用子流程时创建新技能Skip跳过证据不足时保持技能不变关键设计Evolver 始终联合分析成功和失败会话。成功会话定义了技能的不变量必须保留的有效部分失败会话定义了目标需要修正的具体行为。这防止了修一个 bug 引入三个新 bug的常见失败模式。算法流程算法1Agentic 集体技能进化流程。将用户会话转为结构化证据按技能分组后由 Evolver 分析模式并生成候选更新经保守编辑和验证后合并到共享库。四、夜间验证确保只部署真改进进化后的候选技能不会直接上线而是进入夜间验证阶段从当日交互数据中选择相关验证任务在真实环境中同时执行旧技能 s 和新候选技能 s’比较整体任务成功率和执行稳定性仅当 s’ 确实优于 s 时才接受Accept否则拒绝Reject这保证了单调部署行为——已部署的技能池不会随时间退化用户始终与前一晚验证通过的最佳技能池交互。五、实验WildClawBench 上的 6 天进化5.1 评测基准实验在WildClawBench上进行包含 60 个跨 6 大领域的复杂真实任务关键特性真实执行环境完整 Linux 容器工具链多模态输入文本、代码、图像、视频严格约束关键错误 → 零分长程任务15-50 步交互5.2 实验设置模型Qwen3-Max用户8 个并发用户周期6 天6 轮昼夜循环机制白天用户交互 → 夜间进化验证 → 次日部署5.3 主结果持续稳定的性能提升表3用户侧日间结果最佳技能部署视角。Day 1 为基线Day 2-6 为每夜验证决策后继承的最佳技能池。关键发现社交交互最早提升Day 2 即达稳态说明存在高影响的工作流瓶颈一旦修复即广泛受益搜索检索呈阶梯式提升先解决输入验证问题再构建高层检索规划能力创意合成早期跃升最大88%瓶颈不在内容生成本身而在环境配置和文件处理安全对齐提升较晚聚焦于真实环境下的执行可靠性Git 回退、目录克隆协议等5.4 夜间进化细节各领域的进化轨迹高度异质社交交互表4仅03_task6跨部门 Slack 摘要在 Night 1 被接受将描述性指令重写为严格有序的工作流后性能跃升。Table 4: 社交交互夜间进化搜索检索表5两阶段进化——Night 1 接受validate-file-existence文件存在性预检Night 3 接受best-so-far confirmation当前最佳确认。Table 5: 搜索检索夜间进化创意合成表6仅 Night 1 的validate-tmp-workspace-inputs被接受验证临时工作区输入和环境设置。5.5 受控验证在三个定制查询上的受控实验显示单轮进化平均提升 **42.1%**查询基线进化后提升基础提取21.7%69.6%47.8%截止日期解析41.1%48.0%6.9%保存报告28.3%100.0%71.7%Table 8: 受控验证结果洞察当失败源于缺失或不正确的程序性知识时技能进化特别有效而依赖细微推理的任务对程序性更新较不敏感。六、案例研究进化如何改变 Agent 行为案例2ICCV 2025 论文统计精确性提升图3ICCV 2025 Oral 论文分析案例。原始 Agent 依赖大学名称的启发式匹配进化后的技能引入基于官方 PDF 首页结构的严格第一单位定义并对模糊案例执行定向复核。改进维度精确任务定义用严格结构定义替代模糊匹配验证感知推理对不确定案例显式复核鲁棒提取自动解析定向验证结合案例4多条件手机选购约束感知决策图5多条件产品选择案例。原始 Agent 依赖松散搜索和启发式匹配进化后的技能引入结构化约束感知工作流系统验证每个条件 → 联合评估所有候选 → 无完全匹配时显式报告并拆解部分匹配。改进维度约束感知推理基于显式多条件验证决策** grounded 检索**优先权威来源而非通用结果校准决策承认不确定性不过度解读部分匹配学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

MonkeyScan tasks 页面操作文档

MonkeyScan tasks 页面操作文档更新时间：2026-04-23 访问地址：https://scan.monkeycode-ai.com/tasks 一、平台简介 MonkeyScan 是一个智能代码安全审计验证平台，可用于在线发起代码扫描任务、查看任务进度、定位缺陷结果，并对审…...

2026/7/25 4:08:51 阅读更多 →

CodeCombat游戏化编程学习：3步从零基础到编程高手

CodeCombat游戏化编程学习：3步从零基础到编程高手【免费下载链接】codecombat Game for learning how to code. 项目地址: https://gitcode.com/gh_mirrors/co/codecombat 你是否觉得传统编程学习枯燥乏味？CodeCombat游戏化编程平台彻底改变了这…...

2026/7/25 4:15:14 阅读更多 →