UCL等机构研究团队如何用八万段录屏测出AI助手的“真实水平“

张

张建站

2026/5/29 6:43:27

10分钟阅读

这项由英国伦敦大学学院UCL联合南京大学与腾讯的研究团队共同完成的工作以预印本形式发布于2026年5月论文编号为arXiv:2605.22535。有兴趣深入了解的读者可通过该编号在arXiv平台查阅完整论文。**故事从一个尴尬的现实开始**每天全球无数工程师坐在电脑屏幕前打开黑色的命令行窗口敲下一行行字符来完成工作——安装软件、分析数据、管理服务器、自动化流程。这个黑色窗口就是所谓的终端是程序员和计算机系统对话的最原始方式。近年来一批AI助手开始学着替人类操作这扇黑色窗口。它们能理解人类的意图自动敲命令、处理报错、一步步完成任务仿佛一个会写代码的全能助手。Anthropic的Claude Code、OpenAI的Codex CLI、Google的Gemini CLI……各大科技公司争相推出这类产品。但这些AI助手到底有多厉害它们真的能胜任工程师的日常工作吗这个问题的答案居然比我们想象的要模糊得多。现有的测试方法存在一个根本性的问题负责出题的专家们往往会不自觉地把题目出得像益智游戏而非真实工作。就像用奥林匹克数学题来考察一个会计的实际工作能力——通过了测试不代表真的会做账。UCL等机构的研究团队决定从根本上解决这个问题他们的解法出人意料既然要测试AI做真实工作的能力为什么不直接从真实工作中取材**一、从录屏到考题一台自动出题机的诞生**在互联网上有一个叫做asciinema的平台工程师们在这里自愿分享自己的终端操作录像——不是视频那种录像而是完整记录每一行命令和系统反馈的文字日志。这些录像是工程师们为了展示技巧、分享经验或教学而录制的本质上是一份份真实工作实录。研究团队从这个平台上下载了整整80870段这样的录屏日志然后构建了一个名为TERMINALWORLD的自动化系统将这些原始记录转化为可以测试AI能力的标准题目。这个过程的挑战性远超表面看起来的难度因为这些录屏有三个天然的缺陷。第一个缺陷是杂乱无章。工程师在录屏时会打错字、反复尝试、产生大量无关输出录屏里没有人明确说我的目标是什么只有混乱的操作流水账。研究团队用一个大语言模型具体是Anthropic的Claude Sonnet 4.6来担任速记员从杂乱的命令流中提炼出工程师的真实意图写成一段清晰的任务描述同时整理出一份干净的参考解答脚本。整理规则非常严格任务描述只能写最终需要达到的状态不能有任何关于如何达到的提示参考解答也必须把结果保存到固定文件路径以便后续自动检验。第二个缺陷是环境不可复现。工程师在自己电脑上操作时依赖的是他本机安装的所有软件和配置而录屏里完全没有记录这些。研究团队用另一个AI智能体来扮演侦探从参考解答脚本推断出运行这段代码需要哪些软件依赖然后将其写入一份Docker配置文件可以理解为一份组装虚拟电脑的说明书自动搭建出一个隔离的虚拟环境。这个过程中智能体会亲自动手——构建镜像、启动容器、执行参考解答用运行时出现的报错作为反馈不断修正配置直到整个工作流程能够顺利重现为止。第三个缺陷是缺少评分标准。录屏只记录了操作过程并没有说怎样才算完成任务。研究团队为此设计了一套自动生成测试用例的机制同样由AI智能体在已搭建好的虚拟环境中运行三类摸底测试第一类是执行参考解答后要求全部测试通过确保正确答案确实能得满分第二类是什么都不做要求全部测试失败确保不能摸鱼过关第三类是执行一个残缺版解答要求至少一个测试失败确保测试有足够的区分度。只有全部通过这三类检验这道题才会被正式收录。经过这套流水线的处理最终有1530道题通过了自动验证形成了TERMINALWORLD完整基准库。**二、1530道题长什么样一张覆盖真实世界的知识地图**这1530道题横跨18个类别从最日常的文件管理、版本控制到容器编排、云基础设施、机器学习训练乃至二进制安全分析和科学计算几乎涵盖了现代软件工程师可能在终端里做的一切事情。从难度分布来看大多数题目需要5到10条命令就能解决反映了工程师日常工作中最常见的短流程操作但也有相当一部分题目需要20步、30步甚至超过50步的连续操作代表那些复杂的多阶段任务。这种分布不是人为设计的而是从真实录屏中自然浮现的因此它忠实地映射了真实工作的复杂度分布。与现有的同类基准测试相比TERMINALWORLD覆盖了多达1280个不同的命令其中91%的命令在另一个主流测试集Terminal-Bench中完全没有出现过。那些在Terminal-Bench里缺席的命令大多是工程师每天都在用的实用工具比如用于创建轻量Kubernetes集群的k3d、用于管理应用包的helm、用于自动化运维的ansible以及用于基础设施即代码的terraform。这个对比鲜明地说明了人工出题的局限性专家们倾向于选择他们熟悉或认为有难度的题目而忽略了那些虽然常见但不够炫技的日常工具。研究团队从1530道题中精选了200道经过四位具有三年以上实际终端开发经验的作者亲自手动验证——每人进入Docker容器一步步执行参考解答检查每一个测试用例是否准确每一条任务描述是否与测试内容完全对应。这200道经过人工复核的题目构成了TERMINALWORLD-VERIFIED子集也是后续测试AI助手的主战场。**三、考场开放八个顶级AI模型的真实成绩单**研究团队邀请了当前最顶尖的8个大语言模型坐进这个考场用统一的智能体框架Terminal-Bench项目的标准工具Terminus-2驱动它们完成任务确保比较的公平性。参加测试的模型包括Anthropic的Claude Opus 4.7、Google的Gemini 3.1 Pro、OpenAI的GPT-5.5三款闭源模型以及Kimi K2.6、GLM 5.1、Qwen3.6-Max-Preview、DeepSeek-V4-Pro、MiniMax M2.7五款开源模型。成绩出来了结果颇令人深思。成绩最好的Claude Opus 4.7通过率为62.5%意味着它在200道真实工作题中有超过三分之一没有完成。其余模型的通过率从49%到57.5%不等整体平均仅为54.8%。更有趣的是通过率与资源消耗之间的关系。按常理来说一个模型如果在任务上花了更多时间、思考了更多步骤应该表现得更好才对。然而数据显示的却是相反的趋势模型的成功率与它花费的轮次呈弱负相关Pearson r -0.49与消耗的Token数量也呈弱负相关r -0.62。GPT-5.5消耗的平均Token数量是所有模型中最多的接近50万个Token但通过率只有53.5%MiniMax M2.7平均需要27.5轮对话才结束一次任务比其他模型多出一倍通过率却垫底只有49%。通过对每次任务轨迹的详细分析研究团队发现了一个结构性的问题失败的任务平均消耗的Token数量是成功任务的3.3倍耗时也多出1.4倍失败任务虽然只占总尝试数的43%却吞噬了63%的总成本。换句话说当AI助手遇到不会做的题时它并不会及时放弃而是在原地死磕——越磕越多越磕越费钱最终还是没解出来。这就是研究团队称之为效率悖论的现象在真实终端环境里计算资源的增加没有带来对应的能力提升。从不同类别的表现来看各模型在环境配置和软件构建与测试类题目上表现相对较好平均通过率分别达到87.5%和78.1%但在性能优化平均28.1%、脚本与自动化39.1%和调试与测试39.3%等类别上明显力不从心。而且没有任何一个模型在所有类别上都表现最好Claude Opus 4.7在云基础设施83.3%和容器编排67.9%上领先而Kimi K2.6在脚本与自动化方面46.9%反而超过了Claude Opus 4.737.5%。在成本方面开源模型展示出显著的性价比优势。三款闭源模型完成200道题的平均花费约为70.82美元而五款开源模型的平均花费仅为17.13美元达到4到8倍的成本差距而性能却与闭源模型相差无几部分开源模型甚至超越了部分闭源模型。**四、换个壳子有多大用六种AI助手框架的横向对比**除了测试AI大脑本身研究团队还对比了六种不同的AI助手框架——可以把它理解成给同一个AI大脑配上不同的操作规范和工具包看看不同的框架能让AI表现得更好还是差不多。以Claude Opus 4.7为核心大脑为例研究团队对比了四种框架标准框架Terminus-2、官方产品Claude Code、面向软件工程的mini-SWE-agent以及通用AI开发平台OpenHands。通过率分别为62.5%、58%、52%和45%差距并不算太大但成本差距却非常悬殊。OpenHands的每道题平均成本高达2.19美元总费用371美元是Terminus-263.47美元的将近6倍但通过率却低了17.5个百分点。类似的模式在其他AI大脑上也成立。以Gemini 3.1 Pro为核心Terminus-2的通过率55%、总费用56.82美元而Gemini CLI的通过率56%略高但总费用85.9美元且平均每次任务消耗的对话轮数高达41.5轮是Terminus-2的近4倍。以GPT-5.5为核心Terminus-2通过率53.5%而Codex CLI通过率48.5%成本却高出近30%。研究团队从这些数据中得出一个核心结论AI助手框架的选择主要影响的是成本效率而非AI大脑的能力上限。真正决定能否完成任务的是底层语言模型的推理能力框架设计得越复杂、越重往往只是让AI探索了更多无效路径花了更多冤枉钱而不是让它更聪明。实用的AI终端助手应该优先降低探索摩擦帮助AI更快找到正确路径而不是用复杂的编排逻辑堆砌一个华而不实的外壳。**五、和应试专家的对比真实能力与刷题能力的分离**这项研究还回答了一个关键问题在现有测试集上得高分的模型是否真的在实际工作中更厉害研究团队把每个模型在Terminal-Bench 2.0目前最主流的人工出题测试集上的成绩与在TERMINALWORLD-VERIFIED上的成绩放在一起对比。Terminal-Bench 2.0上各模型成绩在57%到82.7%之间TERMINALWORLD-VERIFIED上同样的模型成绩只有49%到62.5%。不仅整体成绩下滑排名也发生了明显的洗牌。GPT-5.5在Terminal-Bench 2.0上几乎拿了82.7%的高分排名靠前但到了TERMINALWORLD-VERIFIED上通过率掉到53.5%落后于多个开源模型。相反Kimi K2.6在Terminal-Bench 2.0上只有66.7%在TERMINALWORLD-VERIFIED上却达到57.5%超过了GPT-5.5和Gemini 3.1 Pro。两个测试集成绩的Pearson相关系数只有0.20接近于完全无关。这意味着你在人工出题的测试集上得了高分并不能预测你在真实工作场景下表现如何。专家出题时倾向于设计那些有明确技巧、需要特定知识点的考题而真实的终端工作更看重的是灵活调度工具、处理未知报错、在开放环境中找到可行路径的综合能力。**六、AI和人类走的不是同一条路命令路径的差异分析**由于TERMINALWORLD的每道题都来自真实的人类录屏研究团队还能做一件其他测试集做不到的事把AI解题的命令序列和原始人类录屏的命令序列拿来对比看看它们究竟有多相似。对于所有成功解出的题目研究团队计算了AI使用的命令集合与参考解答命令集合的Jaccard相似度一个衡量两个集合重叠程度的指标100%代表完全相同0%代表完全不同。结果是所有模型的中位数相似度只有21.4%也就是说AI和人类解同一道题用的命令通常只有五分之一是重叠的大部分情况下走的完全是不同的路。研究团队给出了两个具体例子来说明这一点。在一道从网络数据包文件中提取HTTP认证信息的题目中人类录屏使用的是一个专门用于网络攻击分析的工具ettercap而AI则选择了tshark加上Python脚本直接解析数据包两者的命令集合没有任何交集但结果同样正确。在另一道修改磁盘镜像文件的题目中人类手动用mknod命令创建设备节点来访问分区AI则直接调用fdisk、mkfs.ext4和mount这些标准工具完成了同样的目标方式更接近教科书但同样有效。这个发现印证了TERMINALWORLD的设计哲学题目只规定最终状态是什么不规定怎么到达那里。任何能产生正确结果的路径都被认可无论这条路和人类走的有多不同。这也意味着AI助手已经发展出了属于自己的解题风格而不是在模仿人类。**七、任务越长AI越难复杂度对成功率的影响**研究团队还深入分析了任务难度对AI成功率的影响并发现了一个清晰的规律参考解答需要的命令数量是预测AI是否能成功的最可靠指标远比人类完成这道题花了多少时间更可靠。需要21条以上命令的任务无论原始录屏中人类用多长时间完成AI的平均通过率都只有25%到41.2%。而需要6到10条命令的任务通过率可以高达70.6%。相比之下人类完成时间的长短就没那么重要——一道命令很少但需要等待很久的任务比如编译大型程序或等待模型训练人类录屏可能持续很长时间但对AI来说只需要正确触发那几条命令再等结果就好本质上并不复杂。从命令数量的角度来说AI的困难在于计划的长度当完成一件事需要按正确顺序执行十几二十步操作时每一步都有出错的可能且错误会累积整个链条断裂的概率就大幅上升。与此同时研究团队还发现了另一个规律不管是成功还是失败的尝试AI实际执行的命令数量几乎总是多于参考解答的命令数量而失败的尝试消耗的命令数量又远多于成功的尝试。这和录屏的本质有关——人类录屏是精心准备的演示是高度精炼的最优路径而AI需要在陌生环境中摸索、验证、回头修正自然走了更多弯路。**说到底这项研究告诉我们什么**归根结底这项研究做了一件看起来平凡却意义深远的事它把AI助手的测评从考场搬回了办公室。当前最强的AI助手在真实的日常工作面前仍然有三分之一到一半的任务无法完成。它们不是因为不够努力——恰恰相反失败的时候它们往往比成功的时候花了更多精力只是这些精力大部分花在了无效的探索上。设计更复杂的框架和更多的编排层次并不能根本提升能力反而可能让AI在错误的方向上越走越远。另一个值得关注的发现是在现有测试集上得高分并不能保证在真实工作中同样出色。这提醒我们在选择和评价AI工具时需要更谨慎地看待跑分数字多问问它在你实际工作场景中的表现。TERMINALWORLD的设计还有一个特别的优点因为asciinema平台每天都在积累新的录屏整个数据引擎可以持续运行下去随着工程师实践的演进而自动更新。AI助手的测试集不会像传统的人工出题库一样迅速过时而会保持与真实世界的同步。对于普通用户来说这意味着今天的AI终端助手还不是一个可以闭眼信任的全能助理对于复杂任务尤其要保持核查习惯。对于研究者来说如何让AI在开放环境中学会适可而止——知道什么时候自己的方向是错的、及时止损而不是继续浪费资源——可能是下一步最值得攻克的方向。对这项研究感兴趣的读者可以在arXiv平台搜索编号2605.22535查阅原始论文研究的数据集和代码也已在GitHub上公开项目名称为TerminalWorld。QAQ1TERMINALWORLD基准测试与Terminal-Bench这类人工出题测试集有什么本质区别ATERMINALWORLD的题目全部来自工程师在asciinema平台上真实录制的操作视频由自动化流水线从中提炼出任务描述、参考解答和测试用例保证了题目对真实工作场景的忠实还原。而Terminal-Bench等测试集由领域专家手动设计专家往往倾向于设计有明确技巧点的难题与工程师日常执行的普通任务存在偏差导致两者的模型排名相关性很低Pearson相关系数仅为0.20。Q2AI终端助手在TERMINALWORLD上失败的主要原因是什么A研究发现主要原因是AI在遇到无法解决的任务时缺乏有效的停损机制会持续在错误方向上探索导致失败任务消耗的Token数量平均是成功任务的3.3倍耗时多出1.4倍。真实终端环境的开放性和复杂依赖关系使得AI无法像解标准题一样靠堆砌计算量取胜需要真正的规划能力和判断能力。Q3增加AI助手框架的复杂度能提升终端任务的完成率吗A根据TERMINALWORLD的测试结果框架复杂度的提升主要影响成本效率而非AI的能力上限。以Claude Opus 4.7为例OpenHands框架的总费用是Terminus-2的近6倍但通过率反而低了17.5个百分点。研究表明实用的AI终端助手应优先降低探索摩擦帮助模型更快锁定正确路径而不是通过增加编排层次来叠加复杂度。

告别付费软件！用FileZilla Server在Win10上5分钟搞定个人FTP服务器

零成本打造个人FTP服务器：FileZilla Server在Win10上的极简实践在数字时代，个人和小型工作室的文件共享需求日益增长。无论是家庭影音库的共享、个人项目的多设备同步，还是小团队内部的文档协作，一个简单高效的解决方案往往能事半…...

2026/5/29 6:35:02 阅读更多 →

私有信息检索(PIR)技术解析与DNS隐私保护实践

1. 私有信息检索(PIR)技术概述私有信息检索(PIR)是一种革命性的密码学技术，它彻底改变了传统数据库查询的隐私范式。在常规查询中，用户必须向服务器明确告知所需数据的具体位置（如索引或关键词），这导致服务器完全掌握…...

2026/5/29 6:34:19 阅读更多 →

Ansys Icepak后处理HTC结果文件解析：从数据行到网格面的映射规律（附Python脚本）

Ansys Icepak热传导系数解析：从数据文件到三维可视化的工程实践在热仿真工程师的日常工作中，Ansys Icepak生成的.htc结果文件就像一本加密的工程日记，记录着模型表面每个网格的热传导系数（HTC）故事。我曾在一个服务器散…...

2026/5/29 6:32:02 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/27 16:21:02 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/28 12:21:09 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/28 13:47:19 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/28 13:32:26 阅读更多 →