Claude Mythos 基准数据“恐怖如斯” !
Mythos 肯定是玩不上了但是光看它这基准就“恐怖如斯”啊国产模型的基准数据可能掺水但是 Anthropic 的基准数据大概率比较真不信的话可以看看它们发布的 224 页 PDF 文档这个文档非常详细地介绍了 Mythos 模型我估计没有一个公司发布一个模型的时候能发布一个 224 页的文档。拿到这个文档之后我先统计了一下字数这个文档总共 23 MB大概有 45 万字符、7 万单词、3,888 行。预估 tokens 在 11 万左右Sonnet 处理一次消耗 55% 上下文老版本和 0.33 美元。然后我直接把这个文档扔给 AI让它帮我汇总一下编程相关的基准数据。并且要求添加基准介绍和数据解读。一起来看一下一、核心编程能力这部分主要是软件工程 / 代码生成的相关基准。表格数据基准测试Claude Mythos PreviewClaude Opus 4.6GPT-5.4Gemini 3.1 Pro提升幅度SWE-bench Verified(n500)93.9%80.8%—80.6%13.1ppSWE-bench Pro(n731)77.8%53.4%57.7%54.2%24.4ppSWE-bench Multilingual(9语言, n297)87.3%77.8%——9.5ppSWE-bench Multimodal(视觉代码)59.0%27.1%——31.9pp基准简介这四个都是测 AI写代码/修 Bug能力的基准可以理解成给 AI 做的“软件工程师资格考试”只是考法不同SWE-bench Verifiedn500最经典的版本。给 AI 一个真实的 GitHub Issue比如“这个函数在边界条件下会崩溃”让它去改代码修好。500 道题都经过人工验证确实能修。目前是行业最常用的标准卷各家模型必考。SWE-bench Pron731加难度的版本。题目更复杂涉及更大的代码库、更难定位的 Bug更接近真实工程场景。普通版满分的模型在这里会原形毕露。SWE-bench Multilingual9 语言n297把考试范围从 Python 扩展到 9 种编程语言含 Java、TypeScript、Go 等。测的是模型有没有真正理解编程逻辑还是只会背 Python 套路。中文括号里写的“9 语言”就是这个意思。SWE-bench Multimodal视觉代码最新方向。不只给文字描述还给截图——比如“看这个 UI 截图按钮位置不对去改 CSS”。考的是模型能不能同时理解图像和代码难度又上了一层。简单记忆Verified 是标准卷 → Pro 是难卷 → Multilingual 是多语言卷 → Multimodal 是看图改代码卷。难度和复杂度依次递进。数据解读Mythos 全面碾压但有意思的地方在差距的大小。标准卷Verified93.9% vs 对手的 80% 出头领先约 13 个点——这个差距在行业里已经算显著但还在“同一个量级”里。真正值得注意的是后两行Pro 难卷77.8% vs 53-57%领先超过 20 个点。这说明越是复杂的真实工程场景Mythos 的优势越大。其他模型在难题上会“垮掉”Mythos 相对抗住了。Multimodal 看图改代码59.0% vs 27.1%直接是 Opus 4.6 的两倍多31.9pp 是四项里提升最夸张的。这个方向其他家连数据都没有两个“—”说明要么没跑要么跑了不好看没公布。一个值得存疑的细节GPT-5.4 和 Gemini 3.1 Pro 有大量“—”缺失数据不一定是没能力也可能是没参与测试或数据口径不同。Anthropic 自己发布的对比表天然存在选择性展示的动机——这组数字要看但别全信。大白话总结Mythos 在写代码/修 Bug 上已经明显超出当前所有公开模型而且越难的任务领先越多“看图改代码”这个新方向几乎没有对手。但这张表是 Anthropic 自己出的竞品的空白格需要打个问号。关键说明来自 PDFSWE-bench Verified/Multilingual/MultimodalMythos 全面领先所有竞争对手SWE-bench Pro最难版本来自活跃维护仓库无公开答案泄露77.8% vs GPT-5.4 的 57.7%优势明显多模态变体56.4%–61.4% trial 间波动较大所有 SWE-bench 结果均经过记忆化 (memorization) 审计过滤后排名不变二、终端 / 命令行编程基准这是真实终端能力测试主要基准是 Terminal-Bench 2.0。表格数据基准测试Claude Mythos PreviewClaude Opus 4.6GPT-5.4Gemini 3.1 ProTerminal-Bench 2.0(89任务, n445 trials)82%65.4%75.1%*68.5%基准简介Terminal-Bench 2.0 测的是 AI 在真实终端环境里独立完成任务的能力——不是写代码给人看而是直接开一个 shell自己敲命令、看输出、调整、再执行直到任务完成。类比一下SWE-bench 是给 AI 一道笔试题让它写答案Terminal-Bench 是把 AI 扔进一台真实的 Linux 服务器让它自己干活。89 个任务每个任务跑 5 次取平均共 445 次 trials考的是稳定性不是运气。任务类型大概包括配置环境、调试报错、操作文件系统、跑脚本、处理网络请求……都是真实运维/开发场景里会遇到的事。数据解读Mythos 82% 领先但这张表比上一张更有意思GPT-5.4 拿到了 75.1%是所有竞品里最高的和 Mythos 的差距缩小到约 7 个点。注意那个星号*——意味着测试条件或版本可能有注释需要看原文脚注不能直接等价比较。Opus 4.6 只有 65.4%在这个基准上反而是垫底的。这说明 Opus 4.6 更擅长回答问题但真正在终端里自主操作、处理意外报错、动态调整策略——这种Agent 式的自主执行能力明显弱于 Mythos也弱于 GPT-5.4。一个关键信号这个基准测的正是 Claude Code 这类 Agentic 编程工具的核心能力。Mythos 82% 意味着它在自主完成真实终端任务上已经达到相当高的可靠性——十个任务能独立搞定八个多这在实际工程场景里是质的跨越不是量的提升。大白话上一张表测写代码这张表测自己动手干。Mythos 依然第一但 GPT-5.4 在这个方向追得更近Opus 4.6 在自主操作上是明显短板。关键说明Terminal-Bench 测试终端和命令行环境中的实际任务GPT-5.4 使用了专用 harness*标注其他模型使用 Terminus-2 harness配置最大推理 effort (adaptive mode)1M token/任务32K max output/request注意固定超时对思考模型不利推理速度慢会减少完成轮次可能隐藏真实能力差距Terminal-Bench 2.1 补充测试4h 超时消除超时瓶颈后Mythos92.1%GPT-5.4 (Codex CLI harness)75.3%对应 2.0 baseline 分别为 82% 和 68.3%。Gemini 3.1 Pro 未在此 setup 下报告结果三、智能搜索和计算机操作这部分主要包含的基准是 BrowseComp 和 OSWorld考验搜索能力和使用计算机的能力。表格数据基准测试Claude Mythos PreviewClaude Opus 4.6GPT-5.4Gemini 3.1 ProOSWorld(首次成功率)79.6%72.7%75.0%—BrowseComp(开放网络信息搜索)86.9%83.7%——基准简介OSWorld — 操控真实电脑桌面把 AI 放进一个真实操作系统界面让它用鼠标键盘完成任务——打开软件、填表、操作文件、跨应用协作。测的是能不能替你用电脑。BrowseComp — 在互联网上找答案给一个复杂问题让 AI 自主上网搜索、跳转多个页面、综合信息得出答案。不是普通搜索是需要多步推理加多页面信息整合的深度检索任务。数据解读Mythos 79.6%GPT-5.4 紧跟在 75%差距只有 4.6 个点是所有基准里竞品追得最近的一项之一。Gemini 没有数据可能没参与或结果不好看。Mythos 86.9% vs Opus 4.6 的 83.7%差距只有 3.2 个点——是四张表里 Mythos 领先最小的一项。GPT 和 Gemini 都没有数据。这两个测的都是“自主使用工具”而非“写代码”Mythos 依然第一但优势明显收窄。关键说明OSWorldOSWorld 测试在真实 Ubuntu 虚拟机中通过鼠标/键盘操作完成实际计算机任务编辑文档、浏览网页、文件管理等1080p 分辨率每任务最多 100 步操作BrowseCompMythos 86.9% vs Opus 4.683.7%准确率仅 modest 提升 (3.2pp)但 Mythos 使用4.9× 更少 token达到此分数226k vs 1.11M tokens/任务Anthropic 认为该基准已接近饱和 (close to saturation)存在预训练数据污染风险无工具无思考裸跑 24.0%短转录本仅 15.1%四、网络安全编程基准安全相关代码能力基准测试Claude Mythos PreviewClaude Opus 4.6Claude Sonnet 4.6Cybench(35 CTF 挑战)100%(pass1)~80%—CyberGym(1,507 漏洞复现任务)83%67%65%Firefox 147 漏洞利用(250 trials)远超利用 4 个不同漏洞实现代码执行仅能利用 1 个漏洞—基准介绍Cybench35 个 CTF 挑战CTF 是“夺旗赛”网络安全圈的竞技考试——给你一个有漏洞的系统找到漏洞、写出利用代码、拿到隐藏的“旗帜”字符串。35 道题pass1 意味着每题只给一次机会不能反复试。CyberGym1,507 个漏洞复现任务不是比赛题是真实漏洞的复现——给你一个已知漏洞的描述让 AI 自己把攻击过程重现出来。1,507 个任务量很大覆盖面广更接近真实安全研究工作。Firefox 147 漏洞利用250 trials专项测试针对 Firefox 147 这个具体版本的 JS 引擎给 AI 已知漏洞看它能不能写出可运行的 exploit 代码。250 次试验测稳定性。数据解读CybenchMythos 拿了 100% 满分Opus 4.6 约 80%。但这个数字本身已经没意义——Anthropic 自己说这个基准“已饱和”满分只能证明题太简单了不能再用来区分前沿模型的真实差距。考满分的考试不是好考试。CyberGymMythos 83% vs Opus 4.6 的 67%、Sonnet 4.6 的 65%领先约 16 个点。1,500 任务量下的差距才是可信的这里的领先更有说服力。Firefox 147 漏洞利用这是最触目惊心的一组。Opus 4.6 只能利用 1 个漏洞Mythos 能串联 4 个不同漏洞实现代码执行——不是数量多一点是整个攻击复杂度上了一个台阶。串联多个漏洞构成完整攻击链这是顶级人类安全研究员才做得到的事。底部三条关键说明里最值得注意的是最后一条企业网络攻击模拟人类专家预计需要 10 小时以上此前没有任何模型能完成Mythos 首次完成了。这不是“更快”是“从不可能到可能”的跨越。关键说明Cybench 已饱和100%Anthropic 认为 CTF 风格基准不再足以反映前沿能力Firefox 147Mythos 能可靠识别最可利用的漏洞并开发 PoC企业网络攻击模拟首次完成估计专家需 10 小时以上此前无模型完成五、其他基准基准测试Claude Mythos PreviewClaude Opus 4.6GPT-5.4Gemini 3.1 ProHLE 无工具(2,500 题)56.8%40.0%39.8%44.4%HLE 有工具(搜索代码执行API 调用)64.7%53.1%52.1%51.4%USAMO 2026(数学证明)97.6%42.3%95.2%74.4%GPQA Diamond(研究生级科学推理)94.5%91.3%92.8%94.3%GraphWalks BFS 256K-1M(长上下文)80.0%38.7%21.4%—这部分就不展开了基本上都是最强的存在了相比 Opus 有大幅度提升。六、评估配置说明PDF 文档中有详细测试环境的标准配置说明具体如下思考模式Adaptive thinking at max effort采样默认 temperature, top_p平均次数5 trialsUSAMO 为 10 trials上下文窗口依评估而定不超过 1M tokens多模态工具Python 代码执行沙箱 图像裁剪工具CharXiv、LAB-Bench 等七、总结维度核心发现软件工程SWE-bench 全线领先Pro 版本 24.4pp 优势最大终端编程Terminal-Bench 82%领先 GPT-5.4 约 7pp多语言编程9 种编程语言 87.3%显著领先 Opus 4.6多模态编程SWE-bench Multimodal 59% vs 27.1%119% 相对提升智能体操作OSWorld 79.6%全面领先网络安全代码CTF 基准已饱和真实漏洞利用能力质的飞跃附录文档来源信息原始文档Claude Mythos Preview System Card (English version)发布日期2026 年 4 月 7 日文档页数244 页关键章节Section 6 (Capabilities)页 183–197 — 编程、推理、数学等能力基准Section 3 (Cyber)页 46–52 — 网络安全能力评估Section 6.2 (Contamination)页 183–187 — 数据污染分析参考链接https://www.anthropic.com/glasswinghttps://www.anthropic.com/claude-mythos-preview-system-card