ex/flex和yacc/bison编写一个 C 程序将λ 演算风格的定理证明翻译为希尔伯特公理系统的证明序列。程序需要解析类似functionA,B,C(h: A-B) - ...的 λ 项输入利用给定的三条公理模式A1-A3和三个可直接引用的定理H1, H3, H5通过演绎定理Deduction Theorem和 MP 规则逐步输出带 LaTeX 排版的希尔伯特风格证明代码需放置在src/和include/中使用 Makefile 管理构建并遵循 KR 代码风格。提供的样例里除了一个“蕴涵传递”的基本定理还有两个需要巧妙调用排中律的q1和q2。 而且测评方还藏了看不到的隐藏用例想浑水摸鱼是没门的。给出的 Prompt 任务原文测试方法Deepseek 使用官方的 V4 Pro[1M] 模型接入 Claude Code 命令行工具。Claude 使用 Github Copilot Pro 套餐的 Claude Opus 4.7 模型高达7.5x倍率qwq接入 VS Code Copilot 插件使用。二者均先在 Plan 模式规划然后才开始执行。评分维度与结果评测从以下五个维度进行打分满分 100同时记录了用时和费用。维度DeepSeek V4 ProClaude Opus 4.7正确性 (60)6060构建系统 (10)68输出格式遵循 (10)510代码质量与格式 (10)88异常处理 (10)56总分8492用时29 分钟15 分钟费用2.1 元API 直调约 2.7 元订阅点数换算核心能力正确性齐平均通过全部测试在最关键的正确性上两个模型均拿到了满分。无论是标准的蕴涵传递A→B, B→C推出A→C还是需要巧妙构造排中律的q1、q2它们都能生成逻辑严密、且通过所有隐藏用例的希尔伯特证明序列。这说明在深层逻辑推理与代码生成能力上两者都已达到专业开发者水平。工程细节与格式遵循Claude 更显“规矩”差距主要出现在构建系统和输出格式两个维度。DeepSeek生成的 Makefile 没有将 flex/bison 生成的.c文件分离到build目录未能体现“解耦解析模块与翻译输出模块”的意图输出证明也未使用示例中的 LaTeX 排版如$...$内部引用名称也没有完全对齐样例风格。这些虽然不影响程序的正确运行但在 “按规范交付” 的要求下被扣了分。Claude则严格遵循了所有显式与隐式约定Makefile 整洁、输出格式甚至与样例几乎一模一样展现出更好的指令细节遵循能力。两者的代码风格得分相同8分都未能完美实现 KR 内核风格、部分函数略长表明在软性编码规范上还有提升空间。异常处理均不够“开发者友好”Claude 的错误信息偏样板缺少具体错误原因DeepSeek 的错误信息则缺少行号定位困难。在实际工具开发中精确的错误提示对调试至关重要两项均只能算是“基本可用”。成本与灵活性DeepSeek 的显著优势本次测评最值得关注的反差体现在使用成本与灵活性上DeepSeek直接通过 API 按量计费完成一次复杂任务仅需 2.1 元无需预付费无每日限额可随时并发调用。Claude的测评费用约 2.7 元但这是建立在GitHub Copilot Pro 订阅每月 260 元人民币的基础之上且该订阅面临暂停新用户注册和限量等问题。实际开发中很可能遭遇用至半途被限流的窘境且每月无论是否用完都要支付 260 元。若改为直接调用 Claude 官方 API同等规模的 token 消耗很可能飙升至 15 元以上成本增加数倍。对于需要频繁集成调试、批量处理或者构建自动化流水线的个人开发者和小团队而言DeepSeek 的定价模型无疑是可推广性的巨大优势。综合评语Claude Opus 4.7更像一位经验丰富的“交付专家”一次生成接近成品能精准扣住所有格式约束适合预算充足、追求零修改的直接部署场景。DeepSeek V4 Pro则是一名逻辑能力顶尖、但细节上稍显粗犷的“效率先锋”它在核心正确性上毫不逊色仅因工程规范与格式呈现被扣分而这些完全可以通过更精细的提示词例如预先提供理想的 Makefile 模板、明确要求$...$排版轻松补齐。其按量计费、无订阅锁定的高性价比在长期长尾任务中优势明显。这次对比清晰地表明AI 代码助手之争已经不是单纯“能不能做对”而