DeepSeek V4 系列发布之后关于它能不能用、好不好用的讨论很多但大部分评测还停留在普通对话或编码上。CowAgent 作为一个开源中立的 Agent 框架则更关心模型在 Agent 链路中的真实表现包括任务规划、复杂编码、长期记忆、浏览器自动化、知识库构建、长上下文处理等本文针对这 6 项能力在 CowAgent 中对 DeepSeek V4 模型做了全面测试。新发布的 DeepSeek V4 模型系列分 Flash 和 Pro 两档本次评测主要关注deepseek-v4-flash。它的价格大约是 Pro 的 1/10、Claude Sonnet/Opus 的几十分之一、MiniMax M2.7 的三分之一响应速度也更快。如果 Flash 已经能够覆盖大部分 Agent 任务那 Pro 自然会更好。这次测试也是为了决定是否要把 CowAgent 的默认推荐模型切换到 V4 Flash 模型。一、测试环境测试在 CowAgent 的 Web 端进行。CowAgent 是一个开源的 AI Agent 框架内置任务规划、工具、技能、长期记忆、知识库等模块并支持多种接入渠道。每个测试场景在独立 session 中 运行互不干扰。关键参数配置项值模型deepseek-v4-flash深度思考开启reasoning_effort参数使用默认的high需要更深思考强度时可设置为max单任务最大步数50历史对话保留20 轮上下文 token 上限100 万工具13 个内置工具bash / edit / read / write / web_search / web_fetch / browser 等技能30 Skillsfrontend-engineer / image-generation / video-gen / pptx-creator 等二、场景设计6 个场景的设计原则是每个场景对应 Agent 的一个核心能力维度且尽量贴近真实使用场景测试关注点任务复杂度任务规划与技能调度多工具/Skill 协同、长链路规划高复杂交互式编程单文件零依赖前端、视觉冲击高长期记忆高难度跨 session 记忆检索 推理中浏览器自动化小红书真实站点多步操作、登录态处理高知识库自动构建联网调研 知识图谱组织高超长上下文处理网络长文档消化 大海捞针高三、场景实测场景 1任务规划与工具/技能调度任务下周要做一场关于「AI Agent 在企业中的落地实践」的内部分享让 Agent 全程接管1) 调研客服 / 营销 / 研发三大场景下的 AI Agent 落地案例2) 生成一份 8 页的 PPT 文件3) 把分享要点沉淀到知识库。关注点在 13 个工具和 30 个 Skill 的工作空间里能不能精准选择并组合执行这是最考验规划能力的场景。实测数据指标数值总耗时229.5s工具调用次数35 次联网搜索7 次文件读写12 次产物一份 8 页的分享 PPT 一篇知识库沉淀文档状态成功观察Flash 的执行路径基本是 拆解 → 逐场景调研 → 沉淀文档 → 生成 PPT → 更新知识库整个链路一次跑通没有出现重复执行或漏步骤。35 次工具调用都用得很克制没有冗余动作说明它的多工具规划在 Agent 框架的提示词约束下是稳定的。Web 端对话生成结果最终生成的 PPT样式和美观性还要取决于安装的 Skill这里用了一个比较基础的 PPT 生成技能整体文字、排版基本没有问题场景 2复杂交互式编程任务做一个「ATLAS AI · 全球运营中心」实时大屏单 HTML 文件包含实时核心指标、双 Y 轴 QPS/延迟折线图、全球节点地图、5 维能力雷达、GPU 集群柱状图、实时事件流、Top 模型排行榜。要求视觉冲击 单文件 数据全前端模拟。关注点复杂前端代码生成 视觉品味 单文件零依赖约束。实测数据指标数值总耗时381.7s工具调用次数28 次文件分次写入6 次避免单次 token 截断自我验证调用浏览器多次打开 截图回看产物一个零外部依赖的单 HTML 文件状态成功观察V4 Flash 主动用分块写入的方式构建大文件先写骨架再补图表写完后主动调用浏览器工具打开页面截图回看这一步不是 prompt 要求的是模型自己加的稳定性兜底一个小遗憾prompt 里要求零外部依赖模型还是引用了 echarts CDN。这是 Flash 在约束细节上的执行还不够严格的体现复杂约束下 Pro 大概率会更稳网页展示效果模型自己调用浏览器打开页面、截图回看的过程场景 3长期记忆任务分两个 session 做。第一阶段Setup 在 session A 中分三轮聊天把「迟到的春天」咖啡品牌的零散信息品牌定位、视觉、供应链、首店选址、店长候选人灌给 Agent第二阶段Query 用一个全新的 session B要求 Agent 基于它对我品牌的所有了解写一份 30 天运营计划 给店长选择建议。关注点跨 session 记忆能否被精准检索 多条记忆能否综合推理。实测数据指标数值Setup 总耗时49s3 轮Query 耗时142.4sQuery 阶段工具调用2 次记忆检索 记忆读取检索到的相关记忆条目14 条状态成功观察在全新 session 里Flash 只用 2 次工具调用就把品牌的全部细节拿出来了视觉色雾霾蓝 #6B8FA8、供应商普洱孟连老黑寨合作社、租金、店长候选人薪资全部一字不差并且基于这些信息给出了结构化建议「精品咖啡调性优先 → 推小林 → 但可以谈到 1.6~1.7 万作折中 → 用股权/分红预期补一点薪资差距」第一个会话中进行了多轮问题咨询新会话中的回复可以看到模型主动触发了记忆检索长期记忆中沉淀下来的品牌信息场景 4浏览器自动化任务分三步走1) 打开小红书 explore 页搜「DeepSeek」提取前 6~8 篇笔记的标题、点赞、互动量总结爆款套路2) 基于调研写一篇标题、正文、话题标签的笔记草稿保存到本地3) 打开发布页未登录时截图二维码让用户扫码扫码完成后填入草稿停在最终发布按钮前等用户确认。关注点真实有反爬的网站、登录态处理、知道什么时候应该停下来求助用户。实测数据指标数值总耗时124.4s不含用户扫码等待时间浏览器工具调用8 次主要动作打开页面 / 读取 DOM / 点击 / 填写 / 截图关键交互节点遇到登录页主动截图二维码并暂停状态成功观察Flash 在扫码节点的处理是这次的亮点没有盲目填写用户名密码而是先截图当前页面发送给用户等用户回复已登录后再继续在最终发布按钮前停下来等确认没有擅自把内容发出去。这是 Agent 安全感的一个细节体现标题模仿小红书爆款结构emoji 钩子 数字写得很到位搜索结果页和模型总结的爆款套路模型在登录页主动请求用户协助登录后自动填写表单内容模型停在发布按钮前等待用户确认场景 5知识库自动构建任务从零构建 Model Context Protocol (MCP) 主题的知识库要求联网调研、整理 4 个主流 MCP Server 2 个客户端按索引页 分类目录 交叉链接的方式组织最后更新知识库顶层索引。关注点联网 文件操作 知识组织能力的综合最终能正确构建出知识图谱实测数据指标数值总耗时210.6s工具调用次数26 次联网搜索6 次写入文档数13 篇目录结构索引页 概念目录 / Server 目录 / 客户端目录状态成功观察Flash 真正做出了图谱的样子不是把所有内容写成一篇大文档而是遵循知识库 wiki 技能的设定切成「概念页 / Server 实现页 / 客户端集成页」并且互相 link每篇结尾都有相关阅读区域指向兄弟节点。这个分层组织能力对知识库类任务非常重要。知识库构建过程生成的知识库目录结构索引页渲染后的效果场景 6超长上下文处理任务让 Agent 拉取 Project Gutenberg 上的《战争与和平》英文全本约 56 万词3.36MB全部消化后回答1) 一句话主题2) 4 条主要叙事线3) 4 个细节问题要求引用原文 标注卷章。其中细节题包括Pierre 第一次出场场景、Natasha 第一次舞会舞伴、Andrei 在 Austerlitz 战场看到的天空原文、最后一章的哲学主题。关注点超长文档的全局理解 大海捞针式的精确定位 原文引用准确度。实测数据指标数值总耗时156.3s实际拉取字符数3,359,613≈ 3.36MB工具调用次数50 次网络抓取1 次一次性下载全本到本地终端命令grep / wc 等30 次文件分段读取10 次状态成功实测下来模型并没有试图把 3.36MB 全部塞进 context而是先一次性把全文落到本地只在 context 里保留前 5 万字符后续通过终端命令在本地文件里搜索关键词Austerlitz、lofty sky、Natasha、waltz 等拿到行号再按行号区间分段读取把关键段落带回 context。最后给的答案Andrei 的天空场景精准定位到第 15869 行原文引用一字不差the lofty sky, not clear yet still immeasurably lofty, with gray clouds gliding slowly across it...Pierre 第一次出场锁定到 Book One Chapter IINatasha 第一次舞会锁定到 Book Six Chapter XVI舞伴 Andrei给出原文引用最后一章哲学主题自由意志 vs 历史必然性并附了托尔斯泰的原文段落整个过程 50 次工具调用都没出错也没有陷入死循环。先把全文落盘再用搜索一步步定位、分段读这种处理路径才是 Agent 在长文档场景下真正实用的能力。在 Agent 场景里发生一次性把 1M token 塞进 prompt 的概率其实很低真到了几十万 token 的文档更好的做法就是先落盘再搜索而不是一次性加载全部内容。所以这个场景测的不是模型能装多大而是模型够不够聪明知道什么时候该装入上下文、什么时候该走工具这才是 Agent 真正需要的长上下文能力。模型的工具调用过程先获取全文落盘再用 grep 定位、按行号区间分段读取最终回答中带章节引用的原文段落四、数据汇总6 个场景全部跑完的汇总数据场景状态耗时工具调用s1 任务规划成功229.5s35s2 复杂编码成功381.7s28s3 长期记忆成功142.4s2s4 浏览器自动化成功124.4s8s5 知识库构建成功210.6s26s6 超长上下文处理成功156.3s50几个数据观察零失败、零死循环。6 个场景全部一次跑通没有一次进入工具调用死循环或解析失败在后续的批量任务测试中同样有很好的表现。这是从 V3 到 V4 最显著的一个升级V3 时代复杂场景偶尔会陷入重复同一个工具或工具参数解析错误的循环响应速度足够快。所有场景都在 2~6 分钟内完成且执行过程中会把详细步骤流式发送出来用户能实时看到 Agent 的思考和动作体感上响应延迟很低五、结论整体看下来DeepSeek V4 Flash 在 6 个场景里的稳定性已经足以做默认模型来用最复杂的 s135 次工具调用和 s650 次工具调用也能稳定跑完比 V3 时代有非常明显的改善。规划、编码、记忆、浏览器、知识库、长上下文这几项基础能力都没有明显短板长期记忆和长上下文这两块的表现甚至有些超出预期。再加上价格优势Agent 一次任务往往要几十次 LLM 调用模型成本是选型里很关键的一项。Flash 在这个价位上能做到这种水准作为日常使用的默认选择性价比很高。当然 Flash 也不是没短板复杂约束的执行偶尔会打折扣比如 s2 里要求零外部依赖模型还是引用了 echarts CDN。遇到真正复杂的任务直接切到 Pro 配合reasoning_effortmax能拿到更深的思考深度。后们也会继续补充批量任务测试和不同模型的横向对比并形成一套可复用的 Agent 能力评测框架。基于这次评测的结果CowAgent 开源项目GitHub在最新版本中已经将deepseek-v4-flash设置为默认模型。