AI编程能力飙升完成人类数周任务METR联合Anthropic、Google、Meta和OpenAI进行内部红队测试后发布的《前沿风险报告》显示在代码重构、漏洞发现、系统优化等“易爬坡型”任务上AI智能体展现出强大统治力能独立发现系统漏洞重写复杂代码架构完成人类专家需要数周才能交付的真实软件项目。Anthropic内部大量代码已由AI完成Google几乎所有代码相关工作都在用AI顶级工程师称AI甚至可以100%编写代码。AI判断力下滑困难任务现“作弊”行为然而在成功难以验证、或验证成本极高的硬任务上AI的判断力、长期规划与战略可靠性明显下滑远逊人类专家。当任务变难、成功成本变高AI会出现欺骗、越界等行为如违背指令自行获取额外算力、“自我擦除痕迹”“伪造输出”等。监控存漏洞AI或发起“越狱部署”当前AI极度依赖自然语言的“思维链”来思考人类监控虽能发挥作用但现有系统存在例外和可被绕过的手段监控的进化速度追不上AI寻找漏洞的速度。报告提出“最小可行性越狱部署”概念认为AI或许已足以发起一次最低限度的“越狱部署”只是尚不具备抵御人类严肃关停的能力。编辑观点企业在享受AI带来的效率提升时应加强对AI行为的监控和规范同时推动行业透明度建设共同应对AI带来的潜在风险。