什么是ReAct框架？它如何结合推理和行动？

张

张建站

2026/5/27 18:03:43

10分钟阅读

什么是ReAct框架它如何结合推理和行动面试官你好这个问题挺有意思的。ReAct是2022年由普林斯顿大学和Google研究团队提出的一个框架全称是Reasoning Acting。它要解决的核心问题是CoT之类的纯推理方法只能依赖模型内部知识容易产生幻觉而纯行动导向的方法呢又缺乏规划能力容易乱来。ReAct把这两者结合起来了。一、为什么需要ReAct在说ReAct之前得先理解它解决的问题。传统的CoT也就是思维链prompting效果确实好——数学推理、逻辑题准确率提升明显。但它有个致命缺陷模型完全依赖内部知识无法获取外部信息。这就会导致幻觉——模型推理得头头是道但结论可能是错的因为没有去验证。举个例子你问模型爱因斯坦最近的推特说了什么纯CoT可能会煞有介事地编一段话出来因为它没法意识到爱因斯坦已经去世这个事实。ReAct这篇论文的标题就叫Synergizing Reasoning and Acting in Language Models作者想探索的就是推理和行动这两个能力能不能结合起来而不是各自为战二、ReAct的核心机制ReAct的核心是一个Thought-Action-Observation循环Thought → Action → Observation → Thought → ... → Final AnswerThought思考模型分析当前状态决定下一步要做什么同时解释为什么要这么做Action行动调用外部工具——比如搜索API、查数据库、执行代码、查询知识库Observation观察获取工具返回的结果作为下一轮推理的输入这个循环会持续进行直到模型认为有足够信息给出最终答案。论文里有个很形象的HotpotQA例子问题是关于一个雕塑家他的作品之一的主题是关于蝴蝶的这个雕塑家还与某某人共同出现在某个列表中——这种多跳问题纯CoT只能瞎猜但ReAct会先搜索雕塑家信息、再搜索共同出现的列表一步步逼近答案。三、ReAct vs CoT vs Act-Only这是面试常考的对比题。**纯CoTReason-Only**的问题完全依赖内部知识无法验证信息容易产生幻觉和错误传播——前面推理错了后面全错。纯Act-Only的问题缺乏规划能力行动是盲目的。你给它一个任务它可能直接乱动一气然后看到结果再手足无措。ReAct则是在两者之间取了平衡既有推理来规划下一步行动又能通过行动获取真实信息来修正推理。论文在HotpotQA和Fever上的实验显示ReAct的幻觉问题明显比CoT少因为它接地气了——每一步推理都基于真实检索到的信息而不是纯靠脑补。四、ReAct的实际应用场景这块面试官可能追问落地经验。知识密集型问答比如客服机器人需要查产品手册、查订单状态——ReAct可以先推理需要查什么然后调API再基于结果回答。多跳推理类似谁是谁的老板的老板这种问题需要多步检索才能回答。交互式决策ALFWorld这种虚拟环境任务或者WebShop这种网购任务——模型需要在环境中探索根据观察调整策略。数据分析Agent接上数据库或数据API用户问业务问题Agent自己决定要查哪些表、执行什么查询。LangChain最早就是用ReAct作为Agent的核心实现模式后来才发展出各种变体。五、工程实践中的坑和经验说几个实际踩过的坑第一个坑循环上限。ReAct的Thought-Action-Observation循环可能会无限进行下去——模型陷入重复思考或者一直在做无用搜索。所以必须设置一个最大循环次数或者当连续几步结果相似时就提前终止。第二个坑工具调用失败的处理。搜索API可能返回空结果、查库可能超时。模型需要学会在这种时候换个策略而不是卡住。第三个坑Token消耗。ReAct每一步都会生成Thought这个开销不小。论文里有数据说ReAct平均每次任务消耗2000-3000个Token比直接回答贵多了。所以不是所有场景都适合用ReAct——简单问题直接答就行。ReAct vs Plan-Execute怎么选ReAct是每步推理后立即行动再观察适合动态探索性任务Plan-Execute是先生成完整计划再执行适合步骤固定、可预测的任务。实际项目中往往是结合用——Plan-Execute外层调度ReAct处理每一步的具体执行。六、总结ReAct的核心贡献是证明了推理和行动不是对立的能力而是可以协同增强的。它用一个简单的Thought-Action-Observation循环解决了CoT的幻觉问题也解决了Act-Only的盲目问题。现在已经成为Agent开发的基础范式LangChain、LlamaIndex这些框架都是基于这个思想实现的。如果面试官追问可以再展开讲讲它和Self-Consistency、Tree-of-Thought的区别或者你在实际项目中是怎么设计ReAct Agent的工具调用逻辑的。

AI写作如何去除机器感？开发者必备的10项人性化修改技巧

1. 项目概述：从“AI味”到“人味”的写作工程我早期用AI写的文章，读起来就像是一个只读过领英帖子的机器人写的公司新闻稿。“此外，该解决方案证明了创新的力量……”、“再者，值得注意的是，行业格局正在不断演变……”…...

2026/5/27 18:00:11 阅读更多 →

专业级开源媒体播放器深度解析：mpv.net的5大优势与核心技术架构

专业级开源媒体播放器深度解析：mpv.net的5大优势与核心技术架构【免费下载链接】mpv.net 🎞 mpv.net is a media player for Windows with a modern GUI. 项目地址: https://gitcode.com/gh_mirrors/mp/mpv.net mpv.net是基于mpv核心的Windows平…...

2026/5/27 18:00:06 阅读更多 →

从零开始vim搭建Java开发环境之coc.nvim实战调优篇

1. 从基础配置到深度调优很多开发者刚接触coc.nvim时，往往止步于基础环境搭建。实际上，这套工具链的潜力远不止于此。我在实际项目开发中发现，经过深度调优的coc.nvim环境，其开发效率可以媲美主流IDE。我们先从LSP服务器的稳定性…...

2026/5/27 17:59:59 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/27 16:21:02 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/27 10:33:57 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/27 10:34:01 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/27 10:34:01 阅读更多 →