Reasoner-Executor-Synthesizer: Scalable Agentic Architecture with Static O(1) Context WindowAuthors:Ivan DobrovolskyiDeep-Dive Summary:Reasoner-Executor-Synthesizer: 具有静态O(1)上下文窗口的可扩展智能体架构摘要部署为自主智能体的大型语言模型LLM通常使用检索增强生成RAG将检索到的文档输入上下文窗口这带来两个问题随着上下文长度增加幻觉风险增加且token成本随数据集大小线性增长。我们提出Reasoner-Executor-SynthesizerRES架构一种三层设计严格分离意图解析Reasoner、确定性数据检索与聚合Executor以及叙事生成Synthesizer。Executor使用零LLM token仅向Synthesizer传递固定大小的统计摘要。我们正式证明RES实现了相对于数据集大小的O(1) token复杂度并在ScholarSearch上验证这是一个基于Crossref API1.3亿文章的学术研究助手。在100次基准测试中无论数据集包含42,000还是1,630万篇文章RES均实现1,574 token的平均成本。该架构通过构造消除数据幻觉LLM从未见过原始记录。关键词LLM智能体智能体架构幻觉消除token优化上下文窗口检索增强生成确定性执行学术元数据Crossref APIO(1)复杂度。I. 引言将大型语言模型部署为自主智能体已在从客户支持到科学研究等领域加速发展[1,2]。一种普遍的设计模式——检索增强生成RAG[3]——检索相关文档并将其与用户查询一起注入LLM的上下文窗口。虽然对小型文档集有效但随着数据量增长这种方法存在两个关键限制。首先幻觉风险随上下文长度增加而增加。研究表明LLM在处理较长上下文时更可能生成无支持的声明[4]特别是当相关信息被埋没在不相关段落中时迷失在中间问题[5]。关于忠实度评估的最新工作证实最先进的模型在基础文档超过一定长度时会产生事实幻觉[6,7]。其次token成本随检索文档数量线性增长[8]。对于拥有数百万文章的学术数据库即使简单的趋势分析如果每个相关记录都必须通过LLM也会变得经济上不可行。我们提出一种根本不同的方法Reasoner-Executor-SynthesizerRES架构。RES不是将数据输入LLM而是仅将LLM用于其最擅长的领域——理解自然语言意图和生成人类可读的叙事——同时将所有数据操作委托给确定性代码[9,10]。这种分离同时实现两个特性1通过构造实现零数据幻觉因为LLM从未见过原始数据2O(1) token复杂度因为无论数据集规模如何LLM始终处理固定大小的输入。本文贡献有三方面。首先我们提出RES架构作为具有明确定义层间契约的正式三层设计第III节。其次我们提供正式复杂度分析证明RES实现相对于数据集大小的O(1) token复杂度第IV节。第三我们在ScholarSearch上实证验证该架构这是一个索引超过1.3亿篇文章的学术研究助手展示了在42,000到1,630万条记录的数据集范围内恒定的token成本包含详细方法论和多样化数据集测试第VI节。II. 相关工作A. 检索增强生成RAG[3]将文档检索与LLM生成相结合但仍要求LLM处理所有检索到的文档。迭代检索和重排序等高级变体[11]减少了发送给LLM的文本量但未能消除线性缩放关系。思维链提示[12]和ReAct[2]允许智能体迭代调用工具但每个工具的结果都被附加到不断增长的上下文中。Toolformer[13]证明LLM可以学习调用外部API但检索结果仍流入上下文窗口。B. 结构化查询方法基于SQL的方法如Text-to-SQL[14,15]将查询生成与执行分离但仅限于具有预定义模式的结构化数据库。程序辅助语言模型[16]和代码生成智能体[17]将计算委托给代码解释器但通常将完整结果返回给LLM进行解释。CRITIC框架[18]引入外部工具验证但未能解决上下文消耗的O(n)缩放根本问题。C. 智能体架构基于LLM的自主管理工作流的智能体概念已在近期综述中形式化[1,19]。多智能体系统和编排框架[10,20]提供可组合性但未明确解决token成本缩放问题。RES架构将分离原则推广到任意数据源和分析类型同时提供正式复杂度保证。与先前工作不同RES建立严格的信息边界LLM仅接收有界大小的统计摘要从不接收原始数据记录。III. RES架构RES架构通过三个严格分离的层处理每个用户查询每层具有明确定义的契约且职责零重叠。然而进一步讨论RES可能面临限制或适用性受限的查询类型或数据场景将有助于阐明其范围和适用性。图1.示例查询的详细RES架构流程。每层显示token成本。A. 第1层ReasonerLLM定义1Reasoner.设Q QQ为自然语言查询。Reasoner是函数R : Q → P R: Q \rightarrow PR:Q→P其中P PP为编码为JSON的结构化查询计划。R RR识别意图趋势分析、比较、排名或统计提取主题和时间约束并选择适当的分析类型。R RR不访问任何外部数据源D DD不调用任何API也不生成关于D DD的事实声明。Reasoner利用LLM在自然语言理解方面的优势[21]同时严格限制其范围。token成本由用户查询长度加上固定系统提示界定。实践中这约为200个输入token和100个输出token与数据集大小无关。B. 第2层Executor确定性代码定义2Executor.设P PP为Reasoner产生的查询计划设D { d 1 , d 2 , … , d n } D \{d_1, d_2, \dots, d_n\}D{d1​,d2​,…,dn​}为n nn条记录的数据集。Executor是函数E : P × D → S E: P \times D \rightarrow SE:P×D→S其中S SS为固定大小的统计摘要。E EE使用传统代码和API调用对D DD执行确定性操作计数、聚合、过滤、排序不调用任何LLM。输出S SS具有恒定token长度∣ S ∣ k |S| k∣S∣k其中k kk与n nn无关。对于ScholarSearchExecutor调用Crossref REST API[22]设置rows 0仅计数和分面查询从不下载单篇文章记录。输出始终为包含数据点、总数和元数据的紧凑JSON对象约500-800 token。该层消耗零LLM token。该设计借鉴了数据聚合管道[23]和API介导数据访问[24]的既定原则。C. 第3层SynthesizerLLM定义3Synthesizer.设S SS为Executor产生的固定大小统计摘要。Synthesizer是函数Y : S → N Y: S \rightarrow NY:S→N其中N NN为人类可读的叙事可选可视化配置。Y YY仅接收S SS作为输入从不接收来自D DD的原始记录。因为∣ S ∣ k |S| k∣S∣k常数Y YY的token消耗相对于n nn为O ( 1 ) O(1)O(1)。Synthesizer生成描述发现的叙事和用于可视化的图表配置[25]。由于Executor的固定大小输出契约界定其输入大小无论数据集大小如何Synthesizer的token消耗保持恒定。IV. 形式化复杂度分析我们现在建立RES架构的正式token复杂度特性。设D DD为包含n nn条记录的数据集其中D { d 1 , d 2 , … , d n } D \{d_1, d_2, \dots, d_n\}D{d1​,d2​,…,dn​}。A. 基线复杂度命题1RAG的线性复杂度.在传统RAG或长上下文架构中分析所需的总上下文窗口大小C w C_wCw​是n nn的函数C w ( n ) ∑ i 1 n ∣ d i ∣ ∣ P ∣ (1) C_w(n) \sum_{i1}^{n} |d_i| |P| \tag{1}Cw​(n)i1∑n​∣di​∣∣P∣(1)其中∣ d i ∣ |d_i|∣di​∣为记录i ii的token长度∣ P ∣ |P|∣P∣为提示开销。因此C w C_wCw​为O ( n ) O(n)O(n)导致token成本线性增长且随着上下文长度增加幻觉概率增加[4,5]。B. RES复杂度定义4固定大小输出契约.Executor产生恒定token大小∣ S ∣ k |S| k∣S∣k的输出S SS无论输入记录数n nn多少。这通过确定性聚合操作COUNT、SUM、AVG、GROUP BY实现将n nn条记录减少为有界的统计值集合。RES架构中Synthesizer的上下文窗口大小记为C R E S C_{RES}CRES​定义为C R E S ∣ P s y s t e m ∣ ∣ S ∣ ∣ P s y s t e m ∣ k (2) C_{RES} |P_{system}| |S| |P_{system}| k \tag{2}CRES​∣Psystem​∣∣S∣∣Psystem​∣k(2)其中∣ P s y s t e m ∣ |P_{system}|∣Psystem​∣为常数系统提示k kk为聚合统计的常数大小。两项均与n nn无关。定理1复杂度不变性.RES架构的总LLM token复杂度相对于输入数据集大小n nn为O ( 1 ) O(1)O(1)。证明.总token成本T R E S T_{RES}TRES​为各层消耗token之和。对于ReasonerT R O ( ∣ Q ∣ ) T_R O(|Q|)TR​O(∣Q∣)其中∣ Q ∣ |Q|∣Q∣为查询长度由用户输入界定且与n nn无关。对于ExecutorT E 0 T_E 0TE​0因Original Abstract:Large Language Models (LLMs) deployed as autonomous agents commonly use Retrieval-Augmented Generation (RAG), feeding retrieved documents into the context window, which creates two problems: the risk of hallucination grows with context length, and token cost scales linearly with dataset size. We propose the Reasoner-Executor-Synthesizer (RES) architecture, a three-layer design that strictly separates intent parsing (Reasoner), deterministic data retrieval and aggregation (Executor), and narrative generation (Synthesizer). The Executor uses zero LLM tokens and passes only fixed-size statistical summaries to the Synthesizer. We formally prove that RES achieves O(1) token complexity with respect to dataset size, and validate this on ScholarSearch, a scholarly research assistant backed by the Crossref API (130M articles). Across 100 benchmark runs, RES achieves a mean token cost of 1,574 tokens regardless of whether the dataset contains 42,000 or 16.3 million articles. The architecture eliminates data hallucination by construction: the LLM never sees raw records. KEYWORDS LLM agents; agentic architecture; hallucination elimination; token optimization; context window; retrieval-augmented generation; deterministic execution; scholarly metadata; Crossref API; O(1) complexity.PDF Link:2603.22367v1部分平台可能图片显示异常请以我的博客内容为准