引言上一章,我们为技能穿上了“防护服”,通过完善的错误处理与监控告警,确保了其稳定运行。然而,当技能从个人玩具走向企业级应用时,两个新的核心痛点便浮出水面:响应速度与使用成本。一个处理长文档时耗时费钱的技能,注定难以大规模推广。本章,我们就来解决这两个问题,让你的技能不仅“能用”,更要“好用且经济”。核心理论性能与成本优化的核心,在于深刻理解并驾驭大模型的Context Window(上下文窗口)机制。你可以把它想象成一个容量有限的“工作记忆白板”。Token是计价单位:无论是你的输入(Prompt)还是模型的输出(Completion),都以Token为单位进行计费和计算。Token可以是一个词、一个字或一个标点,中文通常1个Token对应1-2个汉字。窗口大小是硬限制:每个模型都有其上下文窗口上限(如128K)。你的Prompt(系统指令+用户输入+历史对话)和模型的输出总和不能超过此限制。成本与延迟的双重影响:成本:输入Token和输出Token都产生费用。冗长的Prompt直接推高每次调用的成本。性能:模型需要处理整个上下文窗口内的所有Token才能开始生成回答。过长的Prompt会显著增加首字节响应时间(TTFB)/