AI基础_LLM推理过程

张

张建站

2026/5/14 22:07:50

10分钟阅读

大语言模型LLM的推理过程Inference听起来很高深但其核心原理其实非常直观。简单来说它并不是像人类一样在“思考”而是基于概率的数学计算通过“预测下一个词”来生成连贯的文本。我们可以把整个推理过程拆解为以下几个关键步骤 1. 文本分词化 (Tokenization)当你向 AI 输入一句话例如“今天天气怎么样”时模型并不能直接理解这些汉字。它会先把你的输入拆分成一个个最小的处理单元也就是 Token。* Token 是什么它可以是一个字、一个词甚至是一个偏旁部首。对于中文来说1个 Token 大约相当于 1.5 个汉字。* 模型会将这些 Token 转化为它能处理的特定代码数字向量作为推理的起点。 2. 概率预测与自回归生成 (Probability Prediction Auto-regressive Generation)这是 LLM 推理最核心的环节。模型的工作原理是自回归Auto-regressive的也就是说它会一次只生成一个 Token然后把这个新生成的 Token 加入到已有的序列中再去预测下一个 Token。具体流程如下1. 计算概率模型根据你输入的所有 Token以及之前的对话历史在它庞大的词汇库里计算下一个 Token 出现的概率。2. 选择 Token 假设模型计算出在“今天天气”后面接“很”的概率是 30%接“不”的概率是 25%接“还”的概率是 20%。它会根据设定的策略比如总是选概率最高的或者带一点随机性选中一个 Token比如“很”。3. 循环迭代模型把“很”拼接到“今天天气”后面变成“今天天气很”然后把这整句话重新输入给自己继续预测“很”后面的那个字。4. 持续生成这个过程不断重复一个字接一个字地蹦出来直到模型生成一个代表“结束”的特殊 Token或者达到了设定的字数上限。 3. 上下文窗口与 KV 缓存 (Context Window KV Cache)* 上下文窗口Context Window 模型的“脑容量”是有限的。它一次能处理的 Token 总数包含你的提问、历史对话和它正在生成的回答有一个上限这就是上下文窗口。如果对话太长最早的记录就会被强制“遗忘”。* KV 缓存KV Cache 为了让生成速度更快推理引擎通常会把已经计算过的 Token 信息中间计算结果缓存起来。这样在预测下一个字时就不需要把前面所有的字从头再算一遍大大提升了生成效率。进阶推理模型的“慢思考” (Reasoning Models)值得一提的是现在很多先进的推理模型比如 OpenAI 的 o 系列或 DeepSeek-R1 等在基础的“预测下一个词”之上引入了思维链Chain of Thought, CoT机制。它们在直接给出最终答案之前会先生成一大段“思考过程”也就是在内部自言自语把复杂问题拆解成多个子步骤甚至进行自我反思和纠错。这些“思考”的文字本质上也是模型生成的 Token只是因为经过了更缜密的逻辑推演所以它们在解决数学、编程和复杂逻辑问题时表现会比普通模型好得多。总结来说LLM 推理就像是一个超级厉害的“文字接龙”高手它通过海量的训练数据极其精准地猜出你下一句最想看到的是什么字从而流畅地与你对话。

腾讯云掉队：从中国云市场第二到第五，AI与云服务互为拖累何时突围？

腾讯云：从追赶者到掉队者云计算概念由谷歌前CEO施密特提出，亚马逊是事实上的开创者。腾讯虽早有察觉其潜力，但腾讯云2013年才正式上线，比阿里云晚了四年。不过，凭借微信、游戏、社交等生态优势，腾讯云曾一路…...

2026/5/14 22:05:24 阅读更多 →

Verilog复杂时序逻辑设计：从跨时钟域到流水线的工程实践

1. 项目概述：从“能跑”到“跑得稳”的跨越最近在论坛上看到不少朋友在讨论Verilog写状态机、计数器时遇到的时序问题，比如仿真好好的，上板就出乱子，或者频率一高就各种亚稳态。这让我想起了自己刚入行那会儿，也是觉得…...

2026/5/14 22:04:53 阅读更多 →

手把手玩转TC397开发板：从开箱到点亮TFT屏的完整流程（附资源清单）

手把手玩转TC397开发板：从开箱到点亮TFT屏的完整实战指南刚拿到KIT_A2G_TC397_5V_TFT开发板时，面对琳琅满目的接口和配件，新手常会感到无从下手。本文将用最直观的方式，带你完成从拆箱到驱动TFT显示屏的全过程。不同于常规的技术…...

2026/5/14 22:00:15 阅读更多 →

4月28日隐喻“鲸鱼开眼”，DeepSeek识图模式灰度上线，迈入图文交互时代！

4月28日，DeepSeek多模态团队研究员推文隐喻“鲸鱼开眼”，次日开启“识图模式”灰度内测，5月初大范围开放。该模式有亮点也有短板，标志其迈入图文交互时代。事件回顾4月28日，DeepSeek多模态团队研究员陈小康在X平台推文…...

2026/5/14 8:57:36 阅读更多 →

AI赋能高能物理：图神经网络与生成式模型在粒子径迹重建与模拟中的应用

1. 项目概述：当AI遇见高能物理的“显微镜”电子离子对撞机（EIC），被誉为探索物质深层结构的下一代“超级显微镜”。它不像我们熟悉的LHC那样让质子对撞，而是让高能电子去轰击质子或重离子，其核心目标是精确“…...

2026/5/14 8:53:29 阅读更多 →

A/B 测试前后的合成控制样本

原文：towardsdatascience.com/synthetic-control-sample-for-before-and-after-a-b-test-683bac36ffc1 简介 A/B 测试非常强大。我喜欢这种实验，因为它让我们能够比较结果，并确定某物是否比另一物表现更好。 A/B 测试有一个特定类型&#x…...

2026/5/14 8:56:05 阅读更多 →