大模型入门指南从基础概念到提示词大师say-fall个人主页专栏《手把手教你学会C》 | 《系统深入Linux操作系统》 | 《数据结构与算法》 | 《小游戏与项目》格言做好你自己才能吸引更多人与他们共赢这才是最好的成长方式。 前言提到大模型很多人的第一反应是这不就是个聊天机器人吗“或者AI能帮我写写文章就不错了”。但是当你真正开始使用 ChatGPT、Claude、智能助手这些工具时往往会遇到这样的问题同样的问题为什么别人能得到高质量的回答而我只能得到泛泛而谈的内容大模型动不动就一本正经地胡说八道我怎么判断它说的是对的还是编的市面上那么多AI术语LLM、RAG、Agent、微调……它们到底是什么意思我想用AI提升工作效率但不知道从何下手不过不用担心——本文将带你从零开始系统掌握大模型的核心概念和使用技巧。通过本文你将掌握技能应用场景30个核心AI术语看懂AI圈的技术讨论不再被黑话劝退大模型完整发展脉络理解技术演进逻辑把握未来趋势AI Agent工作原理从聊天工具进化到智能助手理解AI如何自主完成任务提示词书写规范让AI成为你的超级助手而不是智障聊天机器人 前置知识本文不需要你有AI或编程基础我会用最通俗易懂的语言解释所有概念。如果你已经有使用大模型的经验可以直接跳到第四节看提示词技巧。文章目录大模型入门指南从基础概念到提示词大师 前言一、 大模型名词科普看懂AI圈的黑话1.1 基础模型类理解AI的本体**LLMLarge Language Model大型语言模型****Foundation Model基础模型****Open Source LLM开源大模型****Closed Source LLM闭源大模型**1.2 ⚙️ 核心技术类大模型如何思考**Transformer架构****Token令牌****Embedding嵌入****Vector Database向量数据库****RAGRetrieval-Augmented Generation检索增强生成****Fine-tuning微调****Pre-training预训练****Inference推理**1.3 交互与应用类如何使用大模型**Prompt提示词****Prompt Engineering提示词工程****Agent智能体****Skill技能****Plugin插件****Multi-agent System多智能体系统**1.4 性能与特性类大模型的能力指标**Parameters参数****Context Window上下文窗口****Emergent Abilities涌现能力****Hallucination幻觉****Alignment对齐****Chain of ThoughtCoT思维链****Zero-shot Learning零样本学习****Few-shot Learning少样本学习****Temperature温度参数**二、 大模型发展历史从实验室到全民AI2.1 萌芽期1950s-2017语言模型的早期探索2.2 ️ 奠基期2017-2019Transformer时代的开启2.3 爆发期2020-2022大模型的军备竞赛2.4 多模态与智能体时代2023至今从文本到万物三、 AI Agent工作原理从工具到伙伴3.1 AI Agent的核心本质3.2 AI Agent的基本组成部分1. 感知模块2. 记忆模块3. 规划模块4. 行动模块3.3 AI Agent的工作流程3.4 ️ AI Agent的主要架构类型1. ReAct架构2. AutoGPT架构3. Reflexion架构4. Plan-and-Execute架构3.5 AI Agent与传统LLM的本质区别四、✍️ 提示词规范书写与大模型高效沟通的艺术4.1 提示词工程的核心原则4.2 通用提示词模板4.3 实用技巧与进阶方法1. 使用分隔符2. 分步指令3. 思维链Chain of Thought4. 少样本学习Few-shot Learning5. 反向提示4.4 ❌ 常见错误与避免方法错误1过于简短模糊错误2一次性提出多个不相关的问题错误3假设大模型知道所有信息错误4使用模棱两可的语言五、 几个思考题1️⃣ 为什么大模型会出现幻觉问题RAG是如何解决这个问题的2️⃣ Chain of Thought思维链为什么能够提升大模型的推理能力它适用于哪些场景3️⃣ AI Agent与传统LLM的根本区别是什么举个例子说明Agent是如何完成任务的。4️⃣ 温度参数Temperature是如何影响大模型输出的不同应用场景应该如何设置温度六、 结语一、 大模型名词科普看懂AI圈的黑话1.1 基础模型类理解AI的本体LLMLarge Language Model大型语言模型我们常说的大模型通常指的就是LLM。它是一种基于深度学习技术通过在海量文本数据上进行预训练而得到的人工智能模型。简单来说LLM就像一个读过整个互联网的超级学霸它通过学习人类语言的规律和知识能够理解自然语言并生成类似人类的文本内容。Foundation Model基础模型也叫基座模型是指在大规模通用数据上预训练得到的、可以适应多种下游任务的模型。类比理解基础模型就像一块万能积木开发者可以在它的基础上进行微调或二次开发构建出各种专用的AI应用。所有的LLM都是基础模型但基础模型还包括多模态模型、图像模型等。Open Source LLM开源大模型指源代码和模型权重公开可下载的大模型任何人都可以免费使用、修改和分发。代表作品Meta的Llama系列、Mistral系列、清华大学的ChatGLM系列等。 开源大模型极大地降低了AI技术的门槛推动了整个行业的创新发展。Closed Source LLM闭源大模型指不公开源代码和模型权重只能通过API接口或官方产品使用的大模型。代表作品OpenAI的GPT系列、Google的Gemini系列、Anthropic的Claude系列等。⚠️ 闭源大模型通常在性能和安全性方面更有优势但使用成本较高。1.2 ⚙️ 核心技术类大模型如何思考Transformer架构2017年由Google提出的神经网络架构是现代所有大模型的基础。核心创新“自注意力机制”能够让模型在处理文本时关注到不同位置的词语之间的关系就像人类阅读时会联系上下文理解语义一样。 这是大模型发展史上最重要的技术突破没有之一。Token令牌大模型处理文本的基本单位。换算关系1个token ≈ 0.7-0.8个汉字1个token ≈ 1个英文单词示例人工智能这4个汉字大约会被拆分为5个token。⚠️ 大模型的所有计算都是基于token进行的因此API调用费用通常也按token数量计费。Embedding嵌入将文本、图像等非结构化数据转换为高维向量的过程。核心作用嵌入向量能够捕捉数据的语义信息语义相似的数据在向量空间中距离更近。示例猫和狗的嵌入向量距离 → 比较近猫和汽车的嵌入向量距离 → 比较远Vector Database向量数据库专门用于存储和检索高维向量的数据库。它能够快速找到与查询向量最相似的向量是RAG技术的核心组件。常见向量数据库Chroma、Pinecone、Milvus等。RAGRetrieval-Augmented Generation检索增强生成一种让大模型能够使用外部知识的技术。工作原理先将外部文档转换为向量存储在向量数据库中当用户提问时先从数据库中检索出相关的文档片段将这些片段和用户的问题一起输入给大模型大模型基于检索到的信息生成回答✅ RAG的优势能够有效解决大模型幻觉问题和知识过时问题。Fine-tuning微调在预训练好的基础模型上使用特定领域的标注数据进行进一步训练使模型更好地适应特定任务。类比理解这一阶段就像人类上大学学习专业知识。 微调能够显著提升模型在特定领域的表现但需要一定的计算资源和标注数据。Pre-training预训练模型在海量无标注数据上进行的初步训练目的是学习语言的基本规律和通用知识。类比理解这一阶段就像人类从小学到高中的基础教育。⚠️ 预训练是大模型最耗时、最耗资源的部分通常需要数千甚至数万张GPU卡训练数月时间。Inference推理指使用训练好的模型生成输出的过程。简单来说你向ChatGPT发送一个问题ChatGPT生成回答的过程就是推理。 推理的速度和成本是大模型实际应用中非常重要的指标。1.3 交互与应用类如何使用大模型Prompt提示词用户输入给大模型的指令或问题。重要性提示词是我们与大模型沟通的桥梁同样的问题不同的提示词写法得到的结果可能天差地别。Prompt Engineering提示词工程研究如何设计和优化提示词以获得更好的大模型输出效果的技术。**✅ 提示词工程是目前普通用户提升大模型使用效率最有效的方法。Agent智能体能够自主感知环境、制定计划、执行任务并与其他智能体交互的AI系统。简单来说Agent就像一个AI助手它不仅能回答问题还能主动帮你完成复杂的任务。Skill技能大模型能够完成的特定任务。示例写代码、翻译、总结、绘画等都可以看作是大模型的技能。 有些技能是大模型预训练时就具备的有些则需要通过微调或插件来获得。Plugin插件扩展大模型功能的工具。作用通过插件大模型可以连接到外部系统获取实时信息、执行代码、控制硬件等。示例ChatGPT的浏览器插件可以让它搜索互联网代码解释器插件可以让它运行Python代码。Multi-agent System多智能体系统由多个智能体组成的系统这些智能体可以相互协作共同完成复杂的任务。1.4 性能与特性类大模型的能力指标Parameters参数模型内部可学习的变量数量通常以十亿B或万亿T为单位。影响参数越多模型的记忆力和理解能力理论上越强但训练和运行成本也越高。示例GPT-31750亿个参数GPT-4参数规模更大具体未公开Context Window上下文窗口模型能够同时处理的最大文本长度以token为单位。影响上下文窗口越大模型能够记住的对话历史和参考信息就越多。示例GPT-4 Turbo128k tokens ≈ 9万字Claude 3 Opus200k tokens ≈ 15万字Emergent Abilities涌现能力当模型的规模达到一定阈值后突然出现的一些在小模型中不存在的能力如逻辑推理、数学计算、代码生成等。 这是大模型最令人惊叹的特性之一也是其能够处理复杂任务的关键。Hallucination幻觉大模型生成看似合理但实际上是虚假或错误信息的现象。⚠️ 这是目前大模型最主要的缺陷之一在使用大模型生成的内容时特别是涉及事实性信息时一定要进行核实。Alignment对齐使大模型的行为与人类的价值观和意图保持一致的过程。目标确保大模型是有用的、无害的、诚实的。 对齐是大模型安全研究的核心问题。Chain of ThoughtCoT思维链一种提示词技术通过要求大模型一步步思考来提高其逻辑推理能力。**✅ 思维链能够显著提升大模型在数学计算、逻辑推理等复杂任务上的表现。Zero-shot Learning零样本学习大模型在没有见过任何示例的情况下直接完成任务的能力。示例你可以让大模型将下面的句子翻译成法语而不需要给它任何翻译示例。Few-shot Learning少样本学习大模型在见过几个示例后快速学会完成任务的能力。示例你可以给大模型提供2-3个翻译示例然后让它翻译新的句子。Temperature温度参数控制大模型输出随机性的参数。调节建议应用场景推荐温度值写代码、做数学题0-0.3确定性高写文案、创作故事0.7-1.0平衡创意与稳定头脑风暴1.0-1.5高创意性原理温度越低输出越确定、越保守温度越高输出越有创意、越多样化。二、 大模型发展历史从实验室到全民AI大模型的发展并非一蹴而就而是经历了漫长的技术积累和多次突破。我们可以将其大致分为四个阶段2.1 萌芽期1950s-2017语言模型的早期探索1950年图灵提出著名的图灵测试为人工智能的发展指明了方向。1966年第一个聊天机器人ELIZA诞生它通过简单的模式匹配来模拟心理医生的对话。20世纪90年代统计语言模型开始兴起基于概率的方法被广泛应用于语音识别和机器翻译。2013年Word2Vec模型提出将词语表示为低维向量为深度学习在自然语言处理领域的应用奠定了基础。2014年Seq2Seq模型和注意力机制被提出显著提升了机器翻译的质量。2.2 ️ 奠基期2017-2019Transformer时代的开启2017年6月Google发表论文《Attention Is All You Need》正式提出Transformer架构。这篇论文被认为是大模型发展史上的里程碑事件。2018年6月OpenAI发布GPT-1首次将Transformer架构应用于语言模型的预训练参数规模为1.17亿。2018年10月Google发布BERT采用双向Transformer架构在多项自然语言处理任务上取得了突破性成绩。2019年2月OpenAI发布GPT-2参数规模提升至15亿展示了大模型生成连贯文本的能力。2.3 爆发期2020-2022大模型的军备竞赛2020年5月OpenAI发布GPT-3参数规模达到1750亿。GPT-3首次展示了大模型的涌现能力标志着通用人工智能时代的序幕正式拉开。2021年Google发布PaLM参数规模达到5400亿在逻辑推理和数学计算方面表现出色。2022年11月OpenAI发布ChatGPT基于GPT-3.5架构采用对话式交互方式。ChatGPT凭借其出色的对话能力迅速走红引发了全球范围内的大模型热潮。2.4 多模态与智能体时代2023至今从文本到万物2023年3月OpenAI发布GPT-4支持图像输入在推理能力和安全性方面有了显著提升。2023年5月Google发布Gemini当时名为PaLM 2支持多模态输入输出。2023年7月Meta发布Llama 2开源了7B、13B和70B三个版本的模型极大地推动了开源大模型的发展。2023年底至2024年初AI智能体Agent成为行业新热点各大公司纷纷推出自己的智能体框架和产品。2024年多模态大模型能力进一步提升支持视频生成、3D建模、实时语音交互等更复杂的任务。三、 AI Agent工作原理从工具到伙伴AI Agent是大模型技术发展的下一个重要阶段它将传统LLM的被动回答转变为主动执行使AI从一个简单的问答工具进化为能够独立完成复杂任务的智能伙伴。3.1 AI Agent的核心本质AI Agent的核心本质是以大模型为大脑通过一系列模块化组件赋予其自主决策和行动能力的系统。与传统LLM的区别传统LLM只能根据用户输入生成文本输出AI Agent能够理解用户的目标自主分解任务调用外部工具获取信息或执行操作并根据反馈不断调整策略直到最终完成目标3.2 AI Agent的基本组成部分一个完整的AI Agent系统通常由四个核心模块组成1. 感知模块负责接收和理解来自外部环境的信息。输入来源用户的自然语言指令来自传感器的数据其他系统的输出 感知模块的核心是大模型本身它能够将各种形式的输入转换为机器可以理解的语义表示。2. 记忆模块负责存储Agent的历史经验、知识和当前状态。**记忆层次短期记忆存储当前对话和任务的上下文信息对应大模型的上下文窗口长期记忆存储Agent的历史交互记录和学习到的知识通常使用向量数据库实现工作记忆存储当前任务的执行状态和中间结果3. 规划模块负责根据用户的目标和当前的环境状态制定详细的执行计划。**核心功能将复杂的目标分解为一系列可执行的子任务确定每个子任务的优先级和执行顺序对于更复杂的任务还会进行反思和优化根据执行过程中的反馈调整计划4. 行动模块负责执行规划模块制定的计划。**执行方式调用各种工具和API来与外部世界交互如搜索引擎、数据库、文件系统、代码解释器、第三方服务等将执行结果返回给感知模块形成一个完整的反馈循环3.3 AI Agent的工作流程AI Agent的工作过程是一个不断循环的“感知-规划-行动-反馈”过程目标接收Agent接收用户的自然语言目标指令任务分解规划模块将复杂目标分解为多个可执行的子任务工具选择Agent根据每个子任务的需求选择合适的工具或API行动执行行动模块调用选定的工具执行子任务结果评估感知模块接收工具返回的结果评估子任务是否完成状态更新记忆模块更新当前任务的执行状态和中间结果循环迭代如果子任务未完成Agent会调整策略重新执行如果所有子任务都已完成Agent会整合结果并返回给用户3.4 ️ AI Agent的主要架构类型目前主流的AI Agent架构主要有以下几种1. ReAct架构将推理Reasoning和行动Acting结合起来的架构。**特点Agent在执行每个行动之前都会先进行推理思考为什么要执行这个行动以及这个行动可能会带来什么结果。**✅ ReAct架构能够显著提高Agent的决策质量和可解释性。2. AutoGPT架构一种完全自主的Agent架构。**特点能够自主设定子目标调用工具评估结果并不断迭代直到完成最终目标高度自主性⚠️ 但也存在容易偏离目标和产生幻觉的问题。3. Reflexion架构在ReAct架构的基础上增加了反思Reflection模块。**特点Agent在完成一个任务或遇到失败后会对自己的行为进行反思总结经验教训并将这些经验存储在长期记忆中以便在未来的任务中改进自己的表现。4. Plan-and-Execute架构将规划和执行分离的架构。**特点规划模块负责制定详细的执行计划执行模块负责按照计划一步步执行 这种架构适合处理需要严格按照步骤执行的复杂任务。3.5 AI Agent与传统LLM的本质区别AI Agent与传统LLM的本质区别在于自主性和闭环能力对比维度传统LLMAI Agent交互方式被动的只能根据用户的输入生成输出主动的能够理解用户的目标自主制定计划行动能力没有自主决策和行动的能力调用工具执行任务并根据反馈调整策略工作模式“一次性的”输入一次生成一次输出“循环的”通过不断的感知、规划、行动和反馈直到完成最终目标四、✍️ 提示词规范书写与大模型高效沟通的艺术提示词工程不是玄学而是一套有章可循的方法论。掌握以下规范和技巧能够让你用最少的时间获得最满意的结果。4.1 提示词工程的核心原则明确具体避免模糊不清的表述尽可能详细地描述你的需求。结构化将复杂的需求分解为多个部分使用清晰的格式组织提示词。角色设定给大模型分配一个特定的角色让它从该角色的角度思考和回答问题。提供示例如果需要特定格式或风格的输出提供1-2个示例会非常有效。限定输出明确指定输出的长度、格式、语气和内容范围。4.2 通用提示词模板一个好的提示词通常包含以下几个部分【角色设定】你是一名[专业领域]专家拥有[X]年的[相关经验]。 【任务描述】请你帮我完成[具体任务]。 【背景信息】[提供必要的上下文和参考资料]。 【输出要求】 1. [要求1] 2. [要求2] 3. [要求3] 【示例】[可选提供输出示例] 这个模板几乎适用于所有场景从写代码到写文案从翻译到总结。4.3 实用技巧与进阶方法1. 使用分隔符使用、—、###等分隔符将不同部分的内容分开帮助大模型更好地理解你的提示词结构。2. 分步指令对于复杂任务将其分解为多个步骤让大模型逐步完成。示例请按照以下步骤分析这篇文章 1. 总结文章的核心观点 2. 分析文章的论证结构 3. 指出文章的优点和不足 4. 提出改进建议3. 思维链Chain of Thought当需要大模型进行逻辑推理或数学计算时要求它一步步思考能够显著提高结果的准确性。示例请解决这个问题并一步步展示你的思考过程 问题一个篮子里有12个苹果你拿走3个篮子里还剩几个苹果4. 少样本学习Few-shot Learning在提示词中提供几个输入输出示例让大模型学习你的要求。示例请将以下句子翻译成法语 示例1Hello → Bonjour 示例2Thank you → Merci 现在请翻译Good morning5. 反向提示明确告诉大模型不要做什么。示例请写一篇关于环保的演讲稿不要使用过于夸张的语言不要喊口号要用真实的数据和案例来说明问题。4.4 ❌ 常见错误与避免方法错误1过于简短模糊❌错误示例写一篇关于人工智能的文章✅正确示例请你以人工智能对未来工作的影响为主题写一篇1500字左右的科普文章。文章分为三个部分 1. 人工智能正在改变哪些行业 2. 哪些工作最容易被替代 3. 我们应该如何适应未来的工作环境 语言风格通俗易懂适合普通读者阅读。错误2一次性提出多个不相关的问题❌错误示例什么是大模型它是如何工作的有哪些应用未来会怎样发展✅正确做法先问什么是大模型它的核心原理是什么得到回答后再继续问其他问题。错误3假设大模型知道所有信息❌错误示例帮我分析一下这个项目的可行性没有提供任何项目信息✅正确示例这是我的项目计划书[粘贴项目计划书内容] 请你从市场需求、技术可行性、商业模式三个方面分析这个项目的可行性并指出潜在的风险和挑战。错误4使用模棱两可的语言❌错误示例写得好一点✅正确示例语言风格要正式专业逻辑清晰结构严谨避免使用口语化表达。五、 几个思考题学完本文来试试回答这些问题1️⃣ 为什么大模型会出现幻觉问题RAG是如何解决这个问题的答大模型的幻觉问题主要源于两个原因训练数据的局限性大模型的知识来自于训练数据如果训练数据中存在错误、过时或矛盾的信息模型就可能学到错误知识概率生成机制大模型是基于概率生成文本的它可能会生成听起来合理但实际上不正确的内容RAG的解决方案RAG通过检索外部知识库为大模型提供准确、最新的参考信息大模型基于检索到的真实信息生成回答而不是仅仅依赖训练时的记忆这样可以显著减少模型编造信息的情况 拓展除了RAG还可以通过微调、人类反馈强化学习RLHF等方法来减少幻觉。2️⃣ Chain of Thought思维链为什么能够提升大模型的推理能力它适用于哪些场景答Chain of Thought能够提升推理能力的原因分解复杂问题要求模型一步步思考迫使它将复杂问题分解为多个简单的子步骤减少逻辑跳跃逐步推理避免了模型直接跳到结论减少了错误的累积更好的可解释性展示推理过程让用户能够理解模型是如何得出答案的适用场景✅ 数学计算题✅ 逻辑推理题✅ 需要多步骤分析的复杂问题✅ 代码生成需要逐步思考逻辑不适用场景❌ 简单的 factual questions事实性问题❌ 创意写作过度推理可能限制创意3️⃣ AI Agent与传统LLM的根本区别是什么举个例子说明Agent是如何完成任务的。答根本区别在于自主性和闭环能力。传统LLM的工作模式用户“北京今天天气怎么样”LLM“抱歉我无法访问实时天气信息。”无法完成任务AI Agent的工作模式感知用户问北京今天天气怎么样规划Agent识别需要查询天气决定调用天气API行动Agent调用天气API获取北京今天的天气信息反馈Agent将获取到的天气信息整理后返回给用户结果“北京今天晴天温度15-25℃空气质量良好。”**✅ 这个例子展示了Agent如何通过调用外部工具完成传统LLM无法完成的任务。4️⃣ 温度参数Temperature是如何影响大模型输出的不同应用场景应该如何设置温度答温度参数控制大模型输出随机性的程度工作原理温度越低模型倾向于选择概率最高的token输出更确定、更保守温度越高模型更愿意选择概率较低的token输出更有创意、更多样化不同场景的温度设置应用场景推荐温度原因写代码0-0.3代码需要准确、确定不能随心所欲做数学题0-0.3数学题有唯一正确答案不需要创意写文案、创作故事0.7-1.0需要一定的创意但也不能太离谱头脑风暴1.0-1.5需要尽可能多的创意和可能性 实际使用中可以从0.7开始尝试根据输出效果调整。六、 结语大模型技术正在以惊人的速度发展未来它将变得更加强大、更加智能。从LLM到Agent从文本到多模态AI正在从回答问题的工具转变为解决问题的伙伴。然而无论技术如何进步人类的创造力和批判性思维仍然是不可替代的。提示词工程不是让我们变成指令输入员而是让我们学会如何与AI协作利用AI的能力来放大我们自己的创造力。✅ 本节完… 作者say-fall | 编辑say-fall | 原创不易如果对你有帮助记得 点赞 ⭐ 收藏哦