RAG 通俗完整讲解一、全称与一句话定义RAG Retrieval-Augmented Generation检索增强生成大白话给大模型装一个外置资料库提问时先查资料再照着资料回答。解决大模型原生三大痛点知识过时大模型只学到训练截止日期不知道最新政策、文档幻觉瞎编没见过的内容容易编造不存在的条款、数据不能读私有数据企业内部 PDF、代码、手册、数据库原生 LLM 看不到。二、核心原理类比把 LLM 比作只会死记课本的学生原生 LLM只靠脑子里训练时记住的内容回答记不清就乱编RAG学生手边放一堆参考资料提问先翻资料找到对应段落再结合资料作答答案有依据、不会乱编。三、两大完整阶段标准朴素 RAG 流程阶段 1离线建库一次性 / 定时更新资料把你的文档PDF/Word/ 网页 / 代码 / 数据库加工存入向量库数据加载 清洗读取文档去除页眉、广告、乱码文本分块 Chunk长文档切成 500~1000 字小段块之间少量重叠避免语义断裂向量化 Embedding用嵌入模型把文字转成数字向量语义相近的文本向量距离近存入向量数据库FAISS、Chroma、Milvus 等支持快速语义搜索这一步做完私有资料永久入库不用重新训练大模型。阶段 2在线问答用户实时提问流程用户输入问题问题同样转为向量向量库做语义相似度检索取出最相关的 Top K 文档片段把「检索到的参考文本 用户问题」拼接成完整 Prompt 喂给 LLMLLM 严格基于检索到的资料生成回答同时可附上文档来源极简伪代码python运行# 离线入库 chunks split_doc(公司运维手册.pdf) for c in chunks: vec embedding_model.encode(c) vector_db.insert(vec, c) # 在线问答 query_vec embedding_model.encode(服务器500错误怎么排查) docs vector_db.search(query_vec, top_k3) prompt f参考资料{docs}\n根据资料回答问题{query} answer llm.chat(prompt)四、RAG vs 模型微调两种给大模型加知识的方案表格方式RAG 检索增强LLM 微调 Fine-tune知识更新直接新增文档无需重训模型新增数据必须重新训练成本极高硬件成本轻量普通服务器即可需要高显存 GPU耗时久事实准确性可溯源每句话对应文档页码知识揉进参数无法溯源上下文限制依赖检索片段不受模型训练限制受模型上下文窗口、训练数据集约束适用场景企业知识库、实时政策、高频更新文档统一文风、固定输出格式、少量固定规则五、核心优势低成本实时更新知识新增手册、政策直接上传不用重新训练大模型大幅减少幻觉答案全部基于真实文档减少编造内容支持私有内部数据内网文档、业务数据库、代码库都能接入答案可溯源输出附带文档名称、页码方便核验节约上下文窗口只检索相关片段不用把整份大文档塞给 LLM。六、常见落地场景企业内部知识库问答员工查制度、运维手册、开发规范智能客服基于产品说明书、故障库回答客户问题行业专业问答法律法条检索、医疗指南、金融财报解读研发辅助读取内部代码库、API 文档生成代码、排查 bug文档助手PDF 总结、合同提取关键条款、文献综述本地私有 AI本地部署数据不上外网保障数据安全。七、简单区分关键词检索Retrieval语义搜索找和问题相关的资料增强Augmented把查到的资料塞进提示词给 LLM 补充上下文生成Generation大模型结合参考资料输出通顺答案向量数据库专门存储文本向量做相似度匹配RAG 标配存储。八、进阶小补充简单了解基础版叫Naive RAG朴素 RAG工业级会做优化多路检索、重排Rerank过滤无关片段HyDE、Multi-Query 优化检索召回率分层 RAG先检索文档摘要再检索详细段落多模态 RAG支持图片、表格、图文混合文档检索。