RAG实战指南：让大模型学会检索外部知识

张

张建站

2026/5/18 19:20:16

10分钟阅读

RAG给 LLM 装上知识库——从原理到完整可运行系统LLM 的知识截止在训练日期。RAG 让 AI 能「查资料」回答——这是 Agent 有「长期记忆」的基础。一、为什么需要 RAG用户HarmonyOS NEXT 的 Observed 装饰器怎么用没有 RAG 的 LLM Observed 是用于...可能对可能编——因为它的训练数据可能没有最新文档有 RAG 的 Agent 1. 把问题向量化 2. 在文档库中检索相关段落 3. 把检索到的文档问题一起发给 LLM 4. LLM 基于真实文档回答 → 准确、有出处二、RAG 完整流程5 步① 文档分块Chunking 大文档切成 512 Token 的小块 ↓ ② 向量化Embedding 每个小块 → 1024 维向量 ↓ ③ 存入向量库向量原文 → Milvus / Chroma ↓ ④ 检索Retrieval 用户问题向量化 → 向量库找 Top-K 相似 ↓ ⑤ 生成Generation 问题检索结果 → LLM → 答案三、完整 RAG 系统代码# ── 1. 环境准备 ──# pip install chromadb sentence-transformers openaiimportchromadbfromchromadb.utilsimportembedding_functionsfromopenaiimportOpenAI# ── 2. 初始化 Chroma向量数据库 ──embedding_fnembedding_functions.SentenceTransformerEmbeddingFunction(model_nameBAAI/bge-large-zh-v1.5)clientchromadb.PersistentClient(path./rag_db)collectionclient.get_or_create_collection(nameharmonyos_docs,embedding_functionembedding_fn)client_llmOpenAI(api_keyyour-key,base_urlhttps://api.deepseek.com/v1)# ── 3. 导入文档 ──documents[Observed 装饰器用于观察类对象的变化。当被 Observed 装饰的类的属性发生变化时绑定该对象的组件会自动重新渲染。用法Observed class MyData { ... },State 装饰器用于声明组件内部的状态变量。当状态变量改变时组件重新渲染。Prop 装饰器用于父组件向子组件传递数据子组件不能修改 Prop 变量。,HarmonyOS NEXT 基于 ArkTS 语言。ArkTS 是 TypeScript 的超集增加了声明式 UI 语法和状态管理能力。API 12 是最新版本。,]collection.add(documentsdocuments,ids[fdoc_{i}foriinrange(len(documents))])print(f✅ 已导入{len(documents)}个文档片段)# ── 4. RAG 查询函数 ──defrag_query(question:str,n_results:int3)-str:# 4.1 向量检索resultscollection.query(query_texts[question],n_resultsn_results)# 4.2 拼接检索结果retrieved_docsresults[documents][0]context\n\n---\n\n.join(retrieved_docs)# 4.3 调用 LLM 生成答案system_prompt你是 HarmonyOS 开发助手。请根据提供的参考文档回答问题。如果文档中没有相关信息请明确告知。回答时引用文档来源。responseclient_llm.chat.completions.create(modeldeepseek-chat,messages[{role:system,content:system_prompt},{role:user,content:f参考文档\n{context}\n\n用户问题{question}}])returnresponse.choices[0].message.content# ── 5. 测试 ──questions[Observed 装饰器是做什么的,State 和 Prop 有什么区别,HarmonyOS NEXT 用什么语言,]forqinquestions:print(f\n{*50})print(f❓{q})answerrag_query(q)print(f{answer})四、Embedding 怎么选模型维度中文效果部署难度BGE-Large-ZH v1.51024⭐⭐⭐⭐⭐pip install 即用text2vec-large-chinese1024⭐⭐⭐⭐同上M3E-large1024⭐⭐⭐⭐同上OpenAI text-embedding-31536⭐⭐⭐API 计费建议BGE-Large-ZH免费、中文最好、本地跑、1024 维不高不低。五、Chunking分块策略策略块大小适用场景固定大小512 Token通用按标题分割h2/h3 为界技术文档语义分割相似度阈值高级场景递归分割按段落→句子混合内容# 按标题分割适合技术文档defsplit_by_headers(markdown_text:str)-list[str]:按 ## 和 ### 分割文档chunks[]current_chunk[]forlineinmarkdown_text.split(\n):ifline.startswith(## ):# 遇到新标题ifcurrent_chunk:chunks.append(\n.join(current_chunk))current_chunk[line]else:current_chunk.append(line)ifcurrent_chunk:chunks.append(\n.join(current_chunk))returnchunks六、进阶混合检索纯向量检索的准确率约 70-75%。加上关键词检索BM25可到 85%。用户问题 ↓ ┌─────────────┐ ▼ ▼ 向量检索关键词检索(BM25) Top-10 Top-10 └──────┬──────┘ ▼ 融合排序(RRF) │ ▼ Top-5 结果 → LLM# 简单实现向量关键词双路检索defhybrid_search(query:str,top_k:int5):# 向量检索vec_resultscollection.query(query_texts[query],n_resultstop_k)# 关键词匹配简单版keywordsset(query)keyword_scores[]fordocindocuments:scoresum(1forkwinkeywordsifkwindoc)keyword_scores.append(score)# 合并排序简化的 RRF# 生产环境建议用专门的 RRF 实现returnvec_results[documents][0]# 这里简化了七、RAG 在 Agent 中的角色Agent │ ┌──────────────┼──────────────┐ ▼ ▼ ▼ Function RAG 对话 Calling 系统管理做事查知识记上下文 │ │ │ ▼ ▼ ▼ 天气 API 向量数据库会话历史数据库文档库摘要RAG 不是 Agent 的全部但它是 Agent 的「知识层」。一个没有 RAG 的 Agent 只能说它训练数据里有的东西有 RAG 的 Agent 能回答任何存入知识库的问题。八、生产实战RAG 系统上线前的检查清单8.1 混合检索重排序完整代码纯向量检索准确率 70-75%。加上 BM25 关键词检索可到 85%再加 Cross-Encoder Reranker 可到 90%fromrank_bm25importBM25Okapifromsentence_transformersimportCrossEncoderimportjiebadefhybrid_search_with_rerank(query:str,all_docs:list[str],top_k:int5):# 1. 向量检索vec_resultscollection.query(query_texts[query],n_results20)# 2. BM25 关键词检索tokenized_corpus[list(jieba.cut(doc))fordocinall_docs]bm25BM25Okapi(tokenized_corpus)bm25_scoresbm25.get_scores(list(jieba.cut(query)))bm25_topsorted(range(len(bm25_scores)),keylambdai:bm25_scores[i],reverseTrue)[:20]# 3. RRF 融合 (k60)rrf{}forrank,docinenumerate(vec_results[documents][0]):rrf[doc]rrf.get(doc,0)1/(61rank)forrank,idxinenumerate(bm25_top):docall_docs[idx]rrf[doc]rrf.get(doc,0)1/(61rank)candidatessorted(rrf.items(),keylambdax:x[1],reverseTrue)[:10]# 4. Cross-Encoder 重排序rerankerCrossEncoder(BAAI/bge-reranker-large)pairs[[query,doc]fordoc,_incandidates]scoresreranker.predict(pairs)rankedsorted(zip([dford,_incandidates],scores),keylambdax:x[1],reverseTrue)return[docfordoc,_inranked[:top_k]]8.2 RAG 评估指标做 RAG 最怕「感觉变好了」——必须有量化指标指标含义合格线Hit Rate10Top-10 包含正确答案的比例 85%MRR第一个正确答案的平均排名倒数 0.6NDCG10考虑排序位置的精度 0.7defevaluate_rag(test_queries:list[dict]):test_queries [{query: ..., expected_doc_id: doc_3}]hits,rr0,[]fortintest_queries:resultscollection.query(query_texts[t[query]],n_results10)ift[expected_doc_id]inresults[ids][0]:hits1rankresults[ids][0].index(t[expected_doc_id])1rr.append(1/rank)else:rr.append(0)print(fHit Rate10:{hits/len(test_queries):.1%}MRR:{sum(rr)/len(rr):.4f})8.3 Query 改写模糊问题搜不到的原因用户问「上次那个方法怎么用」——直接向量化什么都搜不到。必须先用 LLM 改写REWRITE_PROMPT将模糊问题改写为适合检索的查询。补充指代拆解复合问题。输出 {\queries\: [\查询1\]}asyncdefrewrite_query(user_input:str,history:list)-list[str]:responseawaitllm.chat([{role:system,content:REWRITE_PROMPT},{role:user,content:f历史{history}\n问题{user_input}}])returnjson.loads(response)[queries]8.4 RAG vs 长 Context什么时候不需要 RAGClaude 200K Context Window 能装下一整本书。那还要 RAG 吗场景方案理由固定文档如产品手册RAG只需检索相关部分一次性长文档分析直接塞 ContextRAG 检索有损耗多轮对话引用文档RAG不可能每轮都塞全文文档频繁更新RAG只需更新向量库经验大多数场景下 RAG 更优。长 Context 是备选方案——Token 成本高且推理速度随 Context 增长线性下降下一篇《Agent 设计模式ReAct 与 Plan-Execute》——两种最经典的 Agent 模式让你的 Agent 学会「思考」。系列文章00-总纲 → ①-LLM 原理 → ②-Prompt 工程 → ③-Function Calling → ④-RAG → ⑤-Agent 模式 → ⑥-LangGraph → ⑦-MCP → ⑧-Multi-Agent

OBS实时字幕插件深度解析：如何为直播流构建专业级语音识别系统

OBS实时字幕插件深度解析：如何为直播流构建专业级语音识别系统【免费下载链接】OBS-captions-plugin Closed Captioning OBS plugin using Google Speech Recognition 项目地址: https://gitcode.com/gh_mirrors/ob/OBS-captions-plugin 为直播内容添加实时…...

2026/5/18 19:20:01 阅读更多 →

终极指南：如何让Figma说中文，快速提升设计效率

终极指南：如何让Figma说中文，快速提升设计效率【免费下载链接】figmaCN 中文 Figma 插件，设计师人工翻译校验项目地址: https://gitcode.com/gh_mirrors/fi/figmaCN FigmaCN是一款专为中文用户设计的Figma中文界面插件，通…...

2026/5/18 19:18:08 阅读更多 →

百考通论文降重，让学术表达回归本真

在学术创作与论文发表的道路上，重复率过高与AI生成痕迹明显，已成为困扰广大学子与研究者的两大核心难题。前者关乎学术诚信，直接影响论文的查重通过率；后者则削弱了文本的原创性与学术质感，让成果显得生硬刻板。百考通…...

2026/5/18 19:12:57 阅读更多 →

大彩串口屏在非接触测温仪HMI设计中的实战应用与优势解析

1. 项目概述：串口屏如何重塑非接触测温仪的用户体验在非接触红外测温仪这个看似传统的行业里，用户体验的“最后一公里”往往决定了产品的成败。几年前，我们团队接手一个手持式红外测温仪的项目升级，客户反馈的核心痛点非常集中&am…...

2026/5/18 0:55:17 阅读更多 →

在macOS上运行Windows程序的终极指南：使用Whisky轻松突破系统壁垒

在macOS上运行Windows程序的终极指南：使用Whisky轻松突破系统壁垒【免费下载链接】Whisky A modern Wine wrapper for macOS built with SwiftUI 项目地址: https://gitcode.com/gh_mirrors/wh/Whisky 想要在Apple Silicon Mac上无缝运行Windows专属软件和游…...

2026/5/18 0:56:02 阅读更多 →