RAG实战指南:让大模型学会检索外部知识
RAG给 LLM 装上知识库——从原理到完整可运行系统LLM 的知识截止在训练日期。RAG 让 AI 能「查资料」回答——这是 Agent 有「长期记忆」的基础。一、为什么需要 RAG用户HarmonyOS NEXT 的 Observed 装饰器怎么用 没有 RAG 的 LLM Observed 是用于...可能对可能编——因为它的训练数据可能没有最新文档 有 RAG 的 Agent 1. 把问题向量化 2. 在文档库中检索相关段落 3. 把检索到的文档 问题一起发给 LLM 4. LLM 基于真实文档回答 → 准确、有出处二、RAG 完整流程5 步① 文档分块Chunking 大文档切成 512 Token 的小块 ↓ ② 向量化Embedding 每个小块 → 1024 维向量 ↓ ③ 存入向量库 向量 原文 → Milvus / Chroma ↓ ④ 检索Retrieval 用户问题向量化 → 向量库找 Top-K 相似 ↓ ⑤ 生成Generation 问题 检索结果 → LLM → 答案三、完整 RAG 系统代码# ── 1. 环境准备 ──# pip install chromadb sentence-transformers openaiimportchromadbfromchromadb.utilsimportembedding_functionsfromopenaiimportOpenAI# ── 2. 初始化 Chroma向量数据库 ──embedding_fnembedding_functions.SentenceTransformerEmbeddingFunction(model_nameBAAI/bge-large-zh-v1.5)clientchromadb.PersistentClient(path./rag_db)collectionclient.get_or_create_collection(nameharmonyos_docs,embedding_functionembedding_fn)client_llmOpenAI(api_keyyour-key,base_urlhttps://api.deepseek.com/v1)# ── 3. 导入文档 ──documents[Observed 装饰器用于观察类对象的变化。当被 Observed 装饰的类的属性发生变化时绑定该对象的组件会自动重新渲染。用法Observed class MyData { ... },State 装饰器用于声明组件内部的状态变量。当状态变量改变时组件重新渲染。Prop 装饰器用于父组件向子组件传递数据子组件不能修改 Prop 变量。,HarmonyOS NEXT 基于 ArkTS 语言。ArkTS 是 TypeScript 的超集增加了声明式 UI 语法和状态管理能力。API 12 是最新版本。,]collection.add(documentsdocuments,ids[fdoc_{i}foriinrange(len(documents))])print(f✅ 已导入{len(documents)}个文档片段)# ── 4. RAG 查询函数 ──defrag_query(question:str,n_results:int3)-str:# 4.1 向量检索resultscollection.query(query_texts[question],n_resultsn_results)# 4.2 拼接检索结果retrieved_docsresults[documents][0]context\n\n---\n\n.join(retrieved_docs)# 4.3 调用 LLM 生成答案system_prompt你是 HarmonyOS 开发助手。请根据提供的参考文档回答问题。 如果文档中没有相关信息请明确告知。回答时引用文档来源。responseclient_llm.chat.completions.create(modeldeepseek-chat,messages[{role:system,content:system_prompt},{role:user,content:f参考文档\n{context}\n\n用户问题{question}}])returnresponse.choices[0].message.content# ── 5. 测试 ──questions[Observed 装饰器是做什么的,State 和 Prop 有什么区别,HarmonyOS NEXT 用什么语言,]forqinquestions:print(f\n{*50})print(f❓{q})answerrag_query(q)print(f{answer})四、Embedding 怎么选模型维度中文效果部署难度BGE-Large-ZH v1.51024⭐⭐⭐⭐⭐pip install 即用text2vec-large-chinese1024⭐⭐⭐⭐同上M3E-large1024⭐⭐⭐⭐同上OpenAI text-embedding-31536⭐⭐⭐API 计费建议BGE-Large-ZH免费、中文最好、本地跑、1024 维不高不低。五、Chunking分块策略策略块大小适用场景固定大小512 Token通用按标题分割h2/h3 为界技术文档语义分割相似度阈值高级场景递归分割按段落→句子混合内容# 按标题分割适合技术文档defsplit_by_headers(markdown_text:str)-list[str]:按 ## 和 ### 分割文档chunks[]current_chunk[]forlineinmarkdown_text.split(\n):ifline.startswith(## ):# 遇到新标题ifcurrent_chunk:chunks.append(\n.join(current_chunk))current_chunk[line]else:current_chunk.append(line)ifcurrent_chunk:chunks.append(\n.join(current_chunk))returnchunks六、进阶混合检索纯向量检索的准确率约 70-75%。加上关键词检索BM25可到 85%。用户问题 ↓ ┌─────────────┐ ▼ ▼ 向量检索 关键词检索(BM25) Top-10 Top-10 └──────┬──────┘ ▼ 融合排序(RRF) │ ▼ Top-5 结果 → LLM# 简单实现向量 关键词双路检索defhybrid_search(query:str,top_k:int5):# 向量检索vec_resultscollection.query(query_texts[query],n_resultstop_k)# 关键词匹配简单版keywordsset(query)keyword_scores[]fordocindocuments:scoresum(1forkwinkeywordsifkwindoc)keyword_scores.append(score)# 合并排序简化的 RRF# 生产环境建议用专门的 RRF 实现returnvec_results[documents][0]# 这里简化了七、RAG 在 Agent 中的角色Agent │ ┌──────────────┼──────────────┐ ▼ ▼ ▼ Function RAG 对话 Calling 系统 管理 做事 查知识 记上下文 │ │ │ ▼ ▼ ▼ 天气 API 向量数据库 会话历史 数据库 文档库 摘要RAG 不是 Agent 的全部但它是 Agent 的「知识层」。一个没有 RAG 的 Agent 只能说它训练数据里有的东西有 RAG 的 Agent 能回答任何存入知识库的问题。八、生产实战RAG 系统上线前的检查清单8.1 混合检索 重排序完整代码纯向量检索准确率 70-75%。加上 BM25 关键词检索可到 85%再加 Cross-Encoder Reranker 可到 90%fromrank_bm25importBM25Okapifromsentence_transformersimportCrossEncoderimportjiebadefhybrid_search_with_rerank(query:str,all_docs:list[str],top_k:int5):# 1. 向量检索vec_resultscollection.query(query_texts[query],n_results20)# 2. BM25 关键词检索tokenized_corpus[list(jieba.cut(doc))fordocinall_docs]bm25BM25Okapi(tokenized_corpus)bm25_scoresbm25.get_scores(list(jieba.cut(query)))bm25_topsorted(range(len(bm25_scores)),keylambdai:bm25_scores[i],reverseTrue)[:20]# 3. RRF 融合 (k60)rrf{}forrank,docinenumerate(vec_results[documents][0]):rrf[doc]rrf.get(doc,0)1/(61rank)forrank,idxinenumerate(bm25_top):docall_docs[idx]rrf[doc]rrf.get(doc,0)1/(61rank)candidatessorted(rrf.items(),keylambdax:x[1],reverseTrue)[:10]# 4. Cross-Encoder 重排序rerankerCrossEncoder(BAAI/bge-reranker-large)pairs[[query,doc]fordoc,_incandidates]scoresreranker.predict(pairs)rankedsorted(zip([dford,_incandidates],scores),keylambdax:x[1],reverseTrue)return[docfordoc,_inranked[:top_k]]8.2 RAG 评估指标做 RAG 最怕「感觉变好了」——必须有量化指标指标含义合格线Hit Rate10Top-10 包含正确答案的比例 85%MRR第一个正确答案的平均排名倒数 0.6NDCG10考虑排序位置的精度 0.7defevaluate_rag(test_queries:list[dict]):test_queries [{query: ..., expected_doc_id: doc_3}]hits,rr0,[]fortintest_queries:resultscollection.query(query_texts[t[query]],n_results10)ift[expected_doc_id]inresults[ids][0]:hits1rankresults[ids][0].index(t[expected_doc_id])1rr.append(1/rank)else:rr.append(0)print(fHit Rate10:{hits/len(test_queries):.1%}MRR:{sum(rr)/len(rr):.4f})8.3 Query 改写模糊问题搜不到的原因用户问「上次那个方法怎么用」——直接向量化什么都搜不到。必须先用 LLM 改写REWRITE_PROMPT将模糊问题改写为适合检索的查询。补充指代拆解复合问题。输出 {\queries\: [\查询1\]}asyncdefrewrite_query(user_input:str,history:list)-list[str]:responseawaitllm.chat([{role:system,content:REWRITE_PROMPT},{role:user,content:f历史{history}\n问题{user_input}}])returnjson.loads(response)[queries]8.4 RAG vs 长 Context什么时候不需要 RAGClaude 200K Context Window 能装下一整本书。那还要 RAG 吗场景方案理由固定文档如产品手册RAG只需检索相关部分一次性长文档分析直接塞 ContextRAG 检索有损耗多轮对话引用文档RAG不可能每轮都塞全文文档频繁更新RAG只需更新向量库经验大多数场景下 RAG 更优。长 Context 是备选方案——Token 成本高且推理速度随 Context 增长线性下降下一篇《Agent 设计模式ReAct 与 Plan-Execute》——两种最经典的 Agent 模式让你的 Agent 学会「思考」。系列文章00-总纲 → ①-LLM 原理 → ②-Prompt 工程 → ③-Function Calling → ④-RAG → ⑤-Agent 模式 → ⑥-LangGraph → ⑦-MCP → ⑧-Multi-Agent