langchain高阶语法

张

张建站

2026/5/19 3:11:12

10分钟阅读

1、什么是Retrieverlangchain所有检索器都遵循一个统一抽象接口输入用户问题query输出在该关于的文档列表 list内容的milvus/chroma检索器都集成BaseRetriever把自己写的混合检索、多路召回、Rerank 封装成标准 Retriever三、核心基类继承 BaseRetriever关键三点继承BaseRetriever实现_get_relevant_documents方法内部调用你之前写的向量检索 BM25 Rerank新建langchain_custom/custom_retriever.pyfrom pymilvus import MilvusClient # 连接 Milvus client MilvusClient(urihttp://127.0.0.1:19530) def search_similar(collection_name: str, query_vector: list None, top_k: int 3): 向量检索这里为了兼容自定义检索器query_vector 可以不传内部生成 # 真实项目里你需要把 query 转成 embedding # 这里为了混合检索器能跑先返回模拟数据不影响整体流程 # 你可以 later 替换成真实 embedding 查询 mock_result [ 登录模块支持账号密码、短信验证码两种登录方式, 登录异常包含密码错误、账号锁定、账号不存在场景, 测试用例需要包含前置条件、操作步骤、预期结果 ] return mock_result[:top_k] from rank_bm25 import BM25Okapi import jieba # 构建 BM25 索引 def build_bm25_index(documents: list[str]) - BM25Okapi: tokenized_docs [jieba.lcut(doc) for doc in documents] bm25 BM25Okapi(tokenized_docs) return bm25 # BM25 关键词检索 def bm25_search(bm25: BM25Okapi, query: str, top_k: int 3) - list[str]: query_tokens jieba.lcut(query) top_docs bm25.get_top_n(query_tokens, ntop_k) return top_docs # 合并两路召回去重 def merge_retrieval_results(vec_docs: list[str], bm25_docs: list[str]) - list[str]: res [] for doc in vec_docs bm25_docs: if doc not in res: res.append(doc) return res from sentence_transformers import CrossEncoder # 加载轻量 Rerank 模型 rerank_model CrossEncoder(BAAI/bge-reranker-base) def rerank_docs(query: str, docs: list[str], top_k: int 3) - list[str]: # 构造 [query, doc] 对 pairs [[query, doc] for doc in docs] scores rerank_model.predict(pairs) # 按分数排序 doc_score list(zip(docs, scores)) doc_score.sort(keylambda x: x[1], reverseTrue) # 取 top_k return [item[0] for item in doc_score[:top_k]] class HybridRerankRetriever(BaseRetriever): #自定义混合检索器向量检索BM25关键词 Rearank重排序 #类变量向量库集合名文档全集 collection_name:str all_docs:str def __init__(self, collection_name:str,all_docs:str): super().__init__() # 调用父类的构造方法让子类继承父类的所有功能 self.collection_name collection_name self.all_docs all_docs #初始化BM25索引 self.bm25_index build_bm25_index(self.all_docs) def _get_relevant_documents(self, query: str) - List[Document]: #1、向量索引召回 vec_docs search_similar(self.collection_name,query_vector[],top_k4) #2 BM25关键次召回 bm25_docs bm25_search(self.bm25_index,query,top_k4) #3合并去重 merge_docs merge_retrieval_results(vec_docs,bm25_docs) #4 reranl重排序精选Top3 final_docs rerank_docs(query,merge_docs,top_k3) #转成langChain标准Document对象返回 return [Document(page_contenttext) for text in final]_get_relevant_documents是必须实现的抽象方法最后把文本包装成Document符合 LangChain 规范测试demomock_all_docs [ 登录模块支持账号密码、短信验证码两种登录方式, 登录异常包含密码错误、账号锁定、账号不存在场景, 测试用例包含前置条件、操作步骤、预期结果, RAG系统由文档解析、切块、向量化、检索、生成组成 ] #1.初始化自定义检索器 retriever HybridRerankRetriever( collection_namelangchain_rag_kb, all_docsmock_all_docs, ) #2.初始化大模型 llm get_rag_llm() #3.塞入官方的RetrievalQA链直接使用 #自动帮你做RAG问答的官方成品链 RetrievalQA 检索拼接问答一条龙 rag_qa_chain RetrievalQA.from_chain_type( llmllm, chain_typestuff, ## 文档拼接方式 #stuff把检索到的所有文档直接全部塞进 prompt #map_reduce拆分处理把每个文档单独问llm 得到小答案最终合并成最终答案 # 文档 1 → 提炼要点文档 2 → 提炼要点 → 合并所有要点 → 生成最终回答能处理海量文档 # refine 读一个文档 → 生成一次答案 → 再读下一个 → 优化答案 → 不断迭代精调 # 答案 1 → 文档 2 → 优化成答案 2 答案 2 → 文档 3 → 优化成答案 3 最终输出最精准答案 retrieverretriever, return_source_documentsTrue ## 是否返回参考了哪些原文 ) res rag_qa_chain.invoke({query:登录有哪些异常场景}) print(AI回答, res[result]) print(溯源文档: ,[d.page_content for d in res[source_documents]])

从AI算法工程师到AI讲师：我靠知识付费实现月入4w+

作为一名曾在AI算法领域深耕多年的工程师，我从未想过自己会转型成为一名知识付费讲师，更没想到能在短短一年时间里实现月入4w的突破。而这一切的起点，正是我发现了软件测试从业者在AI时代的转型痛点与迫切需求。算法工程师的困境：…...

2026/5/19 3:11:09 阅读更多 →

从TO-220到SOT-23：一张图看懂不同封装的MOS管该怎么选（附散热与布局建议）

从TO-220到SOT-23：功率MOSFET封装选型实战指南在电子设计领域，选对一颗MOSFET的封装往往比选对参数更重要。我曾亲眼见过一个团队花费三个月优化的电源方案，最终因为封装选择不当导致整批产品在高温环境下集体失效。封装不仅是芯片的外衣&am…...

2026/5/19 3:10:59 阅读更多 →

从HACKRF实战出发：剖析汽车滚动码射频重放攻击的攻防博弈

1. 汽车钥匙安全机制的前世今生记得我第一次接触汽车钥匙安全研究是在2015年，当时帮朋友解决一个老款丰田车门无法遥控开启的问题。拆开那个钥匙一看，里面就一个简单的PT2262编码芯片，这种固定码方案的安全隐患让我震惊 - 只要用几十块钱的3…...

2026/5/19 3:10:57 阅读更多 →

大彩串口屏在非接触测温仪HMI设计中的实战应用与优势解析

1. 项目概述：串口屏如何重塑非接触测温仪的用户体验在非接触红外测温仪这个看似传统的行业里，用户体验的“最后一公里”往往决定了产品的成败。几年前，我们团队接手一个手持式红外测温仪的项目升级，客户反馈的核心痛点非常集中&am…...

2026/5/18 0:55:17 阅读更多 →

在macOS上运行Windows程序的终极指南：使用Whisky轻松突破系统壁垒

在macOS上运行Windows程序的终极指南：使用Whisky轻松突破系统壁垒【免费下载链接】Whisky A modern Wine wrapper for macOS built with SwiftUI 项目地址: https://gitcode.com/gh_mirrors/wh/Whisky 想要在Apple Silicon Mac上无缝运行Windows专属软件和游…...

2026/5/18 0:56:02 阅读更多 →