AI学习——搜索工具集成
搜索工具集成一、为什么要给 AI 集成搜索工具二、搜索工具集成的核心原理三、LangChain 主流搜索工具对比1. Tavily最推荐AI 专用2. DuckDuckGoSearch免费无 Key3. SerpAPI / Google Search4. 其他维基/arxiv/学术四、LangChain 集成搜索工具1. 安装依赖2. 配置 API KeyTavily3. 完整代码Agent 搜索运行效果五、搜索工具集成的关键技术点1. 搜索意图识别LLM 决定搜不搜2. 查询优化LLM 改写关键词3. 结果过滤与重排减少噪声4. 结果压缩避免超长六、常见集成架构三种1. 基础型直接搜索 回答最简单2. Agent 型自主决策搜索最常用3. RAG搜索私有库联网最强七、避坑要点八、总结一、为什么要给 AI 集成搜索工具大模型有三大天生短板知识截止训练后就不知道新事幻觉严重喜欢编造事实无法获取实时/动态信息天气、新闻、股价、最新论文搜索工具就是用来补全这些短板。一句话LLM 负责思考搜索工具负责找真实、实时、权威信息。二、搜索工具集成的核心原理流程非常简单用户提问LLM 判断需要联网搜索吗需要 → 生成搜索关键词 → 调用搜索工具工具返回网页摘要/结构化结果LLM 整理结果、回答用户本质LLM 决策 工具执行 结果融合三、LangChain 主流搜索工具对比LangChain 内置多种新手优先选Tavily或DuckDuckGo1. Tavily最推荐AI 专用专为 Agent 设计返回干净、结构化、低噪声结果可直接返回摘要、原文、相关链接支持新闻/学术/通用搜索有免费额度开发首选2. DuckDuckGoSearch免费无 Key完全免费不需要 API Key适合学习、原型、非商用结果略杂噪声较多3. SerpAPI / Google Search结果最全适合企业需付费配置复杂4. 其他维基/arxiv/学术WikipediaQueryRun查百科ArxivQueryRun查论文四、LangChain 集成搜索工具1. 安装依赖pipinstalllangchain langchain-community tavily-python2. 配置 API KeyTavily注册 https://tavily.com拿到 KeyexportTAVILY_API_KEY你的Key3. 完整代码Agent 搜索fromlangchain_openaiimportChatOpenAIfromlangchain.agentsimportinitialize_agent,AgentTypefromlangchain_community.tools.tavily_searchimportTavilySearchResults# 1. 初始化搜索工具search_toolTavilySearchResults(max_results5,# 返回5条include_answerTrue# 直接返回AI摘要)# 2. 初始化 LLMllmChatOpenAI(modelgpt-3.5-turbo,temperature0.1)# 3. 创建 Agent能自己决定何时搜索agentinitialize_agent(tools[search_tool],llmllm,agentAgentType.ZERO_SHOT_REACT_DESCRIPTION,verboseTrue# 显示思考过程)# 4. 测试需要实时信息responseagent.invoke({input:2026年5月最新AI大模型有哪些})print(\n最终回答,response[output])运行效果思考用户问最新大模型我的知识不够需要搜索 行动TavilySearchResults 观察返回2026年GPT-5、GLM-5、Qwen-3等信息 思考信息足够整理回答 最终回答2026年5月最新AI大模型包括……五、搜索工具集成的关键技术点1. 搜索意图识别LLM 决定搜不搜Prompt 里隐含规则实时问题时间、新闻、股价→ 必搜专业/最新知识 → 必搜常识/历史 → 不搜2. 查询优化LLM 改写关键词比如用户问“Java 最新框架 2026”LLM 自动扩展为“2026年Java主流新框架、最新发布”→ 召回更准3. 结果过滤与重排减少噪声去重同 URL 只留一条过滤低质/广告优先权威来源官网、论文、权威媒体4. 结果压缩避免超长用 LLM 把长摘要浓缩成 200–300 字减少 Token 消耗六、常见集成架构三种1. 基础型直接搜索 回答最简单用户 → LLM → 搜索 → LLM 整理 → 回答2. Agent 型自主决策搜索最常用用户 → AgentLLM→ 判断是否搜索 → 搜索 → 整理 → 回答3. RAG搜索私有库联网最强用户 → 先查本地知识库Chroma→ 不足 → 联网搜索 → 融合回答七、避坑要点不要每次都搜浪费钱、慢只搜实时/未知问题不要搜太多结果3–5 条足够多了噪声大必须过滤广告/低质站结果必须精简否则上下文爆炸用 temperature0.1搜索后回答要严谨八、总结搜索工具 给 AI 装上网眼实时、真实、权威LangChain Tavily 是最简工业级方案。