Xinference-v1.17.1场景应用：快速集成LangChain、Dify，打造AI工作流

张

张建站

2026/4/8 7:16:42

10分钟阅读

Xinference-v1.17.1场景应用快速集成LangChain、Dify打造AI工作流1. 为什么选择Xinference作为AI工作流核心在构建AI应用时开发者常面临三个核心痛点模型部署复杂、API接口不统一、工具链集成困难。Xinference-v1.17.1通过以下特性解决了这些问题模型即服务支持超过120个开源模型的一键部署包括LLM、多模态和嵌入模型OpenAI兼容API无需修改现有代码即可替换商业API无缝工具集成原生支持LangChain、Dify等流行框架2. 快速启动Xinference服务2.1 基础环境准备Xinference已预装在镜像中无需额外安装。验证环境可用性xinference --version # 预期输出xinference v1.17.12.2 启动推理服务使用以下命令启动本地服务xinference-local服务启动后将输出Xinference server is running at: http://127.0.0.1:9997 Web UI is available at: http://127.0.0.1:9997/ui3. 模型部署与管理3.1 通过WebUI部署模型访问http://127.0.0.1:9997/ui进入控制台点击右上角「Launch Model」选择需要的模型如Qwen2-7B-Instruct设置量化参数q4_k_m适合大多数场景点击「Launch」开始部署3.2 通过CLI部署模型对于自动化场景可使用命令行部署xinference launch --model-name qwen2-7b-instruct --model-size-in-billions 7 --quantization q4_k_m部署成功后将返回模型UID如qwen2_7b_instruct_abc123。4. 与LangChain集成实战4.1 基础集成配置只需修改OpenAI API地址即可接入LangChainfrom langchain_openai import ChatOpenAI llm ChatOpenAI( modelqwen2_7b_instruct_abc123, # 替换为你的模型UID openai_api_basehttp://127.0.0.1:9997/v1, openai_api_keynone, temperature0.7 )4.2 构建RAG应用示例结合本地知识库构建问答系统from langchain_community.document_loaders import DirectoryLoader from langchain_text_splitters import RecursiveCharacterTextSplitter from langchain_community.vectorstores import FAISS from langchain_core.prompts import ChatPromptTemplate # 1. 加载文档 loader DirectoryLoader(./docs, glob**/*.txt) docs loader.load() # 2. 分割文本 text_splitter RecursiveCharacterTextSplitter(chunk_size1000, chunk_overlap200) splits text_splitter.split_documents(docs) # 3. 创建向量库使用Xinference的嵌入模型 embedding OpenAIEmbeddings( modelbge_m3_xyz456, # 替换为你的嵌入模型UID openai_api_basehttp://127.0.0.1:9997/v1, openai_api_keynone ) vectorstore FAISS.from_documents(splits, embedding) # 4. 构建问答链 retriever vectorstore.as_retriever() prompt ChatPromptTemplate.from_template(基于以下上下文回答\n{context}\n\n问题{question}) qa_chain prompt | llm5. 与Dify平台深度整合5.1 Dify基础配置在Dify管理后台进行以下设置进入「模型供应商」→「添加模型供应商」选择类型「OpenAI Compatible」填写配置模型名称Xinference-Qwen2API Key任意非空值如xAPI Basehttp://127.0.0.1:9997/v1模型名称填写Xinference中的模型UID5.2 构建AI工作流示例在Dify中创建知识库应用新建「对话型应用」选择刚配置的Xinference模型上传知识库文档支持PDF、Word等格式设置提示词模板你是一个专业助手请根据以下知识回答问题 {{knowledge}} 问题{{query}}6. 高级应用场景6.1 多模型协同工作流同时调用语言模型和嵌入模型构建复杂应用from openai import OpenAI client OpenAI( api_keynone, base_urlhttp://127.0.0.1:9997/v1 ) # 1. 文本嵌入 embedding client.embeddings.create( modelbge_m3_xyz456, inputXinference的核心价值 ) # 2. 语义搜索 # ... (使用向量数据库进行搜索) # 3. 生成回答 response client.chat.completions.create( modelqwen2_7b_instruct_abc123, messages[ {role: system, content: 你是一个技术专家}, {role: user, content: 请解释Xinference如何简化AI工作流} ] )6.2 分布式部署方案对于生产环境可以部署多节点集群主节点xinference serve --host 0.0.0.0 --port 9997工作节点xinference worker --endpoint http://主节点IP:99977. 性能优化建议7.1 硬件资源配置根据场景选择合适的部署方式场景类型推荐配置典型模型示例开发测试CPU (4核16GB内存)Qwen2-1.8B, Phi-3-mini生产推理GPU (T4或同等)Qwen2-7B, Llama3-8B高并发服务多节点分布式多个模型并行7.2 模型量化选择常用量化方案对比量化类型精度保留显存占用适合场景q4_k_m中低大多数应用场景q8_0高中质量敏感型任务f16最高高研究开发用途8. 总结与最佳实践8.1 核心优势总结统一API接口一套代码兼容多种模型简化部署流程从本地开发到生产部署的无缝过渡生态兼容性与主流AI工具链开箱即用8.2 推荐应用场景企业内部知识管理结合Dify快速构建问答系统AI应用原型开发使用LangChain快速验证想法多模态应用统一管理语言、视觉和语音模型8.3 持续学习建议定期查看Xinference GitHub仓库获取最新模型支持尝试不同量化配置找到性能与质量的平衡点探索分布式部署应对高并发需求获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

告别提取码烦恼：baidupankey自动化工具使用指南

告别提取码烦恼：baidupankey自动化工具使用指南【免费下载链接】baidupankey 项目地址: https://gitcode.com/gh_mirrors/ba/baidupankey 引言：提取码困境与解决方案在日常使用百度网盘的过程中，提取码验证往往成为资源获取的主要…...

2026/4/8 7:14:59 阅读更多 →

Qwen3-VL-8B镜像快速上手：3分钟完成localhost:8000/chat.html访问

Qwen3-VL-8B镜像快速上手：3分钟完成localhost:8000/chat.html访问想快速体验一个功能完整的AI聊天系统吗？今天给大家介绍一个开箱即用的Qwen3-VL-8B镜像，只需要几分钟时间，你就能在自己的电脑上搭建一个带Web界面的智能聊天助手…...

2026/4/8 7:14:57 阅读更多 →

LFM2.5-1.2B-Thinking效果展示：Ollama下真实对话、逻辑推理、代码生成案例集

LFM2.5-1.2B-Thinking效果展示：Ollama下真实对话、逻辑推理、代码生成案例集今天带大家看看LFM2.5-1.2B-Thinking这个模型在实际使用中的表现。这是一个专门为设备端设计的文本生成模型，虽然只有12亿参数，但效果却让人惊喜。我在Ollama上部…...

2026/4/8 7:14:20 阅读更多 →

Flutter Riverpod：状态管理的新纪元

Flutter Riverpod：状态管理的新纪元告别 Provider 的繁琐，拥抱 Riverpod 的简洁与强大。一、为什么选择 Riverpod？ 作为一名追求代码如散文般优雅的 UI 匠人，我对状态管理工具有着近乎偏执的要求。Riverpod 不仅解决了 Provider 的…...

2026/4/7 20:28:44 阅读更多 →

【Scala深度学习】PyTorch On Scala3 系列课程第一章 01 ：入门与环境搭建【Ai Infra 3.0】[PyTorch Scala3 硕士研一课程]

章节 1: PyTorch ON Scala3入门与环境搭建本章将为PyTorch的使用做好准备。我们首先会配置必要的软件和环境。接着，主要内容将转向PyTorch的核心数据结构：张量。您将学习如何： 使用常用包管理器安装PyTorch。配置适合PyTorch项目的开发环…...

2026/4/7 21:19:26 阅读更多 →

STM32开发必备的C语言核心技巧与实战解析

1. STM32开发中的C语言核心知识点解析作为一名嵌入式开发者，我经常遇到初学者询问如何快速掌握STM32开发所需的C语言知识。今天我就结合自己多年的实战经验，整理出一份STM32开发中最关键的C语言知识点指南。这些内容不仅适合初学者系统学习，也…...

2026/4/7 17:54:53 阅读更多 →

Linux命令-nano（字符终端文本编辑器）

nano 是 Linux 系统中一个简单易用的命令行文本编辑器，以其直观的界面和易用性而闻名，特别适合初学者和快速编辑任务。它是 GNU 项目的一部分，替代了早期的 pico 编辑器。 📖 基本语法 nano [选项] [文件名]重要特性： …...

2026/4/7 14:19:47 阅读更多 →

更多精彩文章