1. 引言检索增强生成Retrieval-Augmented GenerationRAG已成为企业知识问答和智能搜索系统的核心范式。RAGflow是一款领先的开源RAG引擎融合了深度文档理解、智能分块、多路召回和融合重排序等能力为LLM提供高质量的上下文层。高通跃龙IQ-9100是一款面向边缘/本地部署场景的AI推理设备内置Hexagon NPU支持通过Qualcomm AI Engine Direct和ONNXRuntime进行高效的模型推理。将RAGflow部署在IQ-9100平台上可以实现数据不出局域网的隐私安全RAG方案同时借助NPU加速Embedding和Rerank模型推理显著降低延迟和功耗。本文将详细介绍如何在高通IQ-9100上安装部署RAGflow并配置本地Embedding和Rerank模型。2. 整体系统架构整个系统分为四层架构层级组件说明用户层Web 浏览器 / REST API / Python SDK用户通过多种方式访问 RAGflow应用层RAGflow 前端 (React) 后端 (Flask/Go) Agent 引擎 任务调度器核心应用逻辑服务层RAG Pipeline 模型服务 (IQ-9100 NPU 加速)文档解析→分块→Embedding→检索→Rerank→生成核心服务层基础设施层Elasticsearch MySQL Redis MinIO Nginx Docker存储、缓存、代理等基础组件底层硬件为高通IQ-9100搭载Hexagon NPU、LPDDR内存、PCIe Gen4接口运行Linux操作系统和Docker (24) 容器运行时。3. Embedding Rerank 模型推理架构3.1 Embedding Pipeline文档入库阶段文档上传 → DeepDoc 解析 → 智能分块 → Embedding 模型推理(NPU) → 向量输出 → Elasticsearch 存储Embedding 模型推荐使用 BGE-Large-zh 或 BCE-Embedding-Base输出 768/1024 维稠密向量推理框架ONNX Runtime Qualcomm AI Engine Direct Execution ProviderNPU 加速Tokenizer 文本编码在 CPU 执行矩阵运算卸载至 Hexagon NPU3.2 Rerank Pipeline查询检索阶段用户查询 → Query Embedding → 混合检索向量BM25 → Rerank 模型推理(NPU) → 重排序 Top-N → LLM 生成Rerank 模型推荐使用BGE-Reranker-Large或BCE-Reranker-Base采用 Cross-Encoder 架构推理方式将 Query 和每个候选文档拼接为[CLS] query [SEP] document [SEP]输出相关性打分NPU 加速Cross-Encoder 的 Transformer 注意力计算在 Hexagon NPU 上完成4. 部署流程概览从环境准备到系统验证的完整部署步骤环境准备检查IQ-9100硬件与驱动部署RAGflow基础服务Docker Compose部署Embedding模型服务部署Rerank模型服务配置RAGflow连接本地模型验证部署5. 详细部署步骤基础部分5.1 环境准备5.1.1 硬件检查确认IQ-9100设备已正确连接并被系统识别# 检查 IQ-9100 NPU 设备lspci|grep-iqualcomm# 确认 Qualcomm AI 驱动已加载lsmod|grepqaic# 查看设备详情cat/sys/class/accel/accel0/device/status5.1.2 安装 Docker# 安装 Docker Enginecurl-fsSLhttps://get.docker.com-oget-docker.shsudoshget-docker.sh# 安装 Docker Compose 插件sudoapt-getinstalldocker-compose-plugin# 验证版本docker--version# 24.0.0dockercompose version# v2.26.1# 将当前用户加入 docker 组免 sudosudousermod-aGdocker$USERnewgrpdocker5.1.3 系统参数配置# 检查 vm.max_map_countsysctlvm.max_map_count# 如果小于 262144临时设置sudosysctl-wvm.max_map_count262144# 永久设置写入 /etc/sysctl.confechovm.max_map_count262144|sudotee-a/etc/sysctl.confsudosysctl-p5.2 部署 RAGflow5.2.1 克隆仓库cdragflowgitcheckout v0.25.0# 使用稳定版本5.2.2 配置环境变量编辑docker/.env文件cddocker# 基础配置SVR_HTTP_PORT80MYSQL_PASSWORDyour_secure_password_hereMINIO_PASSWORDyour_minio_password_here# 文档引擎默认 Elasticsearch也可选 InfinityDOC_ENGINEelasticsearch# 指定设备类型CPU 模式模型推理由外部 IQ-9100 服务处理DEVICEcpu5.2.3 启动服务# 使用 Docker Compose 启动所有服务dockercompose-fdocker-compose.yml up-d# 查看启动日志dockerlogs-fdocker-ragflow-cpu-1等待出现以下输出确认启动成功____ ___ ______ ______ __ / __ \ / | / ____// ____// /____ _ __ / /_/ // /| | / / __ / /_ / // __ \| | /| / / / _, _// ___ |/ /_/ // __/ / // /_/ /| |/ |/ / /_/ |_|/_/ |_|\____//_/ /_/ \____/ |__/|__/ * Running on all addresses (0.0.0.0)注意以上完成了RAGflow基础服务的部署。下一步需要单独部署Embedding和Rerank模型服务并在RAGflow中配置接入。由于篇幅有限部署Embedding模型、Rerank模型及配置验证等内容请阅读本系列下篇。