从“精排”到“粗排+精排”的两阶段检索

张

张建站

2026/5/14 18:36:15

10分钟阅读

优化整体流程在代码和系统架构层面可以配合多种策略来进一步提升效率。从“精排”到“粗排精排”的两阶段检索这是最重要的一步。先让SimilarityPostprocessor开闸调大VectorIndexRetriever和BM25Retriever的retrieval_top_k让引擎召回足够多的候选比如20-50个再让SentenceTransformerRerank只对其中的top_n比如5-10个进行精排。这能让重排的计算量减少50%以上同时保证高质量的召回。参数对照retrieval_top_k: 粗排召回量 → 增加 20-50rerank_top_k: 精排输出量 → 减少 3-5异步非阻塞重排重排序的过程可以不阻塞用户。当RAG处理请求时可以先返回一个基于纯检索的“快速答案”同时在后台启动重排任务任务完成后通知前端更新。这样能提升界面响应的流畅度。差异化的条件触发并非所有查询都需要重排。你可以通过简单的规则如查询长度3个词或一个轻量级分类器来判断查询的复杂度仅在处理“难”问题时才启用重排步骤从而节省宝贵的计算资源维度BGE-Reranker-v2-M3Jina-Reranker-v3BGE-Reranker-Base中文精度⭐⭐⭐⭐⭐ (最强)⭐⭐⭐⭐⭐⭐⭐⭐CPU推理速度中等 (建议开启Batch)快 (架构优势)极快内存占用低 (~2GB)低 (~2GB)极低 (~1.5GB)适用场景追求高精度、纯中文环境追求速度、中英混合环境实时性要求极高、配置较低推荐指数第一选择第二选择备选方案pip install FlagEmbedding optimum1、下载模型 cmd下pip show huggingface_hub Name: huggingface_hub Version: 0.36.2 set HF_ENDPOINThttps://hf-mirror.comhuggingface-cli download BAAI/bge-reranker-v2-m3 --local-dir bge-reranker-v2-m3 --local-dir-use-symlinks False huggingface-cli download BAAI/bge-reranker-base --local-dir ./bge-reranker-base --local-dir-use-symlinks False融合排序 vs 重排查询融合QueryFusionRetriever是一种检索阶段的分数合并方法例如倒数排名融合、平均分数等它在多个检索器之间做第一次排序。重排Cross-Encoder Rerank是后处理阶段的独立步骤它对检索器已经输出的节点列表进行重新打分和排序通常可以弥补向量/BM25召回的不足。---------------------------------------------------------------------------------------------------------对模型进行量化使用optimum-cli将模型导出为 ONNX 格式并进行 INT8 量化然后让FlagReranker自动加载 ONNX 模型因为 FlagEmbedding 新版支持从 ONNX 目录加载。下面给出具体操作步骤步骤 1导出量化模型打开命令行进入到你的模型目录或任意目录执行以下脚本方案一import torch import os import json from transformers import AutoTokenizer, AutoConfig, AutoModelForSequenceClassification # --- 配置区域 --- ORIGINAL_MODEL_PATH rD:\project\llama\python_knowlage_rag_api\models\bge-reranker-v2-m3 QUANTIZED_MODEL_PATH rD:\project\llama\python_knowlage_rag_api\models\bge-reranker-v2-m3-int8-cpu print( 开始 CPU 量化 (PyTorch 原生方案)...) # 1. 检查源路径是否存在 if not os.path.exists(ORIGINAL_MODEL_PATH): print(f❌ 错误找不到源模型目录 {ORIGINAL_MODEL_PATH}) exit() # 2. 创建输出目录 os.makedirs(QUANTIZED_MODEL_PATH, exist_okTrue) # 3. 加载 Tokenizer 和 Config print(⬇️ 加载分词器和配置...) try: tokenizer AutoTokenizer.from_pretrained(ORIGINAL_MODEL_PATH, trust_remote_codeTrue) config AutoConfig.from_pretrained(ORIGINAL_MODEL_PATH, trust_remote_codeTrue) # 保存基础文件 tokenizer.save_pretrained(QUANTIZED_MODEL_PATH) config.save_pretrained(QUANTIZED_MODEL_PATH) except Exception as e: print(f❌ 加载配置失败: {e}) exit() # 4. 智能加载模型权重 print(⚙️ 正在加载原始模型权重...) model_file_path None # 优先查找 model.safetensors (新标准)其次找 pytorch_model.bin (旧标准) candidates [model.safetensors, pytorch_model.bin] for candidate in candidates: path os.path.join(ORIGINAL_MODEL_PATH, candidate) if os.path.exists(path): model_file_path path print(f 发现权重文件: {candidate}) break if not model_file_path: print(f❌ 错误在目录中未找到 model.safetensors 或 pytorch_model.bin) print(f 请检查目录: {ORIGINAL_MODEL_PATH}) exit() # 5. 执行动态量化 # 注意必须用 AutoModel... 来加载 safetensors不能直接用 torch.load print(⚙️ 正在进行 INT8 动态量化 (这可能需要几分钟)...) try: # 使用 from_pretrained 可以自动处理 safetensors 和 bin 的加载 model AutoModelForSequenceClassification.from_pretrained( ORIGINAL_MODEL_PATH, trust_remote_codeTrue, torch_dtypetorch.float32, # 确保以 float32 加载以便量化 device_mapcpu ) # 执行量化 quantized_model torch.quantization.quantize_dynamic( model, {torch.nn.Linear}, dtypetorch.qint8 ) # 6. 手动保存权重 print( 正在保存量化后的模型...) # 无论原文件是什么我们都保存为 pytorch_model.bin 以保持兼容 output_bin_path os.path.join(QUANTIZED_MODEL_PATH, pytorch_model.bin) torch.save(quantized_model.state_dict(), output_bin_path) print(✅ 量化完成) print(f✨ 模型已保存至: {QUANTIZED_MODEL_PATH}) except Exception as e: print(f❌ 量化过程出错: {e}) import traceback traceback.print_exc()方案二先导出 ONNX再进行量化第一步先导出标准 ONNX 模型请运行以下命令这一步只负责把 PyTorch 模型转换成 ONNX 格式不量化optimum-cli export onnx -m D:\project\llama\python_knowlage_rag_api\models\bge-reranker-v2-m3 --task text-classification --opset 17 --no-post-process D:\project\llama\python_knowlage_rag_api\models\bge-reranker-v2-m3-onnx第二步对 ONNX 模型进行 INT8 量化import os import time import threading from optimum.onnxruntime import ORTQuantizer from optimum.onnxruntime.configuration import AutoQuantizationConfig # --- 配置路径 --- ONNX_MODEL_PATH rD:\project\llama\python_knowlage_rag_api\models\bge-reranker-v2-m3-onnx QUANTIZED_MODEL_PATH rD:\project\llama\python_knowlage_rag_api\models\bge-reranker-v2-m3-int8-onnx def monitor_progress(target_dir): 后台监控函数显示心跳和文件大小变化 last_size 0 counter 0 while True: time.sleep(2) # 每2秒检查一次 counter 1 # 简单的“心跳”动画 print(f\r 正在处理中... {. * (counter % 5)}, end, flushTrue) if os.path.exists(target_dir): # 计算目录下所有文件总大小 (MB) total_size sum(os.path.getsize(os.path.join(dp, f)) for dp, dn, filenames in os.walk(target_dir) for f in [os.path.join(dp, fn) for fn in filenames]) / (1024 * 1024) if total_size last_size: print(f\r 当前输出体积: {total_size:.1f} MB (写入中...), flushTrue) last_size total_size def main(): print( 开始 ONNX INT8 量化...) # 1. 创建配置 qconfig AutoQuantizationConfig.avx2(is_staticFalse, per_channelFalse) # 2. 启动监控线程 monitor_thread threading.Thread(targetmonitor_progress, args(QUANTIZED_MODEL_PATH,), daemonTrue) monitor_thread.start() try: # 3. 加载量化器 print(f 正在从 {ONNX_MODEL_PATH} 加载模型...) quantizer ORTQuantizer.from_pretrained(ONNX_MODEL_PATH) # 4. 执行量化 (这里会阻塞一段时间) print(⚙️ 开始量化计算 (CPU满载是正常的)...) quantizer.quantize( quantization_configqconfig, save_dirQUANTIZED_MODEL_PATH ) print(\n✅ 量化成功) print(f 模型已保存至: {QUANTIZED_MODEL_PATH}) except Exception as e: print(f\n❌ 量化失败: {e}) if __name__ __main__: main()

当你打开 ggml-backend.cpp，会发现一个让人困惑的事实：93KB 的代码里没有一行矩阵乘法

打开 whisper.cpp 项目中 ggml/src/ggml-backend.cpp 这个 93KB 的文件，你会看到一个反直觉的事实——在这个号称"后端"的核心实现里，你找不到任何一个算子的计算逻辑，没有卷积，没有 softmax，甚至连最基本的张量加法都没有。这个文件只做一件事：定义一套接口契…...

2026/5/14 18:31:05 阅读更多 →

从收音机到手机：三极管参数里的“温度”坑，我们当年是怎么踩过来的？

从收音机到手机：三极管参数里的“温度”坑，我们当年是怎么踩过来的？ 记得刚入行那会儿，师傅递给我一把锗三极管，半开玩笑地说："这玩意儿比姑娘的心思还难捉摸——天热了闹脾气，天冷了耍性子…...

2026/5/14 18:29:09 阅读更多 →

OpenClaw智能体网页抓取技能：三层架构与自适应追踪实战

1. 项目概述：为AI智能体赋予“超能力”的网页抓取技能如果你正在使用OpenClaw这类AI智能体，并且经常需要它帮你从网上抓取信息，那你可能遇到过这样的困境：智能体面对一个简单的网页链接，要么告诉你“我无法访问外部网站…...

2026/5/14 18:25:05 阅读更多 →

4月28日隐喻“鲸鱼开眼”，DeepSeek识图模式灰度上线，迈入图文交互时代！

4月28日，DeepSeek多模态团队研究员推文隐喻“鲸鱼开眼”，次日开启“识图模式”灰度内测，5月初大范围开放。该模式有亮点也有短板，标志其迈入图文交互时代。事件回顾4月28日，DeepSeek多模态团队研究员陈小康在X平台推文…...

2026/5/14 8:57:36 阅读更多 →

AI赋能高能物理：图神经网络与生成式模型在粒子径迹重建与模拟中的应用

1. 项目概述：当AI遇见高能物理的“显微镜”电子离子对撞机（EIC），被誉为探索物质深层结构的下一代“超级显微镜”。它不像我们熟悉的LHC那样让质子对撞，而是让高能电子去轰击质子或重离子，其核心目标是精确“…...

2026/5/14 8:53:29 阅读更多 →

A/B 测试前后的合成控制样本

原文：towardsdatascience.com/synthetic-control-sample-for-before-and-after-a-b-test-683bac36ffc1 简介 A/B 测试非常强大。我喜欢这种实验，因为它让我们能够比较结果，并确定某物是否比另一物表现更好。 A/B 测试有一个特定类型&#x…...

2026/5/14 8:56:05 阅读更多 →