CANN/cannbot-skills Indexer Prolog多流并行案例

张

张建站

2026/7/15 22:52:27

10分钟阅读

CANN/cannbot-skills Indexer Prolog多流并行案例

案例Indexer Prolog 多流并行【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills概述这个案例解决的是 Lightning Indexer 前处理链路串行过长的问题。做法是把 Q 路径和权重投影路径拆到不同 tagged stream 中执行让前处理阶段出现 overlap最适合 Attention 前处理或 Prolog 类算子链的时延优化。背景与问题Indexer Prolog 往往由多个前处理算子组成例如线性投影、RoPE、量化和权重路径准备。如果全部堆在主流上前处理会形成一个很长的串行段后续 attention 计算即使再快也要等前面的准备工作全部完成。这类场景适合多流的原因在于Q 路径和部分权重路径之间可形成局部并行窗口。前处理中既有 Cube 类算子也有 Vector / quant 路径容易形成硬件互补。只要同步点设计得当就不会改变后续 attention 的输入语义。核心思路使用一条副流先跑q_b和 Q 相关预处理。再用另一条流提前跑weights_proj。在进入后续 quant 或 attention 前通过wait_tensor或 tagged event 保证依赖满足。这种写法本质上是“前处理切流”而不是完整的双网络并行。执行编排图关键代码第一段代码展示 Q 路径被放到22号流里enable_multi_streams self.enable_multi_streams and not is_prefill with npu_stream_switch(enable_multi_streams, 22): if enable_multi_streams: tng.scope.npu_wait_tensor(qr, query_states[0]) q_b self.wq_b(qr, c8_input_dict.get(pertoken_scale, None)) q q_b.view(bsz, seqlen, self.n_heads, self.head_dim) q_pe, q_nope torch.split(q, [self.rope_head_dim, self.head_dim - self.rope_head_dim], dim-1) q_pe torch_npu.npu_rotary_mul(q_pe.view(-1, self.n_heads, 1, self.rope_head_dim), cos, sin) q torch.cat([q_pe.view(bsz, -1, self.n_heads, self.rope_head_dim), q_nope], dim-1)第二段代码展示weights_proj提前在33号流里执行with npu_stream_switch(enable_multi_streams, 33): if enable_multi_streams: tng.scope.npu_wait_tensor(x, q_b) weights self.weights_proj(x.view(-1, self.dim))如果图模式开启常会配合 tagged stream eventif enable_multi_streams and self.enable_aclgraph: tng.ops.npu_record_tagged_stream(qr, 22) tng.ops.npu_tagged_event_record(indexer_npu_events[0])复用参考代表实现DeepSeek-V3.2-Exp。相似实现GLM-5。特化实现和 MoE 双流不同这类案例通常不直接并行完整模块而是拆分前处理子链。注意事项前处理切流后同步点设计不清楚时最容易出现输入未准备好的问题。如果q_b、weights_proj之间实际共享更多隐藏依赖盲目切流会导致图编译失败或精度问题。图模式下要统一 stream tag 的编号和事件生命周期。关键词npu_stream_switchIndexer Prologweights_projq_bwait_tensortagged stream【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/hccl PCIe链路通信配置

HCCL_INTRA_PCIE_ENABLE 【免费下载链接】hccl 集合通信库（Huawei Collective Communication Library，简称HCCL）是基于昇腾AI处理器的高性能集合通信库，为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/…...

2026/7/13 16:29:30 阅读更多 →

Spring AI Playground：一站式Java AI应用开发与RAG实践指南

1. 项目概述：一个面向未来的AI应用开发沙盒最近在捣鼓AI应用开发，特别是想把大语言模型（LLM）的能力无缝集成到现有的Java/Spring生态里，发现了一个宝藏级的开源项目：spring-ai-community/spring-ai-playgro…...

2026/7/13 16:19:51 阅读更多 →

Attention Sinks：解决大模型长对话内存瓶颈的注意力机制优化方案

1. 项目概述：当大模型遇上“无限”对话的难题如果你玩过大语言模型（LLM），不管是跑在本地显卡上的Llama 2，还是云端API，大概率都遇到过这个头疼的问题：聊着聊着，模型就开始“胡言乱语…...

2026/7/13 16:19:13 阅读更多 →

PlantUML 实战：5分钟将 UML 2.5 序列图转换为可执行代码草图

PlantUML 实战：5分钟将 UML 2.5 序列图转换为可执行代码草图在软件开发过程中，清晰的系统设计往往比编码本身更为关键。传统拖拽式UML工具虽然直观，却常常成为效率杀手——频繁的鼠标操作打断设计思路，版本控制困难，…...

2026/7/15 9:42:20 阅读更多 →

GPT-5.6上线新模型融合编码能力

GPT-5.6系列模型已正式上线，其核心更新包括模型性能提升、分层定价以及产品界面的重大整合。原独立的Codex编码工具已并入ChatGPT，形成了统一的桌面客户端入口。 GPT-5.6系列模型概览该系列采用天体命名，包含三个定位不同的模型&#xff0…...

2026/7/15 6:27:15 阅读更多 →

终极免费PPT计时器：让你的演示时间掌控如呼吸般自然

终极免费PPT计时器：让你的演示时间掌控如呼吸般自然【免费下载链接】ppttimer 一个简易的 PPT 计时器项目地址: https://gitcode.com/gh_mirrors/pp/ppttimer 还在为PPT演示时间把控不准而焦虑吗？每次演讲都担心超时被打断，或者时间…...

2026/7/15 7:15:52 阅读更多 →

15款专业字体一次搞定：设计师和开发者的终极字体解决方案

15款专业字体一次搞定：设计师和开发者的终极字体解决方案【免费下载链接】fonts My favorite fonts: SF Pro Text, Pingfang SC, Avenir Next, Roboto, Uber and more. 项目地址: https://gitcode.com/gh_mirrors/font/fonts 还在为找不到合适的字体而烦恼吗…...

2026/7/14 12:47:23 阅读更多 →