CANNBot Reduce算子优化

张

张建站

2026/5/21 9:19:22

10分钟阅读

Reduce 算子优化【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills适用于需要聚合多个值的归约操作适用算子基础归约: sum, mean, max, min, prod归一化: softmax, logsoftmax, layernorm, batchnorm统计: variance, std通用归约策略1. 块内归约原子操作triton.jit def reduction_kernel(input_ptr, output_ptr, n_elements, BLOCK_SIZE: tl.constexpr): pid tl.program_id(0) offsets pid * BLOCK_SIZE tl.arange(0, BLOCK_SIZE) mask offsets n_elements # 加载数据 data tl.load(input_ptr offsets, maskmask, other0.0) # 块内归约 block_sum tl.sum(data, axis0) # 原子操作写回全局内存 tl.atomic_add(output_ptr, block_sum)2. 减少规约精度损失关键: 如果需要在 FP16 或 BF16 的数据上执行计算性规约除了max, min的规约计算应在规约计算前将其强制转换为 FP32以避免低精度累加带来的数值误差。# 错误直接用 fp16/bf16 累加精度损失大 data tl.load(input_ptr offsets, maskmask, other0.0) # data 为 fp16/bf16 block_sum tl.sum(data, axis0) # 低精度累加 carry carry block_sum # 低精度累加 # 正确在执行累加计算前转为 fp32在 fp32 上完成规约 data tl.load(input_ptr offsets, maskmask, other0.0) data data.to(tl.float32) # 强制提升为 fp32 block_sum tl.sum(data, axis0) # 高精度累加 carry carry block_sum # 高精度累加 # 如果输出要求 fp16/bf16在最终 store 前转回 tl.store(output_ptr, block_sum.to(input_ptr.dtype.element_ty))原则在执行规约操作前.to(tl.float32)如果涉及多次规约累积多次规约结果的累加器对象精度应为tl.float32涉及计算的规约操作除了max, min的规约操作均在 FP32 上执行在最后tl.store前按需转回原始数据类型3. 数值稳定性处理关键: 对于涉及 exp 的操作softmax、logsoftmax必须减去最大值防止溢出。# 错误错误直接 exp 可能溢出 scores tl.math.exp2(x) # 正确正确减去最大值 max_val tl.max(x, axis0) scores tl.math.exp2(x - max_val)【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

AI Agent在内容电商的应用：从个性化推荐到虚拟销售顾问

AI Agent在内容电商的应用：从个性化推荐到虚拟销售顾问目标读者开过淘宝/小红书/抖音小店，懂内容种草转化漏斗（种草-浏览-加购-转化-复购）；用过ChatGPT写标题、Midjourney画海报这类基础AI工具；对“Agent能自己做事”有点好奇，但不知道怎么把这东西真正落地到自己内容…...

2026/5/21 9:19:22 阅读更多 →

Java-网络编程和反射

1.网络编程1.1网络编程的基本概念1）含义及场景在网络通信协议下，不同计算机上运行的程序，进行的数据传输。应用场景：即时通信、网络对战、金融证券、国际贸易、邮件……Java中可以使用java.net包下的技术轻松开发出常见的网络应用…...

2026/5/21 9:17:49 阅读更多 →

如何使用FontForge脚本自定义UDEV Gothic：打造个性化编程字体的完整教程

如何使用FontForge脚本自定义UDEV Gothic：打造个性化编程字体的完整教程【免费下载链接】udev-gothic UDEV Gothic は、ユニバーサルデザインフォントのBIZ UDゴシックと、開発者向けフォントの JetBrains Mono を合成した、プログラミング向けフォントです。项…...

2026/5/21 9:16:30 阅读更多 →

大彩串口屏在非接触测温仪HMI设计中的实战应用与优势解析

1. 项目概述：串口屏如何重塑非接触测温仪的用户体验在非接触红外测温仪这个看似传统的行业里，用户体验的“最后一公里”往往决定了产品的成败。几年前，我们团队接手一个手持式红外测温仪的项目升级，客户反馈的核心痛点非常集中&am…...

2026/5/21 4:08:59 阅读更多 →

在macOS上运行Windows程序的终极指南：使用Whisky轻松突破系统壁垒

在macOS上运行Windows程序的终极指南：使用Whisky轻松突破系统壁垒【免费下载链接】Whisky A modern Wine wrapper for macOS built with SwiftUI 项目地址: https://gitcode.com/gh_mirrors/wh/Whisky 想要在Apple Silicon Mac上无缝运行Windows专属软件和游…...

2026/5/21 4:08:54 阅读更多 →