CANN/pyasc数据块归约API

张

张建站

2026/5/9 13:35:37

10分钟阅读

asc.language.basic.block_reduce_max【免费下载链接】pyasc本项目为Python用户提供算子编程接口支持在昇腾AI处理器上加速计算接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyascasc.language.basic.block_reduce_max(dst: LocalTensor, src: LocalTensor, repeat: int, mask: int, dst_rep_stride: int, src_blk_stride: int, src_rep_stride: int) → Noneasc.language.basic.block_reduce_max(dst: LocalTensor, src: LocalTensor, repeat: int, mask: List[int], dst_rep_stride: int, src_blk_stride: int, src_rep_stride: int) → None对每个datablock内所有元素求最大值。对应的Ascend C函数原型mask逐比特模式template typename T, bool isSetMask true __aicore__ inline void BlockReduceMax(const LocalTensorT dst, const LocalTensorT src, const int32_t repeatTime, const uint64_t mask[], const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)mask连续模式template typename T, bool isSetMask true __aicore__ inline void BlockReduceMax(const LocalTensorT dst, const LocalTensorT src,const int32_t repeatTime, const int32_t mask, const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)参数说明is_set_mask: 是否在接口内部设置mask。True表示在接口内部设置mask。False表示在接口外部设置mask开发者需要使用set_vector_mask接口设置mask值。这种模式下本接口入参中的mask值必须设置为占位符MASK_PLACEHOLDER。dst目的操作数。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要保证16字节对齐针对half数据类型32字节对齐针对float数据类型。src: 源操作数。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。repeat_time迭代次数。取值范围为[0, 255]。mask 控制每次迭代内参与计算的元素。逐bit模式mask为数组形式。数组长度和数组元素的取值范围和操作数的数据类型有关。可以按位控制哪些元素参与计算bit位的值为1表示参与计算0表示不参与。操作数 16 位数组长度 2mask[0], mask[1] ∈ [0, 2⁶⁴-1]且不能同时为 0操作数 32 位数组长度 1mask[0] ∈ (0, 2⁶⁴-1]操作数 64 位数组长度 1mask[0] ∈ (0, 2³²-1]例如mask [8, 0]表示仅第 4 个元素参与计算连续模式mask为整数形式。表示前面连续多少个元素参与计算。取值范围和操作数的数据类型有关数据类型不同每次迭代内能够处理的元素个数最大值不同。操作数 16 位mask ∈ [1, 128]操作数 32 位mask ∈ [1, 64]操作数 64 位mask ∈ [1, 32]dst_rep_stride目的操作数相邻迭代间的地址步长。以一个repeat_time归约后的长度为单位。每个repeat_time(8个datablock)归约后得到8个元素所以输入类型为half类型时RepStride单位为16Byte输入类型为float类型时RepStride单位为32Byte。src_blk_stride单次迭代内datablock的地址步长。src_rep_stride源操作数相邻迭代间的地址步长即源操作数每次迭代跳过的datablock数目。约束说明操作数地址对齐要求请参见《Ascend C算子开发接口》中的“通用说明和约束-通用地址对齐约束”。为了节省地址空间您可以定义一个Tensor供源操作数与目的操作数同时使用即地址重叠需要注意计算后的目的操作数数据不能覆盖未参与计算的源操作数需要谨慎使用。针对不同场景合理使用归约指令可以带来性能提升, 相关介绍请参考选择低延迟指令优化归约操作性能。调用示例mask连续模式asc.block_reduce_max(z_local, x_local, repeat1, mask128, dst_rep_stride8, src_blk_stride1, src_rep_stride8)mask逐bit模式uint64_max 2**64 - 1 mask [uint64_max, uint64_max] asc.block_reduce_max(z_local, x_local, repeat1, maskmask, dst_rep_stride8, src_blk_stride1, src_rep_stride8)【免费下载链接】pyasc本项目为Python用户提供算子编程接口支持在昇腾AI处理器上加速计算接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyasc创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

好用的SF6气体报警装置企业

好用的SF6气体报警装置企业在众多需要使用六氟化硫气体的场所，如小区配电室、变电站、电厂等，一款好用的SF6气体报警装置至关重要。它能实时监测现场气体浓度，在浓度超标时第一时间发出报警信号，及时消除安全隐患。今天就为大家介…...

2026/5/9 13:34:30 阅读更多 →

CANN/hcomm AIV算子任务编排

任务编排【免费下载链接】hcomm HCOMM（Huawei Communication）是HCCL的通信基础库，提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm 编排步骤参与集合通信的各个rank协调有序地进行同步与数据搬运&am…...

2026/5/9 13:31:33 阅读更多 →

超好用神器

还在愁外文会议听不懂、海外网课没字幕、生肉剧看不懂？给大家安利一款必装宝藏插件：讯飞同传双语字幕插件，办公学习娱乐一站式搞定跨语言难题✅适配支持💻 系统：Windows10 及以上、macOS10.14 及以上🌐 兼容…...

2026/5/9 13:30:33 阅读更多 →

10分钟掌握NSC_BUILDER：Switch游戏文件管理终极指南

10分钟掌握NSC_BUILDER：Switch游戏文件管理终极指南【免费下载链接】NSC_BUILDER Nintendo Switch Cleaner and Builder. A batchfile, python and html script based in hacbuild and Nuts python libraries. Designed initially to erase titlerights encryption…...

2026/5/8 5:18:34 阅读更多 →

适合学校行政校内会议场景的，学校会议转行动项整理技巧

2026年多数学校都在推校内工作闭环管理，行政校内会议结束后，最头疼的就是从一堆零散讨论里整理出可落地的行动项，漏项、错记责任人、错过截止时间都是常事，还给后续工作埋坑，这里给你一套可直接落地的整理技巧。某区公…...

2026/5/7 21:34:19 阅读更多 →

Degrees of Lewdity汉化版终极完整指南：从零开始的中文化体验之旅

Degrees of Lewdity汉化版终极完整指南：从零开始的中文化体验之旅【免费下载链接】Degrees-of-Lewdity-Chinese-Localization Degrees of Lewdity 游戏的授权中文社区本地化版本项目地址: https://gitcode.com/gh_mirrors/de/Degrees-of-Lewdity-Chinese-Locali…...

2026/5/7 21:33:58 阅读更多 →