CANN/asc-devkit AllReduce算子API

张

张建站

2026/7/8 16:41:43

10分钟阅读

AllReduce【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品 / Atlas A3 推理系列产品√Atlas A2 训练系列产品 / Atlas A2 推理系列产品√功能说明集合通信算子AllReduce的任务下发接口返回该任务的标识handleId给用户。AllReduce功能为将通信域内所有节点的同名张量进行reduce操作后再把结果发送到所有节点的输出buffer。函数原型template bool commit false __aicore__ inline HcclHandle AllReduce(GM_ADDR sendBuf, GM_ADDR recvBuf, uint64_t count, HcclDataType dataType, HcclReduceOp op, uint8_t repeat 1)参数说明表 1模板参数说明参数名输入/输出描述commit输入bool类型。参数取值如下true在调用Prepare接口时Commit同步通知服务端可以执行该通信任务。false在调用Prepare接口时不通知服务端执行该通信任务。表 2接口参数说明参数名输入/输出描述sendBuf输入源数据buffer地址。recvBuf输出目的数据buffer地址集合通信结果输出到此buffer中。count输入参与AllReduce操作的数据个数比如只有一个int32数据参与则count1。dataType输入AllReduce操作的数据类型目前支持float、half即float16、int8_t、int16_t、int32_t、bfloat16_t数据类型即支持取值为HCCL_DATA_TYPE_FP32、HCCL_DATA_TYPE_FP16、HCCL_DATA_TYPE_INT8、HCCL_DATA_TYPE_INT16、HCCL_DATA_TYPE_INT32、HCCL_DATA_TYPE_BFP16。HcclDataType数据类型的介绍请参考表1。op输入Reduce的操作类型目前支持sum、max、min操作类型即支持取值为HCCL_REDUCE_SUM、HCCL_REDUCE_MAX、HCCL_REDUCE_MIN。HcclReduceOp数据类型的介绍请参考表2。repeat输入一次下发的AllReduce通信任务个数。repeat取值≥1默认值为1。当repeat1时每个AllReduce任务的sendBuf和recvBuf地址由服务端自动算出计算公式如下sendBuf[i] sendBuf count* sizeof(datatype) * i, i∈[0, repeat)recvBuf[i] recvBuf count* sizeof(datatype) * i, i∈[0, repeat)注意当设置repeat1时须与count参数配合使用规划通信数据地址。图 1AllReduce三轮切分通信示例![](https://gitcode.com/cann/asc-devkit/blob/0f09e05bd80fac60c9606596c6011b45973c6a0b/docs/api/context/figures/AllReduce三轮切分通信示例.png AllReduce三轮切分通信示例?utm_sourcegitcode_repo_files)返回值说明返回该任务的标识handleIdhandleId大于等于0。调用失败时返回 -1。约束说明调用本接口前确保已调用过InitV2和SetCcTilingV2接口。若HCCL对象的config模板参数未指定下发通信任务的核该接口只能在AIC核或者AIV核两者之一上调用。若HCCL对象的config模板参数中指定了下发通信任务的核则该接口可以在AIC核和AIV核上同时调用接口内部会根据指定的核的类型只在AIC核、AIV核二者之一下发该通信任务。对于Atlas A2 训练系列产品/Atlas A2 推理系列产品一个通信域内所有Prepare接口的总调用次数不能超过63。对于Atlas A3 训练系列产品/Atlas A3 推理系列产品一个通信域内所有Prepare接口和InterHcclGroupSync接口的总调用次数不能超过63。对于Ascend 950PR/Ascend 950DT一个通信域内所有Prepare接口的总调用次数不能超过63。对于Ascend 950PR/Ascend 950DT通信服务端为CCU时单次最大通信数据量不能超过256M。调用示例非多轮切分场景如下图所示4张卡上均有count300个float16数据每张卡从xGM内存中获取到本卡数据各卡的数据进行reduce sum计算后将结果输出到各卡的yGM。图 2非多轮切分场景下4卡AllReduce通信extern C __global__ __aicore__ void all_reduce_custom(GM_ADDR xGM, GM_ADDR yGM, GM_ADDR workspaceGM, GM_ADDR tilingGM) { auto sendBuf xGM; // xGM为AllReduce的输入GM地址 auto recvBuf yGM; // yGM为AllReduce的输出GM地址 uint64_t sendCount 300; // 每张卡上均有300个float16的数据 HcclReduceOp reduceOp HcclReduceOp::HCCL_REDUCE_SUM; REGISTER_TILING_DEFAULT(AllReduceCustomTilingData); //AllReduceCustomTilingData为对应算子头文件定义的结构体 GET_TILING_DATA_WITH_STRUCT(AllReduceCustomTilingData, tilingData, tilingGM); Hccl hccl; GM_ADDR contextGM AscendC::GetHcclContext0(); // AscendC自定义算子kernel中通过此方式获取HCCL context if (AscendC::g_coreType AIV) { // 指定AIV核通信 hccl.InitV2(contextGM, tilingData); auto ret hccl.SetCcTilingV2(offsetof(AllReduceCustomTilingData, mc2CcTiling)); if (ret) { return; } HcclHandle handleId1 hccl.AllReducetrue(sendBuf, recvBuf, sendCount, HcclDataType::HCCL_DATA_TYPE_FP16, reduceOp); hccl.Wait(handleId1); AscendC::SyncAlltrue(); // 全AIV核同步防止0核执行过快提前调用hccl.Finalize()接口导致其他核Wait卡死 hccl.Finalize(); } }多轮切分场景使能多轮切分等效处理上述非多轮切分示例的通信。如下图所示每张卡的300个float16数据被切分为2个首块数据1个尾块数据。每个首块的数据量tileLen为128个float16数据尾块的数据量tailLen为44个float16数据。在算子内部实现时需要对切分后的数据分3轮进行AllReduce通信任务将等效上述非多轮切分的通信结果。图 3各卡数据切分示意图![](https://raw.gitcode.com/cann/asc-devkit/raw/0f09e05bd80fac60c9606596c6011b45973c6a0b/docs/api/context/figures/各卡数据切分示意图.png 各卡数据切分示意图?utm_sourcegitcode_repo_files)具体实现为第1轮通信每个rank上0-0\1-0\2-0\3-0数据块进行AllReduce处理。第2轮通信每个rank上0-1\1-1\2-1\3-1数据块进行AllReduce处理。第3轮通信每个rank上0-2\1-2\2-2\3-2数据块进行AllReduce处理图示及代码示例如下。图 44卡AllReduce示意图![](https://raw.gitcode.com/cann/asc-devkit/raw/0f09e05bd80fac60c9606596c6011b45973c6a0b/docs/api/context/figures/4卡AllReduce示意图.png 4卡AllReduce示意图?utm_sourcegitcode_repo_files)extern C __global__ __aicore__ void all_reduce_custom(GM_ADDR xGM, GM_ADDR yGM, GM_ADDR workspaceGM, GM_ADDR tilingGM) { constexpr uint32_t tileNum 2U; // 首块数量 constexpr uint64_t tileLen 128U; // 首块数据个数 constexpr uint32_t tailNum 1U; // 尾块数量 constexpr uint64_t tailLen 44U; // 尾块数据个数 auto sendBuf xGM; // xGM为AllReduce的输入GM地址 auto recvBuf yGM; // yGM为AllReduce的输出GM地址 HcclReduceOp reduceOp HcclReduceOp::HCCL_REDUCE_SUM; REGISTER_TILING_DEFAULT(AllReduceCustomTilingData); //AllReduceCustomTilingData为对应算子头文件定义的结构体 GET_TILING_DATA_WITH_STRUCT(AllReduceCustomTilingData, tilingData, tilingGM); Hccl hccl; GM_ADDR contextGM AscendC::GetHcclContext0(); // AscendC自定义算子kernel中通过此方式获取HCCL context if (AscendC::g_coreType AIV) { // 指定AIV核通信 hccl.InitV2(contextGM, tilingData); auto ret hccl.SetCcTilingV2(offsetof(AllReduceCustomTilingData, mc2CcTiling)); if (ret ! HCCL_SUCCESS) { return; } // 2个首块处理 constexpr uint32_t tileRepeat tileNum; // 除了sendBuf和recvBuf入参不同对2个首块处理的其余参数相同。故使用repeat2第2个首块AllReduce任务的sendBuf、recvBuf将由API内部自行更新 HcclHandle handleId1 hccl.AllReducetrue(sendBuf, recvBuf, tileLen, HcclDataType::HCCL_DATA_TYPE_FP16, reduceOp, tileRepeat); // 1个尾块处理 constexpr uint32_t kSizeOfFloat16 2U; sendBuf tileLen * tileNum * kSizeOfFloat16; recvBuf tileLen * tileNum * kSizeOfFloat16; constexpr uint32_t tailRepeat tailNum; HcclHandle handleId2 hccl.AllReducetrue(sendBuf, recvBuf, tailLen, HcclDataType::HCCL_DATA_TYPE_FP16, reduceOp, tailRepeat); for (uint8_t i0; itileRepeat; i) { hccl.Wait(handleId1); } hccl.Wait(handleId2); AscendC::SyncAlltrue(); // 全AIV核同步防止0核执行过快提前调用hccl.Finalize()接口导致其他核Wait卡死 hccl.Finalize(); } }【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/opbase公共接口列表

公共接口列表【免费下载链接】opbase 本项目是CANN算子库的基础框架库，为算子提供公共依赖文件和基础调度能力。项目地址: https://gitcode.com/cann/opbase 本章是调用CANN API过程中依赖的公共Meta接口，如创建/释放aclTensor、aclScalar、acl…...

2026/7/8 16:39:06 阅读更多 →

医疗AI系统风险缓解：从数据质量到临床双检的功能设计

1. 项目概述：当AI走进诊室，我们如何为它“上保险”？最近几年，医疗AI系统从实验室的“概念验证”阶段，正加速走向真实的临床场景。无论是辅助影像科医生阅片，还是为临床决策提供支持，这些系统都承…...

2026/7/7 21:17:34 阅读更多 →

Hermes Agent工具链接入Taotoken聚合API的配置指南

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Hermes Agent工具链接入Taotoken聚合API的配置指南 Hermes Agent 是一个功能强大的AI智能体开发框架，它支持通过自定义…...

2026/7/6 20:10:31 阅读更多 →

从论文到实践：一维卷积神经网络在RUL预测中的复现与调优

1. 为什么选择一维卷积做RUL预测？我第一次接触RUL（剩余使用寿命）预测时，发现大多数论文都在用二维卷积处理传感器数据。直到实际处理CMAPSS航空发动机数据集时，才意识到一维卷积才是更自然的选择。想象一下&#xff0c…...

2026/7/7 11:49:54 阅读更多 →

STM32与SPI EEPROM高效数据存储与检索方案

1. 项目背景与核心需求在嵌入式系统开发中，快速精确的数据检索是一个常见但极具挑战性的需求。特别是在工业控制、医疗设备和物联网终端等场景下，系统往往需要在毫秒级时间内完成关键参数的读取和写入操作。传统基于Flash存储的方案存在擦写次数有限、操…...

2026/7/7 6:45:27 阅读更多 →

23-AGENTS.md高级用法

23 AGENTS.md 高级用法概述上一篇文章介绍了 AGENTS.md 的三层加载机制，这是 AGENTS.md 体系的基础。但在实际的大型项目中，三层结构往往不够灵活。团队经常面临这样的场景：同一个 Git 仓库中包含多个服务或模块，每个模块都有自己的独特规范，同时还要继承项目级的通用…...

2026/7/8 3:11:33 阅读更多 →