AllReduce【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品 / Atlas A3 推理系列产品√Atlas A2 训练系列产品 / Atlas A2 推理系列产品√功能说明集合通信算子AllReduce的任务下发接口返回该任务的标识handleId给用户。AllReduce功能为将通信域内所有节点的同名张量进行reduce操作后再把结果发送到所有节点的输出buffer。函数原型template bool commit false __aicore__ inline HcclHandle AllReduce(GM_ADDR sendBuf, GM_ADDR recvBuf, uint64_t count, HcclDataType dataType, HcclReduceOp op, uint8_t repeat 1)参数说明表 1模板参数说明参数名输入/输出描述commit输入bool类型。参数取值如下true在调用Prepare接口时Commit同步通知服务端可以执行该通信任务。false在调用Prepare接口时不通知服务端执行该通信任务。表 2接口参数说明参数名输入/输出描述sendBuf输入源数据buffer地址。recvBuf输出目的数据buffer地址集合通信结果输出到此buffer中。count输入参与AllReduce操作的数据个数比如只有一个int32数据参与则count1。dataType输入AllReduce操作的数据类型目前支持float、half即float16、int8_t、int16_t、int32_t、bfloat16_t数据类型即支持取值为HCCL_DATA_TYPE_FP32、HCCL_DATA_TYPE_FP16、HCCL_DATA_TYPE_INT8、HCCL_DATA_TYPE_INT16、HCCL_DATA_TYPE_INT32、HCCL_DATA_TYPE_BFP16。HcclDataType数据类型的介绍请参考表1。op输入Reduce的操作类型目前支持sum、max、min操作类型即支持取值为HCCL_REDUCE_SUM、HCCL_REDUCE_MAX、HCCL_REDUCE_MIN。HcclReduceOp数据类型的介绍请参考表2。repeat输入一次下发的AllReduce通信任务个数。repeat取值≥1默认值为1。当repeat1时每个AllReduce任务的sendBuf和recvBuf地址由服务端自动算出计算公式如下sendBuf[i] sendBuf count* sizeof(datatype) * i, i∈[0, repeat)recvBuf[i] recvBuf count* sizeof(datatype) * i, i∈[0, repeat)注意当设置repeat1时须与count参数配合使用规划通信数据地址。图 1AllReduce三轮切分通信示例![](https://gitcode.com/cann/asc-devkit/blob/0f09e05bd80fac60c9606596c6011b45973c6a0b/docs/api/context/figures/AllReduce三轮切分通信示例.png AllReduce三轮切分通信示例?utm_sourcegitcode_repo_files)返回值说明返回该任务的标识handleIdhandleId大于等于0。调用失败时返回 -1。约束说明调用本接口前确保已调用过InitV2和SetCcTilingV2接口。若HCCL对象的config模板参数未指定下发通信任务的核该接口只能在AIC核或者AIV核两者之一上调用。若HCCL对象的config模板参数中指定了下发通信任务的核则该接口可以在AIC核和AIV核上同时调用接口内部会根据指定的核的类型只在AIC核、AIV核二者之一下发该通信任务。对于Atlas A2 训练系列产品/Atlas A2 推理系列产品一个通信域内所有Prepare接口的总调用次数不能超过63。对于Atlas A3 训练系列产品/Atlas A3 推理系列产品一个通信域内所有Prepare接口和InterHcclGroupSync接口的总调用次数不能超过63。对于Ascend 950PR/Ascend 950DT一个通信域内所有Prepare接口的总调用次数不能超过63。对于Ascend 950PR/Ascend 950DT通信服务端为CCU时单次最大通信数据量不能超过256M。调用示例非多轮切分场景如下图所示4张卡上均有count300个float16数据每张卡从xGM内存中获取到本卡数据各卡的数据进行reduce sum计算后将结果输出到各卡的yGM。图 2非多轮切分场景下4卡AllReduce通信extern C __global__ __aicore__ void all_reduce_custom(GM_ADDR xGM, GM_ADDR yGM, GM_ADDR workspaceGM, GM_ADDR tilingGM) { auto sendBuf xGM; // xGM为AllReduce的输入GM地址 auto recvBuf yGM; // yGM为AllReduce的输出GM地址 uint64_t sendCount 300; // 每张卡上均有300个float16的数据 HcclReduceOp reduceOp HcclReduceOp::HCCL_REDUCE_SUM; REGISTER_TILING_DEFAULT(AllReduceCustomTilingData); //AllReduceCustomTilingData为对应算子头文件定义的结构体 GET_TILING_DATA_WITH_STRUCT(AllReduceCustomTilingData, tilingData, tilingGM); Hccl hccl; GM_ADDR contextGM AscendC::GetHcclContext0(); // AscendC自定义算子kernel中通过此方式获取HCCL context if (AscendC::g_coreType AIV) { // 指定AIV核通信 hccl.InitV2(contextGM, tilingData); auto ret hccl.SetCcTilingV2(offsetof(AllReduceCustomTilingData, mc2CcTiling)); if (ret) { return; } HcclHandle handleId1 hccl.AllReducetrue(sendBuf, recvBuf, sendCount, HcclDataType::HCCL_DATA_TYPE_FP16, reduceOp); hccl.Wait(handleId1); AscendC::SyncAlltrue(); // 全AIV核同步防止0核执行过快提前调用hccl.Finalize()接口导致其他核Wait卡死 hccl.Finalize(); } }多轮切分场景使能多轮切分等效处理上述非多轮切分示例的通信。如下图所示每张卡的300个float16数据被切分为2个首块数据1个尾块数据。每个首块的数据量tileLen为128个float16数据尾块的数据量tailLen为44个float16数据。在算子内部实现时需要对切分后的数据分3轮进行AllReduce通信任务将等效上述非多轮切分的通信结果。图 3各卡数据切分示意图![](https://raw.gitcode.com/cann/asc-devkit/raw/0f09e05bd80fac60c9606596c6011b45973c6a0b/docs/api/context/figures/各卡数据切分示意图.png 各卡数据切分示意图?utm_sourcegitcode_repo_files)具体实现为第1轮通信每个rank上0-0\1-0\2-0\3-0数据块进行AllReduce处理。第2轮通信每个rank上0-1\1-1\2-1\3-1数据块进行AllReduce处理。第3轮通信每个rank上0-2\1-2\2-2\3-2数据块进行AllReduce处理图示及代码示例如下。图 44卡AllReduce示意图![](https://raw.gitcode.com/cann/asc-devkit/raw/0f09e05bd80fac60c9606596c6011b45973c6a0b/docs/api/context/figures/4卡AllReduce示意图.png 4卡AllReduce示意图?utm_sourcegitcode_repo_files)extern C __global__ __aicore__ void all_reduce_custom(GM_ADDR xGM, GM_ADDR yGM, GM_ADDR workspaceGM, GM_ADDR tilingGM) { constexpr uint32_t tileNum 2U; // 首块数量 constexpr uint64_t tileLen 128U; // 首块数据个数 constexpr uint32_t tailNum 1U; // 尾块数量 constexpr uint64_t tailLen 44U; // 尾块数据个数 auto sendBuf xGM; // xGM为AllReduce的输入GM地址 auto recvBuf yGM; // yGM为AllReduce的输出GM地址 HcclReduceOp reduceOp HcclReduceOp::HCCL_REDUCE_SUM; REGISTER_TILING_DEFAULT(AllReduceCustomTilingData); //AllReduceCustomTilingData为对应算子头文件定义的结构体 GET_TILING_DATA_WITH_STRUCT(AllReduceCustomTilingData, tilingData, tilingGM); Hccl hccl; GM_ADDR contextGM AscendC::GetHcclContext0(); // AscendC自定义算子kernel中通过此方式获取HCCL context if (AscendC::g_coreType AIV) { // 指定AIV核通信 hccl.InitV2(contextGM, tilingData); auto ret hccl.SetCcTilingV2(offsetof(AllReduceCustomTilingData, mc2CcTiling)); if (ret ! HCCL_SUCCESS) { return; } // 2个首块处理 constexpr uint32_t tileRepeat tileNum; // 除了sendBuf和recvBuf入参不同对2个首块处理的其余参数相同。故使用repeat2第2个首块AllReduce任务的sendBuf、recvBuf将由API内部自行更新 HcclHandle handleId1 hccl.AllReducetrue(sendBuf, recvBuf, tileLen, HcclDataType::HCCL_DATA_TYPE_FP16, reduceOp, tileRepeat); // 1个尾块处理 constexpr uint32_t kSizeOfFloat16 2U; sendBuf tileLen * tileNum * kSizeOfFloat16; recvBuf tileLen * tileNum * kSizeOfFloat16; constexpr uint32_t tailRepeat tailNum; HcclHandle handleId2 hccl.AllReducetrue(sendBuf, recvBuf, tailLen, HcclDataType::HCCL_DATA_TYPE_FP16, reduceOp, tailRepeat); for (uint8_t i0; itileRepeat; i) { hccl.Wait(handleId1); } hccl.Wait(handleId2); AscendC::SyncAlltrue(); // 全AIV核同步防止0核执行过快提前调用hccl.Finalize()接口导致其他核Wait卡死 hccl.Finalize(); } }【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考