CANN/HCCL执行超时配置
HCCL_EXEC_TIMEOUT【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl功能描述不同设备进程在分布式训练或推理过程中存在卡间执行任务不一致的场景如仅特定进程会保存checkpoint数据通过该环境变量可控制设备间执行时同步等待的时间在该配置时间内各设备进程等待其他设备执行通信同步。针对Ascend 950PR/Ascend 950DT单位为s取值范围为[0, 2147483647]默认值为1836支持整数秒配置。当配置为0时代表永不超时。针对Atlas A3 训练系列产品/Atlas A3 推理系列产品“AI_CPU”与“AICPU_CacheDisable”模式下参见HCCL_OP_EXPANSION_MODE单位为s取值范围为[0, 2147483647]默认值为1836支持十毫秒级精度配置例如需要50毫秒超时则配置为0.05。当配置为0时代表永不超时。“AIV”模式下单位为s取值范围为[0, 1091]默认值为1091支持十毫秒级精度配置例如需要50毫秒超时则配置为0.05。若设置为0或超出最大值1091将按照1091处理。“AIV”模式下实际生效的超时时间为interval*N*10-3毫秒其中interval为硬件支持的算子超时最短时间间隔可通过aclrtGetOpTimeoutInterval接口获取N的取值为[1, 254]范围内整数如果配置的超时时间不等于interval*N*10-3毫秒则向上对齐至interval*N*10-3毫秒。针对Atlas A2 训练系列产品/Atlas A2 推理系列产品“HOST”与“HOST_TS”模式下参见HCCL_OP_EXPANSION_MODE单位为s取值范围为[0, 2147483647]默认值为1836支持整数秒配置。当配置为0时代表永不超时。“AIV”模式下单位为s取值范围为[0, 1091]默认值为1091支持十毫秒级精度配置例如需要50毫秒超时则配置为0.05。若设置为0或超出最大值1091将按照1091处理。“AIV”模式下实际生效的超时时间为interval*N*10-3毫秒其中interval为硬件支持的算子超时最短时间间隔可通过aclrtGetOpTimeoutInterval接口获取N的取值为[1, 254]范围内整数如果配置的超时时间不等于interval*N*10-3毫秒则向上对齐到interval*N*10-3毫秒。**针对Atlas 训练系列产品**单位为s取值范围为(0, 17340]默认值为1836支持整数秒配置。需要注意针对Atlas 训练系列产品系统实际设置的超时时间 环境变量的取值先整除“68”然后再乘以“68”单位s。如果环境变量的取值小于68则默认按照68s进行处理。例如假设HCCL_EXEC_TIMEOUT600则系统实际设置的超时时间为600整除68乘以68 8*68 544s。**针对Atlas 推理系列产品**单位为s取值范围为(0, 17340]默认值为1836支持整数秒配置。需要注意针对Atlas 推理系列产品系统实际设置的超时时间 环境变量的取值先整除“68”然后再乘以“68”单位s。如果环境变量的取值小于68则默认按照68s进行处理。例如假设HCCL_EXEC_TIMEOUT600则系统实际设置的超时时间为600整除68乘以68 8*68 544s。[!NOTE]说明 一般情况下用户保持默认值即可。当默认值无法满足设备间执行通信同步的需求时可通过此环境变量适当增大设备间的同步等待时间。配置示例export HCCL_EXEC_TIMEOUT1800使用约束若您调用HCCL C接口初始化具有特定配置的通信域时通过“HcclCommConfig”的“hcclExecTimeOut”参数配置了设备间执行时的同步等待时间则以通信域粒度的配置为准。支持的型号Ascend 950PR/Ascend 950DTAtlas A3 训练系列产品/Atlas A3 推理系列产品Atlas A2 训练系列产品/Atlas A2 推理系列产品针对Atlas A2 训练系列产品/Atlas A2 推理系列产品仅支持Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框。Atlas 训练系列产品Atlas 推理系列产品针对Atlas 推理系列产品仅支持Atlas 300I Duo 推理卡。【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考