CANN Runtime初始化与去初始化API参考
2. 初始化与去初始化【免费下载链接】runtime本项目提供CANN运行时组件和维测功能组件。项目地址: https://gitcode.com/cann/runtime本章节描述 CANN Runtime 的初始化与去初始化接口包括 ACL 环境的初始化、反初始化及相关回调注册。aclError aclInit(const char *configPath)初始化函数。aclError aclFinalize()去初始化函数用于释放进程内acl接口使用的相关资源。aclError aclFinalizeReference(uint64_t *refCount)去初始化函数用于释放进程内acl接口使用的相关资源。aclError aclInitCallbackRegister(aclRegisterCallbackType type, aclInitCallbackFunc cbFunc, void *userData)注册初始化回调函数。aclError aclInitCallbackUnRegister(aclRegisterCallbackType type, aclInitCallbackFunc cbFunc)若不需要触发回调函数的调用可调用本接口取消注册回调函数。aclError aclFinalizeCallbackRegister(aclRegisterCallbackType type, aclFinalizeCallbackFunc cbFunc, void *userData)注册去初始化回调函数。aclError aclFinalizeCallbackUnRegister(aclRegisterCallbackType type, aclFinalizeCallbackFunc cbFunc)若不需要触发回调函数的调用可调用本接口取消注册回调函数。aclInitaclError aclInit(const char *configPath)产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√功能说明初始化函数。使用acl接口开发应用时必须先调用aclInit接口否则可能会导致后续系统内部资源初始化出错进而导致其它业务异常。参数说明参数名输入/输出说明configPath输入配置文件所在路径包含文件名的指针。配置文件内容为json格式json文件内的“{”的层级最多为10“[”的层级最多为10。初始化时可通过该配置文件配置开启Dump、配置Profiling采集信息等功能详细描述请参见下文各功能配置示例中的描述。如果默认配置已满足需求无需修改可向aclInit接口中传入NULL或者可将配置文件配置为空json串即配置文件中只有{}。返回值说明返回0表示成功返回其他值表示失败请参见aclError。约束说明一个进程内支持多次调用aclInit接口初始化但需调用aclFinalize或aclFinalizeReference接口去初始化支持以下场景每次调用aclInit接口时配置必须保持一致否则仅首次调用的配置有效后续调用aclInit接口可能会导致报错或配置无效。为兼容旧版本重复调用aclInit接口会返回ACL_ERROR_REPEAT_INITIALIZE错误码您可以忽略该错误继续处理业务。若调用aclInit、aclFinalize接口分别实现初始化、去初始化支持重复初始化、去初始化时序上仅支持顺序调用接口调用时序如下aclInit--业务处理--aclFinalize--aclInit--业务处理--aclFinalize该场景下如果调用多次aclInit接口后再去初始化仅需调用一次aclFinalize接口将aclInit接口的引用计数直接清零。若调用aclInit、aclFinalizeReference接口分别实现初始化、去初始化则需成对调用aclInit、aclFinalizeReference接口。因为aclFinalizeReference接口内部涉及引用计数的实现aclInit接口每被调用一次则引用计数加一aclFinalizeReference接口每被调用一次则该引用计数减一当引用计数减到0时才会真正去初始化。支持重复初始化、去初始化时序上支持顺序调用也支持并发调用接口调用时序如下顺序调用时序图如下并发调用时序图如下模型Dump配置、单算子Dump配置模型Dump配置用于导出模型中每一层算子输入和输出数据、单算子Dump配置用于导出单个算子的输入和输出数据导出的数据用于与指定模型或算子进行比对定位精度问题具体比对方法请参见《精度调试工具用户指南》。默认不启用该Dump配置。通过本接口启用Dump配置需通过dump_path参数配置保存Dump数据的路径。模型Dump配置示例如下{ dump:{ dump_list:[ { model_name:ResNet-101 }, { model_name:ResNet-50, layer:[ conv1conv1_relu, res2a_branch2ares2a_branch2a_relu, res2a_branch1, pool1 ] } ], dump_path:/home/output, dump_mode:output, dump_op_switch:off, dump_data:tensor } }单算子调用场景下Dump配置示例如下{ dump:{ dump_path:/home/output, dump_list:[{}], dump_op_switch:on, dump_data:tensor } }表 1acl.json文件格式说明配置项参数说明dump_list必选待dump数据的整网模型列表。- 模型推理场景下当需要Dump全部算子时配置为dump_list:[{}]当需要Dump多个模型或特定算子时需要结合model_name和layer使用。- 在单算子调用场景包括单算子模型执行和单算子API执行下dump_list建议配置为dump_list:[{}]model_name模型名称各个模型的model_name值须唯一。- 模型加载方式为文件加载时填入模型文件的名称不需要带后缀名也可以配置为ATC模型文件转换后的json文件里的最外层name字段对应值。- 模型加载方式为内存加载时配置为ATC模型文件转换后的json文件里的最外层name字段对应值。layerIO性能较差时可能会因为数据量过大而导致执行超时因此不建议进行全量dump请指定算子进行dump。通过该字段可以指定需要dump的算子名支持指定为ATC模型转换后的算子名也支持指定为转换前的原始算子名配置时需注意- 需按格式配置每行配置模型中的一个算子名且每个算子之间用英文逗号隔开。- 用户可以无需设置model_name此时会默认dump所有model下的相应算子。如果配置了model_name则dump对应model下的相应算子。- 若指定的算子其输入涉及data算子会同时将data算子信息dump出来若需dump data算子需要一并填写data节点算子的后继节点才能dump出data节点算子数据。- 当需要dump模型中所有算子时不需要包含layer字段。optype_blacklist配置dump数据黑名单黑名单中的指定类型的算子的输入或输出数据不会进行数据dump用户可通过该配置控制dump的数据量。该功能仅在执行模型数据dump操作且dump_level为op时生效同时支持和opname_blacklist配合使用。配置示例{dump:{dump_list:[{model_name:ResNet-50,optype_blacklist:[{name:convpos:[input0, input1]}]}],dump_path:/home/output,dump_mode:input,}}以上示例表示不对conv算子的input0数据和input1数据执行dump操作conv为算子类型。optype_blacklist中包括name和pos字段配置时需注意- name表示算子类型支持指定为ATC模型转换后的算子类型配置为空时该过滤项不生效。- pos表示算子的输入或输出仅支持配置为inputn或outputn格式其中n表示输入输出索引号。配置为空时该过滤项不生效。- optype_blacklist内最多支持配置100个过滤项。- 如果配置了model_name则仅对该model下的算子生效。如果不配置model_name则对所有model下的算子生效。opname_blacklist配置dump数据黑名单黑名单中的指定名称的算子的输入或输出数据不会进行数据dump用户可通过该配置控制dump的数据量。该功能仅在执行模型数据dump操作且dump_level为op时生效同时支持和optype_blacklist配合使用。配置示例{dump:{dump_list:[{model_name:ResNet-50,opname_blacklist:[{name:convpos:[input0, input1]}]}],dump_path:/home/output,dump_mode:input,}}以上示例表示不对conv算子的input0数据和input1数据执行dump操作conv为算子名称。opname_blacklist中包括name和pos字段配置时需注意- name表示算子名称支持指定为ATC模型转换后的算子名称配置为空时该过滤项不生效。- pos表示算子的输入或输出仅支持配置为inputn或outputn格式其中n表示输入输出索引号。配置为空时该过滤项不生效。- opname_blacklist内最多支持配置100个过滤项。- 如果配置了model_name则仅对该model下的算子生效。如果不配置model_name则对所有model下的算子生效。opname_range配置dump数据范围对begin到end闭区间内的数据执行dump操作。该功能仅在执行模型数据dump操作且dump_level为op时生效。配置示例{dump:{dump_list:[{model_name:ResNet-50,opname_range:[{begin:conv1, end:relu1 }, {begin:conv2, end:pool1}]}],dump_mode:output,dump_level: op,dump_path:/home/output}}以上示例表示对conv1到relu1、conv2到pool1闭区间内的数据执行dump操作conv1、relu1、conv2、pool1表示算子名称。配置时需注意- model_name不允许为空。- begin和end中的参数表示算子名称支持指定为ATC模型转换后的算子名称。- begin和end不允许为空且只能配置为非data算子若begin和end范围内算子的输入涉及data算子会同时对data算子信息执行dump操作。dump_path必选dump数据文件存储到运行环境的目录该目录需要提前创建且确保安装时配置的运行用户具有读写权限。支持配置绝对路径或相对路径- 绝对路径配置以“/”开头例如/home/output。- 相对路径配置直接以目录名开始例如output。dump_modedump数据模式。- inputdump算子的输入数据。- outputdump算子的输出数据默认取值output。- alldump算子的输入、输出数据。注意配置为all时由于部分算子在执行过程中会修改输入数据例如集合通信类算子HcomAllGather、HcomAllReduce等因此系统在进行dump时会在算子执行前dump算子输入在算子执行后dump算子输出这样针对同一个算子算子输入、输出的dump数据是分开落盘会出现多个dump文件在解析dump文件后用户可通过文件内容判断是输入还是输出。dump_leveldump数据级别取值- op按算子级别dump数据。- kernel按kernel级别dump数据。- all默认值op和kernel级别的数据都dump。默认配置下dump数据文件会比较多例如有一些aclnn开头的dump文件若用户对dump性能有要求或内存资源有限时则可以将该参数设置为op级别以便提升dump性能、精简dump数据文件数量。说明算子是一个运算逻辑的表示如加减乘除运算kernel是运算逻辑真正进行计算处理的实现需要分配具体的计算设备完成计算。dump_op_switch单算子调用场景包括单算子模型执行和单算子API执行下是否开启dump数据采集。- on开启。- off关闭默认取值off。dump_step指定采集哪些迭代的dump数据。推理场景无需配置。不配置该参数默认所有迭代都会产生dump数据数据量比较大建议按需指定迭代。多个迭代用“”分割例如0510也可以用“-”指定迭代范围例如03-510。配置示例{dump:{dump_list:[......],dump_path:/home/output,dump_mode:output,dump_op_switch:off,dump_step: 03-510}}训练场景下若通过acl.json中的dump_step参数指定采集哪些迭代的dump数据又同时在GEInitialize接口中配置了ge.exec.dumpStep参数该参数也用于指定采集哪些迭代的dump数据则以最后配置的参数为准。GEInitialize接口的详细介绍请参见《图开发指南》。dump_data算子dump内容类型取值- tensor: dump算子数据默认为tensor。- stats: dump算子统计数据结果文件为csv格式文件中包含算子名称、输入/输出的数据类型、最大值、最小值等。通常dump数据量太大并且耗时长可以先对算子统计数据进行dump根据统计数据识别可能异常的算子然后再dump算子数据。dump_stats当dump_datastats时可通过本参数设置收集统计数据中的哪一类数据。仅Atlas A2 训练系列产品/Atlas A2 推理系列产品支持该参数。本参数取值如下若不指定取值默认采集Max、Min、Avg、Nan、Negative Inf、Positive Inf数据- Maxdump算子统计数据中的最大值。- Mindump算子统计数据中的最小值。- Avgdump算子统计数据中的平均值。- Nandump算子统计数据中未定义或不可表示的数值仅针对浮点类型half、bfloat、float。- Negative Infdump算子统计数据中的负无穷值仅针对浮点类型half、bfloat、float。- Positive Infdump算子统计数据中的正无穷值仅针对浮点类型half、bfloat、float。- L2normdump算子统计数据的L2Norm值。配置示例{dump:{dump_list:[......],dump_path:/home/output,dump_mode:output,dump_data:stats,dump_stats:[Max, Min]}}异常算子Dump配置异常算子Dump配置用于导出异常算子的输入输出数据、workspace信息、Tiling信息等。导出的数据用于分析AI Core Error问题**默认不启用该Dump配置。**关于AI Core Error问题的信息收集及定义详细说明请参见《故障处理》。通过配置dump_scene参数值开启异常算子Dump功能配置文件中的示例内容如下表示开启轻量化的exception dump{ dump:{ dump_path:output, dump_scene:aic_err_brief_dump } }详细配置说明及约束如下dump_scene参数支持如下取值aic_err_brief_dump表示轻量化exception dump用于导出AI Core错误算子的输入输出、workspace数据。aic_err_norm_dump表示普通exception dump在轻量化exception dump基础上还会导出Shape、Data Type、Format以及属性信息。aic_err_detail_dump在轻量化exception dump基础上还会导出AI Core的内部存储、寄存器以及调用栈信息。配置该选项时有以下注意事项该选项仅支持以下型号且需配套25.0.RC1或更高版本的驱动才可以使用Atlas A3 训练系列产品/Atlas A3 推理系列产品Atlas A2 训练系列产品/Atlas A2 推理系列产品您可以单击Link在“固件与驱动”页面下载Ascend HDK 25.0.RC1或更高版本的驱动安装包并参考相应版本的文档进行安装、升级。导出dump文件过程中会暂停问题算子所在的AI Core因此可能会影响Device上其它业务进程的正常执行导出dump文件后AI Core会自动恢复。因此多个Host侧用户业务进程指定同一个Device的场景下不建议使用aic_err_detail_dump选项。导出dump文件后会强制退出Host侧用户业务进程强制退出过程中的报错可不作为AI Core问题分析的输入。配置aic_err_detail_dump选项后如果生成了dump文件但不是*.core文件则表示aic_err_detail_dump对应的功能没有使能成功系统自动切换为按aic_err_brief_dump选项dump。lite_exception表示轻量化exception dump为了兼容旧版本效果等同于aic_err_brief_dump。dump_path是可选参数表示导出dump文件的存储路径。dump文件存储路径的优先级如下NPU_COLLECT_PATH环境变量 ASCEND_WORK_PATH环境变量 配置文件中的dump_path 应用程序的当前执行目录环境变量的详细描述请参见《环境变量参考》。若需查看导出的dump文件内容先将dump文件转换为numpy格式文件后再通过Python查看numpy格式文件详细转换步骤请参见《精度调试工具用户指南》。若将dump_scene参数设置为aic_err_detail_dump时需使用msDebug工具查看导出的dump文件内容详细方法请参见《算子开发工具用户指南》。异常算子Dump配置不能与模型Dump配置或单算子Dump配置同时开启。溢出算子Dump配置溢出算子Dump配置用于导出模型中溢出算子的输入和输出数据。导出的数据用于分析溢出原因定位模型精度的问题。默认不启用该Dump配置。将dump_debug参数设置为on表示开启溢出算子配置配置文件中的示例内容如下{ dump:{ dump_path:output, dump_debug:on } }详细配置说明及约束如下不配置dump_debug或将dump_debug配置为off表示不开启溢出算子配置。若开启溢出算子配置则dump_path必须配置表示导出dump文件的存储路径。获取导出的数据文件后文件的解析请参见《精度调试工具用户指南》。dump_path支持配置绝对路径或相对路径绝对路径配置以“/“开头例如/home。相对路径配置直接以目录名开始例如output。溢出算子Dump配置不能与模型Dump配置或单算子Dump配置同时开启否则会返回报错。仅支持采集AI Core算子的溢出数据。算子Dump Watch模式配置算子Dump Watch模式配置用于开启指定算子输出数据的观察模式。在定位部分算子精度问题且已排除算子本身的计算问题后若怀疑被其它算子踩踏内存导致精度问题可开启Dump Watch模式。默认不开启Dump Watch模式。将dump_scene参数设置为watcher开启算子Dump Watch模式配置文件中的示例内容如下配置效果为1当执行完A算子、B算子时会把C算子和D算子的输出Dump出来2当执行完C算子、D算子时也会把C算子和D算子的输出Dump出来。将1、2中的C算子、D算子的Dump文件进行比较用于排查A算子、B算子是否会踩踏C算子、D算子的输出内存。{ dump:{ dump_list:[ { layer:[A, B], watcher_nodes:[C, D] } ], dump_path:/home/, dump_mode:output, dump_level:op, dump_scene:watcher } }详细配置说明及约束如下若开启算子Dump Watch模式则不支持同时开启溢出算子Dump配置dump_debug参数或开启单算子模型Dump配置dump_op_switch参数否则报错。该模式在单算子API Dump场景下不生效。在dump_list中通过layer参数配置可能踩踏其它算子内存的算子名称通过watcher_nodes参数配置可能被其它算子踩踏输出内存导致精度有问题的算子名称。若不指定layer则模型内所有支持Dump的算子在执行后都会将watcher_nodes中配置的算子的输出Dump出来。layer和watcher_nodes处配置的算子都必须是静态图、静态子图中的算子否则不生效。若layer和watcher_nodes处配置的算子名称相同或者layer处配置的是集合通信类算子算子类型以Hcom开头例如HcomAllReduce则只导出watcher_nodes中所配置算子的dump文件。对于融合算子watcher_nodes处配置的算子名称必须是融合后的算子名称若配置融合前的算子名称则不导出dump文件。dump_list内暂不支持配置model_name。开启算子Dump Watch模式则dump_path必须配置表示导出dump文件的存储路径。此处收集的dump文件无法通过文本工具直接查看其内容若需查看dump文件内容先将dump文件转换为numpy格式文件后再通过Python查看numpy格式文件详细转换步骤请参见《精度调试工具用户指南》。dump_path支持配置绝对路径或相对路径绝对路径配置以“/“开头例如/home。相对路径配置直接以目录名开始例如output。通过dump_mode参数控制导出watcher_nodes中所配置算子的哪部分数据当前仅支持配置为output。通过dump_level设置dump数据级别取值如下。默认配置下dump数据文件会比较多例如有一些aclnn开头的dump文件若用户对dump性能有要求或内存资源有限时则可以将该参数设置为op级别以便提升dump性能、精简dump数据文件数量。op按算子级别dump数据。算子是一个运算逻辑的表示如加减乘除运算。kernel按kernel级别dump数据。all默认值op和kernel级别的数据都dump。kernel是运算逻辑真正进行计算处理的实现需要分配具体的计算设备完成计算。算子Kernel调测信息Dump配置算子Kernel调测信息Dump配置用于导出Ascend C算子Kernel的调测信息便于定位算子问题。默认不启用该Dump配置。仅如下型号支持该配置Ascend 950PR/Ascend 950DTAtlas A3 训练系列产品/Atlas A3 推理系列产品Atlas A2 训练系列产品/Atlas A2 推理系列产品配置dump_kernel_data参数开启算子Kernel调测信息Dump功能配置文件中的示例如下{ dump:{ dump_kernel_data:printf,assert, dump_path:/home/ } }详细配置说明及约束如下dump_kernel_data指定导出数据的类型支持配置多个类型用英文逗号隔开。如果未配置该字段但启用了模型Dump配置、单算子Dump配置则默认按all导出调测信息。当前支持如下类型all导出以下所有类型调测的输出数据。printf导出通过AscendC::printf调测的输出数据。tensor导出通过AscendC::DumpTensor调测的输出数据。assert导出通过assert/ascendc_assert调测的输出数据。timestamp导出通过AscendC::PrintTimeStamp调测的输出数据。dump_path启用算子Kernel调测信息Dump功能时dump_path必须配置表示导出Dump文件的存储路径支持配置绝对路径或相对路径。Dump文件存储路径的优先级如下ASCEND_DUMP_PATH环境变量 ASCEND_WORK_PATH环境变量 配置文件中的dump_path环境变量的详细描述请参见《环境变量参考》。导出的Dump文件无法通过文本工具直接查看其内容若需查看需使用show_kernel_debug_data工具将调测信息解析为可读格式工具使用指导请参见《Ascend C算子开发指南》。Profiling采集信息配置Profiling采集信息配置配置示例、说明及约束请参见《性能调优工具用户指南》。默认不启用Profiling采集信息配置。建议不要同时配置Dump信息和Profiling采集信息否则Dump操作会影响系统性能导致Profiling采集的性能数据指标不准确。算子缓存信息老化配置算子缓存信息老化配置通过单算子模型方式执行单个算子时aclopUpdateParams接口执行单算子除外为节约内存和平衡调用性能可通过max_opqueue_num参数配置“算子类型-单算子模型”映射队列的最大长度如果长度达到最大则会先删除长期未使用的映射信息以及缓存中的单算子模型再加载最新的映射信息以及对应的单算子模型。如果不配置映射队列的最大长度则默认最大长度为20000。单算子模型执行是指基于图IR执行算子先编译算子例如使用ATC工具将Ascend IR定义的单算子描述文件编译成算子om模型文件再调用acl接口加载算子模型例如aclopSetModelDir接口最后调用acl接口执行算子例如aclopExecuteV2接口。通过max_opqueue_num参数配置“算子类型-单算子模型”映射队列的最大长度实现算子缓存信息老化配置文件中的示例内容如下{ max_opqueue_num: 10000 }相关配置说明及约束如下对于静态加载的算子是指加载单算子编译成的*.om文件例如aclopSetModelDir接口老化配置无效不会对该部分的算子信息做老化。对于在线编译的算子是指调用acl接口直接编译算子例如aclopCompile、aclopCompileAndExecuteV2等接口内部会按照入参加载单算子模型老化配置有效。如果用户调用aclopCompile接口编译算子、调用aclopExecuteV2接口执行算子则在编译算子后需及时执行算子否则可能导致执行算子时算子信息已被老化需要重新编译。建议调用aclopCompileAndExecuteV2接口编译执行算子。接口内部分开维护固定Shape和动态Shape算子的映射队列最大长度都为max_opqueue_num参数值。max_opqueue_num参数值为静态加载算子的单算子模型个数和在线编译算子的单算子模型个数的总和因此max_opqueue_num参数值应大于当前进程中可用的、静态加载算子的单算子模型个数否则会导致在线编译算子的信息无法老化。错误信息上报模式配置**错误信息上报模式配置**用于控制aclGetRecentErrMsg接口按进程或线程级别获取错误信息默认按线程级别。err_msg_mode参数取值范围0为默认值表示按线程级别获取错误信息1表示按进程级别获取错误信息。配置文件中的示例内容如下{ err_msg_mode: 1 }默认Device配置示例默认Device配置用于配置默认的计算设备。若同时通过aclrtSetDevice接口指定Device则aclrtSetDevice接口优先级高。如果用户开启默认Device功能后若需要显式创建Context则需要调用aclrtSetDevice否则可能会导致业务异常。default_device参数处设置Device IDDevice ID可设置为0或十进制正整数用户可调用aclrtGetDeviceCount接口获取可用的Device数量后这个Device ID的取值范围[0, (可用的Device数量-1)]。配置文件中的示例内容如下{ defaultDevice:{ default_device:0 } }AI Core栈空间大小配置示例AI Core栈空间大小配置用于控制进程中Kernel执行时为每个AI Core分配的栈空间大小默认为32K字节。在编译AI Core算子时只有打开O0开关此处配置的AI Core栈空间大小才有效Ascend 950PR/Ascend 950DT上不存在该限制。仅如下型号支持该配置Ascend 950PR/Ascend 950DTAtlas A3 训练系列产品/Atlas A3 推理系列产品Atlas A2 训练系列产品/Atlas A2 推理系列产品aicore_stack_size参数处设置栈空间大小单位Byte取值有以下要求aicore_stack_size是16K的整数倍若传入aicore_stack_size不是16K的整数倍则会向上取整确保其为16K的整数倍。aicore_stack_size最小值为32K若传入的aicore_stack_size小于32K则按默认配置32K处理。各产品的aicore_stack_size最大值如下在Ascend 950PR/Ascend 950DT上aicore_stack_size最大值为128K。在Atlas A3 训练系列产品/Atlas A3 推理系列产品上aicore_stack_size最大值为192K。在Atlas A2 训练系列产品/Atlas A2 推理系列产品上aicore_stack_size最大值为192K。配置文件中的示例内容如下{ StackSize:{ aicore_stack_size:32768 } }SIMT算子栈空间大小配置示例SIMTSingle Instruction Multiple Thread栈空间大小配置用于控制每个线程中SIMT算子的栈空间大小以及SIMT算子的分支Divergence栈空间大小单位Byte。仅Ascend 950PR/Ascend 950DT支持该配置。simt_stack_size参数处设置SIMT算子每个线程的栈空间大小单位Byte。simt_divergence_stack_size参数处设置SIMT算子的分支Divergence栈空间大小单位Byte。simt_stack_size和simt_divergence_stack_size的取值都必须是128的整数倍如果传入的不是128的整数倍则接口内部会自动向上取整确保其为128的整数倍。配置文件中的示例内容如下{ StackSize: { simt_stack_size: 1024, simt_divergence_stack_size: 512 } }SIMT Printf维测空间大小配置示例SIMTSingle Instruction Multiple ThreadPrintf维测空间大小配置用于控制SIMT算子可以Printf打印的空间大小单位Byte。仅Ascend 950PR/Ascend 950DT支持该配置。simt_printf_fifo_size参数处设置SIMT算子Printf维测空间大小单位Byte。其取值都必须是8的整数倍如果传入的不是8的整数倍则接口内部会自动向上取整确保其为8的整数倍。simt_printf_fifo_size配置默认值2MB最小值是1MB最大值64MB。配置文件中的示例内容如下{ simt_printf_fifo_size: 1048576 }SIMD Printf维测空间大小配置示例SIMDSingle Instruction Multiple DataPrintf维测空间大小配置用于控制每个Core上SIMD算子可以Printf打印的空间大小单位Byte。仅如下型号支持该配置Ascend 950PR/Ascend 950DTAtlas A3 训练系列产品/Atlas A3 推理系列产品Atlas A2 训练系列产品/Atlas A2 推理系列产品simd_printf_fifo_size_per_core参数处设置SIMD算子Printf维测空间大小单位Byte。其取值都必须是8的整数倍如果传入的不是8的整数倍则接口内部会自动向上取整确保其为8的整数倍。simd_printf_fifo_size_per_core配置默认值32KB最小值是1KB最大值64MB。配置文件中的示例内容如下{ simd_printf_fifo_size_per_core: 1048576 }Event资源调度模式配置示例Event资源调度模式配置用于在捕获方式构建模型运行实例场景下控制Event资源的调度方式。仅如下型号支持该配置Ascend 950PR/Ascend 950DTAtlas A3 训练系列产品/Atlas A3 推理系列产品Atlas A2 训练系列产品/Atlas A2 推理系列产品event_mode参数取值范围0为默认值表示内存模式即Event资源数量受内存限制1表示硬件加速模式即Event资源数量受硬件规格限制但性能更优。配置文件中的示例内容如下{ acl_graph:{ event_mode:0 } }aclFinalizeaclError aclFinalize()产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√功能说明去初始化函数用于释放进程内acl接口使用的相关资源。对于涉及Device业务日志回传到Host的场景本接口默认增加2000ms延时实际最大延时可达2000ms以确保ERROR级别和EVENT级别日志完整回传防止不丢失。您可以将ASCEND_LOG_DEVICE_FLUSH_TIMEOUT环境变量设置为0命令示例export ASCEND_LOG_DEVICE_FLUSH_TIMEOUT0来取消该默认延时。关于ASCEND_LOG_DEVICE_FLUSH_TIMEOUT环境变量的详细描述请参见《环境变量参考》中的。参数说明无返回值说明返回0表示成功返回其他值表示失败请参见aclError。约束说明应用进程退出前应确保已调用aclFinalize或aclFinalizeReference接口完成去初始化否则可能会导致异常例如应用进程退出时有异常报错。不建议在析构函数中调用aclFinalize或aclFinalizeReference接口否则在进程退出时可能由于单例析构顺序未知而导致进程异常退出的问题。aclFinalizeReferenceaclError aclFinalizeReference(uint64_t *refCount)产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√功能说明去初始化函数用于释放进程内acl接口使用的相关资源。aclFinalizeReference接口内部涉及引用计数的实现aclInit接口每被调用一次则引用计数加一aclFinalizeReference接口每被调用一次则该引用计数减一当引用计数减到0时才会真正去初始化。aclFinalize接口与本接口的区别在于调用aclFinalize接口会将计数清零直接去初始化。参数说明参数名输入/输出说明refCount输入输出返回调用aclFinalizeReference后的引用计数。若不需要获取引用计数此处可传nullptr。返回值说明返回0表示成功返回其他值表示失败请参见aclError。约束说明应用进程退出前应确保已调用aclFinalize或aclFinalizeReference接口完成去初始化否则可能会导致异常例如应用进程退出时有异常报错。不建议在析构函数中调用aclFinalize或aclFinalizeReference接口否则在进程退出时可能由于单例析构顺序未知而导致进程异常退出的问题。aclInitCallbackRegisteraclError aclInitCallbackRegister(aclRegisterCallbackType type, aclInitCallbackFunc cbFunc, void *userData)产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√功能说明注册初始化回调函数。若在aclInit接口之前调用本接口则会在初始化时触发回调函数的调用若在aclInit接口之后调用本接口则会在注册时立即触发回调函数的调用。参数说明参数名输入/输出说明type输入注册类型按照不同的功能区分请参见aclRegisterCallbackType。cbFunc输入初始化回调函数。回调函数的函数原型为typedef aclError (*aclInitCallbackFunc)(const char *configStr, size_t len, void *userData);configStr跟aclInit接口中的json文件内容保持一致len表示json文件内容的长度单位Byte。userData输入待传递给回调函数的用户数据的指针。返回值说明返回0表示成功返回其他值表示失败请参见aclError。aclInitCallbackUnRegisteraclError aclInitCallbackUnRegister(aclRegisterCallbackType type, aclInitCallbackFunc cbFunc)产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√功能说明若不需要触发回调函数的调用可调用本接口取消注册回调函数。参数说明参数名输入/输出说明type输入注册类型按照不同的功能区分请参见aclRegisterCallbackType。cbFunc输入初始化回调函数。回调函数的函数原型为typedef aclError (*aclInitCallbackFunc)(const char *configStr, size_t len, void *userData);返回值说明返回0表示成功返回其他值表示失败请参见aclError。aclFinalizeCallbackRegisteraclError aclFinalizeCallbackRegister(aclRegisterCallbackType type, aclFinalizeCallbackFunc cbFunc, void *userData)产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√功能说明注册去初始化回调函数。在aclFinalize接口之前调用本接口在去初始化时触发回调函数的调用。参数说明参数名输入/输出说明type输入注册类型按照不同的功能区分请参见aclRegisterCallbackType。cbFunc输入去初始化回调函数。回调函数定义如下typedef aclError (*aclFinalizeCallbackFunc)(void *userData);userData输入待传递给回调函数的用户数据的指针。返回值说明返回0表示成功返回其他值表示失败请参见aclError。aclFinalizeCallbackUnRegisteraclError aclFinalizeCallbackUnRegister(aclRegisterCallbackType type, aclFinalizeCallbackFunc cbFunc)产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√功能说明若不需要触发回调函数的调用可调用本接口取消注册回调函数。参数说明参数名输入/输出说明type输入注册类型按照不同的功能区分请参见aclRegisterCallbackType。cbFunc输入去初始化回调函数。回调函数定义如下typedef aclError (*aclFinalizeCallbackFunc)(void *userData);返回值说明返回0表示成功返回其他值表示失败请参见aclError。【免费下载链接】runtime本项目提供CANN运行时组件和维测功能组件。项目地址: https://gitcode.com/cann/runtime创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考