# L1ToBiasTable Buffer数据搬运【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√Atlas 200I/500 A2 推理产品xAtlas 推理系列产品AI CorexAtlas 推理系列产品Vector CorexAtlas 训练系列产品xKirin X90xKirin 9030x功能说明头文件路径为basic_api/kernel_operator_data_copy_intf.hDataCopy数据搬运支持将矩阵计算用到的bias参数从L1 Buffer移动到BiasTable Buffer。函数原型连续搬运场景template typename T __aicore__ inline void DataCopy(const LocalTensorT dst, const LocalTensorT src, const uint32_t count)连续或非连续搬运场景高维切分template typename T __aicore__ inline void DataCopy(const LocalTensorT dst, const LocalTensorT src, const DataCopyParams repeatParams)连续或非连续搬运场景支持源操作数和目的操作数数据类型不一致template typename T, typename U __aicore__ inline void DataCopy(const LocalTensorT dst, const LocalTensorU src, const DataCopyParams repeatParams)参数说明表 1模板参数说明参数名称输入/输出含义T、U输入操作数的数据类型。具体支持情况请参考数据类型。表 2参数说明参数名输入/输出含义dst输出目的操作数类型为LocalTensor。存储位置为BiasTable BufferTPosition: C2目的地址需要64字节对齐。src输入源操作数类型为LocalTensor存储位置为L1 BufferTPosition: C1源地址需要32字节对齐。count输入参与搬运的元素个数。count * sizeof(T)需要32字节对齐若未对齐则搬运量会向下取整到32字节对齐。repeatParams输入搬运参数DataCopyParams类型。通过该参数可配置搬运的数据块大小、个数、间隔等信息同时支持非连续和连续搬运。具体定义请参考basic_api/interface/kernel_struct_data_copy.h参数说明见表3。表 3DataCopyParams结构体参数定义参数名称含义blockCount待搬运的连续传输数据块个数。uint16_t类型取值范围blockCount∈[0, 4095]。注blockCount 0表示不执行搬运该接口将被视为NOP空操作。blockLen待搬运的每个连续传输数据块长度uint16_t类型取值范围blockLen∈[0, 65535]。针对Atlas A3 训练系列产品/Atlas A3 推理系列产品和Atlas A2 训练系列产品/Atlas A2 推理系列产品单位为64字节。针对Ascend 950PR/Ascend 950DT单位为32字节blockLen必须为偶数。注blockLen 0表示不执行搬运该接口将被视为NOP空操作。srcGap源操作数相邻连续数据块的间隔前面一个数据块的尾与后面数据块的头的间隔单位为DataBlock32字节。uint16_t类型srcGap∈[0, 2^16-1]。• blockCount 1时srcGap无意义设置为0即可。• blockCount ≠ 1时当srcGap0时表示重复搬出源操作数的第一个数据块。dstGap目的操作数相邻连续数据块间的间隔前面一个数据块的尾与后面数据块的头的间隔uint16_t类型dstGap∈[0, 2^16-1]。针对Atlas A3 训练系列产品/Atlas A3 推理系列产品和Atlas A2 训练系列产品/Atlas A2 推理系列产品单位为64字节。针对Ascend 950PR/Ascend 950DT单位为32字节。• blockCount 1时dstGap无意义设置为0即可。• blockCount ≠ 1时当dstGap0时表示目的矩阵中搬入的每个数据块都会覆盖第一个数据块。数据类型针对Ascend 950PR/Ascend 950DT支持数据类型为src支持half、bfloat16_t、int32_t、floatdst支持int32_t、float。针对Atlas A3 训练系列产品/Atlas A3 推理系列产品支持数据类型为src支持half、int32_t、floatdst支持int32_t、float。针对Atlas A2 训练系列产品/Atlas A2 推理系列产品支持数据类型为src支持half、int32_t、floatdst支持int32_t、float。返回值说明无约束说明dst物理内存为BiasTable Buffer起始地址要求64字节对齐src物理内存为L1 Buffer起始地址要求32字节对齐。blockCount取值范围blockCount∈[0, 4095]blockCount 0表示指令不执行该接口将被视为NOP空操作。srcGap∈[0, 2^16-1]dstGap∈[0, 2^16-1]。如果BiasTable Buffer中的目标dst地址溢出将引发异常。当dst位于BiasTable Buffer时blockLen单位为64字节dstGap单位为32字节。调用示例无【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考