NpuOpsTransformerExt【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer简介 | Overview该目录包含用于Qwen3-Next 推理的 NPU 融合算子实现目前包括rmsnormgated融合算子Gated Delta Network (GDN)融合算子这些算子以 PyTorch Extension 的形式实现并在安装后注册到torch.ops命名空间中供框架调用。核心组件 | Core Components本模块主要包含以下关键组件gated_delta_net/op_dir/算子实现目录主要包含op_name.cpp算子调用文件。op_kernel/算子 Kernel 具体实现代码。gated_delta_net/op_dir/CMakeLists.txt算子编译配置文件。npu_ops_transformer_ext/npu_ops_transformer_ext/npu_ops_def.cpp算子接口注册文件。环境要求 | PrerequisitesPython ≥ 3.8CANN Ascend ToolkitPyTorch ≥ 2.1.0torch_npu (PyTorchAdapter)上述依赖的安装与环境配置请参考 Qwen3-Next README。安装步骤 | Installation进入算子目录安装依赖pip install -r requirements.txt从源码构建.whl包python -m build --wheel -n安装构建好的.whl包pip install dist/*.whl --force-reinstall --no-deps可选如果需要重新编译建议先清理编译缓存python setup.py clean算子调用 | Usage完成编译并安装.whl包后自定义算子会注册到torch.ops命名空间中可通过如下方式调用import torch import npu_ops_transformer_ext # 调用自定义算子 out torch.ops.npu_ops_transformer_ext.my_ops(input)其中npu_ops_transformer_ext为算子注册的 namespacemy_ops为具体算子名称在npu_ops_def.cpp中定义当前模块包含的算子示例torch.ops.npu_ops_transformer_ext.recurrent_gated_delta_rule(...) torch.ops.npu_ops_transformer_ext.mambav2_rmsnormgated(...)具体输入参数格式请参考对应算子的实现代码。【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考