onnx之tensorrt推理过程

张

张建站

2026/7/2 22:01:17

10分钟阅读

完整地串联到从用户提供ONNX文件开始的整个流程中。这个过程主要分为加载编译期和运行期两个阶段全流程纵览从ONNX文件到推理结果下图清晰地展示了整个过程阶段一模型加载与编译这是最关键的幕后工作阶段用户只提供了一个ONNX文件路径但引擎在背后做了大量优化。用户发起请求用户代码创建Ort::Session并传入ONNX文件路径和配置好的TensorRT EP选项。模型加载与分割ONNX Runtime (ORT) 核心加载并解析ONNX文件形成一个计算图。然后ORT会根据TensorRT EP支持的算子列表将原始图进行分割Partition把TensorRT能够加速的部分子图标记出来准备交给TensorRT EP处理。准备NodeComputeInfo对于分割出的子图中的每一个节点TensorRT EP都需要提供一份“说明书”也就是NodeComputeInfo结构体。这个结构体定义了该节点的创建、计算和释放行为。调用create_state_func(核心步骤)EP遍历子图节点为每个节点调用我们在代码中看到的create_state_func这个lambda表达式。创建状态对象这个函数会创建一个TensorrtFuncState对象。std::unique_ptrTensorrtFuncState p std::make_uniqueTensorrtFuncState();就是在这里执行的。这个对象就像一个“百宝箱”里面存放了该节点所需的一切核心资源引用如builder_(TensorRT构建器)、指向engines_和contexts_映射的指针。编译配置如fp16_enable_,int8_enable_,dla_core_等用户指定的选项。输入输出信息如input_info_,output_info_描述了张量的名称和索引。缓存路径如cache_path_用于读写序列化的engine文件。同步原语如tensorrt_mu_的指针一个互斥锁用于后续的线程安全。保存状态初始化完毕后通过*state p.release();这个动态分配的TensorrtFuncState对象的所有权被转移给了ONNX Runtime的运行时框架。框架会拿着这个指针等待后续推理时使用。TensorRT引擎构建/加载在create_state_func被调用后或者在其内部的某个环节TensorRT EP会利用TensorrtFuncState中保存的配置调用真正的TensorRT API来构建Build或反序列化Deserialize一个ICudaEngine。如果开启了engine缓存 (engine_cache_enable_)并且缓存文件存在它会直接从磁盘加载。否则它会使用builder_和网络定义开始耗时的引擎优化和构建过程最后将构建好的engine也保存在与节点关联的状态中。Session准备就绪当所有节点的NodeComputeInfo都处理完毕并且对应的TensorRT引擎都构建/加载完成后InferenceSession的初始化就完成了随时可以接受推理请求。⚙️ 阶段二模型推理用户发起推理用户代码调用session.Run()并传入实际的输入数据。调用compute_funcONNX Runtime运行时框架将执行流转到TensorRT EP并传入之前保存的与该子图节点对应的FunctionState指针它实际上指向我们创建的TensorrtFuncState对象。恢复状态与执行推理compute_func(同样是lambda) 开始执行。恢复状态它做的第一件事就是TensorrtFuncState* trt_state reinterpret_castTensorrtFuncState*(state);将泛型的FunctionState转回具体的TensorrtFuncState指针从而可以访问之前保存的所有资源和配置。线程安全std::lock_guardstd::mutex lock(*(trt_state-tensorrt_mu_ptr));加锁保证在多线程环境下对TensorRT资源的访问是安全的。执行推理函数从状态对象中取出之前构建好的engine和context并从ONNX Runtime的OrtKernelContext中获取实际的输入张量和CUDA流 (stream)然后调用TensorRT的核心推理方法trt_context-enqueueV3(stream)。处理结果等待GPU计算完成后将输出张量的数据映射回ONNX Runtime的输出。返回结果推理结果沿着调用栈返回最终用户拿到模型的输出。阶段三资源清理当InferenceSession被销毁时ONNX Runtime会调用每个节点的release_state_func。这个函数非常简单就是delete static_castTensorrtFuncState*(state);确保之前动态分配的TensorrtFuncState对象被正确释放避免内存泄漏。总结一下你提到的create_state_func,compute_func,release_state_func三个lambda共同定义了TensorRT EP上一个算子节点的完整生命周期。而TensorrtFuncState对象则是这个生命周期的数据核心它像一个智慧的“时间胶囊”在编译期被创建并装满各种配置和资源引用然后在运行期被打开用于指导高效、安全的推理计算。

计算机毕业设计java基于人脸识别技术的考勤管理基于面部识别技术的智能签到与考勤统计分析平台的设计与开发融合生物特征识别的校园考勤与出勤率统计系统的构建与实现

计算机毕业设计java基于人脸识别技术的考勤管理hu2v89（配套有源码程序 mysql数据库论文） 本套源码可以在文本联xi,先看具体系统功能演示视频领取，可分享源码参考。随着教育信息化建设的不断深入和学校管理精细化要求的提高，传统…...

2026/7/2 22:00:51 阅读更多 →

高分子工程师必备｜功能母粒选型指南（密度/熔指/分散指数三维模型）

最近帮一家做PP薄壁注塑餐盒的客户解决色差和析出问题，前后试了四家母粒厂的样品。前三次都卡在量产稳定性上——要么熔体流动不均导致填充不良，要么分散不好出现麻点，最头疼的是同一型号不同批次密度波动超0.01g/cm，直接让模具排…...

2026/6/26 8:43:27 阅读更多 →

Java OOP 核心：从类与对象到执行机制全解析（含代码实战）

一、编程思想对比：面向过程 vs 面向对象（更具象的对比） 表格维度面向过程（C 语言）面向对象（Java）核心单位函数 / 过程（如 void sort(int[] arr)）类与对象（…...

2026/7/1 23:43:19 阅读更多 →

2026四级英语考试备考|英语四六级考试材料|英语四六级备考资料

2026四级英语考试备考|英语四六级考试材料|英语四六级备考资料资料全科都有英语四六级备考资料 PDFhttps://tool.nineya.com/s/1jpf2t49o 【英语真题】1. "Comprehension" most probably means（ ） A. 理解 B. 表达 C. 翻译 D. 写作答案&#…...

2026/7/1 12:39:34 阅读更多 →

2026年英语四级|2026年大学四级英语备考资料|2026四级备考

2026年英语四级|2026年大学四级英语备考资料|2026四级备考资料全科都有2026四级备考 PDFhttps://tool.nineya.com/s/1jpf2t49o 【英语真题】1. "Vocabulary" most probably means（ ） A. 词汇 B. 语法 C. 阅读 D. 听力答案：A 解析&…...

2026/7/2 16:29:59 阅读更多 →