Jetson Nano上跑YOLOv5s模型：从TensorRT引擎生成到Python实时视频检测的保姆级避坑指南

张

张建站

2026/7/9 6:17:51

10分钟阅读

Jetson Nano上跑YOLOv5s模型：从TensorRT引擎生成到Python实时视频检测的保姆级避坑指南

Jetson Nano实战YOLOv5模型部署与实时视频检测全流程解析1. 边缘计算视觉应用的硬件选择在嵌入式视觉领域Jetson Nano凭借其出色的性价比和完整的CUDA生态成为众多开发者的首选平台。这款信用卡大小的开发板搭载了128核NVIDIA Maxwell架构GPU提供472 GFLOPS的浮点性能足以胜任大多数实时计算机视觉任务。与树莓派等通用单板计算机相比Jetson Nano在以下方面具有明显优势特性Jetson Nano 4GB树莓派4B 8GBGPU架构Maxwell 128核VideoCore VICUDA支持完整支持不支持典型推理速度(YOLOv5)15-20 FPS0.5-1 FPS功耗5-10W3-5W内存带宽25.6 GB/s4.3 GB/s实际部署中我们还需要注意硬件配置的几个关键点电源供应必须使用5V/4A电源适配器microUSB接口仅支持5V/2A无法满足峰值功耗需求散热方案被动散热片在持续负载下温度可达70°C以上主动风扇能有效控制在45°C以内存储选择建议使用UHS-I及以上规格的microSD卡或者通过USB3.0接口连接SSD# 检查Jetson Nano硬件信息的简便命令 !cat /proc/cpuinfo | grep model name !cat /proc/meminfo | grep MemTotal !tegrastats | grep GR3D2. 开发环境配置与优化JetPack SDK是Jetson平台的软件基石当前稳定版本为4.6.1包含以下核心组件Ubuntu 18.04 LTS (aarch64架构)CUDA 10.2cuDNN 8.0TensorRT 7.1OpenCV 4.1.1系统配置关键步骤镜像烧录使用SDK Manager工具可一站式完成系统镜像烧录和组件安装源配置替换为国内镜像源显著提升软件下载速度sudo sed -i s/ports.ubuntu.com/mirrors.tuna.tsinghua.edu.cn/g /etc/apt/sources.list sudo apt update基础工具链sudo apt install -y build-essential cmake git python3-dev python3-pip pip3 install -U pip setuptools性能优化技巧启用最大性能模式sudo nvpmodel -m 0 # 10W模式 sudo jetson_clocks # 锁定最高频率内存交换区优化针对4GB版本sudo fallocate -l 4G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile echo /swapfile swap swap defaults 0 0 | sudo tee -a /etc/fstab3. YOLOv5模型转换与TensorRT加速模型部署流程可分为三个关键阶段PyTorch模型导出python export.py --weights yolov5s.pt --include onnx --img 640 --batch 1重要参数说明--half启用FP16量化模型大小减半--dynamic允许动态输入尺寸--simplify应用ONNX简化优化TensorRT引擎生成import tensorrt as trt logger trt.Logger(trt.Logger.INFO) builder trt.Builder(logger) network builder.create_network(1 int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)) parser trt.OnnxParser(network, logger) with open(yolov5s.onnx, rb) as f: parser.parse(f.read()) config builder.create_builder_config() config.set_memory_pool_limit(trt.MemoryPoolType.WORKSPACE, 1 30) serialized_engine builder.build_serialized_network(network, config) with open(yolov5s.engine, wb) as f: f.write(serialized_engine)精度与速度权衡精度模式推理速度(FPS)mAP0.5显存占用FP3212.50.8561.2GBFP1618.70.8530.8GBINT825.30.8420.6GB常见问题解决方案遇到[TensorRT] ERROR: INVALID_ARGUMENT时检查ONNX版本是否与TensorRT兼容出现Out of memory错误时尝试减小batch size或输入分辨率对于自定义模型确保yololayer.h中的类别数正确修改4. Python接口实现与性能优化传统PyTorch方案在Jetson Nano上存在两个痛点依赖项庞大和Python推理效率低。我们采用纯NumPy方案实现后处理显著提升性能。核心优化点非极大值抑制(NMS)的NumPy实现def numpy_nms(boxes, scores, iou_threshold): x1 boxes[:, 0] y1 boxes[:, 1] x2 boxes[:, 2] y2 boxes[:, 3] areas (x2 - x1 1) * (y2 - y1 1) order scores.argsort()[::-1] keep [] while order.size 0: i order[0] keep.append(i) xx1 np.maximum(x1[i], x1[order[1:]]) yy1 np.maximum(y1[i], y1[order[1:]]) xx2 np.minimum(x2[i], x2[order[1:]]) yy2 np.minimum(y2[i], y2[order[1:]]) w np.maximum(0.0, xx2 - xx1 1) h np.maximum(0.0, yy2 - yy1 1) inter w * h ovr inter / (areas[i] areas[order[1:]] - inter) inds np.where(ovr iou_threshold)[0] order order[inds 1] return np.array(keep)视频处理流水线优化class VideoProcessor: def __init__(self, engine_path): self.cfx cuda.Device(0).make_context() self.stream cuda.Stream() self.engine self.load_engine(engine_path) self.context self.engine.create_execution_context() def process_frame(self, frame): # 异步数据传输和推理 host_input np.ascontiguousarray(frame) cuda_input cuda.mem_alloc(host_input.nbytes) cuda.memcpy_htod_async(cuda_input, host_input, self.stream) self.context.execute_async_v2( bindings[int(cuda_input), int(cuda_output)], stream_handleself.stream.handle) cuda.memcpy_dtoh_async(host_output, cuda_output, self.stream) self.stream.synchronize() return host_output多线程处理架构from threading import Thread from queue import Queue class ProcessingPipeline: def __init__(self): self.frame_queue Queue(maxsize3) self.result_queue Queue(maxsize3) def capture_thread(self): while True: ret, frame cap.read() if not ret: break self.frame_queue.put(frame) def inference_thread(self): while True: frame self.frame_queue.get() result trt_engine.process(frame) self.result_queue.put(result)5. 实时视频检测实战针对不同视频源我们需要采用差异化的处理策略1. USB摄像头采集cap cv2.VideoCapture(0) cap.set(cv2.CAP_PROP_FRAME_WIDTH, 640) cap.set(cv2.CAP_PROP_FRAME_HEIGHT, 480) cap.set(cv2.CAP_PROP_FPS, 30)2. CSI摄像头配置def gstreamer_pipeline( sensor_id0, capture_width1280, capture_height720, display_width640, display_height480, framerate30, flip_method0, ): return ( fnvarguscamerasrc sensor-id{sensor_id} ! fvideo/x-raw(memory:NVMM), width(int){capture_width}, height(int){capture_height}, fformat(string)NV12, framerate(fraction){framerate}/1 ! fnvvidconv flip-method{flip_method} ! fvideo/x-raw, width(int){display_width}, height(int){display_height}, format(string)BGRx ! fvideoconvert ! fvideo/x-raw, format(string)BGR ! appsink ) cap cv2.VideoCapture(gstreamer_pipeline(), cv2.CAP_GSTREAMER)3. 视频文件处理video cv2.VideoCapture(input.mp4) fourcc cv2.VideoWriter_fourcc(*XVID) out cv2.VideoWriter(output.avi, fourcc, 20.0, (640,480)) while True: ret, frame video.read() if not ret: break # 推理处理 boxes, scores, classes model.detect(frame) frame draw_results(frame, boxes, scores, classes) out.write(frame)性能基准测试结果输入源分辨率帧率(FPS)延迟(ms)CPU占用率USB摄像头640x48018.28565%CSI摄像头1280x72015.712072%视频文件1920x108012.415080%实用调试技巧当出现帧率不稳定时检查电源是否达到5V/4A标准遇到图像撕裂问题尝试在GStreamer管道中添加syncfalse参数内存不足时可尝试以下命令清空缓存sudo sh -c echo 3 /proc/sys/vm/drop_caches6. 模型调优与部署进阶模型剪枝技术from torch.nn.utils import prune parameters_to_prune ( (model.model[0].conv1, weight), (model.model[1].conv2, weight) ) prune.global_unstructured( parameters_to_prune, pruning_methodprune.L1Unstructured, amount0.2 )量化部署方案对比方案优点缺点适用场景FP16精度损失小(1%)加速比有限(1.5x)高精度要求的安防场景INT8显著加速(2-3x)需要校准数据集实时性要求的工业检测TensorRT稀疏化内存占用降低30%需要特定硬件支持内存受限的嵌入式设备多模型协同推理架构class MultiModelInference: def __init__(self): self.detector YOLOv5TRT(yolov5s.engine) self.classifier TRTEngine(resnet50.engine) def pipeline(self, img): boxes self.detector.detect(img) for box in boxes: crop img[box[1]:box[3], box[0]:box[2]] cls_result self.classifier.infer(crop) yield box, cls_result在实际部署中发现将输入分辨率从640x640降至480x480可使帧率提升40%而mAP仅下降5.8%。这种权衡在实时性要求高的场景非常实用。

【2026年阿里巴巴春招- 4月1日-工程岗-第一题- 等差数列模最大值】（题目+思路+JavaC++Python解析+在线测试)

题目内容给定一个无穷项等差数列 ai=a0+i⋅d（i≥0）a_i=a_0+i⋅d（i≥0）ai...

2026/7/9 6:24:09 阅读更多 →

【DamaiHelper】智能自动化抢票：演唱会门票高效解决方案

【DamaiHelper】智能自动化抢票：演唱会门票高效解决方案【免费下载链接】DamaiHelper 大麦网演唱会演出抢票脚本。项目地址: https://gitcode.com/gh_mirrors/dama/DamaiHelper 在热门演唱会门票开售瞬间，手动刷新页面的传统方式往往错失良机。…...

2026/7/9 4:06:22 阅读更多 →

达梦数据库-汉字转拼音首字母函数优化与性能分析

1. 达梦数据库汉字转拼音首字母函数基础实现第一次接触达梦数据库的汉字转拼音需求时，我翻遍了官方文档却找不到现成的函数。后来在社区里发现了这个用NLSSORT实现的方案，就像挖到宝一样兴奋。这个函数的原理其实很巧妙：它利用了达梦数据库…...

2026/7/9 14:08:59 阅读更多 →

从论文到实践：一维卷积神经网络在RUL预测中的复现与调优

1. 为什么选择一维卷积做RUL预测？我第一次接触RUL（剩余使用寿命）预测时，发现大多数论文都在用二维卷积处理传感器数据。直到实际处理CMAPSS航空发动机数据集时，才意识到一维卷积才是更自然的选择。想象一下&#xff0c…...

2026/7/9 17:20:07 阅读更多 →

STM32与SPI EEPROM高效数据存储与检索方案

1. 项目背景与核心需求在嵌入式系统开发中，快速精确的数据检索是一个常见但极具挑战性的需求。特别是在工业控制、医疗设备和物联网终端等场景下，系统往往需要在毫秒级时间内完成关键参数的读取和写入操作。传统基于Flash存储的方案存在擦写次数有限、操…...

2026/7/7 6:45:27 阅读更多 →

23-AGENTS.md高级用法

23 AGENTS.md 高级用法概述上一篇文章介绍了 AGENTS.md 的三层加载机制，这是 AGENTS.md 体系的基础。但在实际的大型项目中，三层结构往往不够灵活。团队经常面临这样的场景：同一个 Git 仓库中包含多个服务或模块，每个模块都有自己的独特规范，同时还要继承项目级的通用…...

2026/7/8 3:11:33 阅读更多 →