Linux内核调试实战：用ftrace追踪AMD GPU调度器（gpu_scheduler）的drm_run_job事件

张

张建站

2026/5/25 3:35:05

10分钟阅读

Linux内核调试实战：用ftrace追踪AMD GPU调度器（gpu_scheduler）的drm_run_job事件

Linux内核调试实战用ftrace追踪AMD GPU调度器的drm_run_job事件当GPU任务出现延迟或卡顿时如何快速定位问题根源对于Linux内核开发者和驱动工程师而言ftrace无疑是最强大的实时追踪工具之一。本文将带你深入探索如何利用ftrace框架特别是gpu_scheduler子系统下的tracepoint来可视化分析AMD GPU驱动中drm_run_job事件的完整生命周期。1. 理解GPU调度器与tracepoint基础现代GPU驱动采用复杂的调度机制来管理渲染任务。AMDGPU驱动中的gpu_scheduler负责协调多个ring buffer之间的任务提交与执行。在这个过程中drm_run_job事件标志着GPU任务被正式提交到硬件队列的关键时刻。ftrace是Linux内核内置的动态追踪框架相比重新编译内核或驱动模块它提供了零侵入式的观测能力。gpu_scheduler子系统暴露了多个关键tracepoint/sys/kernel/debug/tracing/events/gpu_scheduler/ ├── drm_run_job ├── drm_sched_job ├── drm_sched_job_wait_dep └── drm_sched_process_job这些tracepoint构成了GPU任务调度的完整观测链路。其中drm_run_job尤其重要它记录了任务被实际提交到硬件队列的瞬间包含了任务序列号、调度队列等关键信息。提示在开始追踪前确保系统已挂载debugfs并具有root权限mount -t debugfs none /sys/kernel/debug2. 配置ftrace追踪GPU调度事件2.1 启用tracepoint首先需要激活gpu_scheduler子系统下的相关事件# 进入trace事件目录 cd /sys/kernel/debug/tracing/events/gpu_scheduler # 启用drm_run_job事件 echo 1 drm_run_job/enable # 启用整个gpu_scheduler子系统 echo 1 ../enable为获得完整上下文建议同时启用相邻事件echo 1 drm_sched_job/enable echo 1 drm_sched_process_job/enable2.2 设置追踪过滤器当系统负载较高时可以通过过滤器减少噪声# 只追踪特定进程的GPU任务 echo comm chrome drm_run_job/filter # 清除过滤器 echo 0 drm_run_job/filter2.3 开始捕获数据启动追踪并运行测试负载# 清空现有trace echo /sys/kernel/debug/tracing/trace # 开始追踪 echo 1 /sys/kernel/debug/tracing/tracing_on # 运行测试应用... # ... # 停止追踪 echo 0 /sys/kernel/debug/tracing/tracing_on3. 解读drm_run_job追踪数据捕获的trace日志通常如下格式chrome-1234 [002] d..1. 123456.789012: drm_run_job: sched_job00000000a1b2c3d4, timelineamd-scheduler, context1, seqno42, ring_namegfx关键字段解析字段说明诊断价值sched_job任务指针唯一标识任务实例timeline调度时间线区分不同调度队列seqno序列号任务执行顺序分析ring_name硬件队列名定位具体执行单元通过分析这些数据我们可以计算任务在调度队列中的等待时间识别特定ring buffer的拥塞情况发现任务提交的频率异常4. 高级分析技巧4.1 追踪延迟分析结合多个事件计算各阶段耗时# 启用时间戳显示 echo 1 /sys/kernel/debug/tracing/options/latency-format # 典型工作流 # drm_sched_job - drm_run_job - drm_sched_process_job可以通过脚本自动化分析def analyze_latency(trace_file): jobs {} for line in trace_file: if drm_sched_job in line: job_id extract_job_id(line) jobs[job_id] {submit: extract_timestamp(line)} elif drm_run_job in line: job_id extract_job_id(line) jobs[job_id][start] extract_timestamp(line) elif drm_sched_process_job in line: job_id extract_job_id(line) jobs[job_id][complete] extract_timestamp(line) for job, times in jobs.items(): if submit in times and start in times: print(fJob {job} queue delay: {times[start] - times[submit]}ns)4.2 环形缓冲区状态监控AMDGPU使用ring fence机制管理任务依赖关系。通过trace数据可以重建ring buffer状态记录每个seqno对应的drm_run_job事件跟踪dma_fence_signal事件来自GPU中断计算生产-消费延迟生产位置: 最大seqno的drm_run_job 消费位置: 最近完成的dma_fence_signal 积压任务生产seqno - 消费seqno4.3 性能热点定位结合perf工具进行联合分析# 采样GPU调度相关函数 perf record -e cycles:u -g -a --filter sched_* || drm_run_job生成火焰图时可以将tracepoint事件作为关键节点插入直观显示调度开销占比。5. 实战案例诊断渲染卡顿假设用户报告Chrome浏览器中WebGL内容出现周期性卡顿。通过ftrace分析流程如下重现问题时捕获trace数据筛选Chrome进程的GPU任务grep comm chrome trace.log chrome_gpu.log分析任务间隔import re timestamps [] with open(chrome_gpu.log) as f: for line in f: if drm_run_job in line: ts float(line.split()[3].rstrip(:)) timestamps.append(ts) deltas [timestamps[i1]-timestamps[i] for i in range(len(timestamps)-1)] print(f平均间隔: {sum(deltas)/len(deltas)*1e6:.2f}μs) print(f最大间隔: {max(deltas)*1e6:.2f}μs)发现某些任务间隔异常增大16ms关联系统日志发现这些时段有CPU频率调节事件结论电源管理策略导致CPU降频间接影响GPU任务提交6. 自动化监控方案对于长期运行的图形工作站可以建立持续监控#!/bin/bash # 监控GPU调度延迟 trace_cmd() { echo function_graph /sys/kernel/debug/tracing/current_tracer echo 1 /sys/kernel/debug/tracing/events/gpu_scheduler/enable echo 1 /sys/kernel/debug/tracing/tracing_on sleep 30 echo 0 /sys/kernel/debug/tracing/tracing_on cat /sys/kernel/debug/tracing/trace /var/log/gpu_trace_$(date %s).log echo /sys/kernel/debug/tracing/trace } # 每小时运行一次 while true; do trace_cmd sleep 3600 done配合日志分析系统可以建立GPU调度健康度的基线指标在出现异常时自动报警。

10个Promise核心概念解析：Async-JavaScript-Cheatsheet项目深度教程

10个Promise核心概念解析：Async-JavaScript-Cheatsheet项目深度教程【免费下载链接】async-javascript-cheatsheet Cheatsheet for promises and async/await. 项目地址: https://gitcode.com/gh_mirrors/as/async-javascript-cheatsheet 想要掌握JavaScrip…...

2026/5/25 3:31:01 阅读更多 →

NexoPOS用户指南：从小白到专家的10个实用技巧

NexoPOS用户指南：从小白到专家的10个实用技巧【免费下载链接】NexoPOS The base version of NexoPOS, which is a web-Based Point Of Sale (POS) System build with Laravel, TailwindCSS, and Vue.Js. 项目地址: https://gitcode.com/gh_mirrors/ne/NexoPOS …...

2026/5/25 3:29:59 阅读更多 →

CANN/cann-outreach Atlas A2与A3架构对比

Atlas A2 vs A3 NPU 架构区别【免费下载链接】cann-outreach 项目地址: https://gitcode.com/cann/cann-outreach 架构映射代号SocVersionNpuArch芯片A2ASCEND910BDAV_2201Ascend910B1~B4, B2CA3ASCEND910B (含 Ascend910_93)DAV_2201Ascend910_93 关键点&#xff…...

2026/5/25 3:29:01 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/25 5:34:47 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/24 0:34:52 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/24 0:37:09 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/24 0:43:15 阅读更多 →