面向所有热爱硬核技术的你这一次用代码说话用性能封神。责编 | 梦依丹出品丨AI 科技大本营IDrgznai100在 DeepSeek-R1 和 Kimi K2.5 等顶级开源模型确立了万亿参数的工业基准后真正的极限性能压榨才刚刚开始。谁能在极高并发下打破内存墙谁能用最优雅的代码实现最高效的算子重构在当下的 AI 战场速度即是正义吞吐量决定生死。由 AMD 与 GPU MODE 联合发起的极客巅峰对决正式向全球发榜 2026 线上黑客松AMD E2E Model Speedrun 正式吹响集结号在这里你将直接操控 AMD 专为大模型打造的顶配云端 GPU 阵列在这里没有纸上谈兵的 PPT只有硬核的绝对速度与吞吐量。在这里你的极限优化不仅能赢取巨额美金更将直接合入主流开源框架定义下一代 AI 推理的工业标准你敢来迎战吗注CST 为中国标准时间百万美金奖池凭实力“拿钱”本次挑战赛设立了高达 110 万美元的总奖金池只要你的技术够硬名与利双丰收。决赛入围奖只要从预选赛杀出重围跻身 Top 10每支队伍保底斩获 10,000 美金 Track 1 赛道桂冠 (DeepSeek-R1-0528)$350,000 独揽 Track 2 赛道桂冠 (Kimi K2.5 1T FP4)$650,000 独揽注两大赛道完全独立有实力的团队完全可以双线作战包揽百万美金赛制硬核分秒必争的“大逃杀”比赛绝非易事本次大赛将采用“底层算子突围 端到端决赛大考”的双阶段赛制。能留到最后的注定是地表最强的性能架构师。预选赛 —— 底层内核的绝对厮杀所有参赛者需对三大核心 GPU 算子进行极限打磨1️⃣ MXFP4 MoE (最高 1500 分)2️⃣ MLA Decode (最高 1250 分)3️⃣ MXFP4 GEMM (最高 1000 分)每个内核问题的得分 最大分值 × [1 -排名分值/20]。排名按顺序所对应分值 0,1,2,…18,19。总分为三项内核问题得分之和采用上述方法。只有排名前 20 的算子才能获得积分总分排名前 10 的战队/个人方可拿到通往决赛的门票。总决赛 —— 真实世界的端到端狂飙Top 10 选手将获得 AMD 提供的单节点 8 卡云端 Instinct™ GPU 集群。你们需要在极致并发下挑战两大明星模型赛道 1DeepSeek-R1-0528 FP4 MTP赛道 1 评判标准在 4、32、128 三种并发度下你不仅要保证极高的吞吐量 (Token Throughput)还要死守低延迟的交互性 (Interactivity)更要确保模型精度不能掉本赛道要求 GSM8K ≥ 0.93。性能门槛三个并发级别必须同时达标赛道 2Kimi K2.5 1T FP4赛道 2 评判标准在4、32、128三种并发度下你不仅要保证极高的吞吐量 (Token Throughput)还要死守低延迟的交互性 (Interactivity)更要确保模型精度不能掉如 Track 1 要求 GSM8K ≥ 0.93性能门槛三个并发级别必须同时达标评分Token Throughput per GPU最高 600 分 Interactivity最高 400 分三个并发级别满分 3000 分。跑分不是终点我们寻找的不是为了跑分的“特供版代码”而是能真正造福全人类 AI 社区的工业级优化。终极必杀规则代码必须可 Merge所有具备获奖资格的团队其提交的代码必须在赛后 2-4 周内在 AMD 工程师的指导下成功向 AMD 官方仓库AMD ATOM / vLLM / SGLang发起 Pull Request 并完成合并。让你的名字永远镌刻在推动大模型时代前行的开源主分支上决战时刻表 (北京标准时间) 报名预选赛截止时间4 月 7 日 2:59 PMTOP 10 诞生 决赛排位战4 月 8 日 0:00 AM —— 5 月 16 日 2:59 PM 全球颁奖典礼 5 月 19 日如何加入这场算力狂欢无论你是 AI 底层优化老兵、CUDA/Triton 极客还是系统架构师、开源社区贡献者只要你对 AI 系统性能工程充满狂热这里就是你的主场支持个人或至多 3 人组队参赛第一步加入 AMD AI Developer Program获取官方弹药库。第二步查阅预选赛参考 kernels使用 Popcorn CLI 准备你的提交。 预选赛入口及工具库https://github.com/gpu-mode/reference-kernels别一个人战斗立刻加入 GPU MODE Discord 社区 及 微信比赛专属群与全球顶尖开发者同频共振获取实时赛事更新与官方技术支持