大模型训练时如何计算显存占用

张

张建站

2026/6/11 13:04:58

10分钟阅读

首先了解一些基本概念以Llama13B为例首先是输入输出这里的2是因为每个值都是float16占两个字节然后转换为MB输入输出相加为20MB所占显存大小和其他部分相比可以忽略不计这里的2是因为每个值都是float16占两个字节1B和1GB大致相当都是float32存储的为什么优化器要存模型参数从归属上看模型参数属于 Model优化器属于 Optimizer。从物理内存上看优化器不复制模型参数而是通过引用直接修改它们但优化器会为每个参数分配额外的状态缓存如动量缓冲池。在大模型显存规划中评估优化器带来的显存压力时必须将这部分“辅助状态”计算在内例如 Adam 需要额外增加约 8~16 GB/十亿参数的显存消耗具体取决于精度格式。为什么平滑值不能用float16因为会丢失精度梯度很小学习率更小在反向传播中会用到前向传播中的激活值https://zhuanlan.zhihu.com/p/673916177关于激活值显存占用更详细可以参考上面这个链接具体的 34 是一个经验估算值或特定实现下的精确计数涵盖了 LayerNorm 的统计量、MLP 层的多个线性变换输入输出缓存等。这里的系数 5 可能对应Q, K, V, Score, Output 这 5 个主要张量的保存需求。激活值计算好像漏乘了2FP16占两个字节计算 QKT。其中 Q 和 K 的 shape 都是[b, a, s, h/a]。矩阵乘法后得到的分数矩阵 shape 为[b, a, s, s]。显存占用需要保存 Q 和 K 用于反向传播大小为 bsh。分数矩阵本身大小为 bs^2a。在计算总显存时Attention模块与序列长度相关的主要二次方项来自于 bs^2a 将sbh提取出括号后得到 as/h参考视频RethinkFun投稿视频-RethinkFun视频分享-哔哩哔哩视频

革命性暗黑3自动化助手：D3keyHelper智能化游戏解放方案

革命性暗黑3自动化助手：D3keyHelper智能化游戏解放方案【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面，可自定义配置的暗黑3鼠标宏工具。项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper 还在为暗黑破坏神3中繁琐的重复操…...

2026/6/11 13:01:20 阅读更多 →

3dsconv：轻松将3DS游戏文件转换为CIA格式的完整指南

3dsconv：轻松将3DS游戏文件转换为CIA格式的完整指南【免费下载链接】3dsconv Python script to convert Nintendo 3DS CCI (".cci", ".3ds") files to the CIA format 项目地址: https://gitcode.com/gh_mirrors/3d/3dsconv 还在为.3ds…...

2026/6/11 12:55:52 阅读更多 →

MATLAB实战：手把手教你绘制汽车驱动力-行驶阻力平衡图（附完整代码）

MATLAB实战：汽车驱动力-行驶阻力平衡图绘制全解析在汽车工程领域，动力性能分析是评估车辆设计合理性的关键环节。对于车辆工程专业的学生和初入行业的工程师而言，如何将课本上的理论公式转化为直观的可视化图表，往往是一个令人头…...

2026/6/11 12:47:01 阅读更多 →

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…...

2026/6/11 12:07:23 阅读更多 →

2026实测盘点｜适合国内高校生的AI写作平台，降重润色哪家强？

2026年毕业季，学术审查全面加码。教育部明确要求毕业论文AIGC率不得超过30%，985/211院校更是将红线压到了20%以内，硕士论文甚至卡到15%。与此同时，知网上线AIGC 3.0系统，可实现段落级内容溯源；维普引入语义…...

2026/6/10 19:45:23 阅读更多 →

JewelCraft：Blender珠宝设计的终极免费解决方案

JewelCraft：Blender珠宝设计的终极免费解决方案【免费下载链接】jewelcraft Blender add-on for jewelry design 项目地址: https://gitcode.com/gh_mirrors/je/jewelcraft JewelCraft是一款专为珠宝设计师和3D艺术家打造的Blender插件，提供完整…...

2026/6/11 12:09:54 阅读更多 →