训练一上大模型就 OOM，别先只会调 batch size：我在 RTX 3090 上把 activation checkpointing 的 3 条路都跑了一遍

张

张建站

2026/5/8 17:36:12

10分钟阅读

训练一上大模型就 OOM，别先只会调 batch size：我在 RTX 3090 上把 activation checkpointing 的 3 条路都跑了一遍很多人一遇到训练 OOM，第一反应就是把batch_size=8改成4，再改成2，最后把吞吐砍到自己都不想看。但我在 RTX 3090 上把同一个小型 Transformer 分别按不开 checkpoint、隔层 checkpoint、全量 checkpoint 跑完后发现：真正更值得先回答的，不是“要不要开”，而是你到底在用它换哪一层内存，又愿意多付出多少重算时间。如果你最近在做 SFT、长序列训练、视觉 encoder 微调，或者面试里被问到“训练 OOM 怎么排查”，这篇文章最应该带走的不是一句“gradient checkpointing 能省显存”，而是这套更实用的判断顺序：先分清你卡的是权重、优化器状态还是激活；再决定 checkpoint 是默认起点、补救手段，还是根本不该先动的旋钮。1. 先把名字讲清：activation checkpointing 和 gradient checkpointing 经常说的是同一件事这两个词在社区里经常被混用，尤其是在 PyTorch 和 Hugging Fac

c++怎么在读取CSV时自动过滤掉符合特定业务逻辑条件的非法行【实战】

应使用std::getline逐行读取后按业务规则校验，再用状态机解析字段；非法行多因引号处理不当导致切分错误，须先校验再转换类型。用 std::getline 逐行读取再判断，别碰正则或第三方CSV库CSV不是结构化格式，C标准库没有原生…...

2026/5/8 17:36:06 阅读更多 →

中兴光猫配置解密终极指南：5分钟学会配置文件加解密

中兴光猫配置解密终极指南：5分钟学会配置文件加解密【免费下载链接】ZET-Optical-Network-Terminal-Decoder 项目地址: https://gitcode.com/gh_mirrors/ze/ZET-Optical-Network-Terminal-Decoder 你是否曾经遇到过中兴光猫配置文件无法打开的困扰&#xf…...

2026/5/8 17:35:57 阅读更多 →

别再硬调PI参数了！用TI的计算法给你的FOC电流环找个靠谱起点（含耦合项分析）

从电机参数到PI控制器：科学计算FOC电流环参数的完整方法论在电机控制领域，盲目调试PI参数就像在黑暗中摸索——你可能最终会找到出口，但过程充满不必要的碰撞与挫折。对于中高级FOC开发者而言，真正需要的是从电机物理参数到控制器…...

2026/5/8 17:35:46 阅读更多 →

10分钟掌握NSC_BUILDER：Switch游戏文件管理终极指南

10分钟掌握NSC_BUILDER：Switch游戏文件管理终极指南【免费下载链接】NSC_BUILDER Nintendo Switch Cleaner and Builder. A batchfile, python and html script based in hacbuild and Nuts python libraries. Designed initially to erase titlerights encryption…...

2026/5/8 5:18:34 阅读更多 →

适合学校行政校内会议场景的，学校会议转行动项整理技巧

2026年多数学校都在推校内工作闭环管理，行政校内会议结束后，最头疼的就是从一堆零散讨论里整理出可落地的行动项，漏项、错记责任人、错过截止时间都是常事，还给后续工作埋坑，这里给你一套可直接落地的整理技巧。某区公…...

2026/5/7 21:34:19 阅读更多 →

Degrees of Lewdity汉化版终极完整指南：从零开始的中文化体验之旅

Degrees of Lewdity汉化版终极完整指南：从零开始的中文化体验之旅【免费下载链接】Degrees-of-Lewdity-Chinese-Localization Degrees of Lewdity 游戏的授权中文社区本地化版本项目地址: https://gitcode.com/gh_mirrors/de/Degrees-of-Lewdity-Chinese-Locali…...

2026/5/7 21:33:58 阅读更多 →