OpenAI 正式发布了两款开源权重语言模型——gpt-oss-120b 和 gpt-oss-20b,专为高性能推理、工具调用和高效部署而设计。这是该公司自 GPT-2 以来首次开放完整模型权重,且采用宽松的 Apache 2.0 许可证。

gpt-oss-120b 采用专家混合(Mixture-of-Experts)架构,每个 token 激活 51 亿个参数,在核心推理测试中表现可与专有模型 o4-mini 持平甚至超越,并可在单张 80GB GPU 上高效运行。较小的 gpt-oss-20b 模型则在 210 亿参数中激活 36 亿个参数,仅需 16GB 内存即可在消费级硬件上运行,非常适合本地设备推理或快速迭代,无需依赖云端。

两款模型都支持高级功能,包括链式推理(Chain-of-Thought)、工具调用和结构化输出。开发者可以根据需要调整推理深度,以平衡运行速度与准确率。

这些模型的训练技术借鉴自 OpenAI 内部的 o 系列模型,采用旋转位置编码(Rotary Positional Embeddings)、分组多查询注意力(Grouped Multi-Query Attention),并支持 128k 上下文长度。它们在编程、医疗、数学和智能体等领域的多项基准测试中表现出色,包括 MMLU、HealthBench、Codeforces 和 TauBench,即使与 o4-mini 和 GPT-4o 等闭源模型相比也毫不逊色。


OpenAI 在发布中强调,这些模型的链式推理部分并未经过直接人工监督,方便研究人员分析推理过程中的潜在问题,如偏见或滥用风险。

为评估安全性,OpenAI 使用生物学和网络安全等领域的对抗性数据,对模型进行了“最坏情况”微调测试。即使在高强度微调下,这些模型的能力依然未达到 OpenAI 《准备度框架》中定义的高风险级别。外部专家评审的意见也为最终发布提供了参考。此外,公司还发起了总奖金 50 万美元的红队挑战,进一步在真实场景中测试模型。

目前,这两款模型已在 Hugging Face 及多种部署平台上开放下载。20B 模型在本地运行只需 16GB 内存。一位 Reddit 用户提问:

这个模型能在离线电脑本地运行吗?运行它的最低配置(Altman 说是“高端”)到底是多少?

另一位用户回应:

下载完成后,运行时不需要联网。配置方面,至少需要 16GB 内存(显存或系统内存)才能让 20B 模型“正常跑起来”。一台 16GB 内存的 MacBook Air 可以每秒生成几十个 token,而现代 GPU 则能达到每秒上百个甚至更多。

微软也在将优化过的 20B GPU 版本引入 Windows,通过 ONNX Runtime 提供支持,并可在 Foundry Local 和 VS Code 的 AI Toolkit 中使用。