MiniMax M3开源：稀疏注意力架构重塑长上下文游戏规则

张

张建站

2026/6/14 14:03:52

10分钟阅读

6月1日MiniMax正式发布第三代大模型MiniMax M3。这是继M2.7之后的新一代旗舰也是国内首个同时具备前沿编程能力、百万级超长上下文、原生多模态三项能力组合的开源模型6月12日MiniMax M3已经正式开源。从全注意力到稀疏注意力MSA架构登场M3的核心变化在于架构。M2系列采用的是传统的全注意力机制而M3换装了自研的MiniMax Sparse AttentionMSA稀疏注意力架构。这意味着什么传统Transformer在处理长序列时每个token都要和之前的所有token计算相似度计算量随序列长度呈平方级增长。当上下文扩展到100万token时传统的全注意力方案在工程上几乎无法实用——要么速度太慢要么成本太高。MSA的设计思路是先快速筛选出值得重点关注的KV块然后只对这些块执行精确计算。这就像考试前不是把整本教材从头读到尾而是先看目录、错题本和重点章节有针对性地复习。MSA稀疏注意力架构工作原理实际效果上MiniMax官方披露在100万上下文规模下M3单token计算量仅为上代模型的约1/20Prefill阶段提速超过9倍Decode阶段提速超过15倍。更关键的是这些加速并没有以牺牲能力为代价——MSA在对照实验中与全注意力能力基本打平。在底层推理算子层面MiniMax也做了重新设计。KV块为外层来聚合命中的query每块只读一次、访存连续计算访存比显著优于常规方法。官方称相关性能较主流开源方案提升4倍以上。编程与Agent能动手干活的新水平M3在编程能力上的定位是代码直接可交付而不是能跑但需要人改。在衡量真实软件工程能力的SWE-Bench Pro评测中M3得分59.0%超过GPT-5.5和Gemini 3.1 Pro接近Claude Opus 4.7。Terminal Bench 2.1中M3拿到66.0分领先Opus 4.7的64.1分和GPT-5.5的58.6分。在BrowseComp智能体评测中M3以83.5分超越Opus 4.7的79.3分。主要编程与Agent评测基准对比官方做了一个很有说服力的实测给M3一篇ICLR 2025杰出论文《Learning Dynamics of LLM Finetuning》要求其独立完成论文复现。M3连续运行接近12小时全程无人干预自主产出18次commit和23张实验图表成功跑通核心实验验证了论文中提出的方法。这个任务背后需要的能力组合是多方面的多模态理解论文图表公式、1M长上下文让论文代码实验日志一次性进窗口、强编程和Agent能力驱动长线程执行。三项能力协同M3全部做到。另一个更极限的测试是在NVIDIA Hopper架构GPU上让M3自主优化FP8矩阵乘Kernel。起点只是一份任务描述、一个评估脚本和一个跑不起来的Triton骨架没有任何参考实现。M3连续执行约24小时进行了147次benchmark提交、1959次工具调用最终将硬件峰值利用率从7.6%提升至71.3%实现9.4倍加速。最优解出现在第145次提交——中间经历多个性能平台期模型没有放弃而是继续换方向尝试。作为对比其余参测模型大多在前30次提交内就不再进展并退出。原生多模态从第零步开始的视觉对齐M3的多模态不是文本模型外挂图像编码器的拼接方案而是从第零步开始就进行多模态混合训练。MiniMax重构了整套数据管线将预训练数据规模扩充至百T量级。这使得文本和视觉语义空间从训练起点就高度对齐。模型可以直接理解表格截图、PDF扫描件、短视频帧而不需要额外的视觉编码器模块。更重要的是M3具备电脑桌面操作能力Computer Use。你可以让它打开本地软件、跨应用操作——比如帮我打开ERP客户端按照这份Excel批量录入发票信息这样的跨系统任务。在OmniDocBench多模态测试集上M3得分超过Gemini 3.1 Pro。在SVG-Bench综合评测中M3以63.7分超越Opus 4.7的62.3分。MiniMax M3三项核心能力开源与定价MiniMax M3已在HuggingFace和GitHub上完成开源支持私有集群部署和微调。这将使M3成为国内首个同时具备前沿编程、百万上下文、原生多模态三项能力组合的开源模型。512K上下文版本永久五折输入2.1元/百万tokens输出8.4元/百万tokens缓存读取0.42元/百万tokens。作为参考Claude Opus 4.6的输入定价约为15美元/百万tokens输出高达75美元。M3的发布验证了一个趋势大模型竞争正在从参数规模竞赛转向效率与实用性竞赛。当上下文窗口扩展到百万级当编程和Agent能力达到前沿水平当多模态理解从外挂模块变成原生能力——这些能力组合在一起意味着模型正在从会聊天进化到能干活。2026年6月12日MiniMax M3已经正式开源感兴趣的开发者可以积极关注。

Gemma-4-31B 推理加速的技术路径

随着大语言模型（LLM）在各个领域的广泛应用，模型的推理性能已成为决定其能否落地应用的关键因素。Gemma-4-31B 作为一款性能出色、参数适中的模型，平衡了生成质量与部署成本，受到了开发者们的广泛关注。然而&#xff0c…...

2026/6/14 14:03:51 阅读更多 →

MPC8540以太网控制器驱动开发：TSEC/FEC初始化与调试实战

1. 项目概述与核心价值在嵌入式网络设备开发中，以太网控制器的底层驱动配置是决定设备网络性能与稳定性的基石。飞思卡尔（现恩智浦）的MPC8540 PowerQUICC III处理器集成了高性能的TSEC（三速以太网控制器）和FEC&#xf…...

2026/6/14 14:02:26 阅读更多 →

Windows系统维护终极方案：Dism++场景化实战指南

Windows系统维护终极方案：Dism场景化实战指南【免费下载链接】Dism-Multi-language Dism Multi-language Support & BUG Report 项目地址: https://gitcode.com/gh_mirrors/di/Dism-Multi-language 你是否曾为Windows系统日益臃肿而烦恼？C盘…...

2026/6/14 14:00:56 阅读更多 →