腾讯具身大模型开源了机器人看懂、想清、做到的全流程这次都有专属模型腾讯 Robotics X 实验室和混元团队最近联合开源了一款专门给机器人用的多模态大模型——HY-Embodied-0.5-X。这个模型的出现解决了一个很实在的问题通用大模型很强但直接塞给机器人用往往在空间感知和动作执行上差点意思。HY-Embodied-0.5-X就是从底层架构到训练范式专门为具身智能量身定制的。MoT架构比MoE更适合机器人HY-Embodied-0.5系列包含两个版本MoT-2B端侧部署和MoE-32B复杂推理。值得专门说的是MoTMixture-of-Transformers架构。它和常见的MoE混合专家有什么不同MoE的核心是让模型在不同任务时只激活部分专家子集节省计算量。MoT在此基础上额外引入了视觉潜在Token机制——在处理图像时不是把所有像素都变成Token而是先压缩成更精炼的视觉表征再与语言空间对齐。这样做的好处是机器人在看一个物体时不需要处理海量像素级的信息而是直接提取空间关系、物体轮廓、动作目标等高语义信息。这对于需要实时响应的机器人来说推理速度会快很多。此外MoT还用了原生分辨率视觉编码器不需要先把图像缩放到固定尺寸再处理保持了原始视觉信息的精度。实测数据16项最佳刷新行业纪录HY-Embodied-0.5系列在22项权威具身智能评测中取得了16项SOTA。具体来说MoT-2B端侧版本40亿总参数推理时只激活20亿。在16项基准测试中超越所有同规模最优模型。换句话说2B级别里它最强。MoE-32B版本总参数4070亿激活320亿性能可比肩Gemini 3.0 Pro前沿水平。32B版本对标Gemini 3.0 Pro这个信息挺有意思——腾讯第一次把自己的具身模型直接放到和Gemini同一个量级上比较而不是只说国内领先。“看懂、想清、做到”机器人从指令执行走向任务自主HY-Embodied-0.5-X的核心能力可以概括为三个方向第一看懂精细操作理解。不是简单地识别物体在哪里而是理解物体之间的空间关系、遮挡关系、材质特性比如拿起这个玻璃杯和拿起这个铁块的动作力道完全不同。第二想清长程规划。机器人在执行复杂任务时需要把一个高层次目标分解成多个子步骤并能在执行过程中根据环境变化调整计划。第三做到动作预测与风险判断。机器人不仅要规划动作还要预判动作可能带来的后果撞到障碍物、物体滑落等并提前规避。训练数据超1亿条具身专属数据支撑这些能力的基础是超过1亿条高质量具身专属数据包括自采的机器人第一视角操作数据和开源具身数据集。团队还引入了思维链标注和数据质量闭环——在训练过程中让模型显式输出推理步骤“先看夹爪位置再计算抓取角度……”然后通过质量筛选只保留正确推理对应的数据逐步提升模型表现。训练策略采用了分阶段迭代先用小规模高质量数据验证训练配置确认有效后再扩展到大规模。这种方法提升了训练效率和稳定性。开源已上线GitHub和Hugging Face目前MoT-2B模型权重及推理代码已登陆GitHub和Hugging FaceHY-Embodied-0.5-X增强版也同步开源。这意味着开发者和研究者可以直接下载模型在自己的机械臂/移动机器人上做部署和微调不需要找腾讯申请。Github地址https://github.com/Tencent-Hunyuan/HY-Embodied-0.5-XHugging face地址https://huggingface.co/tencent/HY-Embodied-0.5-X为什么这件事值得关注具身智能这几年一直是AI领域最热的赛道之一但落地卡脖子的问题始终是最后一公里——模型在仿真环境里表现不错放到真实机器人上就容易出问题。HY-Embodied-0.5-X这次专门针对真实交互场景优化加上MoT架构在视觉-语言对齐上的优势让机器人在物理世界里的可用性往前走了一步。从家庭服务机器人到工业柔性生产线这项开源成果都可能加速落地速度。文章来源AITOP100原文地址https://www.aitop100.cn/hy-embodied-0.5-x