腾讯开源机器人“最强大脑“：HY-Embodied-0.5-X发布，刷新22项评测16项最佳

张

张建站

2026/4/29 6:53:30

10分钟阅读

腾讯开源机器人“最强大脑“：HY-Embodied-0.5-X发布，刷新22项评测16项最佳

腾讯具身大模型开源了机器人看懂、想清、做到的全流程这次都有专属模型腾讯 Robotics X 实验室和混元团队最近联合开源了一款专门给机器人用的多模态大模型——HY-Embodied-0.5-X。这个模型的出现解决了一个很实在的问题通用大模型很强但直接塞给机器人用往往在空间感知和动作执行上差点意思。HY-Embodied-0.5-X就是从底层架构到训练范式专门为具身智能量身定制的。MoT架构比MoE更适合机器人HY-Embodied-0.5系列包含两个版本MoT-2B端侧部署和MoE-32B复杂推理。值得专门说的是MoTMixture-of-Transformers架构。它和常见的MoE混合专家有什么不同MoE的核心是让模型在不同任务时只激活部分专家子集节省计算量。MoT在此基础上额外引入了视觉潜在Token机制——在处理图像时不是把所有像素都变成Token而是先压缩成更精炼的视觉表征再与语言空间对齐。这样做的好处是机器人在看一个物体时不需要处理海量像素级的信息而是直接提取空间关系、物体轮廓、动作目标等高语义信息。这对于需要实时响应的机器人来说推理速度会快很多。此外MoT还用了原生分辨率视觉编码器不需要先把图像缩放到固定尺寸再处理保持了原始视觉信息的精度。实测数据16项最佳刷新行业纪录HY-Embodied-0.5系列在22项权威具身智能评测中取得了16项SOTA。具体来说MoT-2B端侧版本40亿总参数推理时只激活20亿。在16项基准测试中超越所有同规模最优模型。换句话说2B级别里它最强。MoE-32B版本总参数4070亿激活320亿性能可比肩Gemini 3.0 Pro前沿水平。32B版本对标Gemini 3.0 Pro这个信息挺有意思——腾讯第一次把自己的具身模型直接放到和Gemini同一个量级上比较而不是只说国内领先。“看懂、想清、做到”机器人从指令执行走向任务自主HY-Embodied-0.5-X的核心能力可以概括为三个方向第一看懂精细操作理解。不是简单地识别物体在哪里而是理解物体之间的空间关系、遮挡关系、材质特性比如拿起这个玻璃杯和拿起这个铁块的动作力道完全不同。第二想清长程规划。机器人在执行复杂任务时需要把一个高层次目标分解成多个子步骤并能在执行过程中根据环境变化调整计划。第三做到动作预测与风险判断。机器人不仅要规划动作还要预判动作可能带来的后果撞到障碍物、物体滑落等并提前规避。训练数据超1亿条具身专属数据支撑这些能力的基础是超过1亿条高质量具身专属数据包括自采的机器人第一视角操作数据和开源具身数据集。团队还引入了思维链标注和数据质量闭环——在训练过程中让模型显式输出推理步骤“先看夹爪位置再计算抓取角度……”然后通过质量筛选只保留正确推理对应的数据逐步提升模型表现。训练策略采用了分阶段迭代先用小规模高质量数据验证训练配置确认有效后再扩展到大规模。这种方法提升了训练效率和稳定性。开源已上线GitHub和Hugging Face目前MoT-2B模型权重及推理代码已登陆GitHub和Hugging FaceHY-Embodied-0.5-X增强版也同步开源。这意味着开发者和研究者可以直接下载模型在自己的机械臂/移动机器人上做部署和微调不需要找腾讯申请。Github地址https://github.com/Tencent-Hunyuan/HY-Embodied-0.5-XHugging face地址https://huggingface.co/tencent/HY-Embodied-0.5-X为什么这件事值得关注具身智能这几年一直是AI领域最热的赛道之一但落地卡脖子的问题始终是最后一公里——模型在仿真环境里表现不错放到真实机器人上就容易出问题。HY-Embodied-0.5-X这次专门针对真实交互场景优化加上MoT架构在视觉-语言对齐上的优势让机器人在物理世界里的可用性往前走了一步。从家庭服务机器人到工业柔性生产线这项开源成果都可能加速落地速度。文章来源AITOP100原文地址https://www.aitop100.cn/hy-embodied-0.5-x

2026年国内数字化档案管理系统Top5推荐

2026年国内数字化档案管理系统Top5推荐数字化档案管理系统在政府、企业和教育机构中应用广泛，2026年的市场竞争将更加激烈。以下是基于技术成熟度、市场占有率及用户评价的综合推荐：星汉信息档案管理系统星汉信息档案管理领域具有领先优势，其…...

2026/4/29 6:48:24 阅读更多 →

Phi-4-mini-flash-reasoning中小企业应用：低成本构建专业级逻辑推理能力

Phi-4-mini-flash-reasoning中小企业应用：低成本构建专业级逻辑推理能力 1. 为什么中小企业需要专业级推理能力在当今商业环境中，逻辑推理和结构化分析能力已成为企业核心竞争力的重要组成部分。传统上，这类能力往往需要雇佣专业分析师或购…...

2026/4/29 6:44:24 阅读更多 →

启动mysql失败/usr/libexec/mysqld: Operation not permitted

这里写自定义目录标题容器环境的openeuler中安装启动mysql容器环境的openeuler中安装启动mysql 报错信息 [openeulerpython38-oe-0 ~]$ sudo /usr/libexec/mysql-prepare-db-dir mysqld.service Initializing MySQL database /usr/libexec/mysql-prepare-db-dir: line 97: …...

2026/4/29 6:40:50 阅读更多 →

如何3步完成百度文库文档纯净提取：突破付费限制的实用解决方案

如何3步完成百度文库文档纯净提取：突破付费限制的实用解决方案【免费下载链接】baidu-wenku fetch the document for free 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wenku 在信息获取过程中，百度文库的付费门槛、广告干扰和内容加载限…...

2026/4/29 2:05:35 阅读更多 →

zmq源码分析之DEALER/ROUTER 路由机制的应用场景

文章目录 1. 服务集群与负载均衡 2. 消息代理与路由器 3. 异步 RPC 系统 4. 聊天服务器 5. 游戏服务器 6. 金融交易系统 7. 物联网系统 8. 微服务架构代码示例：服务集群负载均衡器 (ROUTER) 服务实例 (DEALER) 客户端总结 DEALER/ROUTER 模式凭借其强大的路由能力和异步特性…...

2026/4/27 7:25:25 阅读更多 →

3分钟恢复Windows 11任务栏拖放功能：简单高效的终极解决方案

3分钟恢复Windows 11任务栏拖放功能：简单高效的终极解决方案【免费下载链接】Windows11DragAndDropToTaskbarFix "Windows 11 Drag & Drop to the Taskbar (Fix)" fixes the missing "Drag & Drop to the Taskbar" support in Windows…...

2026/4/27 3:27:18 阅读更多 →