中国首个通用具身基座模型发布

发布时间：2025-03-10 13:21:53

3月10日，上海机器人初创公司智元机器人正式发布智元启元大模型GenieOperator-1（GO-1），这是中国首个通用具身基座模型。智元机器人表示，这款模型具有泛化能力，能够在极少数据甚至零样本下泛化到新场景、新任务，降低了具身模型的使用门槛，降低了后训练成本。

据介绍，该模型开创性地提出了Vision-Language-Latent-Action（ViLLA）架构，实现了可以利用人类视频学习，完成小样本快速泛化。ViLLA架构是由VLM（多模态大模型） MoE（混合专家）组成，其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE中的Latent Planner（隐式规划器）借助大量跨本体和人类操作数据获得通用的动作理解能力，MoE中的Action Expert（动作专家）借助百万真机数据获得精细的动作执行能力。在推理时，VLM（多模态大模型）、Latent Planner（隐式规划器）和Action Expert（动作专家）三者协同工作。目前智元启元大模型已成功部署到智元多款机器人本体。

2024年年底，智元机器人曾发布AgiBot World百万真机数据集，尽管AgiBot World 数据集已经是目前最大的机器人真机示教数据集，但这样高质量带动作标签的真机数据量仍然有限，远少于互联网规模的数据集。为了解决具身智能数据困境，智元机器人采用Latent Actions（隐式动作）来建模当前帧和历史帧之间的隐式变化，然后通过Latent Planner（隐式规划器）预测这些Latent Actions（隐式动作），从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

智元机器人表示，通过ViLLA创新性架构，智元机器人在五种不同复杂度任务上测试 GO-1大模型，相比已有的最优模型，GO-1平均成功率提高了32%。其中在“Pour Water”（倒水）、“Table Bussing”（清理桌面）和 “Restock Beverage”（补充饮料）任务中表现突出。此外，GO-1大模型还可以搭配智元一整套数据回流系统，可以从实际执行遇到的问题数据中持续进化学习，“越用越聪明”。

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：bangqikeconnect@gmail.com

中国首个通用具身基座模型发布

相关阅读

新闻推荐

最新资讯