智元推出首个通用具身基座模型:不做大模型,机器人没有未来
创始人
2025-03-10 17:36:46
0

3月10日,智元机器人正式发布首个通用具身基座大模型:智元启元大模型(Genie Operator-1)。

“对机器人公司,你如果不做大模型,那是属于没有未来的机器人,没有智能化,没有作业能力只是一个硬件。他能做的事情非常有限,所以我们投入非常大的。”智元新创技术有限公司研究院执行院长、具身业务部总裁姚卯青在线上媒体沟通会上如是说。

据介绍,智元提出Vision-Language-Latent-Action (ViLLA) 架构,该架构由VLM(多模态大模型) + MoE(混合专家)组成。其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上一个新台阶。

GO-1:具身智能的全面创新

GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。

这一系列的特点可以归纳为4个方面:

•人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。

•小样本快速泛化:GO-1大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。

•一脑多形:GO-1大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。

•持续进化:GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。

GO-1:VLA进化到ViLLA

GO-1大模型,基于具身领域的数字金字塔所构建,吸纳了人类世界多种维度和类型的数据,让机器人在一开始就拥有了通用的场景感知和语言能力,通用的动作理解能力,以及精细的动作执行力。

数字金字塔的底层是互联网的大规模纯文本与图文数据,可以帮助机器人理解通用知识和场景。在这之上是大规模人类操作/跨本体视频,可以帮助机器人学习人类或者其他本体的动作操作模式。更上一层则是仿真数据,用于增强泛化性,让机器人适应不同场景、物体等。金字塔的顶层,则是高质量的真机示教数据,用于训练精准动作执行。

现有的VLA(Vision-Language-Action)架构,未有利用到数字金字塔中大规模人类/跨本体操作视频数据,缺少了一个重要的数据来源,导致迭代的成本更高,进化的速度更慢。

那么,怎样的架构才能充分利用好这些数据?

智元提出了全新的Vision-Language-Latent-Action (ViLLA) 架构。与VLA架构相比,ViLLA通过预测Latent Action Tokens(隐式动作标记),弥合了图像-文本输入与机器人执行动作之间的鸿沟,能有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力。基于该架构,智元打造了通用具身基座大模型——GO-1。它由VLM(语言视觉模型)和MoE(专家混合模型)组成,输入为多相机的视觉信号、力觉信号、语言指令等多模态信息,直接输出机器人的动作执行序列。

这样,GO-1大模型可以帮机器人完成全面的“基础教育”和“职业教育”,机器人天然能适应新的场景,可以轻松面对多种多样的环境和物体,快速学习新的操作。

用户给出指令告诉机器人要做的事情,比如“挂衣服”,模型就可以根据看到的画面,理解这句话对应的任务要求。然后模型根据之前训练时看过的挂衣服数据,设想这个过程应该包括哪些操作步骤,最后执行这一连串的步骤,完成整个任务的操作。

在更深层的技术面,因为GO-1大模型在构建和训练阶段,学习了互联网的大规模纯文本和图文数据,所以能理解“挂衣服”在此情此景下的含义和要求;学习过人类操作视频和其他机器人的各种操作视频,所以能知道挂衣服这件事通常包括哪些环节;学习过仿真的不同衣服、不同衣柜、不同房间,模拟过挂衣服的操作,所以能理解环节中对应的物体和环境并打通整个任务过程;最后,因为学习过真机的示教数据,所以机器人能精准完成整个任务的操作。

具体来说,VLM作为通用具身基座大模型的主干网络,继承开源多模态大模型InternVL2.5-2B的权重,利用互联网大规模纯文本和图文数据,让GO-1大模型具备了通用的场景感知和理解能力。

隐动作专家模型作为第一个专家模型,是GO-1大模型中隐式的规划器,它利用到了大规模人类操作和跨本体操作视频,让模型具备动作的理解能力。

GO-1大模型的最后是作为动作预测器的动作专家模型,它利用高质量的仿真数据、真机数据,让模型具备了动作的精细执行能力。

智元通用具身基座大模型GO-1的推出,标志着具身智能向通用化、开放化、智能化方向快速迈进:

•从单一任务到多种任务:机器人能够在不同场景中执行多种任务,而不需要针对每个新任务重新训练。

•从封闭环境到开放世界:机器人不再局限于实验室,而是可以适应多变的真实世界环境。

•从预设程序到指令泛化:机器人能够理解自然语言指令,并根据语义进行组合推理,而不再局限于预设程序。

智元表示,GO-1大模型将加速具身智能的普及,机器人将从依赖特定任务的工具,向着具备通用智能的自主体发展,在商业、工业、家庭等多领域发挥更大的作用,通向更加通用全能的智能未来。

#稚晖君或再掀机器人行业风暴##智元机器人发布首个通用具身基座模型#

本文系观察者网独家稿件,未经授权,不得转载。

相关内容

热门资讯

【海报】《哪吒2》爆火 “贵州...   据网络平台数据公布,截至3月9日21时许,《哪吒之魔童闹海》(《哪吒2》)全球电影票房(含预售及...
代表委员议国是丨谋划发展献良策... 转自:中国台湾网  连日来,参加十四届全国人大三次会议的全国人大代表,按照大会各项议程认真履职。围绕...
西乡法院 | 学习贯彻全市法院... 2月24日全市法院院长会议召开如何贯彻落实会议精神?新形势、新任务、新要求2025年怎么干?法院干警...
广东启动“机器人+”行动 推动... 观点网讯:3月10日,广东省人民政府办公厅印发推动人工智能与机器人产业创新发展的若干政策措施,正式启...
去年亏损12亿,还要收购三家亏...   来源:芯辰大海  文|周路遥  半导体硅片龙头沪硅产业(688126.SH)的股价在复牌后的第一...
【公告汇总】3月10日上市公司... 3月10日,截至20时,上市公司发布的股份减持公告汇总如下: 光威复材(300699)董事及高级管理...
青春对话|回村种地,真的和想象... 05:02近年来,越来越多的“90后”选择留在农村发展。他们从大城市回到乡村、扎根乡村、发展乡村,已...
宣贯2025年工作会精神|七〇... 编者按   中国船舶集团有限公司2025年工作会议召开后,各二级管理单位积极研究部署贯彻落实举措。中...
痛惜!浙大教授刘永锋不幸病逝,... 3月10日,浙江大学材料科学与工程学院发布讣告,中国共产党党员,新能源材料领域杰出学者,国家杰出青年...
720余件(套)精品亮相第七届... 来源:中国新闻网 中新网北京3月10日电 (记者 应妮)“时代匠心——第七届中国当代工艺美术双年展”...
我国科学家在抗烧结催化剂研究中... 财联社3月10日电,据中国科学技术大学消息,该校曾杰教授团队通过构筑纳米岛结构催化剂,攻克了甲烷干重...
华福证券给予中闽能源持有评级,... 每经AI快讯,华福证券03月10日发布研报称,给予中闽能源(600163.SH,最新价:4.92元)...
上海发布大雾黄色预警 上海中心气象台20时18分发布大雾黄色预警信号:预计明天上午以前本市大部地区将出现能见度小于500米...
中国移动数亿元采购基站天线 华... 运营商财经网 王鑫垚/文日前,中国移动一项金额将近10亿的项目终于公布了中标候选人!多家在业内十分...
小锤敲出致富路 转自:中国台湾网  扎西吉彩金银铜器厂位于西藏日喀则市桑珠孜区,是一家从工匠互助组发展而来的手工业企...
吉林省发布沙尘预警!长春、白城... 吉林省气象台3月10日13时11分发布 沙尘蓝色预警:受大风影响我省西部部分地方已出现沙尘天气,预计...
浦东青年夜校春季班开班!为青年... 转自:上观新闻“白天上班,晚上学艺”已成为不少浦东青年生活的优先选择——就在今天晚上7点,浦东青年夜...
电影世界冒险记类似的小说,不是... 电影世界冒险记类似的小说,不是无限流的字多点的《电影世界修仙传》影视空间之强者降临 作者:醉心剑客还...
前世谁欠了你的纠缠,今生你又欠... 前世谁欠了你的纠缠,今生你又欠了谁的眼泪,句句精辟这就精辟了?给你来个我原创的:流云野风生琵琶,旧月...
黑夜传说应该先看第几部 黑夜传说应该先看第几部好多人看了说3是前传,有没有看过的评论下啊。到底应该什么顺序看啊。。就按顺序看...