上海交通大学卢策吾团队及穹彻智能研发团队
与语言模型不同,具身智能的学习严重依赖真实世界中的交互数据。语言模型可以利用互联网上天然存在的海量文本进行训练,这些数据无需额外成本即可持续增长;但具身智能面对的是高维、动态且充满不确定性的物理环境——从二维平面扩展到包含关节、力觉、接触等在内的八十多维状态空间。这意味着,它需要大量与真实物体互动的经验才能学会拧瓶盖、叠毛巾或刮胡子这类看似简单却极其复杂的动作。
机器期待来自全社会的数据
数据就像是具身智能的“粮食”,但这份粮食在过去是稀缺且昂贵的。比如实验室里最常见的做法是搭建“数据牧场”:圈出上千平方米场地,请来专职操作员,让机器人在固定布景里反复抓取、推拉、旋拧,四周布满动作捕捉相机和六维力台,一条一分钟的数据成本高达数美元。牧场模式养出的数据干净、标注精细,却天然带着“天花板”——场地面积有限、人力工时有限、物体品类有限,更关键的是它无法复制真实世界:塑料袋的静电吸附、药盒上的易撕口、果蔬表面看不见的弧度,这些细枝末节都成了拦路虎。
团队估算过,想让通用机器人达到人类水准,至少需要几十亿小时的操作片段,相当于把全球劳动力都雇来脱产采集也远远不够,因此“如何让数据像自来水一样从全社会自然流淌出来”是一道必答题。
为破解这一困局,穹彻智能今年研发出了“口袋机采”的新范式:普通人只需一部手机和夹具,配合专门开发的“数据导师App”,即可参与高质量数据的生成。我们的目标是智能的增长,通过软件内置智能评估模块,能在采集过程中实时判断动作是否规范、数据是否具有学习价值,并给予反馈指导。例如,系统不仅能帮助采集者优化动作,而且当系统发现某用户已重复拧了1000次瓶盖、数据趋于饱和时,会建议尝试炒鸡蛋等新任务,确保数据多样性与有效性。未来这种“全民参与+AI引导”的模式,有望让具身智能的数据来源像语言模型一样,在社会层面自然流淌、持续增长。
机器需要“说明书”
有了数据,还需有效的学习框架。当前主流技术路线包括基于真实数据的模仿学习、基于仿真的强化学习,以及新兴的视频生成式世界模型。这些方法并非对立,而是分别对应人类认知中的“归纳”与“演绎”——前者从经验中总结规律,后者在已有知识基础上推理想象。理想的具身智能应先通过真实世界建立对物理规则的准确理解,再借助“世界模型”进行安全、高效的想象拓展。
什么样的世界模型才真正适合机器人?当前许多仿真或视频生成模型停留在像素或3D几何层面,缺乏对物体“功能—结构—操作”关系的深层建模。例如,一个门把手的价值不在于它的颜色或形状,而在于“可旋转以触发锁舌”这一功能属性。对此,我们提出“数字基因”概念:将一类物体(如杯子、剪刀)抽象为一组可组合的功能基因,通过参数化生成该类别下所有可能的变体。这不仅大幅降低数据资产构建成本(可实现万倍级压缩),还能支持跨物体的功能迁移——比如将“按压弹出”功能从订书机迁移到类似结构的工具上。
这种说明书级别的世界模型,使机器人不再依赖逐个学习每个物体的操作,而是具备“见物知用”的泛化能力。看到一个从未见过的盒子,它能迅速解析其可折叠、可滑动的结构,并推断出合适的操作策略。这标志着具身智能从“模仿”走向“理解”的关键跃迁。
具身智能的终身学习,本质上是一场关于数据、模型与物理交互的系统工程。它要求我们打破封闭实验室的局限,构建全民可参与的数据生态;超越像素级表征,建立以功能为核心的数字世界模型;并最终通过力觉融合,打通从算法到现实的“最后一公里”。技术路线不应彼此割裂,而需在真实需求驱动下有机融合。唯有如此,具身智能才能真正走出实验室,走进药店、厨房与农田,成为服务人类生活的通用伙伴。
上一篇:2026年上海中招政策出台:总体政策保持稳定,细则后续公布
下一篇:当非遗成为日常