图片来自视觉中国炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
蓝鲸新闻6月9日讯(记者 武静静)在技术日新月异的今天,机器人在舞台上跳舞、格斗比赛中翻转腾挪,已经不再新鲜。但在这场"炫技"的热闹背后,一个关键问题亟需回答:具身智能要真正走进生产和生活,眼下还面临哪些技术难点?又有哪些"技能"才是真正具有落地价值的?
在6月6日至7日的2025北京智源大会上,智源研究院理事长黄铁军、北京人形机器人创新中心总经理熊友军、宇树科技 CEO 王兴兴、Physical Intelligence 联合创始人兼 CEO Karol Hausman、北京大学助理教授及银河通用创始人兼 CTO 王鹤、穹彻智能联合创始人卢策吾等多位行业领军人物,围绕具身智能的现实瓶颈与未来走向展开深入探讨。
机器人比赛是过程不是终点:"能干活"才是具身智能的硬标准
业界人士普遍认为其具备展示、科普和训练功能,但也有更高的期待。宇树科技 CEO 王兴兴和Physical Intelligence 联合创始人兼 CEO Karol Hausman,认为这种"展示技能"的机器人比赛是技术展示窗口,有助于促进大众认知和产业关注。
王兴兴提到:"通过表演、比赛等形式展示机器人全身动作能力。"他坦言,人形机器人当前在实用性上尚未全面突破,但这些表演有助于科普和市场教育,并具备一定商业价值(如租赁)。在他看来,这些"炫技"是迈向真正"干活"阶段的中间步骤。
王兴兴进一步解释称,表演是实现终极目标的一部分,本质是让机器人能够做"各种全身动作"。跳舞和格斗赛是全身动作的一部分。我们希望一个人形机器人可以做各种动作,包括跳舞、极限运动、格斗,以及家里的端茶倒水、洗衣做饭等等。他相信当AI技术,包括具身智能技术发展到一定阶段时,一个足够智能、能家用的机器人肯定是可以跳舞、可以打格斗赛的。
在终极目标实现前进行商业化拓展和尝试,王兴兴坦言,目前让人形机器人马上去家里或工厂干活还不太现实。所以,在终极目标实现之前,他们希望通过参加这些表演和比赛,来展示他们已经达到的技术成果,并进行更多的商业化拓展。
" 公司终极目标是让机器人,尤其是人形机器人,能 ‘干活’,进入家庭和工厂,解放人类生产力。"王兴兴强调。
北京大学助理教授及银河通用创始人兼 CTO 王鹤以及穹彻智能联合创始人、上海交通大学教授卢策吾认为,接下来,机器人比赛也要从"看着热闹"走向"干着实用",未来应聚焦实际应用场景,通过"生产力比赛"推动核心技能的形成与优化,从而引导技术真正走向产业一线。
在众多技能中,"移动抓取与放置"被多位专家视为最具突破潜力的通用任务。王鹤指出,这一技能既具普适性,适用于药房、仓储、服务等多种场景,又对视觉主导系统高度适配,是实现具身智能商业化的关键节点。成功突破将标志着具身智能的第一次真正高潮。
卢策吾强调,力反馈和对物理世界的深度理解,将成为机器人应对真实复杂环境(如柔软、粘稠、滑动等物理属性)的重要基石,支撑更多"接触密集型"任务的落地。
算法、数据与形态之争:具身智能落地前夜的三重挑战
在具身智能的发展路径上,视觉语言行动模型(VLA)逐渐成为行业共识,被视为连接感知、语言与行为的通用架构。Karol Hausman认为,VLA 是通往通用智能的重要基石,能够让机器人从互联网等多源数据中学习并转化为具体行动。他致力于构建一个名为"π0"的通用模型,可跨平台控制不同机器人完成多种任务。他指出,当前挑战并不在于数据量,而在于提升算法效率与模型稳定性,尤其是提升模型在陌生环境中的泛化能力。
银河通用创始人兼 CTO 王鹤也将 VLA 视为核心技术路径,但更强调其实用导向。他认为应优先突破如"移动抓取与放置"(mobile pick and place)等具备广泛适配性与商业价值的核心技能,并在端到端模型中融入合成数据训练,以提高效率和落地性。
与此不同,穹彻智能联合创始人卢策吾则关注在VLA 框架内引入物理世界知识,尤其是力反馈等多模态信息,以压缩模型面临的不确定性空间。他形象地将 VLA 比作"火锅底料",只有持续加入"力觉""触觉"等新"食材",才能提升模型对复杂任务的应对能力与系统鲁棒性。
此外,在具身智能模型训练所需求的数据方向,不同企业和机构也出现了数据策略路径的分歧。Hausman主张从互联网及多机器人平台中大规模收集预训练数据,并通过高质量小样本精调,实现知识到行为的迁移。这也与蓝鲸科技此前报道的智源新发布的具身大脑RoboBrain 2.0路径类似。
也有创业公司的选择与他们不同,比如银河通用采访的技术特点之一在于其背后的训练数据,银河通用创始人兼 CTO 王鹤提到,他们主要使用合成数据,这种数据的低成本和可扩增性,以此驱动基于 VLA 的端到端大模型。一般而言,"合成数据"通常涵盖通过仿真或其他程序化方法生成的数据,其低成本和可扩增性也与仿真数据的特点相符。
王鹤认为,目前,具身智能在学术研究(强调 VLA 的泛化能力)和产业应用(需要极高的鲁棒性和成功率,例如汽车工厂需要达到四个九以上的可靠性)之间存在差距,这不仅仅需要视觉数据,还需要触觉和力反馈。
王鹤进一步强调:"为了达到工业场景所需的高成功率(例如四个九), 不可能完全靠真实数据采集。所以,为预训练数据一定要有大量的合成数据,才能先将成功率大幅提升,之后再通过真实数据进行进一步的优化,例如结合强化学习。"
卢策吾提到,穹彻智能在探索仿真与真实世界的融合。他提出"数字基因"理念,结合高精度仿真数据与物理反馈(如力觉),以模拟人类的下意识操作行为,提升系统在复杂、高接触场景中的表现。
此外,目前由于人形机器人硬件的标准化和通用性对具身智能算法发展和落地有着显著的影响。目前,具身智能的研究和产业落地面临的最大痛点之一就是数据瓶颈,这部分原因正是由于机器人硬件平台缺乏统一性。
未来,真正的通用机器人究竟是什么形态?一定是人形机器人的形态吗?
"我过去在多个场合公开说过好几次,不坚持一定要做人形。"王兴兴明确表示,他认为人形目前因人类数据可用性而具备训练优势,但长远看应根据任务需求发展多样化形态。对于宇树科技来说,同时开发机器狗和人形机器人是"顺理成章的事情"。他甚至指出,要实现移动,轮子底盘也是"非常实用的",是腿部行走之外的实际选择。
"在AGI(通用人工智能)或通用AI出现之后,机器人的形态将会‘千奇百怪’。"王兴兴谈到。
北京人形机器人创新中心总经理熊友军则坚定看好人形机器人。他指出,从市场容量、自然交互到人类环境适配性,人形构型在通用性上具备长期竞争力,虽然短期内仍面临成本与技术门槛,但未来潜力巨大。其团队正围绕"慧智开悟"通用智能体和"天工 2.0"等平台推进人形机器人能力提升。
对于具身智能的未来,智源研究院理事长黄铁军提到,从宏观视角看,全面媲美人类的 AGI(包括具身)仍需数十年。在未来 5-10 年,具身智能更可能专注于帮助人类完成不愿做的危险或体力活。
"具身机器人的最终使命是超越人类,去探索人类无法到达的星辰大海。"黄铁军说。