能讲PPT、懂指令!商汤“悟能”平台让机器人“玩转”现实世界|聚焦世界人工智能大会
创始人
2025-07-27 17:16:50

随着单一模态的进化触及边界,AI的演进路径是什么?

7月26日,在2025世界人工智能大会(WAIC)主论坛上,商汤科技董事长兼CEO徐立发表了题为《人工智能的十年演进》的主旨演讲。他指出,AI发展已实现从感知智能到生成式智能的跨越,而下一阶段的突破将取决于AI能否主动探索并交互现实世界。

徐立以“智能的起源”这一核心命题开篇,指出人类智能源于与物理世界的持续互动,而机器智能则长期受制于人类知识供给的有限性。

2011年至2012年,以CNN、ResNet为代表的深度学习算法推动了感知AI的爆发式发展,但这类模型依赖人工标注数据,泛化能力受限。2017至2018年,Transformer架构的兴起使AI具备了从自然语言中提取知识的能力。

徐立提到,GPT-3处理的文本量相当于人类十万年的创作积累,“正是自然语言的高知识密度,赋予了模型强大的泛化与通用能力,成为当今通用AI发展的关键基石。”

然而,危机已悄然浮现。徐立预警,当前自然语言数据或将于2027至2028年耗尽,而视觉数据虽丰富却难以有效提炼知识。他进一步解释道:“事实上,视觉数据的产生速度远落后于算力增长速度,导致模型数据需求出现‘倒挂’。”

面对互联网存量知识即将消耗殆尽的现状,AI该如何继续进化?徐立将目光投向了人类的学习方式——通过与物理世界的交互获得认知。他指出,“当前机器人及具身智能的潜在瓶颈,正是对高质量交互数据的巨大需求。”人类智能的进化源于与物理世界的持续互动,而非单纯依赖语言或视觉输入。因此,AI下一阶段的发展需要突破“主动交互数据稀缺”的难题。

然而,真实环境的交互成本极高。传统解决方案依赖模拟器,但存在“模拟与现实差距”(Sim-to-Real Gap)。徐立举例说明,当前视频生成模型可能产生违反物理规律的画面,如车辆“幽灵穿越”或响应延迟导致的时空错乱,这些缺陷使得生成数据难以直接应用于现实场景。

为此,徐立提出,需要强大的现实世界理解模型与深度3D理解模型协同提升这一能力。商汤科技推出了“开悟”世界模型。徐立介绍道:“‘开悟’世界模型也是视频生成模型,但它考虑了时间、空间的一致性,可以为AI训练提供高质量模拟数据。”

“我们也期待与大家一起经历AI发展的三个阶段:感知世界,进而更好地理解世界、生成世界,最终通过与现实硬件的交互来改变我们的世界。”徐立表示。

在2025世界人工智能大会期间,7月27日举行的“大爱无疆·模塑未来”WAIC 2025大模型论坛上,商汤科技发布“悟能”具身智能平台。

“悟能”具身智能平台以商汤具身世界模型为核心引擎,依托商汤大装置提供端侧和云侧算力支持,能够为机器人、智能设备提供强大的感知、视觉导航及多模态交互能力,推动智能终端向更高层次的自主化与智能化演进。

“悟能”具身智能平台可赋能机器人等各种终端硬件,实现对世界万物的感知理解能力,并支持嵌入到端侧芯片,具有强大的场景适配性。

现场,徐立展示了搭载具身世界引擎的人形机器人,生动讲解“长安的荔枝”PPT的效果,语言自然,风趣幽默,不仅可以自动翻页,还能回答各类问题,并进行阶段性小结。

商汤具身世界模型还能够生成多视角视频,并确保良好的时间一致性和空间一致性,让机器能够理解、生成、编辑真实世界,在空间层面实现世界交互,让“在真实的街道场景中玩‘极品飞车’”成为可能。

另外,商汤具身世界模型还能构建面向人、物、场的4D真实世界。用户仅需要输入简单的提示词,比如“在厨房区域的架子上找东西”“进入娱乐室、向右转,然后打开通往院子的门”等,具身世界模型就能自主进行位姿、动作骨架和指令的生成。

“希望‘悟能’具身智能平台能帮助各种具身智能企业,帮助他们完成和现实世界交互的梦想。”徐立表示。

相关内容

热门资讯

360 全景视频游戏下载 最新... 探索沉浸式游戏新体验!最新360全景视频游戏盘点,带你领略前所未有的游戏世界。无论是视觉震撼的环境设...
小说改编游戏推荐哪个 十大经典... 文章带你探索文学与游戏的奇妙结合,盘点十大经典小说改编的游戏作品。从畅销小说到文学瑰宝,这些游戏如何...
梓渝携两只猫咪给大家拜年 (来源:今晚报)转自:今晚报 【#梓渝携两只猫咪给大家拜...
伊朗革命卫队海军在霍尔木兹海峡... 转自:证券时报人民财讯2月16日电,当地时间16日,伊朗伊斯兰革命卫队海军在霍尔木兹海峡举行军事演习...
热气腾腾的中国年|苏锡“串门”... 春节假期刚刚开启,五湖四海的游客就纷纷与“宁”相约。2月15日晚,南京智慧旅游大数据运行监测平台发布...