炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:雷峰网)
“百亿级投入,具身行业够成熟了吗?”
作者丨梁丙鉴
编辑丨马晓宁
高质量数据正在成为具身本体性能突破和成本控制的瓶颈。在具身智能从技术演示走向规模落地的关键转折期,对于数据的需求和争论也变得越发火热。从遥操作到UMI,从动捕到仿真数据,具身数据的未来在数采工厂,还是名为In-the-wild的美好愿景?
2025年12月13日,第八届GAIR大会的数据&一脑多形专场,举办了主题为具身数据的圆桌论坛。圆桌主持人为英诺天使基金 ED,石麻笔记主理人王建明,并邀请了诺亦腾机器人创始人戴若犁,极数迭代CEO、深圳AIRS访问研究员佟显乔,鹿明机器人CTO丁琰,共同围绕具身数据的质量、采集以及数据飞轮等议题,展开了一场深度对话。
对机器人而言,什么是好的数据?王建明以数据质量切入,几位嘉宾就“以终为始”达成了共识,最终的模型性能、训练中机器人的受益程度反映着数据的质量。丁琰进一步指出,采集成本和各种数采方式对于不同场景和硬件的适配与否,都是决定数据质量的关键环节。
未来的数据采集方式或将走向多元化。作为一家有数据能力的创业公司,丁琰表示,鹿明机器人正在筹建自己的数采厂。出于成本考虑,现阶段采用 UMI方式进行数据采集,但未来仍可能引进更多方案。“遥操作、 UMI(Universal Manipulation Interface)、动捕、仿真数据,存在即合理。”丁琰强调。
戴若犁就In-the-wild的数据采集方式发出了提醒,他指出这是一种高度考验技术水平的方案,其落地需要先后克服软硬件易用性、组织管理能力两道难关,而在当前的时间节点,迈过前者的技术门槛无疑更为重要。
具体而言,在采集阶段需要低摩擦、高精度、多模态的数采设备,野采数据的利用,还需要从稀疏原始数据中得到稠密信息的技术方案。戴若犁认为,一条可行的链路是通过世界模型进行先验估计,输出更丰富的模态及维度数据。相较之下,远未到比拼人力组织能力的时间。
佟显乔认为,数据采集行业仍处于早期阶段,数据、本体、模型公司仍在相互磨合。不同的模型公司提出了不同的需求,这意味着数据公司不能停留于堆人力的体力活阶段,而是要懂模型、给建议。“模型公司也需要你的knowledge”,佟显乔强调,“一个个批次之后,大家才能一起做得更好。”
以下是此次圆桌讨论的精彩分享,雷峰网进行了不改变原意的编辑整理:
王建明:我们这个panel的话题是数据,所以我的第一个问题,是想请各位先定义一下,对于机器人来说什么是好的数据?请戴博先开始吧。
戴若犁:我觉得还是以终为始,最终在训练模型、机器人的时候能够获得收益,而且收益比较高的数据是好数据。
佟显乔:我觉得这一定是从最后的模型出发,什么数据最后能训练出一个比较好的模型,就是好的数据。我们今天基本上是这样定义,但是因为今天模型的状态没有收敛,用什么样的数据能训练出什么样的模型,不知道,所以其实也很难定义哪个是好的数据。
丁琰:第一数据必须要能训练出一个模型,才是比较好的数据。第二点是数据收集成本要比较低,如果特别高,那整个行业还是接受不了。还有一点,就是数据的采集要适应场景、适应硬件。
王建明:刚才大家都提到,好的数据首先对于模型训练要有好的效果,那么在这个前提下,数据公司怎么知道如何提供好的数据?
通常来说,这些数据都是提供给模型公司或者本体公司,模型效果掌握在客户的手上。是客户知道自己想要什么样的数据,找到数据公司来定点运营,还是数据公司自己知道什么样的数据对模型公司好,来反哺给模型公司?你们认为在整个具身智能的链路里,数据公司跟模型、本体或者应用公司之间,关于数据这件事情的认知,是一个什么样的一个链路呢?
戴若犁:目前在前端商业实践上,我看到的是反过来的。不是说模型公司想得特别透彻,就能够给出命题作文,而是如果有足够体量的数据,且里边蕴含的信息足够多,就能够训出效果。如果训不出效果其实有很多原因,可能是模型架构不对,可能训练方法不对,这个锅不一定是数据来背。所以我目前看到的是,如果你有足量且明确知道这一类数据里面蕴含足够多的信息有待挖掘,那其实对于模型是有反向影响能力的。比如你有一个特别大体量的数据集,即使这个数据集的模态、维度、精度和传感器的方式方法选择跟模型方原本的期待并不一样,他们也会愿意去改变训练的方式,甚至于让模型的架构去适应数据集本身。
佟显乔:我看到的其实跟戴总看到的比较类似,很多时候模型公司找到我们是说,这样做行不行,那样做行不行,他们其实也需要你的knowledge。在这个过程中,大家还有一个磨合,比如一开始说这样采,很可能采完这一批次以后,下一批他说我觉得这样做应该更好。
所以其实目前来看,可能因为行业还是早期阶段,所以没有一个统一的方式,大家都是在相互磨合。甚至你会发现不同模型公司,需求可能千差万别,提的要求也很不一样。所以作为一个数据公司,我觉得不能只是纯粹做labor的工作,你还是要懂一些模型,你需要跟他们去交流,给他们建议,这样大家才能一起做得更好。
丁琰:我还是比较认同佟博士的观点,我认为就是做数据和做算法的公司是分不开的,数据和算法是不拆家的。到底什么是算法?你要搞一些非常高深的模型架构,做一些很创新的探索,可能没有到这种级别。但是你如果要把市面上常见的主流算法和数据模型全部玩熟,我觉得还是非常非常必要的。不然的话,你采出来的数据很多是很脏的,基本上不能用。
跟行业里的人进行交流的时候,我就发现很多公司没有训练基础模型的能力,他们对于数据的理解是非常简单的,认为只要按照指令把数据给采了就行。但其实这些数据往往是不能用的。
每个任务都需要进行一些特定的任务设计,比如大家都会叠衣服,但其实这里面技巧性非常强。你这个技巧怎么来的?其实是在采了一堆数据之后训,发现有一些问题,然后再去改进采集技巧,再来训,最终才能得到一个比较好的效果。在这个数据采集和算法迭代的过程中,你会获得很多know-how和insight,这些东西是在数据公司是非常关键的,这些东西才是真正宝贵的价值,而不是只是把这个数据采完交付给客户,客户爱怎么训怎么训就得了。这个是完全不一样的。
另外一点就是,说到底是数据决定,我认为现阶段做算法的人和做数据的人要不断地进行迭代,最后才能去完成这个东西。像我们公司就是,我们自己也做一些基础模型的训练,然后会对数据本身有一些 know-how 和insight,知道怎么采。但是我们自己得到的这些经验教训,可能只能针对于部分任务,比如说pick and place,或者是针对于工业场景,因为我们还是做工业场景比较多。但如果是做精细化的任务,比如我今天跟客户去聊,系鞋带、叠衣服、叠纸盒子,这些任务就是另外一种 know-how和insight了。可能得跟客户一起成长,才能获得很好的know-how和积累。
王建明:据我自己观察,行业其实阶段性地对不同类型数据的侧重点是不一样的。比如从2023年下半年开始,同构遥操这种数据采集范式被带火了。 UMI这个工作是23年年末地,但实际上它近期被Sunday Robotics 还有 the generalist 带火了。24年我觉得数采还是以同构遥操为主,到了今年上半年,有一些动捕的数据采集范式也被带火了,我感觉肯定也有一些北美进展的渊源。
就各位的观察,目前中美在数据这个问题上面,你们觉得最大的非共识是什么?共识又是什么?你们或多或少跟北美的一些客户有联系,你认为他们现在重点的这个数据采集范式又是什么?
戴若犁:首先我觉得现在中美之间在机器人上完全没有代差。他们不是开玩笑吗,说Our Chinese better than your Chinese。我大概每两个月在湾区待两周,在湾区谈生意需要说英文的时间还是挺少的,其实都是同一拨人,同学、朋友、师兄、师弟、学生,一起聊天。所以首先我没有觉得中美有特别大的,共识方面的差异,大家其实都还挺一样的。但我觉得中美在数据上面其实有一个特别大的区别,就是美国好像没有地方政府的助力。数据这件事情,特别是数采厂,有地方政府助力,就会比较倾向于本体公司和地方政府合作,然后得到非常大的机会,拿到当期收入去建以遥操作为主的数采中心,也就比较少有机会孵化出来像 generative 或者Sunday 这样In-the-wild或者 UMI的方式去采数据。
所以这个分水岭我觉得很有意思。就是如果没有这么多特别eager地想要帮助创业者,帮助企业招商引资的地方政府,可能就不会有这么多的数采中心用遥操作去采数据,可能也就会促使像 UMI这样的方式早一点在中国落地。
这件事情完全不是因为技术的共识有差异或有代差导致的,我觉得反而是一种资源诅咒。我小时候打篮球,弹跳非常好,双手随便抓筐哐哐地扣,但是我技术非常差。我现在岁数大了,打球打得越来越差,被原来打球没我打得好的人随便过,我这就是资源诅咒,因为我小时候资源太丰富了。所以我觉得这就可能不是代差,而是资源诅咒。
王建明:UMI这样的方式去年出来,我感觉当时可能也有一些人在关注,但实际上是今年有一些北美公司把它release出来,才受到更广泛的关注。
戴若犁:UMI就是很合理呀。 UMI其实是human-centric,它只是末端执行器end effector 被置换了的human-centric,所以说它就是很合理,它somehow可以跨本体。
王建明:丁博士, UMI是你之前一个比较著名的工作,可能在这种数据采集方式上面,你们应该是第一批关注,并且在这个基础上去迭代做工程化的。可以聊聊你们对 UMI的看法吗?
丁琰:这项工作其实我们在24年3月份就开始做了,当时在上海 AI Lab的时候就启动了这个项目,做到现在一直没有换过。我确实看到了数采方式从遥操作到 UMI,一路在迭代的过程。
其实我感觉中美之间是有代差的,至少在模型,或者是引领具身智能发展方向上有,可能北美那边的模型或者资源还是比较多。因为之前我们做 UMI的时候还是比较默默无闻的,没有人关注,整个大陆好像只有我们一家公司,或者只有我们这一个团队在做这件事,也是我们自己一直在迭代。直到Sunday Robotics发布出一个非常牛逼的模型,基本上全中国或者全世界的关注点才转向 UMI。我们的产品刚好在这个时间点工程化出来了,基本上整个具身智能圈子的同行都在疯狂地采购和咨询,所以我觉得确实美国那块的人还是在引领一些潮流和方向。特别是 UMI这个东西,如果只有我们一家公司来做,其实我很难想象到底什么时候能火起来。虽然我们自己很坚信 UMI,但是可能整个中国的同行并不是很坚信。很感谢美国的这些公司引领这些潮流。
然后关于非共识,在一些技术路线上其实是有一点点非共识,但是gap很小,可能很快就弥补上来了。等到Sunday Robotics出来之后,中国的公司就一拥而上地探索 UMI,很快就把这个非共识给填起来了。
我们自己在做 UMI的时候,其实也会有一些自己的know-how 和insight。举个例子,Sunday Robotics其实更偏向于一种后处理的方式,它把设备分发给Airbnb那些工作人员,或者是众包人员去采,采完之后再把它收集回来处理。我们觉得这种方式稍微有一点点不太合理,因为我自己在建数采厂的过程中,发现人员是非常难管理的。如果是通过这种方式去做,后续处理流程的时间和消耗是异常的巨大。所以我们自己是选取的前处理,前处理的意思就是把时间花在前面,不要花在后面,在采集过程中我就及时评估和反馈数据到底好还是不好,有什么问题当场就处理掉,最后收集起来的数据100%是合格的。
刚刚那个戴博士说的human-centric data其实有一点点像 UMI,但是 UMI又很特殊,它更多针对于二指夹爪这一块。真正的human-centric更多地偏向五指,二指比较特殊,但是二指又是一个很重要的领域,因为整个中国使用二指夹爪的这个比例份额我认为还是大于99.9% 的,用五指灵巧手的份额目前来看偏少。主要是这个硬件本身不是特别稳定,所以大家用起来,真正落地的还是二指为主, UMI就在这个生态里面占据了一个比较重要位置。虽然它属于human-centric这个分支,但是它又跟五指有区别,这是我们对 UMI的认知。
当然 UMI其实还有很多问题,比如说active perception,要不要带头部视角?我们在跟客户聊的过程中就会发现,因为原始的 UMI只有两个夹爪,只有手部这两个相机,这种configuration的配置它对硬件设计就会有一些要求,它会希望这个腕部相机的画面是稍微比较大的,它可以获得更多environment的feature,这样就利于训练嘛。
但是如果你加上一个头部相机,那还需不需要这么大的一个画面?这也是一个问题。你如果加上一个头部的画面,它又会引申出一些其他的问题。比如坐标系之间的对齐,或者是你用哪个坐标系。还有头部要不要动?对于轮式双臂来说,头部一般是固定的,没有这个自由度。如果你想引入一个active perception,有一些工作是在头上加了一个小机械臂,把这个小机械臂上挂一个摄像头,这就会弥补active perception所带来的自由度问题。但是这样又引发一些其他的问题,比如市面上没有这种机器人,头上还长一个机械臂,所以说这些问题其实都没有被解决。这个 UMI的探索之路其实还是很长很长的,至少目前来说,我们觉得整个中国大陆或者全世界的具身智能圈子,对这方面的探索基本上属于空白,或者说没有做很多。我觉得在这方面,可能中美之间都会有一些这个共识或非共识在里面。
王建明:对。刚才戴博也说到了资源禀赋的问题,我确实也观察到,北美它有很多配套模型公司的数采或者数据处理公司,或者设备公司,可能它们都是专门去服务某一些大公司的。那国内的话,我们目前当然看到了有一些数据相关的创业公司,但更多的还是政府支持的数采工厂。
所以我的一个问题是,这种这种政府支持的数采工厂是不是真的可以解决数据问题?在这个过程中,作为有一定数据能力的创业公司,你们觉得应该怎么跟这些数采工厂合作?或者有什么建议给到这些有资源禀赋的单位?
佟显乔:我觉得中国这两年,各个地方政府大量地建训练厂,对行业肯定是有促进作用。但是现在建的大量训练场都是用的遥操方式,那7这是不是正确的?这个也很难说。
再一个,政府肯定是滞后的。如果以后的方向变了,以这种In-the-wild的方式做数采,可能他也会改变。所以就刚才讨论的这个问题,我觉得如果以后通用机器人的能力要到来的话,一定是需要In-the-wild这种方式的数据,因为首先它必定要跨本体,第二一定是要大量数据。那用任何一个本体去采,即使你有那么多训练场,也不太可能达到这个目标。
各地训练场是地方政府投资,然后买本体,给很多做本体的公司带来了收入。政府肯定也不想做赔钱的生意,采完的数据要卖回去,那数据卖回去以后,大家拿数据训练模型,可能是形成了这样的一个小闭环,我觉得短期内对这个行业肯定是有促进的作用。但这件事是从商业上的考量,是不是导致了技术的方向不一定一直在正确的方向上,也是有可能的。不过这个行业因发展很快,其实去年的方向和今年也不一样,所以这个我觉得都是走一步看一步。
丁琰:其实我们鹿明公司自己也正在筹建数采厂,目前有两个正在筹建过程中。我们自己是采用的 UMI这种方式,主要的原因还是在于成本。现在的数采厂建设成本里,有70% ~ 80%可能都是买机器人硬件的花销,这方面的成本会造成整个数据成本异常高昂。那有没有人能消耗这些数据,其实还是有点未可知。因为这种大规模的批量建的数采厂,本身如果数据管理做不到位,数据基本上都是废的,没有人会买。我跟同行去交流,大家对这些数据的吐槽还是挺多的,主要就是在于精细化管理没有做到位。
我觉得这也是前期的一种正常状态,随着后面的发展,可能会大家会对数据管理会更精细,或者引进不同的数采方式,弥补数采厂数据的多元化问题。我觉得不管是遥操作也好, UMI也好,动捕也好,仿真数据也好,存在即合理,只是不同份额的问题。我觉得未来的数采可能会更加多元化一点。
戴若犁:我在北京有办公室,有团队,在深圳也有,北京市和深圳市的领导来调研,我其实给他们都写过这样的建议。其实他们也很关心,到底应该怎么花钱,怎么帮助企业是最有价值的。我觉得其实就是要看最终数据的成本构成。
比如我们说两类数据。一种是数采工厂的,那个数据的成本大概有50%是设备的摊销折旧。如果按照5年摊销,大概有50%是人力的工时,剩下的都可以忽略。如果是刚才说的野采,大概60%是人力,大概40%是场景的协调,比如租500个Airbnb或者途家的房子去采生活服务,在这边硬件摊销又可以被忽略了。
所以我当时跟两边政府领导说的就是,不管是做数据的公司,还是做模型本体的公司,如果可以帮助他们在需要数据的时候,能够在人力的补贴或者是场景的协调上降成本,或者在前置的设备投入上能够帮助企业的话,那其实就直接在成本里头帮助了大家。也可以考虑请我们这样的数据服务公司,来采集一些普适的,可以跨本体的数据集,把这个数据集开放给大家,让大家在早期试错的时候不用每一家都自己花很多钱去做。这个可以帮助所有人,我是这么认为的。
王建明:现在很多卖本体的公司,他们经常会有ToG这种销售模式,其实很大一个点就是消耗他们的本体用来做数据采集。我觉得戴博提到的In-the-wild这个数据采集方式上,如果政府部门可以调动一些,比如国有的超市,或者政府部门能够介入的一些人力操作的部分,让In-the-wild这个数据采集的能力组织起来,其实不需要投入太多的这个资金,更多是资源的调度。这样跟数据公司配合起来,可能会比购买一堆本体来得更直接,和对行业的推动会更有作用一点。
其实我们刚才也提到了,在工厂里面采集数据对量有一定的需求,但是可能更需要的是In-the-wild这个数量级的数据采集。各位在In-the-wild的数据采集上面有一些什么样的观察和思考?我先说说我的想法。我觉得In-the-wild这种数据,其实更多是运营能力的问题。那么是不是像美团、饿了么这一类公司,会更适合做这种数据的运营?作为数据公司来说怎么看这个问题?
戴若犁:In-the-wild的数据,分两部分。一部分是你说的,美团、饿了么这种人力动员,高效卷人力的能力,另外一部分可能是设备能力,就是说你要有优质的、对于操作的摩擦很低的 low-friction 设备,而且能够采到足够的modality,就是模态和精度,那这是两部分。另外一部分是数据的利用,In-the-wild采回来的数据最大的问题是稀疏,模态稀疏,维度也稀疏,信息也稀疏,那有没有办法从稀疏的数据里边挖出来稠密的信息,甚至于增广出稠密的信息?这也是很考验水平的。比如世界模型,现在有一条链路就是稀疏性信息进到一个世界模型,通过大量的先验估计出来更丰富的模态跟维度,这些其实都跟那个美团、饿了么的人力组织就不太相关了。
所以我觉得其实In-the-wild也是一个非常考验技术水平的事情,如果只是靠人力组织的能力,那你的生意就是人力组织。到最后其实你拿出来什么能力,你赚到什么钱,这是非常公平的一个事情。
佟显乔:我觉得In-the-wild在现在这个时间点其实属于非常早期的阶段,目前来看人力管理那部分还是第二步。第一步是怎么采集,硬件设备、软件的易用性,和数据的处理,不管你是online处理还是后处理,都得先让人可以很快地用起来。
这些东西成熟以后,后面拼的才是人力组织能力。这就有点像自动驾驶行业,现在数据标注就变成了标框了,但是早期阶段,大家用不同的工具,标注的效率和数据采集效率其实是不一样的。到后边这个东西成熟以后,大家就变成比拼谁人力成本搞得低,谁组织得好,这个是第二步。所以In-the-wild在具身这块,其实还是早期阶段。目前来看还是从技术的角度,要把采集设备这些技术角度做得更好,才能到下一个阶段。
丁琰:我跟那个佟博的想法还是比较一致的。Collect data In-the-wild 确实是一个很好的愿景,但是我估计大规模需求应该还是在明年下半年才会起来。因为现在整个模型的架构还不是很清楚,对数据的探索,其实还在通过样本数据或者是小批量数据去试验的阶段。大家虽然嘴上说collect data In-the-wild,但其实并没有要那么多的数据,大部分数据应该还是出自于数采工厂。
我觉得collect data In-the-wild 肯定是要做的,但是这样对于数采设备会提出更高的要求。举个例子,我们便携版本和全功能版本之间的区别就是,便携版本没有激光。因为激光没有办法在野外进行采集,它不可能随时随地给你提供一个电源和基站,并且激光可能还会受强光、红外线等等的影响,还有遮挡之类的各种情况,其实就相当于有些设备In-the-wild是完全不能用的,所以怎么去设计一个数采设备是重中之重,这是第一步。
第二步是,我觉得野外采集并没有想象中那么简单,不是说你随便雇一个工人,他拿着设备乱采,这个数据就能用了。我们对于数据质量的要求始终是很高的,如果数据量非常非常大的话,可能数据质量脏一点也无所谓,但是如果你的数据量还没有达到一定级别,其实数据质量要比数据数量重要得多得多。所以怎么在In-the-wild这个过程中保证数据的质量,怎么培训这些工人,其实也不是那么简单的。
像美团或饿了么,他们有大量的场景和普通的工人,但我觉得他们并不能在一开始就作为主力军去采集数据,至少在很长一段时间里是不可能的。前期阶段应该还是以一些比较well train的,有很多采集技巧的工人,拿着这个合格的数采设备在野外进行采集为主。
王建明:我还有最后两个问题。刚才也提到,除了工厂的数据采集,In-the-wild的数据采集,其实还有一种是有模型能力并且解决场景问题的公司,自己去做数据采集。举个例子来说,主机厂自己有数据处理能力和模型能力,我感觉这一类公司确实也有趋势,最近一段时间有可能是受北美一些公司的影响,他们可能在解决场景的问题的过程中同时积累数据和模型,把自己的小飞轮滚起来。一个一个场景解决了之后,就由小飞轮变成大飞轮。那你们觉得在这个过程中,这类公司会不会更容易积累数据?这些数据跟数据公司没有什么关系,这会让你们觉得很担忧吗?
戴若犁:我觉得这是一个很好的期待,但很大的问题就是,是不是真的能够落地。我亲身经历了好几个很大的革命,比如说自动驾驶、大语言模型, AR、VR。坦白来说,具身智能现在每年是 200 亿美元、300 亿美元的钱撒到这个行业,但是如果跟之前的AR、VR、大语言模型和自动驾驶相比,百亿级别的钱进到这个行业的时候,那三个行业的成熟度比现在具身智能的成熟度要高非常非常多。大家想想看,百亿规模的钱进到 VR 行业的时候,Oculus已经可以做成一个350美元的设备卖给你,你回家可以玩过山车了,但现在是没有这样的机器人的。然后自动驾驶,07年的时候,美国的DARPA挑战赛就有六支队伍可以完全无人干预地完成几十英里的自动驾驶,那是18 年以前。
所以具身智能现在的状态,其实我觉得很奇怪。建明也是投资人,为什么你们入场会这么早?投资都投到大学教授里面去了。这其实是很奇怪的一件事情,我是高度怀疑,包括国内的一些公司,真的能够进到人类的家庭,让小飞轮转起来吗?我特别希望可以,但是我不信。
佟显乔:我的观点也是。举个例子,从最早的深度学习去做感知,到后来感知的范式变成了BEV,再到后来的端到端、VLA,其实具身就是处在一个非常早期的阶段,最后是什么样?很难说。像你说的一些垂直领域的机器人,可能它们干的活相对比较简单。比如到车厂里边去拧螺丝,训一个这样的小模型。也许以今天的能力,他们自己采数据就能解决,但这可能也不是具身机器人的最终追求。到底是哪条路能先来?这个事其实很难判断,但我们肯定都是冲着那个最大的,或者是终极阶段去的。从数据的角度来说,不管你是垂直领域还是通用领域,你采的数据,你需要的东西和训的模型结构其实还是那些。现在这个早期阶段,大家也只能follow着正确的方向走,我觉得很难判断最后哪个能成。
丁琰:其实我是很羡慕和佩服那些公司的。比如说刚刚提到一个例子是Dyna,我们公司肯定没有他们那种资源,他们是可以完成一个数据采集、数据训练,反哺反馈,然后再落地的整个闭环,有点像一个独立的王国在运行这件事。他们的know-how和insight的积累速度是非常快的。
绝大部分公司不能比拟这个过程。但是他们也会有一个小问题,就是除非资源非常多才能把整套逻辑和这个王国搭建起来,不然资源太分散的话可能搞不定。比如有些公司可能把90%资源全部投来训模型,但如果每个环节都想做,你又想采数据,又想训模型,又想去真机部署,那你得花费很多的资源去布置每一个阵地,这是很累的。他们如果能守得住,那肯定是最好,但数据公司的一个缺陷就是,他对于模型的理解肯定没有别的公司强,如果你不是大量地训模型,这个know-how和insight总归还是会比模型公司少。
但是他还有个活下去的路径。比如你做一个叠衣服的任务,那个know-how和insight 是针对于叠衣服这个任务本身而言的。但是对于其它任务,比如系鞋带,这个know-how就没有了。他不可能把所有的场景、所有的小任务、小场景全给搞定,他不可能有那么大的know-how。
但是做数据的公司就会有一条活路,这是我突然想出来的。我们是不是可以在和不同客户打交道地过程中,有些客户是叠衣服的,有些客户是系鞋带的,有些客户是做饭的,帮助他们去获取know-how。他们自己可能也没有那么多资源,所以我们联合起来,做数据的公司和做模型的公司拼在一起,就可以把每个小场景做闭环。这可能也是一个数据公司活下来的一个途径之一
王建明:最后一个问题。各位可以说说在机器人这个行业,个人的vision、你们创办公司的vision,以及你们觉得大概到什么时间点,这个vision是可以够得着的吗?
戴若犁:我们公司的slogan叫做 we don' t make robots,we make them Intelligent。我们这个机器人公司不造机器人,我最大的期待,也不是vision,就是期待真的造机器人的那些杰出的企业和人,他们能活得好,他们能够融到大钱,做大生意,这样我们好好地做个配角就行了。
佟显乔:我说一下我的vision。为什么做具身数据这个行业,我觉得从数据切入是在这个不确定的行业里边,最确定性的一件事情。今天这个行业还在早期阶段,最后是什么样?long way to go。可能十年,可能20年,在这个过程中,我觉得数据是唯一确定的事情,而且数据积累的know-how,实际就是模型积累的。所以为什么我和深圳AIRS一起去做这件事情?也是因为觉得,从数据的角度切入,去follow最先进的方向,做具身智能这件事,是一个长期偏确定性的创业机会。
丁琰:机器人的场景非常非常多,我们鹿明就希望守住自己这一块地,在这一块地里做到top1的级别。我们自己在做 UMI数据的时候,目前来说还是最快的一家,我们想守住自己的阵地,把各种东西探明白、搞清楚,然后服务大家。我们的理解是, UMI这块还有好多问题没有解决,甚至没几家能够把它真正用起来,还有比较长的路要走。另外从在工厂里采到在野外采数据,又是另外一个跨越。在工厂里采,采完下一步其实就到要实现落地的阶段了,这可能还是一个比较长的过程,要在两到三年之内完成,这是我个人和公司的愿景。
王建明:谢谢各位嘉宾,那么数据环节的探讨就先到这里。