月前,地平线创始人兼CEO余凯博士受邀做客【泉果无限对话】。
作为一名真正的长期主义者,如他所说,“其实考量任何一个战略,至少也要以十年为基本单位,10年、20年、30年……”
站在创业10年的关键节点,余凯在分享中,坦诚地回溯了创业过程中走过的岔路、积淀的经验,以及对于未来的展望;
余凯还基于全球科技产业数十年亲历者的前沿视角,分享了对于智能驾驶行业、商业战略与市场周期的观察与研判,提出了中国科技产业走向全球化的深刻洞察:
■ 智能驾驶在2025年迎来了价值拐点。当一个产业的核心生产要素,在发生十倍速变化的时候,就是改写生产关系的时候——这时候,最需要的战略选择就是“跟”,而且要快速地跟。
■ 自动驾驶的终局,可能是20%的车型或20%的厂家自研,80%一定是跟行业冠军深度合作。因为越往上走,会发现越是巅峰对决,技术难度越来越高,考验的是系统化建设的能力,所以到最后能够“幸存”的玩家或许不会很多。
■第一,永远在没有竞争的地方竞争,不要去热闹的地方扎堆,找一个人迹罕至的区域,建立起自己的壁垒;第二,永远不要在悬崖边跳舞,维持健康的现金流,是一切理想的前提。
■ 创业要搏一个无限大的未来,但最重要的是,“搏”不等于“赌”,好的战略是不能去赌的。在一个领域里已经建立起领先优势的企业,想象他们会在自己的“正面战场”犯错,这就是在“赌”。
■ 顺周期的时候,可以不顾一切抓机会;但在逆周期的时候,风险管理一定是高于机会捕捉的。我认为企业家至少要花70%的时间,思考“死门”在什么地方。
■ 中国走向科技全球化的过程中,还真有几个供应“富余”(over-capacity)的要素:首先,中国拥有最完备的制造业体系;第二,充满“鸡血”和“韧性”的企业家精神;第三,无与伦比的工程师红利。
媒体评价余凯:
“2010年后,是中国第一批技术型创业者大规模入场的时代。他们大多是科学家背景出身,很多并没有过商业实操经验,但又需要在一个技术的Vision上,用商业的方式去推动愿景的实现。
而余凯就是其中‘兼具技术深度和商业视野’的代表之一。”
从学界到业界,余凯三十年如一日专注机器学习。
在慕尼黑大学数学与计算机科学系博士毕业后,余凯多年从事机器学习的前沿学术研究,在国际学术会议和杂志上发表了百余篇论文,被引用超30000次;他还曾是多个顶级国际会议的程序委员会成员,并作为为数不多的华人学者,曾担任ICML和NIPS两大机器学习国际会议的领域主席(Area Chair)。
他资深学术派的烙印,也深深植入了自己创业公司的基因中:
2024年,地平线在机器学习顶尖会议ICML上发表了关于下一代通用视觉主干模型Vision Mamba的论文,在2024年全球AI领域发表的所有论文里,引用率排名第三。
从学界进入产业界,余凯成为了深度学习技术在中国产业应用的主要推动者:他相继创建并领导了中国第一家深度学习研发机构、第一个自动驾驶项目,以及中国第一个深度学习平台......
2015年,余凯创立智驾科技公司地平线,今年是第10年。
以下为余凯分享实录精选:
硅谷往事:
一场竞拍背后的深度学习革命
创立地平线马上满10年了。回头想想中间走过的路,我常开玩笑说,如果要我从头重新走一遍,我可能都不太敢。
可能大家也会有点关心,我是怎么样的一步一步,从做学术走上创业路的?
所以一开始,先跟大家分享一些轻松的小“八卦”。
2006年,我加入了NEC Lab,那时的NEC Lab是神经网络研究的大本营,也是全球最早开始深度学习研究的机构之一。
图1. 位于“硅谷心脏”库比蒂诺市的NEC Lab
大家可能都知道,李飞飞有个著名的项目叫ImageNet,被看作是计算机视觉和人工智能进步的重要标志。
图2. 李飞飞的ImageNet项目
2010年,第一届ImageNet图像识别大赛,有三十多个团队参加,我当时是NEC Lab的实验室主任,带领团队拿到了大赛第一名。
到了第二届,因为整个行业并没有新理论和算法的进步,所以参加者寥寥,整体的图像识别准确率也没有很大提升。
美国的“互联网女王”在报告里说,中国的AI发展虽然厉害,但往往是跟随者,一开始取得breakthrough(突破)的,肯定不是中国人。她引用了ImageNet挑战赛来佐证这个观点,说后面几年成绩好的都是中国团队,但第一届就不是中国团队。但她不知道,第一届冠军团队,带队的是名中国人。
其实我们在人工智能、深度学习的原创性研究方面,一直有可圈可点的地方。
2012年春节前夕,我结束了六年的硅谷生涯,回国加入了百度。
也正是在2012年,第三届ImageNet挑战赛的准确率,一下子从75%提升到了85%。冠军就是诺奖得主Geoffrey Hinton团队研发出的卷积神经网络AlexNet。
这个结果一出来的时候,全世界没有人比我更震惊,我是首届的冠军,所以清楚地知道10%的准确率的提升意味着什么。
图3. 2012年,Geoffrey Hinton 团队研发出的神经网络 AlexNet 在ImageNet 上夺冠
我当即给Hinton发去邮件,表达想要合作的迫切期待。这封邮件启发了Hinton发起一场秘密竞拍。
2012年12月初,人工智能机器学习领域的顶级会议NIPS,在美国内华达州太浩湖举办——别人在开会,我们在忙着在酒店竞拍。
当时有四家公司参与竞拍,彼此不知道对方是谁,但我猜想一定有Google,后来也印证了我的猜想。
难以想象,出价几千万美金拍卖的是一家竞拍前才紧急成立的公司DNNresearch,公司总共3个人——Hinton带着自己的两个学生,没有发布任何产品,甚至没有任何idea。
图4. DNNresearch公司三人组
竞价到2000万美金的时候,一家公司退出了;2400万美金的时候,又一家公司退出了;剩下的两家公司,一家是百度,一家是Google;到4400万美元的时候,Hinton叫停了竞拍。第二天,Hinton决定去Google。
其实这完全在我的预想之中,同样的钱,他一定会去Google,因为距离上不用长途奔波,整体的文化环境也更熟悉。
其实每个参与这场秘密竞拍的人,都不知道这件事情全貌。大约十年以后,《连线》杂志和《纽约时报》的知名科技记者凯德·梅茨(Cade Metz)采访了几十位参与者,在《Genius Maker》这本书中还原了整个事件。
图5. 《The Secret Auction That Set Off the Race for AI Supremacy》,凯德·梅茨(Cade Metz),2021.03.16
我起初猜第四家公司是IBM,因为当时IBM在深度学习方面做得很好。但这本书出版以后,我才知道我猜错了——是一家才成立两年的伦敦初创公司,DeepMind,他们甚至没有现金,是拿自己公司的股权在竞拍。后来的AlphaGo也好,诺贝尔奖也好,在当时就已经可见DeepMind的雄心壮志。
最后虽然没有赢得竞拍,但我们也是个“赢家”——通过竞拍,我们最直接地看到了,大洋彼岸的科技公司为了一个技术,愿意去花多少钱。因此开始真正重视这个领域。
回来以后,百度就宣布成立了深度学习研究院,这也是国内开始发展深度学习的一个重要标志。我们用深度学习做搜索、广告、图片搜索、语音识别,取得了很多的进展。
之后,我又进一步推动发起了国内第一个自动驾驶项目。
如果把当时自动驾驶原型车的后备箱一打开,会发现是一坨机器,而且跑半个小时左右就停了,成本、散热、稳定性等问题,都有待解决。
图6. 余凯博士早期参与自动驾驶项目
我就想,如果能把整个机器,集成到一个方寸之间的芯片上,是不是可以真正推动行业进步?让这个停留在实验的项目,可以真正进入到更多的寻常百姓家?
我一直在思考这个问题,这也成为我后来开始创业的动力之一。
柳暗花明:
永远在没有竞争的地方竞争
除了深度学习,ImageNet大赛还让一个东西变得非常热门——GPU,因为用GPU来训练神经网络,速度远比CPU要快。
那个时候黄仁勋本人都没意识到,原来他躺在一个“金山”上。到2014年左右,他才意识到,原来打游戏的显卡,可以推动机器学习和人工智能的发展。
我们算是最早用英伟达的芯片进行深度学习训练的团队之一。
这也启发了我,要推动整个人工智能向下一个高度去发展,不能满足于做软件算法的创新,还要从算法深入到底层的硬件架构,去做革命性的创新。
但那个时候市场普遍认为,做硬件、做芯片,往前回溯20年,基本没有什么好结果。投资重、周期长、风险高、挣钱慢,这样的生意干嘛要去做?
但我觉得,要么就不要创业,要创业就要搏一个无限大的未来。
2015年5月,我离职开始创业,6月接受创业以来的第一个采访时提到:
“我们要做的就是把深度神经网络放置在芯片中,也就是机器人的大脑芯片,实现真正的,从万物互联到万物智能。
物联网只是开始,设备的联网不等同于智能。真正的智能是每一辆车、每一个电器都具有环境感知、人机交互和决策控制的能力。”
十年后回溯这个采访,比较欣慰的是,我们的业务确实是紧紧围绕着这个愿景展开的。
当然,这中间也经历了些波折。
我们在整个创业过程中,不可避免地走了一些岔路。但因为最基础的几个战略与方向在一开始就定好了,就不会太过跑偏,或者犯致命的错误。
创业要搏一个无限大的未来,但最重要的是“搏”不等于“赌”,好的战略是不能去赌的。
2015年7月,英伟达还是一个市值100多亿美金的公司,整个资本市场对它的估值,实际上还是游戏显卡的定位。
但我当时已经意识到,虽然它还只是在一个小众的群体里发酵,但整个数据中心、服务器、云端,CUDA的生态基本上是很难撼动的。
在一个领域里面已经建立领先优势的企业,想象他们会在自己的正面“战场”犯错,这就是在“赌”,因为这件事几乎是不可能的。
我们必须独辟蹊径——云端是一个广袤的商业领域,那它的反面——终端,是不是也是一个足够大的未来?
我们就想反其道而行之,投入到未来无处不在的机器人,和机器人技术的重要的落地场景之一——汽车。
所以2015年公司刚创立的时候,我们瞄准了AIoT和汽车两大领域,两个方向同时搞。
这个设想听起来非常完美,而这就是科学家创业的一个大忌——科学家创业往往不是从一个商业切口出发,而是从一个技术领域出发。然后基于一个假设,我的技术足够牛,可以360度扫射任何业务方向。
到了2019年的时候,两个领域都打得很焦灼,每件事情都走得不太顺。
我们公司核心管理层在一起,经过了长达半年的战略讨论:我们的业务本质是什么?该怎么做?有时候会一直讨论到天亮,甚至泪洒会场,因为项目做久了,都是有感情的。
我们用商业第一性的原理,反复思考了三个问题:
■ 首先要问,你的客户是谁?这个问题一定要反复讲。
■ 第二个问题是,客户的痛点和需求是什么?这个问题也要反复讲。
■ 第三个问题也很重要,你有什么别人难以复制的方式、有壁垒的方式去满足用户的需求跟解决用户的痛点。
第一个问题比第二个问题重要,第二个问题比第三个问题重要,都很重要。
任何一个业务领域,其实最重要的是客户,比技术要难得多。你要围绕着这个客群,精准地打造你的技术、产品、商业模式、组织流程、资源投入等等。
想明白这些之后,2019年11月份,我下定主意——把AIoT方向全砍掉,All in智能汽车。
汽车是当前最大的根据地,是既有客户,又有钱,又对技术和智能有需求的赛道。把端侧架构以及软件生态都做成熟,直至把自动驾驶行业击穿之后,才有可能去发展AIoT。
汽车的智能化是第一步;未来无处不在的机器人,是第二步。
整个团队也因此脱胎换骨,从一个充满理想和抱负,但不知道咋干的团队,进化成了一个真正的创业团队。
随着业务的不断推进,整理自己的思维框架非常重要,并且要在实践中反复实践、检验、迭代。
在不断的摸索中,我们沉淀了两个重要的思维模型:
第一,永远在没有竞争的地方竞争。
李云龙那种“两军相争勇者胜”、“硬碰硬”的战略,在创业和商业上是行不通的。
你看毛主席作为卓越的军事家,他就从来不打没把握的仗,而是打游击战、突围战。四渡赤水就是一场经典的突围之战。
彼得·泰尔在《从0到1》里面讲,商业中,what's your secret?什么是你想到了,但别人没想到的?
不要去热闹的地方扎堆,而是要找一个人迹罕至的区域,建立起自己的壁垒。
第二,永远不要在悬崖边跳舞。
我一直都是一个风险厌恶型的玩家,永远在离悬崖50米开外的地方跳舞。
账上要永远有钱,因为维持健康的现金流,永远是一切理想的前提。
尤其是今天,全世界都进入了“逆周期”。
我认为在顺周期时,一个企业家,在“生门”跟“死门”这两件事情里面,可能80%的精力要放在“生门”,不顾一切地抓机会,比如烧钱打“商战”。
但在逆周期的时候,风险管理一定是高于机会捕捉的。我认为至少70%时间,要思考“死门”在什么地方。因为不只是有现金流的风险,还有社会舆论的风险、数据合规的风险……这些风险,都有可能一下子让你痛不欲生,甚至是一招毙命。
查理·芒格讲,“如果我知道我在哪死,我就不去了”,这对于指导企业的战略,也非常有用。
唯快不破:
行业迎来了十倍速的价值拐点
回到汽车行业,去年年底,国内新能源车的占比超过了50%,国产品牌接近70%,这完全是之前难以想象的。
图7. 中国汽车行业迈入智能化下半场,2025年成为行业拐点
这意味着什么?
当一个产业的核心生产要素,在发生十倍速变化的时候,就是改写生产关系的时候——以前的“庄家”现在下牌桌了,以前在牌桌下的,现在要争“庄家”了。
这时候,最需要的战略选择就是“跟”,而且要快速地跟。
回顾PC时代和移动通讯时代,当产业核心技术要素发生十倍速变化时,基本上在五年内,战斗就结束了,格局被重新改写。
现在,当电动化这一技术要素在发生十倍速变化时,汽车行业的游戏规则已经被完全颠覆了,智能驾驶迎来了价值拐点。
特别是今年开始,车厂纷纷打响“智驾平权”,让智能驾驶普及到10万以下的车型上。
这时候,无论是自研,还是第三方合作,都可以。
重要的是,必须稳准狠地定位市场需求,快速地跟。
得益于我们出发得比较早,并且快速迭代,现在已经成为目前最大规模量产辅助驾驶计算方案的中国公司。
在这中间,“软硬结合”,是我们追求量产效率的一大法宝。
传统的研发与合作模式中,芯片厂商管芯片,软件厂商管软件,整车厂管整车……本质上是一个串行的链路。在硬件上,不能最高效地进行软件开发,整个软件开发跟整车之间,又往往是脱节的,所以迭代的非常慢,往往以年为单位。
然而要开发专用的智能驾驶硬件,必须对智能驾驶的算法,有最前沿和深刻的理解。所以我们在整个软件算法方面,一直在持续地深耕。
2024年,我们在机器学习国际顶级会议ICML上,发表了下一代通用视觉主干模型Vision Mamba*的论文,这是现在最具潜力的下一代通用视觉主干模型之一;这篇文章在2024年全球人工智能领域发表的所有论文里,引用率排名第三。
泉果视点注:Vision Mamba是一种高效的视觉表征学习模型。该论文的研究表明,与传统模型相比,Vision Mamba在处理长序列和高分辨率图像时,具有更好的速度和内存效率。
图8. Vision Mamba模型的网络构架图
来源:地平线官网,Zhu L, Liao B, Zhang Q, et al. Vision mamba: Efficient visual representation learning with bidirectional state space model. In ICML 2024.
把对于整个软件算法的深刻理解,注入到对芯片底层架构的设计和创新中,两者协同优化,这种独特的打法,让我们的芯片更有竞争力,让我们的系统的更有竞争力,最关键的是,让我们的迭代速度更快。
而对于整个行业竞争终局的判断,我认为可能是20%的车型或厂家自研,80%一定是跟行业龙头深度合作。
这个观点可能是反共识的。
但事实是,越往上走,会发现越是巅峰对决,技术难度越来越高,考验的是系统化建设的能力。
因为以前做智能辅助驾驶、高速辅助驾驶,基本上200人到300人的团队都能做到。
现在,整个行业要从城区辅助驾驶,逐步走向百分之百的“脱手”(hands off),到百分之百的“脱眼”(eyes off),最终目标实现百分之百的“脱脑”(minds off),其复杂度和挑战以及对资源的消耗都是指数级上升的。
其实移动通讯时代的基带,跟自动驾驶这件事很像。
为什么做基带业务的就那么几家供应商,手机厂商为什么不自研?因为要保证手机上网打电话,在各种遮挡,高楼反射,地铁信号屏蔽……都要做到稳定、可靠、流畅,是很不容易的;而这个体验,不会因为身份的不同,而产生差异。
一个标准的、收敛的业务,只涉及“做的好不好”,不涉及“做的不同”,而品牌正是由差异化定义出来的。如果你的资源、技术没有几个基带龙头好,那就不应该做。
而手机厂商都在自研摄影方案,正是因为这能做出差异来,满足个性化需求,比如我和女大学生对摄影的需求肯定是不同的。
智能驾驶就像是汽车的“基带”,无论是在上海的闹市区,还是到东北的冰天雪地、杭州潮汐车道,出口到交通规则都不同的国家,无论何时何地,都要保证你的技术稳定、可靠、安全、流畅……这是刚需。
这是一个系统级的迭代,很残酷,到最后能够“幸存”的玩家或许不会很多。
科技全球化:
中国的几大“富余”要素
我整体判断,未来十年是中国科技公司Go global(全球化)的十年。
外面总是讲说,中国的制造业over capacity(过剩)了,其实我认为这是非常肤浅的认识。
我们身处在中国科技行业这么多年,深刻地知道,中国有世界上无与伦比的工程师红利。
在今年年初,DeepSeek放大了这些东西,让国外初步认识到,我们的科技发展水平。
我认为中国走向科技全球化的过程中,还真有几个供应富余的要素:
第一个是制造业产业链的over capacity;
第二个是工程师红利的over capacity:
统计数据表明,尽管我们的生育率有所下降,但一直到2040年,我们的大学毕业生还有1000万。要消化这么多新生力量,必然是全球化。
第三个是企业家精神的over capacity:
因为我从来没有看到哪个国家像我们这样,身边的创业者、企业家就跟打了鸡血一样,哪怕遇到再多的挫折,还是在那边猛干。
有这三个over capacity的要素,中国科技企业的全球化,必然是未来十年的大主题之一。
我认为中国香港市场,也是承载这样的主题最好的地方之一。
无人驾驶:
技术是为了让人
享有更高水平的自由
至于无人驾驶这件事,什么时候能实现?
我个人感觉,至少要五年以上,有可能是十年,因为这件事的容错率极低。从A到B,中间不允许有任何的风险。这是非常难的事情。
中间可能会实现局部的无人驾驶,比如说通过大量的数据训练,在上海的延安路高架桥区间路段,实现了无人驾驶,但驶离这个区间的时候就不行了。然后不断地去拓展。
我判断,从今年算起,三年内实现“脱手”(hands off)通勤,五年内实现“脱眼”(eyes off)驾驶,十年内可以实现“脱脑”(minds off)驾驶,车会自己把你送到目的地,你在车上可以完全做自己的事。
我也算中国第一个RoboTaxi(无人出租车)项目的“始作俑者”,但是我反思过,这件事还是得一步一步来,因为这相当于是直接“脱脑”驾驶了。
还有个很有意思的事情,从用户体验角度来说,假设把你塞进一个封闭的盒子里,没有方向盘,开车就像开盲盒一样的,车按照自己的想法走,其实你会非常煎熬。
从用户心理来讲,这个体验是非常不安定的。哪怕某天实现了完全自动驾驶,可能还是要保留人的操控能力,实际上这会给我们带来更强的安全感和自由感。就像骑马一样,可以让马自己走,但人手里必须握有控制它的缰绳。
我认为一切技术的发展,目的不是让机器更强大,而是让人们享有更高水平的自由化。
如果真的没有方向盘,第一,用户体验会非常差,第二,系统的容错率极差,万一有不受控的车开过来,该怎么办?
智能驾驶正在快速发展,这时候,信任反而比以往任何时候都更加重要。
认真地把基础技术和AI能力做好,是一切智能和自由的必经之路。
泉果博物馆
《Living Architecture:Casa Batlló》
活的建筑·巴特罗之家
建筑投影作品
艺术家:Refik Anadol
世界著名新媒体艺术家Refik Anadol被称为“数据炼金术师”,他的每件作品,都是一次颅内狂欢的极致显化。
当巴特罗之家(Casa Batlló)被视频映射投影,并根据现场的实时天气与环境而不断发生变化,这个1877年的建筑,正变得流动与鲜活。
对于Refik来说,“数据”是作品中的一个极为重要的元素。他提出了“数据绘画”(Data Painting)的概念,强调将数据当作一种物质、一种颜料和一种材料。
在过去的9年里,他和团队处理了超40亿张图像、训练了300多个AI模型,于技术与艺术、机器智能与人类情感的交汇边界,呈现出“有别于过去任何形式的一种巨大的进化,一种新的想象力”。
法律声明
本资料不作为任何法律文件,不代表泉果基金的任何意见或建议,不构成泉果基金对未来的预测,所载信息仅供一般参考。前瞻性陈述具有不确定性风险,泉果基金不对任何依赖于本资料而采取的行为所导致的任何后果承担责任。
• END •A
(转自:泉果视点)