作者 |张力
邢昀
近期,李想带着他的VLA 司机大模型再谈AI,距离上一次他开诚布公地谈AI 和理想的未来,过去了整整130天。
130天不长,但足以让自动驾驶和AI领域改天换地。1月下旬,DeepSeek发布开源推理大模型DeepSeek-R1,持续破圈,在国内引爆新一轮人工智能热潮。上一次理想AI talk中,李想着重强调自研基座大模型的重要性,“未来几年必须得保证,我们大语言模型的基座模型要做行业前三”。
而随着DeepSeek- R1横空出世,理想转而基于DeepSeek的开源去做VLA(视觉语言行动模型)的L(language 语言)部分,也就是语言模型开发。选择站在巨人的肩膀上,理想汽车在VLA司机大模型的语言能力研发上提速显著,节省了近9个月的时间和数亿元成本。
同一时间里,智能驾驶因为事故频发,遭遇安全可靠性质疑,迎来至暗时刻,不过,在李想看来,现阶段比较像黎明前的黑暗,正因为辅助驾驶行业遇到了问题,解决问题才更有价值。
AI 的潜力在解决问题的过程中正变得具象化。不止理想,小鹏、蔚来这两家与理想差不多同期创业的造车新势力也在押注AI。
李想称“AI意味着理想未来的全部”,蔚来创始人李斌断言“一家成功的智能电动车公司,也一定是一家成功的AI公司”,小鹏汽车创始人何小鹏喊出“All in AI ”,打造面向全球的AI汽车公司。
实际上,这背后争夺的是下一代汽车、甚至产品的定义权,以及与此相伴的技术、用户与商业模式的全面重构。
1、造车迈入“AI新战场”
蔚小理对AI 的决心,要追溯到特斯拉的FSD(Full Self-Driving)V12的突破性进展。
2024年初,特斯拉智驾团队负责人在X(前推特)上介绍,FSD V12 仅训练几个月,就已经完全超越经过多年积累的FSD V11。FSD 突然变强,是因为他们采用了一种新的端到端(end to end)的神经网络技术,把传统的感知、决策、控制融合到一个模型中,通过输入信息直接产生执行动作,就跟人在开车时,根据路况做出即时反应一样。
这样突破性的进展,属于自动驾驶领域的“涌现”时刻,与ChatGPT 3.5横空出世对大语言模型的意义不相上下。 即使一直跟特斯拉硬刚的何小鹏,在体验过FSD V12之后,也不得不服,大赞“FSD V12.3.6表现极好,要向其学习”。
在端到端大模型流行之前,自动驾驶的主流是模块化设计,包含感知、决策、执行三大模块,信息是逐级传导的,车上的传感器(如雷达、摄像头等),相当于人的眼睛和耳朵,把感知到的环境信息,传导到决策模块,类似于人的大脑,这个大脑里写满了各式各样的规则,决策模块根据这些规则规划出最佳的行驶路线,最终告知给执行模块,相当于人的手和脚,执行转向、加速、刹车等动作。
模块化设计的一个最大缺陷是,驾驶场景千变万化,决策模块中的规则代码只能越写越多,FSD 11的代码就多达30多万行,大大影响执行效率,更要命的是遇到没有被规则写入的场景,自动驾驶模块就会不知所措。
端到端的设计则完全是另一种思路,外部信息输入自动驾驶大模型,然后直接输出执行动作,整个决策的过程没有人为规则去干预,纯靠模型自己去学习摸索如何驾驶才是更好的。所以FSD V12的代码从30多万行缩减到只剩3000行,而且一级一级的信息传输变成端到端的传输,信息传递变得更加准确,且没有损耗,也可以让大模型更精确地掌握全局状况。
特斯拉把大量真实的驾驶数据投喂给端到端大模型,它就像一个有意识会主动学习的小学生一样,通过模仿观察人类的驾驶视频,涌现出跟老司机一样的智慧。
在特斯拉影响下,国内智驾路线也因此开始技术转向,2024年端到端大模型开始加速上车。
但这个学习过程需要较长的时间,而且有可能会犯错,就像你需要给小学生成长的时间和空间,而且它是如何学习的,完全是黑箱的状态,这种不可解释性会严重影响研发和问题解决的进度,因为出现问题,研究人员不知道可以从哪里提升。
所以特斯拉在面对复杂路况或者极端情况时,表现的并不如意,比如极端大雾、大雨天无法识别障碍物,但短时间内又难以解决,目前已知的路径就是不断提升数据质量和数量,但真实且有价值的数据需要时间来积累。
国内的端到端大模型与特斯拉也并非完全一致。小鹏采用了分段式“端到端”,把大模型分别引入感知、规划等模块,中间通过人工编写的规则连接。这是一个相对折中的方案。但是连接仍由人工定义,这意味着信息一定程度的损失,也不利于自动化。
理想在2024年的技术路径取名为端到端+VLM(Vision-Language Model) 双模型分立,理想解释为快系统和慢系统。
前者犹如条件反射,可以处理绝大部分常见场景,而后者则是像老司机的大脑,实时分析路况,给出最佳的驾驶规划,仍然不是真正意义上的端到端。
2、模型:端到端2.0的进化
与此同时,在端到端1.0上显得滞后的蔚来选择了更激进的路线,直接进入智驾行业新方法论——世界模型阶段。
2024年7月,蔚来创新科技日上发布了中国首个智能驾驶世界模型NWM(NIO WorldModel)。世界模型的核心能力是基于信息的理解,进行想象推演,从而规划轨迹。
实际上世界模型的概念最早也是在人工智能领域出现。
简单理解,这是一种生成式框架,通过理解现实世界的物理动态(如运动、力和空间关系),来模拟真实环境。这种模型利用多模态输入(文本、图像、视频、传感器数据)预测未来场景,并为自动驾驶端到端大模型生成合成数据,作为训练基础。
中国的驾驶环境要比美国复杂的多,但市场又不可能等自动驾驶大模型慢慢学习,达到一个老司机的水平再上线。将世界模型引入到自动驾驶领域,有助于解决数据数量和质量的问题,更有效的处理无穷无尽的Corner case。
蔚来的世界模型NWM(NIO WorldModel)上车表现如何,尚未可知,原本预计今年4月推送,但李斌透露,因为工信部新规改动,需要等公告后才能进行推送。
与此同时,理想、小鹏等也在加紧向端到端2.0进化,他们将重心放在搭建更为高阶的VLA(视觉-语言-动作)端到端大模型。
这一次AI talk中,理想推出司机VLA(视觉-语言-动作端到端)大模型。李想解释,他把智能辅助驾驶分为三个阶段,分别是昆虫动物智能、哺乳动物智能以及人类智能。模块化属于昆虫动物智能,端到端属于昆虫动物智能,而VLA则属于人类智能。
李想介绍,在VLA 阶段,智能辅助驾驶可以像人一样观察世界,世界模型利用3D 视觉和 2D 的组合构建更真实的物理世界,而非 VLM 阶段仅能看到一张图。此外,VLA 拥有自己的脑系统,不仅能看到物理世界,更能进一步理解物理世界,具有自己的语言和思维链系统,有推理能力,可以像人类一样去执行一些复杂动作。
小鹏也正在搭建一个LVA基座模型,据介绍这是720亿参数的超大规模自动驾驶大模型,以大语言模型为骨架网络、使用海量优质驾驶数据训练的多模态大模型,具备视觉理解能力、长思维链式推理能力(CoT)和动作生成能力,从而在充分理解现实世界的基础上,能够像人类一样进行复杂的常识推理,并将推理结果转化为行动。
VLA侧重于多模态输入到动作的映射,而世界模型侧重于环境预测和模拟。两条路径也可以相互辅助,比如世界模型可以为VLA提供长期环境预测。
李想在对谈中表示,理想选择用大量真实数据配合世界模型生成数据,来解决模型的黑盒问题,简单来说就是给VLA司机大模型建立了一个考试的模型。
3、算力:芯片竞赛
完成VLA大模型的训练,算法、算力和数据缺一不可,ChatGPT的成功,引发全球AI竞赛,导致全球算力紧缺,而算力完全仰赖芯片,蔚小理中最先布局芯片的是蔚来。
李斌进军芯片最初的目的是省钱,市场上高阶辅助驾驶普遍使用的是英伟达Orin X,单颗售价在500美元左右,约合3600元人民币,以蔚来标配4颗Orin X的车型计算,光芯片一项的成本就接近1.5万元。
2024年NIO IN大会上,李斌从兜里掏出已经流片成功的神玑NX9031,打出的口号是全球首颗车规5nm高性能智驾芯片,而且一颗顶Orin X 4颗,在AI算力和ISP等主要指标上,至少有4倍以上的性能提升。神玑NX9031集成超过 500 亿颗晶体管,采用 32 核心 CPU 架构,每秒可处理超过 6 万亿条指令。
目前,这颗神玑NX9031已经搭载到蔚来ET9,是蔚小理中最早正式量产上车的自研芯片。
抛弃英伟达,转战自研芯片也是特斯拉淌过的路,因为随着算法的不断演进,端到端大模型的进化,英伟达的芯片不能满足自动驾驶公司个性化的需求,特斯拉第一代的FSD芯片早在2019年就量产了。
小鹏的芯片团队在FSD芯片量产次年搭建,自研图灵芯片,业内认为小鹏选择了性价比更高的7nm制程芯片。据小鹏介绍,图灵芯片拥有40 核处理器,两个神经网络处理单元(NPU),支持运行300 亿参数的模型,其 AI 算力接近三颗英伟达Orin X 芯片,综合性能上比蔚来的芯片低一些,但造价也会比神玑NX9031低。
蔚小理中芯片还没露面的是理想,据说理想内部也在推进自研芯片项目,代号“舒马赫”,项目启动比蔚来、小鹏晚,且流片结果不及预期,目前理想还是继续在英伟达的 Thor-U MAX 上做开发。
4、泛化:从AI 到机器人
集齐算法、算力再叠加纯AI公司难以获取的真实行车数据,蔚小理在发展AI上占得一些先机,而无论芯片,还是AI算法都可以泛化到汽车之外的行业,李想更是直接预言,“未来任何一家公司都是AI公司”。
跟智能驾驶汽车最为接近的AI行业就是人形机器人,因为他们都需要感知复杂的环境,做复杂且即时的决策交互,技术上也相通,都涉及自然语言处理、计算机视觉、机器学习等。
特斯拉依旧是最先入局人形机器人的汽车公司,2021年推出Optimus,马斯克也对人形机器人寄予厚望,他预计Optimus将超过特斯拉其他业务的总和,这句话有几分可信度需要时间来验证。
不过,何小鹏显然是信的。小鹏是蔚小理中最早投入人形机器人研发的,2023年推出第一代人形机器人PX5,2024年又推出人形机器人Iron,预计2026年开始工业化量产,追平特斯拉人形机器人的量产时间。
据小鹏介绍,Iron采用1:1仿生设计,更有高度的人形化特征。拥有178厘米的身高和70公斤的体重,全身配备62个主动自由度,手部则拥有22个可动自由度,而且Iron已经进入小鹏的汽车工厂打工了。
蔚来到2025年才入局机器人,已经组建了约20人的团队,准备开发机器狗。
李想则相对谨慎,他觉得未来一定会做人形机器人,但不是现在,当下的任务是攻克自动驾驶的技术难题。根据李想对AI的终极设想是硅基家人,人形机器人也只是迟早的事。
站在技术乐观主义的角度,AI技术无论如何泛化都不为过,而且商业前景比较明朗,但所要面临的问题也是现实存在的,抛开人才、技术难关等远期难关不谈,蔚小理最迫切需要解决的是资金问题。
自动驾驶、AI、芯片、机器人,每一个都是“噬金兽”,何小鹏曾坦言500亿投资仅仅是机器人的入门,李斌说一颗芯片研发投入可以布1000个换电站,约等于15亿元。而现实是2024年小鹏还没盈利,蔚来亏损继续扩大,理想盈利80亿元,但增速下降。
资金掣肘最终会影响资源的分配,而资源决定了以自动驾驶为起点的AI泛化能够走多远或者跌多惨,随着AI的摊子越铺越大,可能像马斯克一样建立起他的X帝国,也可能如贾跃亭那般被“生态化反”所吞噬,这其中微妙平衡将持续考验蔚小理。