不搞AI的，不是好汽车公司_资讯

不搞AI的，不是好汽车公司

创始人

2025-05-10 08:15:17

0次

作者 |张力

邢昀

近期，李想带着他的VLA 司机大模型再谈AI，距离上一次他开诚布公地谈AI 和理想的未来，过去了整整130天。

130天不长，但足以让自动驾驶和AI领域改天换地。1月下旬，DeepSeek发布开源推理大模型DeepSeek-R1，持续破圈，在国内引爆新一轮人工智能热潮。上一次理想AI talk中，李想着重强调自研基座大模型的重要性，“未来几年必须得保证，我们大语言模型的基座模型要做行业前三”。

而随着DeepSeek- R1横空出世，理想转而基于DeepSeek的开源去做VLA（视觉语言行动模型）的L（language 语言）部分，也就是语言模型开发。选择站在巨人的肩膀上，理想汽车在VLA司机大模型的语言能力研发上提速显著，节省了近9个月的时间和数亿元成本。

同一时间里，智能驾驶因为事故频发，遭遇安全可靠性质疑，迎来至暗时刻，不过，在李想看来，现阶段比较像黎明前的黑暗，正因为辅助驾驶行业遇到了问题，解决问题才更有价值。

AI 的潜力在解决问题的过程中正变得具象化。不止理想，小鹏、蔚来这两家与理想差不多同期创业的造车新势力也在押注AI。

李想称“AI意味着理想未来的全部”，蔚来创始人李斌断言“一家成功的智能电动车公司，也一定是一家成功的AI公司”，小鹏汽车创始人何小鹏喊出“All in AI ”，打造面向全球的AI汽车公司。

实际上，这背后争夺的是下一代汽车、甚至产品的定义权，以及与此相伴的技术、用户与商业模式的全面重构。

1、造车迈入“AI新战场”

蔚小理对AI 的决心，要追溯到特斯拉的FSD（Full Self-Driving）V12的突破性进展。

2024年初，特斯拉智驾团队负责人在X（前推特）上介绍，FSD V12 仅训练几个月，就已经完全超越经过多年积累的FSD V11。FSD 突然变强，是因为他们采用了一种新的端到端（end to end）的神经网络技术，把传统的感知、决策、控制融合到一个模型中，通过输入信息直接产生执行动作，就跟人在开车时，根据路况做出即时反应一样。

这样突破性的进展，属于自动驾驶领域的“涌现”时刻，与ChatGPT 3.5横空出世对大语言模型的意义不相上下。即使一直跟特斯拉硬刚的何小鹏，在体验过FSD V12之后，也不得不服，大赞“FSD V12.3.6表现极好，要向其学习”。

在端到端大模型流行之前，自动驾驶的主流是模块化设计，包含感知、决策、执行三大模块，信息是逐级传导的，车上的传感器（如雷达、摄像头等），相当于人的眼睛和耳朵，把感知到的环境信息，传导到决策模块，类似于人的大脑，这个大脑里写满了各式各样的规则，决策模块根据这些规则规划出最佳的行驶路线，最终告知给执行模块，相当于人的手和脚，执行转向、加速、刹车等动作。

模块化设计的一个最大缺陷是，驾驶场景千变万化，决策模块中的规则代码只能越写越多，FSD 11的代码就多达30多万行，大大影响执行效率，更要命的是遇到没有被规则写入的场景，自动驾驶模块就会不知所措。

端到端的设计则完全是另一种思路，外部信息输入自动驾驶大模型，然后直接输出执行动作，整个决策的过程没有人为规则去干预，纯靠模型自己去学习摸索如何驾驶才是更好的。所以FSD V12的代码从30多万行缩减到只剩3000行，而且一级一级的信息传输变成端到端的传输，信息传递变得更加准确，且没有损耗，也可以让大模型更精确地掌握全局状况。

特斯拉把大量真实的驾驶数据投喂给端到端大模型，它就像一个有意识会主动学习的小学生一样，通过模仿观察人类的驾驶视频，涌现出跟老司机一样的智慧。

在特斯拉影响下，国内智驾路线也因此开始技术转向，2024年端到端大模型开始加速上车。

但这个学习过程需要较长的时间，而且有可能会犯错，就像你需要给小学生成长的时间和空间，而且它是如何学习的，完全是黑箱的状态，这种不可解释性会严重影响研发和问题解决的进度，因为出现问题，研究人员不知道可以从哪里提升。

所以特斯拉在面对复杂路况或者极端情况时，表现的并不如意，比如极端大雾、大雨天无法识别障碍物，但短时间内又难以解决，目前已知的路径就是不断提升数据质量和数量，但真实且有价值的数据需要时间来积累。

国内的端到端大模型与特斯拉也并非完全一致。小鹏采用了分段式“端到端”，把大模型分别引入感知、规划等模块，中间通过人工编写的规则连接。这是一个相对折中的方案。但是连接仍由人工定义，这意味着信息一定程度的损失，也不利于自动化。

理想在2024年的技术路径取名为端到端+VLM（Vision-Language Model）双模型分立，理想解释为快系统和慢系统。

前者犹如条件反射，可以处理绝大部分常见场景，而后者则是像老司机的大脑，实时分析路况，给出最佳的驾驶规划，仍然不是真正意义上的端到端。

2、模型：端到端2.0的进化

与此同时，在端到端1.0上显得滞后的蔚来选择了更激进的路线，直接进入智驾行业新方法论——世界模型阶段。

2024年7月，蔚来创新科技日上发布了中国首个智能驾驶世界模型NWM（NIO WorldModel）。世界模型的核心能力是基于信息的理解，进行想象推演，从而规划轨迹。

实际上世界模型的概念最早也是在人工智能领域出现。

简单理解，这是一种生成式框架，通过理解现实世界的物理动态（如运动、力和空间关系），来模拟真实环境。这种模型利用多模态输入（文本、图像、视频、传感器数据）预测未来场景，并为自动驾驶端到端大模型生成合成数据，作为训练基础。

中国的驾驶环境要比美国复杂的多，但市场又不可能等自动驾驶大模型慢慢学习，达到一个老司机的水平再上线。将世界模型引入到自动驾驶领域，有助于解决数据数量和质量的问题，更有效的处理无穷无尽的Corner case。

蔚来的世界模型NWM（NIO WorldModel）上车表现如何，尚未可知，原本预计今年4月推送，但李斌透露，因为工信部新规改动，需要等公告后才能进行推送。

与此同时，理想、小鹏等也在加紧向端到端2.0进化，他们将重心放在搭建更为高阶的VLA（视觉-语言-动作）端到端大模型。

这一次AI talk中，理想推出司机VLA（视觉-语言-动作端到端）大模型。李想解释，他把智能辅助驾驶分为三个阶段，分别是昆虫动物智能、哺乳动物智能以及人类智能。模块化属于昆虫动物智能，端到端属于昆虫动物智能，而VLA则属于人类智能。

李想介绍，在VLA 阶段，智能辅助驾驶可以像人一样观察世界，世界模型利用3D 视觉和 2D 的组合构建更真实的物理世界，而非 VLM 阶段仅能看到一张图。此外，VLA 拥有自己的脑系统，不仅能看到物理世界，更能进一步理解物理世界，具有自己的语言和思维链系统，有推理能力，可以像人类一样去执行一些复杂动作。

小鹏也正在搭建一个LVA基座模型，据介绍这是720亿参数的超大规模自动驾驶大模型，以大语言模型为骨架网络、使用海量优质驾驶数据训练的多模态大模型，具备视觉理解能力、长思维链式推理能力（CoT）和动作生成能力，从而在充分理解现实世界的基础上，能够像人类一样进行复杂的常识推理，并将推理结果转化为行动。

VLA侧重于多模态输入到动作的映射，而世界模型侧重于环境预测和模拟。两条路径也可以相互辅助，比如世界模型可以为VLA提供长期环境预测。

李想在对谈中表示，理想选择用大量真实数据配合世界模型生成数据，来解决模型的黑盒问题，简单来说就是给VLA司机大模型建立了一个考试的模型。

3、算力：芯片竞赛

完成VLA大模型的训练，算法、算力和数据缺一不可，ChatGPT的成功，引发全球AI竞赛，导致全球算力紧缺，而算力完全仰赖芯片，蔚小理中最先布局芯片的是蔚来。

李斌进军芯片最初的目的是省钱，市场上高阶辅助驾驶普遍使用的是英伟达Orin X，单颗售价在500美元左右，约合3600元人民币，以蔚来标配4颗Orin X的车型计算，光芯片一项的成本就接近1.5万元。

2024年NIO IN大会上，李斌从兜里掏出已经流片成功的神玑NX9031，打出的口号是全球首颗车规5nm高性能智驾芯片，而且一颗顶Orin X 4颗，在AI算力和ISP等主要指标上，至少有4倍以上的性能提升。神玑NX9031集成超过 500 亿颗晶体管，采用 32 核心 CPU 架构，每秒可处理超过 6 万亿条指令。

目前，这颗神玑NX9031已经搭载到蔚来ET9，是蔚小理中最早正式量产上车的自研芯片。

抛弃英伟达，转战自研芯片也是特斯拉淌过的路，因为随着算法的不断演进，端到端大模型的进化，英伟达的芯片不能满足自动驾驶公司个性化的需求，特斯拉第一代的FSD芯片早在2019年就量产了。

小鹏的芯片团队在FSD芯片量产次年搭建，自研图灵芯片，业内认为小鹏选择了性价比更高的7nm制程芯片。据小鹏介绍，图灵芯片拥有40 核处理器，两个神经网络处理单元（NPU），支持运行300 亿参数的模型，其 AI 算力接近三颗英伟达Orin X 芯片，综合性能上比蔚来的芯片低一些，但造价也会比神玑NX9031低。

蔚小理中芯片还没露面的是理想，据说理想内部也在推进自研芯片项目，代号“舒马赫”，项目启动比蔚来、小鹏晚，且流片结果不及预期，目前理想还是继续在英伟达的 Thor-U MAX 上做开发。

4、泛化：从AI 到机器人

集齐算法、算力再叠加纯AI公司难以获取的真实行车数据，蔚小理在发展AI上占得一些先机，而无论芯片，还是AI算法都可以泛化到汽车之外的行业，李想更是直接预言，“未来任何一家公司都是AI公司”。

跟智能驾驶汽车最为接近的AI行业就是人形机器人，因为他们都需要感知复杂的环境，做复杂且即时的决策交互，技术上也相通，都涉及自然语言处理、计算机视觉、机器学习等。

特斯拉依旧是最先入局人形机器人的汽车公司，2021年推出Optimus，马斯克也对人形机器人寄予厚望，他预计Optimus将超过特斯拉其他业务的总和，这句话有几分可信度需要时间来验证。

不过，何小鹏显然是信的。小鹏是蔚小理中最早投入人形机器人研发的，2023年推出第一代人形机器人PX5，2024年又推出人形机器人Iron，预计2026年开始工业化量产，追平特斯拉人形机器人的量产时间。

据小鹏介绍，Iron采用1:1仿生设计，更有高度的人形化特征。拥有178厘米的身高和70公斤的体重，全身配备62个主动自由度，手部则拥有22个可动自由度，而且Iron已经进入小鹏的汽车工厂打工了。

蔚来到2025年才入局机器人，已经组建了约20人的团队，准备开发机器狗。

李想则相对谨慎，他觉得未来一定会做人形机器人，但不是现在，当下的任务是攻克自动驾驶的技术难题。根据李想对AI的终极设想是硅基家人，人形机器人也只是迟早的事。

站在技术乐观主义的角度，AI技术无论如何泛化都不为过，而且商业前景比较明朗，但所要面临的问题也是现实存在的，抛开人才、技术难关等远期难关不谈，蔚小理最迫切需要解决的是资金问题。

自动驾驶、AI、芯片、机器人，每一个都是“噬金兽”，何小鹏曾坦言500亿投资仅仅是机器人的入门，李斌说一颗芯片研发投入可以布1000个换电站，约等于15亿元。而现实是2024年小鹏还没盈利，蔚来亏损继续扩大，理想盈利80亿元，但增速下降。

资金掣肘最终会影响资源的分配，而资源决定了以自动驾驶为起点的AI泛化能够走多远或者跌多惨，随着AI的摊子越铺越大，可能像马斯克一样建立起他的X帝国，也可能如贾跃亭那般被“生态化反”所吞噬，这其中微妙平衡将持续考验蔚小理。

上一篇：追星赶月的首席科学家，用奋斗书写传奇

下一篇：一周重点活动回顾（0503-0509）

不搞AI的，不是好汽车公司

相关内容

热门资讯