VLA与世界模型“血战”前夜：吵的是路线，抢的是话语权 -

“很多VLA模型训练出来之后，泛化能力几乎为零”。

这是至简动力CEO贾鹏在英伟达GTC 2026上阐述的一个重要观点，而贾鹏不是别人，就是前理想智驾研发负责人。

而为了解决模型泛化能力不足的短板，至简动力将世界模型和VLA融合在一起，研发出了“大一统基座模型”。

英伟达GTC大会作为每年一度的科技盛会，理想今年也照例登台演说。

众所周知，理想是VLA的忠实拥护者和践行者，其基座模型负责人詹锟在GTC大会上就发布了理想的下一代智能化架构——MindVLA-o1。

詹锟还表示，同一套VLA模型不仅可以控制车辆，还能扩展至机器人，这类基础模型未来将驱动新的具身智能范式。

贾鹏和詹锟的观点对撞火花四溅，一场前员工与老东家的观点交锋，在英伟达GTC 2026的舞台上也以这样意外的方式拉开。

而在GTC舞台之上以及周围，一场爆发在VLA和世界模型之间，规模更广、毫不留情的观点对抗，也在轰然进行。

世界模型联军的炮火

早在去年四季度的时候，VLA和世界模型就已经明显分化成了两大阵营。

VLA的阵营里主要有理想和小鹏，世界模型的阵营里则主要有华为和蔚来。

有趣的是，理想和小鹏看起来都是VLA的拥趸，但小鹏却又搞出了一套第二代VLA，与理想拉开了距离，甚至还要在气势上压过理想一头。

短短几个月过去了，局势又发生了巨大变化。

一方面，各家方案纷纷落地，显得彼此之间根本没有对错，而是对与更对的近身肉搏。

另一方面，新的成员开始站队，让局势更加紧张和热闹了起来。

吉利汽车集团CTO李传海在GTC大会上就分享了吉利的WAM世界行为模型。

WAM概括地说主要是包括四大技术内核：

多模态模型识别路况；动作专家生成不同的动作序列；世界模型推演分析；基于人类驾驶数据训练而来的价值函数来评估选择。

用大家都能看得懂的话说，就是WAM世界行为模型追求像人一样去理解、推理和执行，再经过大量的训练，最终使得驾驶精确性近乎直觉。

可，像人一样去驾驶，VLA难道就不能做到吗？

李传海在介绍WAM的同时，指出了VLA的三大问题。

第一，VLA只会背标准答案，却不能掌握真正规律，泛化性不够，这一点也与文章开头提到的贾鹏的观点不谋而合。

第二，VLA依赖具体的汽车驾驶操作数据，不能像世界模型那样处理来自互联网的海量视频，如此一来，数据的质量和一致性则成了VLA的瓶颈。

第三，VLA建构的是语言或符号与驾驶动作之间的关系，不能像世界模型那样对物理世界规律有深刻的认知。

按照李传海的以上观点，即使VLA能像人一样去驾驶，那也很可能是一个反应还不太灵活的新手司机。

不只是吉利这样的整车厂，头部智驾供应商Momenta也对VLA持有类似的想法。

Momenta CEO曹旭东在最近的上汽大众ID.ERA 9X技术发布会上就表示，VLA只能是锦上添花，对于智驾的提升不会那么大，而世界模型再加强化学习才能给智驾带来十倍、百倍的提升。

在曹旭东看来，其背后的逻辑就在于VLA的训练方式是先训练大语言模型，而大语言模型的参数量一般在100B左右，接下来就是视觉和语言的对齐、行动再跟视觉和语言对齐。

一套流程走下来，结果大量的参数并没有完全用在开车本身。

世界模型则不然，它能建构起对物理规律的认知，然后再通过强化学习将认知变成肌肉记忆，最终甚至能够超越人类的驾驶水平。

华为车BU CEO靳玉志去年曾直言VLA取巧，并不是走向真正自动驾驶的路径，而李传海与曹旭东的观点，又恰与靳玉志形成了一种遥相呼应之势。

不过，一大整车厂，两大头部智驾供应商都不看好VLA，就真的说明VLA注定只是过渡阶段的产物，而非指向终局的利刃吗？

VLA的防御工事

李传海在GTC上指出VLA三大病症时，曹旭东为上汽站台直言VLA只是锦上添花时，理想和小鹏也没闲着。

前文提到，詹锟在GTC大会上发布了理想下一代智能化架构——MindVLA-o1。

MindVLA-o1实现了一个底层技术的突破：原生3D ViT，也就是3D视觉模型编码器，能够以视觉为核心，再结合激光雷达点云，引导模型对物理空间结构有进一步的感知和理解。

理想汽车CEO李想把原生3D ViT评价为“真正的三维视觉编码器”。

李想解释道，今天所有的端到端系统本质上都是“看2D视频学开车”，更像是一个人坐在电脑前看了十万小时行车记录仪，然后直接上路。

其道理也很浅显，如同刷视频学做饭，一看就会，一练就废。

所以理想通过3D ViT弥补了“看”与“练”之间的实践鸿沟，让模型一开始就工作在真实的三维世界中，学习如何看懂“空间结构、位置关系、语义信息”。

这也间接回答了李传海指出的VLA对物理规律没有深刻认知的问题。

与此同时，理想还引入了一个大家比较陌生的新概念——预测式隐世界模型，即能够在一个“隐空间”中模拟未来。

更详细地说，是先用视频数据构建未来表征，MindVLA-o1再进行世界模型推演，最后世界模型、多模态推理以及驾驶行为进行联合训练和对齐，进而能让模型应对当下的同时还能预测未来几秒的场景演化。

而将空间、时间统合起来预测未来时间的场景，也同样是世界模型的关键亮点。

由此也不难看出，无论是世界模型，还是VLA，其实都已经具备了L3/4的技术基础。

李想说MindVLA-o1“正在逐渐演化成一个通用的物理世界智能体”。

贾鹏和李传海所指出的VLA泛化能力不强的问题，在李想这里，也貌似不是问题。

事实上，从目前各家对世界模型和VLA的表述来看，两条路貌似都能奔向通用物理世界智能体。

小鹏其实已经在自己的第二代VLA路上狂奔起来了。

以第二代VLA为技术底座，小鹏在L2、L4、Robotaxi、人形机器人等方面做了广泛布局。

另外第二代VLA具体的实力我们也有感受，面对拥挤的广州早高峰，它非常像一位老练的出租车司机。大家可以参考下面这个视频。

近几天世界模型阵营指摘VLA，小鹏的舆论阵地也在为捍卫VLA战斗。

何小鹏就做了一场关于回答第二代VLA问题的直播。

其中，何小鹏提到第二代VLA其实就是小鹏面向L4的第一个版本，并且还将面向全球。

这也说明，所谓VLA泛化能力不足在小鹏这里，跟理想一样看起来并不是问题。

值得一提的是，英伟达在这次GTC大会上也再次展示了自己的VLA模型——AIpamayo，并宣布将在奔驰CLA等车型上量产。

从芯片到智驾方案，英伟达的强势入局，又会让VLA和世界模型的天平往哪偏，是个悬念。

写在最后

表面上看，VLA和世界模型在GTC台上台下争得面红耳赤，但仔细一看，这却更像是一场心照不宣的“技术秀”。

大家吵的是路线，抢的却是L3/4大门开启前的话语权。

谁掌握了话语权，谁便更有可能在激烈的竞争中掌握市场格局的主动权，赢得未来的门票。

而就技术本身而言，世界模型和VLA在一定程度上其实是你中有我、我中有你的关系。

并且就在今年，小鹏将试运营基于第二代VLA的Robotaxi，华为会推进高速L3，理想目标将全新L9打造成具身智能机器人……

因此，世界模型和VLA谁能吵赢谁已经是最不重要的事了，它们本质上已经来到了比拼工程落地的冲刺阶段。

剑已出鞘，就看谁能见血了。