“很多VLA模型训练出来之后,泛化能力几乎为零”。
这是至简动力CEO贾鹏在英伟达GTC 2026上阐述的一个重要观点,而贾鹏不是别人,就是前理想智驾研发负责人。
而为了解决模型泛化能力不足的短板,至简动力将世界模型和VLA融合在一起,研发出了“大一统基座模型”。
英伟达GTC大会作为每年一度的科技盛会,理想今年也照例登台演说。
众所周知,理想是VLA的忠实拥护者和践行者,其基座模型负责人詹锟在GTC大会上就发布了理想的下一代智能化架构——MindVLA-o1。
詹锟还表示,同一套VLA模型不仅可以控制车辆,还能扩展至机器人,这类基础模型未来将驱动新的具身智能范式。
贾鹏和詹锟的观点对撞火花四溅,一场前员工与老东家的观点交锋,在英伟达GTC 2026的舞台上也以这样意外的方式拉开。
而在GTC舞台之上以及周围,一场爆发在VLA和世界模型之间,规模更广、毫不留情的观点对抗,也在轰然进行。
世界模型联军的炮火
早在去年四季度的时候,VLA和世界模型就已经明显分化成了两大阵营。
VLA的阵营里主要有理想和小鹏,世界模型的阵营里则主要有华为和蔚来。
有趣的是,理想和小鹏看起来都是VLA的拥趸,但小鹏却又搞出了一套第二代VLA,与理想拉开了距离,甚至还要在气势上压过理想一头。
短短几个月过去了,局势又发生了巨大变化。
一方面,各家方案纷纷落地,显得彼此之间根本没有对错,而是对与更对的近身肉搏。
另一方面,新的成员开始站队,让局势更加紧张和热闹了起来。
吉利汽车集团CTO李传海在GTC大会上就分享了吉利的WAM世界行为模型。
WAM概括地说主要是包括四大技术内核:
多模态模型识别路况;动作专家生成不同的动作序列;世界模型推演分析;基于人类驾驶数据训练而来的价值函数来评估选择。
用大家都能看得懂的话说,就是WAM世界行为模型追求像人一样去理解、推理和执行,再经过大量的训练,最终使得驾驶精确性近乎直觉。
可,像人一样去驾驶,VLA难道就不能做到吗?
李传海在介绍WAM的同时,指出了VLA的三大问题。
第一,VLA只会背标准答案,却不能掌握真正规律,泛化性不够,这一点也与文章开头提到的贾鹏的观点不谋而合。
第二,VLA依赖具体的汽车驾驶操作数据,不能像世界模型那样处理来自互联网的海量视频,如此一来,数据的质量和一致性则成了VLA的瓶颈。
第三,VLA建构的是语言或符号与驾驶动作之间的关系,不能像世界模型那样对物理世界规律有深刻的认知。
按照李传海的以上观点,即使VLA能像人一样去驾驶,那也很可能是一个反应还不太灵活的新手司机。
不只是吉利这样的整车厂,头部智驾供应商Momenta也对VLA持有类似的想法。
Momenta CEO曹旭东在最近的上汽大众ID.ERA 9X技术发布会上就表示,VLA只能是锦上添花,对于智驾的提升不会那么大,而世界模型再加强化学习才能给智驾带来十倍、百倍的提升。
在曹旭东看来,其背后的逻辑就在于VLA的训练方式是先训练大语言模型,而大语言模型的参数量一般在100B左右,接下来就是视觉和语言的对齐、行动再跟视觉和语言对齐。
一套流程走下来,结果大量的参数并没有完全用在开车本身。
世界模型则不然,它能建构起对物理规律的认知,然后再通过强化学习将认知变成肌肉记忆,最终甚至能够超越人类的驾驶水平。
华为车BU CEO靳玉志去年曾直言VLA取巧,并不是走向真正自动驾驶的路径,而李传海与曹旭东的观点,又恰与靳玉志形成了一种遥相呼应之势。
不过,一大整车厂,两大头部智驾供应商都不看好VLA,就真的说明VLA注定只是过渡阶段的产物,而非指向终局的利刃吗?
VLA的防御工事
李传海在GTC上指出VLA三大病症时,曹旭东为上汽站台直言VLA只是锦上添花时,理想和小鹏也没闲着。
前文提到,詹锟在GTC大会上发布了理想下一代智能化架构——MindVLA-o1。
MindVLA-o1实现了一个底层技术的突破:原生3D ViT,也就是3D视觉模型编码器,能够以视觉为核心,再结合激光雷达点云,引导模型对物理空间结构有进一步的感知和理解。
理想汽车CEO李想把原生3D ViT评价为“真正的三维视觉编码器”。
李想解释道,今天所有的端到端系统本质上都是“看2D视频学开车”,更像是一个人坐在电脑前看了十万小时行车记录仪,然后直接上路。
其道理也很浅显,如同刷视频学做饭,一看就会,一练就废。
所以理想通过3D ViT弥补了“看”与“练”之间的实践鸿沟,让模型一开始就工作在真实的三维世界中,学习如何看懂“空间结构、位置关系、语义信息”。
这也间接回答了李传海指出的VLA对物理规律没有深刻认知的问题。
与此同时,理想还引入了一个大家比较陌生的新概念——预测式隐世界模型,即能够在一个“隐空间”中模拟未来。
更详细地说,是先用视频数据构建未来表征,MindVLA-o1再进行世界模型推演,最后世界模型、多模态推理以及驾驶行为进行联合训练和对齐,进而能让模型应对当下的同时还能预测未来几秒的场景演化。
而将空间、时间统合起来预测未来时间的场景,也同样是世界模型的关键亮点。
由此也不难看出,无论是世界模型,还是VLA,其实都已经具备了L3/4的技术基础。
李想说MindVLA-o1“正在逐渐演化成一个通用的物理世界智能体”。
贾鹏和李传海所指出的VLA泛化能力不强的问题,在李想这里,也貌似不是问题。
事实上,从目前各家对世界模型和VLA的表述来看,两条路貌似都能奔向通用物理世界智能体。
小鹏其实已经在自己的第二代VLA路上狂奔起来了。
以第二代VLA为技术底座,小鹏在L2、L4、Robotaxi、人形机器人等方面做了广泛布局。
另外第二代VLA具体的实力我们也有感受,面对拥挤的广州早高峰,它非常像一位老练的出租车司机。大家可以参考下面这个视频。
近几天世界模型阵营指摘VLA,小鹏的舆论阵地也在为捍卫VLA战斗。
何小鹏就做了一场关于回答第二代VLA问题的直播。
其中,何小鹏提到第二代VLA其实就是小鹏面向L4的第一个版本,并且还将面向全球。
这也说明,所谓VLA泛化能力不足在小鹏这里,跟理想一样看起来并不是问题。
值得一提的是,英伟达在这次GTC大会上也再次展示了自己的VLA模型——AIpamayo,并宣布将在奔驰CLA等车型上量产。
从芯片到智驾方案,英伟达的强势入局,又会让VLA和世界模型的天平往哪偏,是个悬念。
写在最后
表面上看,VLA和世界模型在GTC台上台下争得面红耳赤,但仔细一看,这却更像是一场心照不宣的“技术秀”。
大家吵的是路线,抢的却是L3/4大门开启前的话语权。
谁掌握了话语权,谁便更有可能在激烈的竞争中掌握市场格局的主动权,赢得未来的门票。
而就技术本身而言,世界模型和VLA在一定程度上其实是你中有我、我中有你的关系。
并且就在今年,小鹏将试运营基于第二代VLA的Robotaxi,华为会推进高速L3,理想目标将全新L9打造成具身智能机器人……
因此,世界模型和VLA谁能吵赢谁已经是最不重要的事了,它们本质上已经来到了比拼工程落地的冲刺阶段。
剑已出鞘,就看谁能见血了。