如何看待小鹏VLA2.0的表现?

现在实测的视频来了。

小鹏第二代 VLA, 语言的内涵

下面说一些理论,小鹏刚开了第二代 VLA, 我只能说实际表现确实很不一样,而且它应该算是完完全全证明了自己之前说的理念,那就是:

VLA 并不需要真的输出 L 才能思考。

没有 L 为什么还叫 VLA?

自动驾驶行业有一种极其奇特的习惯。

每当一套新的技术方案出现,市场和营销会选一个词,开始向大众解释这个词是什么意思,为什么旧的词已经过时了。

VLA,就是这条鄙视链上最新的一环。

Vision,Language,Action。

视觉输入,语言理解,动作输出。

它看上去无懈可击,逻辑也很通顺,之前的 VA 模型不能说话,VLA 加上了 L,能说话也能用语言思考,那肯定比之前强啊。

所以这套三段式架构一经提出,大量的团队都在尝试,甚至已经有量产车实现了车端的语言 CoT, 辅助驾驶系统真的能边开车边给你分析为什么要这么开。

然后,小鹏在 2025 年末的时候提出了一个东西,我们的 VLA 没有「语言转译」环节,而且没有显性语言 CoT 才是更好的选择。

等等。这不对劲。

如果语言被去掉了,为什么还叫 VLA,而不叫 VA?




语言,从来不是目的

要回答这个问题,我们得先想一件更基础的事:语言,对于人类到底意味着什么?

语言是通讯工具。当你的大脑处理完一段信息,需要把它传递给另一个人的大脑时,你需要把这段信息编码成文字或声音。这是一种高度「有损的压缩」。

你看到夕阳,你说「很美」,这两个字里丢掉了颜色的渐变、空气的湿度、风吹过耳廓的温度。但是,这套压缩对人类来说值得,因为我们别无选择。我们的带宽就这么宽。

对车就完全不一样了。




L 的悖论

VLA 在被拿到自动驾驶领域的时候,有很多畅想。

把大语言模型装进车里,遇到复杂路况,让模型先用文字思考「左侧有来车,距离约 12 米,速度较快,不宜变道,建议保持当前车道并适当减速」,然后再把这段思考结果用来指导生成轨迹。

这套流程在论文里或者 demo 视频里看起来极其优雅。

然后,当你把它装上真车,就会发现不对劲了。

从摄像头捕捉到危险,到文字 CoT 完成推理,到最终输出轨迹,最后底盘执行动作,哪怕在目前量产车的旗舰芯片上,这条链路的延迟也是几百毫秒,极端情况下接近一秒。

在时速 100 公里的高速公路上,1 秒钟 = 27.8 米。

文字 CoT 还没想完,车就已经撞上去了。

这导致妥协出现了:在量产车上,大部分时间 L 都没有出现,都是 VA 来做及时响应,只有「在需要的时候」,才让 L 加入开始用 CoT 进行思考。

比如解释为什么刚才减速了、回答车主的问题、或者解读复杂路口的意图。

所以你会发现,这种情况下 L 变成了一个偶尔上班的兼职员工,只在慢速交互、非刚性实时场景下被临时召唤出来发表意见。

这就有了一个逻辑悖论。

L 的价值在哪里?

原本 VLA 的畅想是加入了 L, 也就能在高度复杂的场景下,调用常识和推理能力来辅助决策,

但这些场景,L 来不及思考。

所以在真正决定「刹不刹车、往哪儿躲」的电光火石之间,实际上模型的链路几乎总是 V→A.

也就是说,如果你「希望 L 在真正需要它的时候提前上线」,就必须先预测「什么时候会遇到复杂场景」,让模型在危险到来之前就启动语言推理。

但如果模型已经可以预测「这个场景需要格外小心」,那这种预判能力本身就已经是一种感知与理解能力了,也就是说,V→A 的感知层已经在工作,L 的参与不过是对同一认知再包装一次。

L 需要时来不了,来得了时不需要。

这个悖论,就是显性语言 CoT 的 VLA 最尴尬的地方。




那么,小鹏去掉了语言转译,为什么还叫 VLA?

从官方发布会再到私下的分享来看,小鹏的 VLA 2.0 里,L 的角色从实时说话的人,变成了训练过程中塑造世界观的那一层梯度,所以 L 一直都在,只是它不会显性的输出文本,因为那样太慢了。

可以先看一个更熟悉的例子。

当我们训练一个视觉语言大模型时,喂进去的是互联网上几乎全部的文字、图像和视频,模型在学会「如何生成一句话」的同时,在它数十亿乃至上百亿参数构成的网络里,会涌现出一类更底层的能力:

「如果 A 发生,B 大概率随之而来。」

「这个物体的形状和运动轨迹,属于人类行人。」

「这种路况,人类老司机通常会做这个选择。」

我们平时看到的只是最末端的那层,也就是模型生成的一段文本,但其实这些能力真正存在的位置,是迷行中间各层的隐空间和权重矩阵里,而不是最后那一层的语言输出本身。

所以,语言只是帮我们「看见」了这些能力,并不是能力本身。

放回小鹏这边,大概可以这么概括:第二代 VLA 不再是 V → L → A,而更接近 V + L → A。

在真正需要毫秒级反应的控制路径上,已经看不到任何显式的语言 CoT, 输入是一串多模态 Token,输出是轨迹和动作,整个链条在高维特征空间里完成,中间没有「写一段文字」的环节。

当然,语言没有完全消失,小鹏也可以可以说话,只是说话这件事,更多交给座舱侧的 VLM 去做,而不是强行让负责开车的那颗 VLA 去边开边说。

车主问一句「刚才为什么减速」,或者发一个「带我去一个适合看夜景的地方」这种复合指令时,座舱里的语言头会被唤醒,去解析意图、串联子任务、然后搜索导航告诉 VLA 应该去哪。

副驾秘书(VLM)负责聊天,主驾驶的司机(VLA)专心开车,它们俩能用高维度的 L 高效交流,听起来这也更合理。




思考和逻辑的载体,并不一定是语言,也可以是视觉 CoT

这时候自然会有人说,没有了 L 就没有了 CoT, 也就没有逻辑思考能力,不能「预判」。

这确实是对的,但是只对了一半。

遇到盲区、无保护左转、匝道汇流这类需要「预判」而不只是「反应」的场景,纯粹的 V→A 直觉依然可能会犯错。毕竟直觉是基于「当前帧」的,更全面的驾驶决策需要的是「未来帧」的推演。

所以小鹏 VLA 2.0 选择的是「视觉思维」,也就是让模型用画面思考,而不是用文字思考。

小鹏官方给出了一个数据,32 倍超密视觉思维链(Visual CoT),相比传统 CoT 预测误差降低 33%,让模型用画面思考,而不是用文字思考。

当 VLA 2.0 面对一辆慢速货车时,它会触发视觉 CoT, 把当前的视觉 Token 和几个候选的动作 Token(保持车距,或者提前变道)一起送进模型,让网络在隐空间里同时「想象」出多条未来轨迹,对应多个候选场景:

  • 如果 2 秒后才变道,未来几帧的周围占用分布如何?是否已经没有安全空间?
  • 如果现在就变道,车道线、邻车 3D 位置会如何演变?
  • 如果一直跟车,安全是安全了,效率是不是惨不忍睹?

这些被「想象」出来的未来,并不是视频,而是高维的、带有车道边界、3D box、占用概率的特征张量,它们构成了这辆车在当前时刻的视觉时空思维链

接着,系统把这些候选未来送进一个价值评估头,从安全、效率、舒适、合规多个维度打分,选出得分最高的那一条轨迹,然后把这条轨迹再翻译成底层的动作 Token 得到方向盘角度、油门刹车曲线,最后交给执行器去跑。

你在车机屏幕上,只看到车平滑地选择了「更像老司机」的那条路。

你看不到的是,在你意识到货车很慢之前,模型已经在脑子里预演了 32 种可能的未来。

这就是视觉 CoT,它绕过了语言,直接在物理的维度上做推理,这样的效率远高于输出文字 CoT, 而且能一直生效,避免了 L 什么时候该参与的悖论。




视觉 CoT 的前提是,原生多模态物理世界大模

小鹏第二代 VLA 是原生多模态物理世界大模型,这到底该怎么理解?

我们先从大家熟悉的领域来举例子,LLM 的 Token 是文字,VLM 的 Token 是文字加图像块。那么,原生车载多模态大模型的 Token 呢?

在车的语境里,小鹏至少把这些东西都加了进去:

  • 多路视觉:8 路环视的视频帧,被切成图像块,变成视觉 Token。
  • 听觉与语言:车外 / 车内的语音、导航文字、规则描述,变成语言 Token。
  • 其他连续特征:很大概率包括自车速度、加速度、方向盘角度这类物理量,被编码成状态 Token。

这些东西经过原生多模态 Tokenizer 之后,全部被打磨成同一尺寸的高维向量,被扔进同一个 Transformer 里,让注意力机制自由地在不同模态之间拉关系。

这就喝早期 VLA 有了很大的区别。

以前是「图像 → 先单独过一套视觉骨干 → 再翻译成文字 → 再丢给语言模型」,中间有一段显式的「语言转译」通道;

现在是「所有模态先统统 Token 化,再一起进入一个统一的大脑」,不再有那条强制的「图像变文字再变控制」路径。

感官不再经过语言中转,而是在底层就合流成同一种数学格式,这就是「原生」。

而这套系统的输出,理论上也是双向的。

它既可以输出动作 Token(下一时刻方向盘转多少度),也可以在理论上输出视觉 Token(下一时刻的画面应该长什么样),这种双向性,是旧 VLA 没有的能力,也是整个「物理世界模型」概念得以成立的根基。

物理直觉的涌现,也从此而来。

想象一下,你是一个从出生那天起就装在车上的摄像头,每天二十四小时不停地看世界。你看到前车急刹,你看到车头下沉,你看到距离以一种非线性的方式在缩短。你看到这些场景几亿次。

有人突然给你一个任务,当收到「刹车指令」这个动作 Token 时,预测接下来 100 毫秒画面会怎么样变化。

你会预测出车头继续下沉,轮胎形变,画面里的前车视角大小急剧增加,即便你从来没背过 F=ma。

当小鹏把 3 万卡云端算力集群、亿级里程的真实驾驶视频,以及模拟世界生成的数据,全部倒进这套原生多模态大模型里,让它反复做这样一种事:

给定当前视觉 / 状态 / 历史动作 Token → 预测下一刻视觉 / 占用 / 轨迹 Token。

它就被迫从数据里自发提炼出一套对物理世界演化规律的「内在直觉」,动量是怎么守恒的,摩擦力大概怎么作用,刚体碰撞后会朝哪个方向弹开……

这些东西,很难再用自然语言完整写出来,但会以一种极其抽象的数学形式,凝固在模型的权重矩阵里,这就是「物理世界模型」真正的含义:

  • 它没有硬编码的物理公式,只有神经网络拟合的物理规律。
  • 它没有针对某一款车写的规则,只有经验性的权重。

因为这些直觉存在于权重里,而不是写死在一段 C++ 里,所以它在理论上可以迁移到其他执行体上,你换个底盘,换个轮距,甚至换成一个六轴机械臂,底下会有一层适配层做坐标 / 动力学转换,上面的「物理直觉」照样可以派上用场。

这就是为什么小鹏它不仅可以用在车上,而且可以跑在机器人上,或者飞行器上。




文章有点长,我们来梳理一下

为什么去掉了语言转译,还叫 VLA?

因为 L 不再是实时翻译,而是一种在训练期注入、在慢路径交互时显形的认知底座,它的灵魂留在了权重里,躯体被从毫秒级决策链路上撤掉了,而且在需要的时候依然可以用语言交流。

没有显式语言 CoT,它怎么思考?

它用视觉 CoT 思考:在隐空间里同时想象出数十种未来场景,对这些「视觉思维链」打分,再选出一条轨迹执行,整个链条是在物理特征空间里完成的,不经过文字中转。

为什么原生多模态车载大模型可以称为物理世界模型?

因为当你让一个统一的 Token 化大模型,在「多模态状态 + 动作 → 下一刻世界状态」这个任务上有了巨量的积累,它就会从数据里涌现出一套对物理因果的内在权重,它没有人类写的公式,但是符合现实世界的统计规律。

这和 LLM 的突破逻辑一模一样。

只不过,模型不学怎么说话,学的是怎么开车。

编辑于 2026-03-10 · 著作权归作者所有
相关文章
小鹏 GX 正式上市,26.98 万起,有哪些技术亮点?预计销量如何,能否脱颖而出?华为、小鹏等科技巨头纷纷闯入摩托车赛道,是战略卡位还是新风口已至?他们有哪些底气?小鹏汽车公司陷入困境的原因是什么?比亚迪、小鹏等多家车企辟谣网传约谈名单,该名单为何能快速刷屏?问题根源到底在哪?为何比亚迪前几年在超充方面一直默默无闻,甚至不如小鹏等新势力车企,突然就跑步快进到“兆瓦闪充”了?理想汽车关闭 100 家门店,这一「断腕」举措对公司未来发展意味着什么?为什么有人看不上小鹏汽车?何小鹏称「目前中国车企仍处于淘汰赛阶段,5 年后会剩 5 家左右」,对此你怎么看?你觉得谁能走到最后?未来3-5年,新能源汽车最终剩下的会有几家?车企 2 月销量公布,零跑、理想、极氪等交付均超 2 万,上汽销量下滑 8.64%,如何看各家表现?准备4月提车,目前纠结小鹏G6、海狮06EV、零跑C11、深蓝S07,大家有什么建议?何小鹏称不碰 10 万元以下汽车,有规模但价值太小,怎样看待他的观点?10 万是行业中的一个分水岭吗?雷军称被何小鹏李斌骗了,「他们说造车很有意思,实际很苦」,从当前发展看,如何评价小米入局造车这一选择?雷军称被何小鹏李斌骗了,「他们说造车很有意思,实际很苦」,从当前发展看,如何评价小米入局造车这一选择?如何看待小鹏VLA2.0的表现?宝马女主播被扒拉踩小米汽车:杂粮、180天速成鸡敢吃,车不敢开小米新一代 SU7 发布,王传福、李想、何小鹏纷纷到场助阵,怎样解读?小米汽车在行业内有怎样的影响力?车企 2 月销量公布,零跑、理想、极氪等交付均超 2 万,上汽销量下滑 8.64%,如何看各家表现?小米新一代 SU7 发布,王传福、李想、何小鹏纷纷到场助阵,怎样解读?小米汽车在行业内有怎样的影响力?小米新一代 SU7 发布,王传福、李想、何小鹏纷纷到场助阵,怎样解读?小米汽车在行业内有怎样的影响力?