如何看待小鹏VLA2.0的表现？

现在实测的视频来了。

小鹏第二代 VLA, 语言的内涵

下面说一些理论，小鹏刚开了第二代 VLA, 我只能说实际表现确实很不一样，而且它应该算是完完全全证明了自己之前说的理念，那就是：

VLA 并不需要真的输出 L 才能思考。

没有 L 为什么还叫 VLA？

自动驾驶行业有一种极其奇特的习惯。

每当一套新的技术方案出现，市场和营销会选一个词，开始向大众解释这个词是什么意思，为什么旧的词已经过时了。

VLA，就是这条鄙视链上最新的一环。

Vision，Language，Action。

视觉输入，语言理解，动作输出。

它看上去无懈可击，逻辑也很通顺，之前的 VA 模型不能说话，VLA 加上了 L，能说话也能用语言思考，那肯定比之前强啊。

所以这套三段式架构一经提出，大量的团队都在尝试，甚至已经有量产车实现了车端的语言 CoT, 辅助驾驶系统真的能边开车边给你分析为什么要这么开。

然后，小鹏在 2025 年末的时候提出了一个东西，我们的 VLA 没有「语言转译」环节，而且没有显性语言 CoT 才是更好的选择。

等等。这不对劲。

如果语言被去掉了，为什么还叫 VLA，而不叫 VA？

语言，从来不是目的

要回答这个问题，我们得先想一件更基础的事：语言，对于人类到底意味着什么？

语言是通讯工具。当你的大脑处理完一段信息，需要把它传递给另一个人的大脑时，你需要把这段信息编码成文字或声音。这是一种高度「有损的压缩」。

你看到夕阳，你说「很美」，这两个字里丢掉了颜色的渐变、空气的湿度、风吹过耳廓的温度。但是，这套压缩对人类来说值得，因为我们别无选择。我们的带宽就这么宽。

对车就完全不一样了。

L 的悖论

VLA 在被拿到自动驾驶领域的时候，有很多畅想。

把大语言模型装进车里，遇到复杂路况，让模型先用文字思考「左侧有来车，距离约 12 米，速度较快，不宜变道，建议保持当前车道并适当减速」，然后再把这段思考结果用来指导生成轨迹。

这套流程在论文里或者 demo 视频里看起来极其优雅。

然后，当你把它装上真车，就会发现不对劲了。

从摄像头捕捉到危险，到文字 CoT 完成推理，到最终输出轨迹，最后底盘执行动作，哪怕在目前量产车的旗舰芯片上，这条链路的延迟也是几百毫秒，极端情况下接近一秒。

在时速 100 公里的高速公路上，1 秒钟 = 27.8 米。

文字 CoT 还没想完，车就已经撞上去了。

这导致妥协出现了：在量产车上，大部分时间 L 都没有出现，都是 VA 来做及时响应，只有「在需要的时候」，才让 L 加入开始用 CoT 进行思考。

比如解释为什么刚才减速了、回答车主的问题、或者解读复杂路口的意图。

所以你会发现，这种情况下 L 变成了一个偶尔上班的兼职员工，只在慢速交互、非刚性实时场景下被临时召唤出来发表意见。

这就有了一个逻辑悖论。

L 的价值在哪里？

原本 VLA 的畅想是加入了 L, 也就能在高度复杂的场景下，调用常识和推理能力来辅助决策，

但这些场景，L 来不及思考。

所以在真正决定「刹不刹车、往哪儿躲」的电光火石之间，实际上模型的链路几乎总是 V→A.

也就是说，如果你「希望 L 在真正需要它的时候提前上线」，就必须先预测「什么时候会遇到复杂场景」，让模型在危险到来之前就启动语言推理。

但如果模型已经可以预测「这个场景需要格外小心」，那这种预判能力本身就已经是一种感知与理解能力了，也就是说，V→A 的感知层已经在工作，L 的参与不过是对同一认知再包装一次。

L 需要时来不了，来得了时不需要。

这个悖论，就是显性语言 CoT 的 VLA 最尴尬的地方。

那么，小鹏去掉了语言转译，为什么还叫 VLA？

从官方发布会再到私下的分享来看，小鹏的 VLA 2.0 里，L 的角色从实时说话的人，变成了训练过程中塑造世界观的那一层梯度，所以 L 一直都在，只是它不会显性的输出文本，因为那样太慢了。

可以先看一个更熟悉的例子。

当我们训练一个视觉语言大模型时，喂进去的是互联网上几乎全部的文字、图像和视频，模型在学会「如何生成一句话」的同时，在它数十亿乃至上百亿参数构成的网络里，会涌现出一类更底层的能力：

「如果 A 发生，B 大概率随之而来。」

「这个物体的形状和运动轨迹，属于人类行人。」

「这种路况，人类老司机通常会做这个选择。」

我们平时看到的只是最末端的那层，也就是模型生成的一段文本，但其实这些能力真正存在的位置，是迷行中间各层的隐空间和权重矩阵里，而不是最后那一层的语言输出本身。

所以，语言只是帮我们「看见」了这些能力，并不是能力本身。

放回小鹏这边，大概可以这么概括：第二代 VLA 不再是 V → L → A，而更接近 V + L → A。

在真正需要毫秒级反应的控制路径上，已经看不到任何显式的语言 CoT, 输入是一串多模态 Token，输出是轨迹和动作，整个链条在高维特征空间里完成，中间没有「写一段文字」的环节。

当然，语言没有完全消失，小鹏也可以可以说话，只是说话这件事，更多交给座舱侧的 VLM 去做，而不是强行让负责开车的那颗 VLA 去边开边说。

车主问一句「刚才为什么减速」，或者发一个「带我去一个适合看夜景的地方」这种复合指令时，座舱里的语言头会被唤醒，去解析意图、串联子任务、然后搜索导航告诉 VLA 应该去哪。

副驾秘书（VLM）负责聊天，主驾驶的司机（VLA）专心开车，它们俩能用高维度的 L 高效交流，听起来这也更合理。

思考和逻辑的载体，并不一定是语言，也可以是视觉 CoT

这时候自然会有人说，没有了 L 就没有了 CoT, 也就没有逻辑思考能力，不能「预判」。

这确实是对的，但是只对了一半。

遇到盲区、无保护左转、匝道汇流这类需要「预判」而不只是「反应」的场景，纯粹的 V→A 直觉依然可能会犯错。毕竟直觉是基于「当前帧」的，更全面的驾驶决策需要的是「未来帧」的推演。

所以小鹏 VLA 2.0 选择的是「视觉思维」，也就是让模型用画面思考，而不是用文字思考。

小鹏官方给出了一个数据，32 倍超密视觉思维链（Visual CoT），相比传统 CoT 预测误差降低 33%，让模型用画面思考，而不是用文字思考。

当 VLA 2.0 面对一辆慢速货车时，它会触发视觉 CoT, 把当前的视觉 Token 和几个候选的动作 Token（保持车距，或者提前变道）一起送进模型，让网络在隐空间里同时「想象」出多条未来轨迹，对应多个候选场景：

如果 2 秒后才变道，未来几帧的周围占用分布如何？是否已经没有安全空间？
如果现在就变道，车道线、邻车 3D 位置会如何演变？
如果一直跟车，安全是安全了，效率是不是惨不忍睹？

这些被「想象」出来的未来，并不是视频，而是高维的、带有车道边界、3D box、占用概率的特征张量，它们构成了这辆车在当前时刻的视觉时空思维链。

接着，系统把这些候选未来送进一个价值评估头，从安全、效率、舒适、合规多个维度打分，选出得分最高的那一条轨迹，然后把这条轨迹再翻译成底层的动作 Token 得到方向盘角度、油门刹车曲线，最后交给执行器去跑。

你在车机屏幕上，只看到车平滑地选择了「更像老司机」的那条路。

你看不到的是，在你意识到货车很慢之前，模型已经在脑子里预演了 32 种可能的未来。

这就是视觉 CoT，它绕过了语言，直接在物理的维度上做推理，这样的效率远高于输出文字 CoT, 而且能一直生效，避免了 L 什么时候该参与的悖论。

视觉 CoT 的前提是，原生多模态物理世界大模

小鹏第二代 VLA 是原生多模态物理世界大模型，这到底该怎么理解？

我们先从大家熟悉的领域来举例子，LLM 的 Token 是文字，VLM 的 Token 是文字加图像块。那么，原生车载多模态大模型的 Token 呢？

在车的语境里，小鹏至少把这些东西都加了进去：

多路视觉：8 路环视的视频帧，被切成图像块，变成视觉 Token。
听觉与语言：车外 / 车内的语音、导航文字、规则描述，变成语言 Token。
其他连续特征：很大概率包括自车速度、加速度、方向盘角度这类物理量，被编码成状态 Token。

这些东西经过原生多模态 Tokenizer 之后，全部被打磨成同一尺寸的高维向量，被扔进同一个 Transformer 里，让注意力机制自由地在不同模态之间拉关系。

这就喝早期 VLA 有了很大的区别。

以前是「图像 → 先单独过一套视觉骨干 → 再翻译成文字 → 再丢给语言模型」，中间有一段显式的「语言转译」通道；

现在是「所有模态先统统 Token 化，再一起进入一个统一的大脑」，不再有那条强制的「图像变文字再变控制」路径。

感官不再经过语言中转，而是在底层就合流成同一种数学格式，这就是「原生」。

而这套系统的输出，理论上也是双向的。

它既可以输出动作 Token（下一时刻方向盘转多少度），也可以在理论上输出视觉 Token（下一时刻的画面应该长什么样），这种双向性，是旧 VLA 没有的能力，也是整个「物理世界模型」概念得以成立的根基。

物理直觉的涌现，也从此而来。

想象一下，你是一个从出生那天起就装在车上的摄像头，每天二十四小时不停地看世界。你看到前车急刹，你看到车头下沉，你看到距离以一种非线性的方式在缩短。你看到这些场景几亿次。

有人突然给你一个任务，当收到「刹车指令」这个动作 Token 时，预测接下来 100 毫秒画面会怎么样变化。

你会预测出车头继续下沉，轮胎形变，画面里的前车视角大小急剧增加，即便你从来没背过 F=ma。

当小鹏把 3 万卡云端算力集群、亿级里程的真实驾驶视频，以及模拟世界生成的数据，全部倒进这套原生多模态大模型里，让它反复做这样一种事：

给定当前视觉 / 状态 / 历史动作 Token → 预测下一刻视觉 / 占用 / 轨迹 Token。

它就被迫从数据里自发提炼出一套对物理世界演化规律的「内在直觉」，动量是怎么守恒的，摩擦力大概怎么作用，刚体碰撞后会朝哪个方向弹开……

这些东西，很难再用自然语言完整写出来，但会以一种极其抽象的数学形式，凝固在模型的权重矩阵里，这就是「物理世界模型」真正的含义：

它没有硬编码的物理公式，只有神经网络拟合的物理规律。
它没有针对某一款车写的规则，只有经验性的权重。

因为这些直觉存在于权重里，而不是写死在一段 C++ 里，所以它在理论上可以迁移到其他执行体上，你换个底盘，换个轮距，甚至换成一个六轴机械臂，底下会有一层适配层做坐标 / 动力学转换，上面的「物理直觉」照样可以派上用场。

这就是为什么小鹏它不仅可以用在车上，而且可以跑在机器人上，或者飞行器上。

文章有点长，我们来梳理一下

为什么去掉了语言转译，还叫 VLA？

因为 L 不再是实时翻译，而是一种在训练期注入、在慢路径交互时显形的认知底座，它的灵魂留在了权重里，躯体被从毫秒级决策链路上撤掉了，而且在需要的时候依然可以用语言交流。

没有显式语言 CoT，它怎么思考？

它用视觉 CoT 思考：在隐空间里同时想象出数十种未来场景，对这些「视觉思维链」打分，再选出一条轨迹执行，整个链条是在物理特征空间里完成的，不经过文字中转。

为什么原生多模态车载大模型可以称为物理世界模型？

因为当你让一个统一的 Token 化大模型，在「多模态状态 + 动作 → 下一刻世界状态」这个任务上有了巨量的积累，它就会从数据里涌现出一套对物理因果的内在权重，它没有人类写的公式，但是符合现实世界的统计规律。

这和 LLM 的突破逻辑一模一样。

只不过，模型不学怎么说话，学的是怎么开车。

编辑于 2026-03-10 · 著作权归作者所有

小鹏 GX 正式上市，26.98 万起，有哪些技术亮点？预计销量如何，能否脱颖而出？华为、小鹏等科技巨头纷纷闯入摩托车赛道，是战略卡位还是新风口已至？他们有哪些底气？小鹏汽车公司陷入困境的原因是什么？比亚迪、小鹏等多家车企辟谣网传约谈名单，该名单为何能快速刷屏？问题根源到底在哪？为何比亚迪前几年在超充方面一直默默无闻，甚至不如小鹏等新势力车企，突然就跑步快进到“兆瓦闪充”了？理想汽车关闭 100 家门店，这一「断腕」举措对公司未来发展意味着什么？为什么有人看不上小鹏汽车？何小鹏称「目前中国车企仍处于淘汰赛阶段，5 年后会剩 5 家左右」，对此你怎么看？你觉得谁能走到最后？未来3-5年，新能源汽车最终剩下的会有几家？车企 2 月销量公布，零跑、理想、极氪等交付均超 2 万，上汽销量下滑 8.64%，如何看各家表现？准备4月提车，目前纠结小鹏G6、海狮06EV、零跑C11、深蓝S07，大家有什么建议？何小鹏称不碰 10 万元以下汽车，有规模但价值太小，怎样看待他的观点？10 万是行业中的一个分水岭吗？雷军称被何小鹏李斌骗了，「他们说造车很有意思，实际很苦」，从当前发展看，如何评价小米入局造车这一选择？雷军称被何小鹏李斌骗了，「他们说造车很有意思，实际很苦」，从当前发展看，如何评价小米入局造车这一选择？如何看待小鹏VLA2.0的表现？宝马女主播被扒拉踩小米汽车：杂粮、180天速成鸡敢吃，车不敢开小米新一代 SU7 发布，王传福、李想、何小鹏纷纷到场助阵，怎样解读？小米汽车在行业内有怎样的影响力？车企 2 月销量公布，零跑、理想、极氪等交付均超 2 万，上汽销量下滑 8.64%，如何看各家表现？小米新一代 SU7 发布，王传福、李想、何小鹏纷纷到场助阵，怎样解读？小米汽车在行业内有怎样的影响力？小米新一代 SU7 发布，王传福、李想、何小鹏纷纷到场助阵，怎样解读？小米汽车在行业内有怎样的影响力？