卓驭于贝贝：向物理AI转型，是生存法则的必然选择 | 最前线

肖漫·2026年05月02日 21:17算法厂商进入全新维度的淘汰赛中

文｜肖漫

编辑｜李勤

当下的智能汽车领域，物理 AI 已成为高频词汇，绝大多数智能驾驶算法厂商都在往“物理AI”转型。

卓驭在北京车展上也发布了面向移动物理 AI 的原生多模态基础模型。在卓驭科技副总裁于贝贝看来，算法厂商向物理AI转型不是为了迎合资本市场而编织的想象空间，而是一条关乎厂商存亡的生存法则。

“如果不上这条技术路线，很可能今后就跑不出来了。”于贝贝说。

在新的竞争维度上，算法厂商的对手不再仅仅是曾经的同行，还包括那些从数字 AI 领域跨界而来的巨头、具身智能公司等。

这场全新的竞赛让算法厂商进入全新维度的淘汰赛中，而此次能真正跑出来的玩家，其商业空间也将随着打开。

基于移动基座模型，卓驭已经开始尝试打破传统Tier 1“卖硬件、收开发费”的单一逻辑。在第二增长曲线中，通过将乘用车技术拓展至 Robotaxi、RoboVan 等 L4 级领域，卓驭正在探索一种基于订阅、利润分成以及“动作令牌（Action Token）”的新商业形态。

近日，36氪汽车与卓驭科技副总裁于贝贝聊了聊物理AI的底层逻辑、商业化可能性，以及在这场即将开始的淘汰赛中，卓驭又该如何建立护城河。

以下是36氪汽车和卓驭科技副总裁于贝贝的交流内容，经编辑：

36氪：能否详细介绍一下原生多模态基础模型？

于贝贝：原生多模态这个概念的提出，可以追溯到去年我们开始做VLA 1.0，那时的做法比较接近视觉与动作对齐的模型，将大语言模型从后面附加上去的，因此存在很多问题，比如对语言和语义理解的局限性，以及响应延迟等。

我们认为把所有信息都转译到一个语言空间里去理解，然后再尝试通过这个语言转译的结果去理解物理世界，是一种反常识的做法。

真正合理的路径是，视觉、音频、动作都是一个模态、规则或推理也是一个模态，这些都应该在预训练阶段就一并加入，让模型能够天生地、在多种模态的共同空间里去理解物理世界，这才是更合适的做法。

36氪：现在有把语言模态拿掉吗？

于贝贝：当前我们车端模型确实还没有开放语言这一路输入。这和小鹏发布的VLA 2.0其实是类似的，我们做的是类似方向的东西，都在向这个范式切换，底层的骨干网络已经改变了。

36氪：卓驭也进入了VLA2.0的阶段？

于贝贝：是的。业界正处于一个范式切换的转折点，摆在我们面前的选择是：到底是沿着以前做专家模型这类小模型的范式继续做下去，还是果断切到大模型的范式上来。

我们比较看好大模型的范式。如果放在移动物理AI的语境下来看，希望移动能力能够在各种各样的载具上使用，这本质上就到达了规模化应用的阶段。

大语言模型的历史经验告诉我们，以前做视觉语言模型时，也有人做专家模型，有人做通用模型，也就是所谓的基座模型。

现在来看，最终跑出来的是做基座模型的这一批人。以前那些专注于看病的专家模型，其实都没有真正跑出来。在物理AI领域，我们相信演进的规律是一样的，因此我们也会坚定地走基础模型的范式。

36氪：厂商很多玩家都在这么干，但目前也还未能真正训练出一个可以让各种不同载体统一接入的模型，本质上大家仍然是在解决车上的问题。

于贝贝：这是分阶段推进的。2025年，大家基本上都切换到了数据驱动，这意味着模型的基础能力已经达到了大概70分的水平。此时，想把它再提升到90分，那20分的差距仍然需要做后训练、采集数据和做泛化，但是其间的差距已经从当初的40分到80分，缩小为现在70分到90分的差距了。

后续，随着模型基础能力进一步提高，我们的目标肯定是做到零样本泛化，也就是所谓的“开箱即用”。

如果模型能力能够开箱就达到95分，那么后面的后训练、泛化、开城等工作几乎都可以忽略不计。虽然现在还没有到开箱95分的水平，但已经达到了开箱70分。

36氪：在现阶段，卓驭是否已经把各种场景都统一到同一个模型里实际运行过了，并认为它已经可以在各个领域都量产且实现泛化，还是说处于一个比较早期的阶段？

于贝贝：在这个时间点，还远不能说已经做到了开箱即用。什么才是物理AI最终的终极范式，什么样的架构才能真正理解物理世界，目前业界尚无定论。

36氪：您怎么看待当前大多数方案厂商都在向物理AI方向转型的现象？这是不是向资本市场讲一个更有想象空间的故事？

于贝贝：我们认为这已经不单单是商业或战略上的选择，最终应该会上升为一种生存法则层面的事情。如果不上这条技术路线，很可能今后就跑不出来了。

这和大语言模型爆发前夜一样，以前涌现出很多看病的专家模型，但通用大模型一出来，就把它们都替代掉了，以前的那些最终都没有跑出来。

36氪：在这个范式下做一个通用模型，但在其他场景下的数据，或者其他前期训练所需的条件，是不是还不够充分？

于贝贝：我们现在在训练自己的基础模型时，30%的数据来自于车辆采集的真实数据，30%来自于机器人，另外40%来自于互联网。

这种移动能力的数据，事实上在互联网上，只需要获取第一人称视角的、在移动中的视频即可，这不一定非得是乘用车或商用车，也可以人走路时拍摄的视频，这类数据的规模庞大，并且相对容易获取。

很多企业都宣称要做移动物理AI，模型能力固然是一方面，但更重要的，具身智能必须部署到一个具体的硬件上去，它的分发过程是很难的。它不像数字AI，可以通过手机实现一传十、十传百的病毒式传播，从一个用户迅速扩展到上亿用户，传播极快。

所以，建立一个分发平台和分发网络，也是其中非常关键的一环，这关乎如何把这个能力具体地部署到移动载具、部署到物理实体上。

36氪：卓驭在分发上是怎么做的？

于贝贝：我们有自己的一套方法，比如与合作伙伴合作，定义硬件的标准，将这个硬件标准定义出来之后，通过合作伙伴进行硬件授权与分发，这属于硬件分发的部分。

在软件分发方面，比如我们的移动能力SDK，可以将模型能力封装成SDK，提供给那些不具备后训练模型能力的合作伙伴去使用。也可以将其包装成“移动AI”，也就是把模型做得足够好之后，将其开源，让其他方可以基于这个模型去做后训练，这又是一种分发方式。

还可以直接做成“移动智能体”，未来对于一些低安全、低实时性的应用，比如扫地机器人或割草机，只需要把视频流传输到云端，由云端计算好之后，直接下发一条轨迹给这个小机器，这或许就是另一种分发方式了。

36氪：这几种分发的方式，是否对应着卓驭的商业收费模式？

于贝贝：是的，而且它们面向的商业场景也都不太一样。

传统的方式，像做乘用车或商用车，就是销售硬件、销售软件许可，并收取开发费和非重复性工程费用，我们内部称作第一增长曲线的业务。

第二增长曲线，则是将乘用车上已经验证过的技术，拓展到Robotaxi、RoboVan等领域。虽然也卖硬件，也可能收取开发费，但一般不收取软件许可费。

软件部分是通过利润分成来获取收益的，比如L4级业务，作为服务提供方，需要持续参与软件的迭代，甚至要参与到运营中去，所以需要一个持续性的收入，这就演变成了订阅和分润的模式。

36氪：听起来第二增长曲线更挣钱。

于贝贝：相比第一增长曲线的收入，其利润结构是要更好的。

我们可能会有不同的算法分发方式，以“移动智能体”为例，这种分发方式就有点像是在分发所谓的“动作令牌”。

相当于某个消费级电子设备将视频流传输给云端推理的模型，模型再下发一条轨迹，其收费模式可能就是按照该消费级设备的使用次数、行驶里程来收取类似“动作令牌”的费用，这又是另一种形式的订阅。

36氪：后续运维各方面的东西，都是卓驭来做吗？

于贝贝：对于L2的系统，本身不涉及到运维。只有到了L4级别才涉及运维，需要有一个所谓的远程监控系统，始终监控着车辆的运行过程，在必要时进行远程接管接入。

这有点像过去的安吉星服务，使用这个服务时是需要交费的。一旦车辆启用了L4功能，无论是干线物流还是乘用车，只要启用了L4，就需要额外交一部分费用。

甚至以后，乘用车的传感器配置、算力配置都能够支持L4级别时，平时车主可能还是用L2+系统，当他需要启用L4功能时，就需要为L4模式下每公里的行驶，额外再支付一点费用，因为始终会有一个系统在监控着它。

36氪：你认为L2和L4会是完全不一样的商业模式？

于贝贝：没错，L2和L4是完全不同的商业模式。从我们的观点来看，我们认为L4应该是先在城区落地，然后再拓展到高速场景。

从工程安全角度来看，同样性质的一个事故，在高速上产生的伤害程度，要远比在城区产生的伤害严重得多。

36氪：行业玩家都在往物理AI方向做，这是新一轮淘汰赛的开始吗？

于贝贝：新一轮的行业洗牌可能即将开始。所有做自动驾驶的公司，应该都会在不久的将来，转变为移动物理AI公司。

如果是在移动物理AI这个赛道上进行竞争，这本身就变成了一种跨界竞争，甚至可能都不是这个行业内既有玩家之间的竞争了，还需要和一些本来做数字AI，现在也想转型做具身智能、做物理AI的玩家去竞争。

36氪：那卓驭的护城河究竟是什么？

于贝贝：我们认为有两点。第一，是模型能力。现在大家的迭代范式，乃至最终采用什么样的模型架构，都还没有定论。也许我们认为以后特别高级的3D DiT或V-JEPA等全新架构会跑出来，但这些都是未知数。

第二，分发能力其实是一个非常高的门槛。如何建立一个分发平台和分发网络，创建一个生态，联合不同的合作伙伴共同进行分发，这一定是一个非常高的门槛。

本文由「肖漫」原创出品，转载或内容合作请点击转载说明；违规转载必究。

寻求报道

本文图片来自：企业授权

+17

好文章，需要你的鼓励

肖漫资深作者3收藏+11评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部举报参与评论评论千万条，友善第一条登录后参与讨论提交评论0/1000你可能也喜欢这些文章在硅谷，中美具身公司聊了聊了4个问题的解法从扫地机到火箭车，追觅在硅谷造了一场“瞬息全宇宙”最前线｜未来宇航发布FX锋行系列空间飞行器，切入卫星组网部署与在轨服务市场搭载华为智驾，奥迪「6系」电车上市，售价30.98万元起｜最前线最前线｜爱芯元智仇肖莘：大算力芯片将成为企业明年的主要增长引擎未岚大陆第100万台智能割草机器人下线，马来西亚产线已完成、全面启动生产｜最前线最前线｜2025年全年营收超64亿，海康机器人表示将继续推进AI融合与具身智能布局最前线｜AI+激光通信，中科天塔要用「太空智驾」体系实现卫星管理模式的三级跨越最前线｜AI收入破亿后的路径选择：微盟推行AI First战略与B端交付的挑战

资深作者

TA没有写简介，但内敛也是一种表达

发表文章20篇

卓驭于贝贝：向物理AI转型，是生存法则的必然选择 | 最前线

卓驭于贝贝：向物理AI转型，是生存法则的必然选择 | 最前线

最近内容

下一篇