腾讯智慧出行:单纯大模型上车无意义,要落地场景智能体

这是腾讯云智慧出行,在北京车展前夕给出的最新判断。大模型真正的价值,是替用户把事办了,比如点餐、停车缴费、路线导览、场景陪伴、生态服务调用……它更像服务员、导游、助理和陪伴者,负责理解你的历史、偏好、场景和需求。

要实现这一系列功能,离不开车载Agent,但Agent上车,不是把手机App搬进车机,也不是把Chatbot塞进座舱,而是让车从“能听懂人话”,进一步变成“能替人办事”。

提问:学丹总,我们看到今年以来舱驾一体是一个趋势,昨天有辅助驾驶的供应商发布了舱驾一体的方案,我们看到很多趋势很多主机厂智驾部门把座舱业务并入到了智驾部门,腾讯会不会感受到这些来自友商的危机感,会不会担忧被智驾的供应商抢走市场,如何应对?

钟学丹:昨天大家应该也看到了,在芯片有舱驾一体,今天讲的时候,我也讲到地图也是舱驾一体的地图,在导航地图里面把智驾融入进去。今天大家看到很多车还是两块屏,智驾屏一块、导航屏一块,通过融合可以让用户更好地去理解在智驾场景或者周边环境和图的理解上有更好的认知,从技术的角度来讲有一定的融合点。这个融合更多体现在导航、跟图和智驾有强相关的业务场景下,有很多场景其实还是会更多是底层的数据和感知能力上,是不是可以有更好的复用机会。主机厂直接操作的,我理解应该还是少数,这是第一。

第二,舱和智驾有很大的不一样,今天讲了很多场景化的智能体,每个智能体对应成现实中的人,比如点单可能就是一个服务员,想到就是一个导游,智驾像一个司机一样,帮助我们去完成开车的场景。对于开车的服务,我们更像托管式把它交给了它。回到座舱角度来讲,用户跟座舱和车的互动个性化可能更多,用户需要的记忆点更多,它更多需要去理解用户的历史和场景、性格和不同的方式。从发展的角度来讲,座舱结合AI之后会有更多的个性化呈现,更好地体现每个车的特性以及每个车和用户之间跟个性化的关系。

第一,从过去的软件定义汽车到现在的AI定义汽车,在这种趋势下能分享一下腾讯的智慧出行在组织架构、技术底座和生态合作上做出哪些调整?

第二,现在推进智能体上车的过程中,大家对安全和用户的隐私问题比较关注,请教一下这方面腾讯是怎么考虑的?

钟学丹:确实在每种技术变化的时候,对主机厂的冲击很大,我们作为一个助力者来讲,我们在技术和底层实现上做一定的调整和增强。比如我们去加强在算法模型或者AI Infra人才的引进和能力的增强。更大的变化来自于生态的合作形态,我今天也讲到,之前我们以应用为中心的时候,各个应用相对来说比较独立,去解决特定领域的用户需求。实际上我们通过AI的方式,用户的需求可能是跨领域,更多服务于场景化的需求,这时候需要更开放的生态合作机制,我们今天发布这样一个平台,希望能把底层的平台能力、生态能力以及第三方的生态能力如何更开放地接入和融入,给用户创造一种更极致和融入的体验方式。

涉及到刚才提到的智能体的安全性,这个是非常重要的核心,车的安全驾驶本身就是很重要的点。一方面智能体会使我们驾车本身的安全性有一定的提升,它更多与自然的交互方式,省掉原来交互方式带来驾车场景下的安全性风险。智能体是不是更可控?我刚才讲到为什么现在的智能体跟半年前有很大的不一样,更多是工程范式的演进,比如Harness Engineering这样的工程范式对智能体的约束和管控,使得它可以有更好的稳定性输出,不会有很大的波动点。第二,安全性通过一些沙箱机制,把数据、用户的操控掌握在合理的范围内去做处理,这个也是在智能体上车中要去加强的点。

《南方日报》:学丹总,今天我们看到智能体座舱的展示,里面有很多功能,其中有一点在停车场自动缴费的功能,我在商场消费的时候可能有停车优惠,但是缴费是用微信支付的,这里面有一个问题,这些智能体之间的生态有没有连通?在车里面的智能体生态连接到微信或者腾讯更多的生态,让它更聪明地知道停车的时候用了微信支付在商场消费,可能停车费不用给了,或者在其他方面像点外卖或者点饮料的时候会有一些微信优惠,这个智能体是不是有更多打通微信生态的链接在里面?这是第一个问题。

钟学丹:首先,这种生态确实会,包括刚才演示的停车场也是跟生态合作伙伴合作的基础上,并不完全只是微信支付做这件事情,停车看起来是简单的事情,但是如果打开来看,背后的商业逻辑也好,服务链路也好,服务的复杂性也好,不同的停车场停车服务实现的方式也好,都有非常大的差异,它不太可能是完全所谓的标准化就可以去解决问题。今天发布开放平台,希望更多的合作伙伴或者生态合作伙伴能以更轻量级的方式进到这个平台上,可以更好地让服务的体验更闭环。我们做自己擅长的能力,但是很多生态合作伙伴有他们特别的专长深入领域,我们更多跟合作伙伴去合作,再给用户带来便捷性的时候,不伤害他们的商业价值,甚至通过流量的方式给他们带来更多的商业收益,这是我们希望平台能够给大家创造的条件和空间。

《南方都市报》:今天我们发布了好几个Agent上车的场景,包括麦当劳痛车非常有意思。最近行业有很多Agent上车的发布,包括接下来车展也有一些重点发布,您认为当前座舱Agent到了规模化落地的阶段吗?这个阶段据你观察行业里面有什么特点?大家重点布局的场景有哪些?

钟学丹:至少我看到的行业大家都在往这个方向上去演进,车企从系统层跟模型的结合,大家去了解的话,会看到在这个维度上其实跟原来的座舱系统是很不一样的,这个是很大的变化,这也是一个很重要的趋势。

一方面来自于车企本身的系统平台形成,如果这个平台不形成的话,那它的规模化可能就会受制或者说有一些弱化,不是完整体,可能只是一个点。

第二,怎么让用户在使用场景当中形成用户体验上的改善,这个也是智能体长期致力于的事情,不是照搬某些应用,把它变成对话就叫智能体了,智能体是结合场景的需求去重塑体验。

为什么最开始我们也会做一些智能体覆盖这个场景,需要去开发出更多的样本让大家看到这个东西怎么去发展,相信这个也会引导智能体更好地去推广,大规模成长很重要的基础。

盖世汽车:我们今天发现智能体平台核心的亮点就是完成从对话向执行AI决策转变,为什么会在当前这个时间节点推出这样一个产品?今年北京车展有很多车企和供应商都发布了类似的产品,包括荣威、大众、火山引擎不断在讲AI升级或者AI智能体,相比它们,腾讯出行的优势是什么?今年AI上车有哪些趋势?是不是都是对话向执行转型普遍的趋势?

钟学丹:这是一个大的特点,从对话到执行依赖两件事情,第一件事情是技术底座的能力,车载语音对话已经很多年了,我前面讲到,大模型上车第一件事情是在解决对话的优化和体验的改善,但是它要变成可知性的话,需要对模型的能力,本身Agent能力的进化,这个也是最近半年模型能力进化的点。最近半年像Harness Engineering工程化的能力帮助我们可以做稳定执行的输出,这个不仅依赖于模型,还依赖于工程化的能力。Agent底层的工程能力对这个要求也非常高,工程能力的进化和模型能力的进化是基础的技术条件。第二个条件,要有好的生态连接能力,如果我们具备能力了,但是想执行的时候发现什么都用不了,可能也会很难。

在模型工程上面腾讯最近做了很多升级,春节后大家看到龙虾养虾,体现腾讯在工程的响应能力和工程实现能力的优势,这个优势使得我们在模型稳定输出的基础上变成稳定输出上。第二,生态连接上我们有广泛的生态合作和基础,打通生态的能力比其它更有优势。

李博:我再补充一点,过去一年大家看到这么多大模型上车,其实很多时候有很多概念,究竟解决了哪些场景问题,这也是腾讯有别于其它思考的问题。本质上大模型很多时候是解决不了问题的,要依赖于Agent的场景化解决对应的问题,我们把很多精力放在对应的Agent和连接到我在微信小程序场景能够去落地解决客户什么样的问题上,我认为发展到今天这个阶段,单纯的大模型其实已经没有意义了,过去一年鼓吹大模型很多,实际没有解决任何问题,不如手机上可能直接问一下元宝会解决问题更多,没有区别,也不需要这个东西迁移到上车。在车上肯定是基于车的传感器信息、车对应的功能,以及对应跟车结合相关场景的Agent落地,才有更多的意义。

提问:现在国内的车企有两大趋势,一个现在很多中国车企正在为进军海外市场做布局,包括引入国内的产业链和智能开发优势。同时很多国外车企反向利用中国的智能化开发的优势反向输出到国外,在这个大的趋势之下,腾讯智慧出行如何把握这个机会,如何开展这项行动?

李博:刚从出海论坛过来,我来回答这个问题。腾讯原来在国内的时候正在承接一个平台或者连接性的作用,在出海我刚才讲了,我们构建了一系列的海外研发平台和生态接入平台,也是为这一点。今天中国车企出海可以看到利用的是极致的性价比,以及原来在新能源领域所积攒的能力,要走得更远,要发挥出原来在国内智舱、智驾两个核心的优势。在智舱领域把本体化的内容融入到车企的海外座舱域里面,需要联合更多的像解决海外的地图问题,也需要联合类似于TomTom、HERE解决问题。

从智驾域来讲,2025年60%已经支持L2以上的辅助驾驶,出海的能力还没有。我们原来在国内的智驾地图优势以及我们跟这么多智驾公司的合作优势,辅助到车企出海的链路上面,年初多家已经在合作,包括车企海外的智驾训练、海外的智驾图接入训练中。

第二个问题,一些合资车型在智能化上略慢于自主品牌,腾讯在这个生态里面有没有感受到合资车型在智能座舱上有没有什么激进的需求?

钟学丹:展开来说比较漫长,大家会看到,对于智驾到座舱,不管是VLA还是世界模型,怎么让用户和智驾更好地相互理解,交互本身就是在变化的点。

一方面通过语言的沟通交流,像人与人之间的沟通交流去理解,可能更直观的一些是来自于通过图的形式。这次我们会有驾舱一体的图,想帮助大家更好地去理解自动驾驶的车在路上怎么开,用户可以直观感受到,他的意图可以通过图更好地传递给智驾,对于交互的改善会很有帮助。这是第一点。

第二,座舱向多模态演进的时候,也会使得原来基于大屏触控的交互和语音加触屏交互转向多模态的交互形态,这个还会有比较长一段时间,不一定是我们理解用户去主动发起,虽然我们看到很早以前有一些手势的交互,其实很多交互像模型去理解上下文一样,通过动态感知之后把上下文直接给到了模型,并不是一定要用户去做输入,才有输出的过程。这种交互处于比较早期,还很难说它一定会是什么样,但是会看到很多改变模型的变化,使得所谓的交互就是上下文的不一样,这个是很大的点。

第二个问题,对于合资也好,自主也好,大家去看他们的时候可能觉得他们有很多不一样,有燃油车的时代所存在的一些印象,特别在新能源他们可能会相对滞后一些。大家去看他们的速度也在持续加快,技术和演进以及产品力的演进逐渐也会往大家共同发展的路径上去走,很难说他会是怎么样一种选择。

第一,我理解的Agent能力其实更多是我给你一个任务,你要自主判断、自主规划、自主执行、交付成果,现在在车上很多时候是我来发任务,智能座舱理解理性,这个角度来看,用的是AI的能力而不是Agent。我理解以后一个Agent如果给我很好的体验,我可能坐上车之后,孩子坐在后排,我告诉它帮我哄他睡觉,剩下的事情都归它做,它解决白噪音,同时避免我能听到,要不然他没睡着我先睡着,更多时候发挥Agent而不是AI的能力。这种自主规划、自主判断、自主执行要有清晰的边界,否则一出了圈,别说帮我的忙,可能吓我一跳。这种情况下,腾讯如何考虑在Agent自主规划、自主执行、交互成果方面的边界到底在哪儿?

腾讯的生态非常丰富,我们现在看到都是想办法把各种各样的生态放到智能座舱的平台里面,在一开始做顶层设计的时候,我们有没有考虑过有什么样的生态板块绝对不会放进去?以后Agent干吗需要我们探索,现在有没有划一条红线,它到底不能干吗?比如永远不让它去碰车控,打个比方,设想很美好,用微信给车载微信发一个信息,要操作车外灯光做一个什么欢迎仪式,它就需要去碰照明系统。这个以后考虑就是不能触碰的红线,这只是我的一个假设。我们现在有没有红线,什么功能不能碰,什么功能不能上车?有什么不能随便扩展?

李博:首先行车安全一定是红线,实际上我们跟车企合作过程之中,也把模型这个事情做切分,有一部分放在端侧,端侧一个是及时响应,第二个要满足基础的行车安全,凡是涉及到安全性的一定要慎重,你的语音控制、误操作等等,如果判离已经涉及安全底线就是无效反馈或者去做double check怎么去做,这个东西不应该是交给更复杂的Agent来去做,应该有一些端侧底线性的判断逻辑在这里面,或者物理层级的模型在控制,这个是腾讯最红线的。腾讯很多时候做对应的Agent,更多是满足用户的应用需求,车控的东西还是基于TSP体系,安全这个东西不是我们互联网公司过度去涉足的,那个由车企(去做),我们把AI的能力、Agent的能力提供给车企,在行车安全领域里面车企的经验足够,不应该是我们来指导他,反而我们在辅助他怎么样做好,利用AI的能力做好更多的安全和防护。

第一个问题,为什么我依赖于Agent的能力而不是AI?Agent本身就是AI的能力,现在很多东西做不了的原因,我们所有的AI是基于数据的,哪怕龙虾,还是要有记忆,有上下文,才能理解知道你的喜好是什么,知道我该去做什么样的执行,否则冷启动的时候很难做到我们想象当中符合我的点。包括它感知到了,它也不能你最喜好的是什么。这是一个过程。数据为AI的基础,首先要有准确的数据,能够把握用户的喜好,然后才有对应的生态,能够执行它的喜好,是这样一个过程。

钟学丹:我补充一下,今天可能有些演示上大家看到很多是用户主动发起,有些并不是主动发起,包括做向导,本质上就是在你开车的过程中陪伴式的,不需要你去问它,它会更多根据场景去触发这个地方我发现有好玩的地方要不要考虑?

另外,今天的Agent还是受限于上下文,如果看时长,说一些长时长或者长上下文的应用在车上肯定是短时间不可能实现,它的成本和代价都会非常高,而且体验也不会好。我们在选择的时候,更多以相对短链路的服务体验去看,比如订餐,相当于短链路,可以快速完成快速形成服务的方式。

提问:Agent上车之后会对座舱芯片和之前有什么不一样?为什么Agent还是在应用层去做,而不是在系统层,有一些Agent厂商认为Agent上车之后会是车载OS的操作系统,整车智能体的操作系统,你们怎么看?

李博:为什么我们认为是偏应用的?整车系统就像上一位提到的,以安全为底线,这个事情把一个车的最底层系统级的东西交给互联网公司或者交给一个Agent,在未来阶段可能性更强一点,但是在现在这个阶段,我认为还是由车企或者车规级的芯片厂商做对应的主导。所谓Agent OS也好或者什么也好,到底最终实现的功能是什么?还是回到应用场景,我们可以有很多概念,但究竟给用户给车主,给乘客带来什么,还是回到应用。腾讯基于这一点,我擅长做什么,腾讯最擅长于做对应的比较好的用户交互、对应的应用、给用户链接生态,腾讯定位很清晰有所为有所不为,我们帮助用户解决场景问题,解决他的问题,而不是做多么宏大宏观的东西。

李博:分两种,一种肯定是算力的要求,现在Agent上车,有一部分需要端侧有一定的算力能力、推理能力。现在来讲最基础的布2B、3B的模型,到后面7B、8B、14B,逐步需求提升,所有对应的模型都要消耗tokens,如果端侧有更强的能力,一个是及时响应的东西,另外对车企节省对应的消耗,这里面模型的参数相对更多,能力更强一点,会有这个要求,趋势一定是这样的。端侧算力越来越强,对应端侧模型的能力越来越强。我们认为更复杂的场景一定还是云端的,无论是云端的200B、300B、700B等等,复杂场景一定依赖于云端,端侧是没有能力的。

提问:我有两个小问题。虽然最近大家都在讲Agent上车,无论是这两天的发布会还有整个车展,是一个大的趋势。从大家讲Agent上车到真正的Agent上车落地能给用户提供很大便利的周期需要多长时间?怎么避免大家谈起来很繁荣,但是到用户侧永远没有办法感知到这个事情?这是第一个问题。

钟学丹:这个周期还是取决于车的平台和它的上市会有一个周期,一些新技术的落地跟这个强相关,主要看车的平台和这个点。

第二,任何一种新的技术和发展可能需要一个持续的进化过程,如果一开始就很惊艳把所有的都做好,可能还是会有比较大的挑战。我们看到一个好的地方,用户包括今天很多普通用户AI的普及速度为什么这么快?跟用户的交互体验门槛比较低,今天Agent跟用户交互互动的门槛相对也比较低,这点其实有利于Agent持续变好获得用户更好的认可和体验,或者说服务和体验变好很重要的因素。

提问:第二个问题是关于舱驾融合,无论车企还是一些供应商主动打破舱驾的区隔。对于腾讯来说,后续会不会车厂对于舱驾融合要求越来越高,出现被迫把业务越做越厚,在舱和驾驶方面投入更多,把这个东西做得更庞杂?

李博:车企的舱驾融合我们看到现在分两块,一块是芯片厂商把舱驾芯片做融入,第二车企原来的组织形式,越来越多的车企原来座舱和智驾是两个部门,现在进行合并。对于腾讯来讲反而是好事,腾讯原来在智舱和智驾都有对应的投入,原来做的反而是割裂的,这边做一点,那边做一点,包括智驾图和导航图原来的选定不是同一个,还要做异源匹配等等。合并到一起,从需求定义角度来讲,从更好的用户体验角度应该是什么样的体验,把两种特性结合起来做出更好的用户需要,反而不是我们做得更厚,而是把这块拉通得更好,能够做得更顺,更符合用户的交互场景和需求。

提问:我有一个小问题,今年从养龙虾到后面卸载掉小龙虾,因为Agent门槛很低,很容易成为红海,今年车展可能也会成为这个红海的一部分。我们怎么避免卸载掉小龙虾这种情况也在车里面出现,我们好不容易才把它搬进来,怎么避免又回去了?

李博:这里有一个共识,我并不认为养龙虾是门槛很低的,我自己从无到有训练龙虾,从很傻的龙虾到慢慢帮我去做事,我讲一个案例。最开始去训的时候,我的龙虾在办公电脑上,有一些证件照等等,我说“把我儿子的小白条发给我”。它说“好的,我找到了,在XXX位置”。我说“你发给我”“不好意思,我忘了发给你了”。养龙虾是相对门槛不是那么低的,你需要不断给它需要的Skill,对于权限的控制蛮高,比如给它RM权限,它把你的C盘给你格了,把一些文件给你删了。我并不认为它是门槛相对低的,但是它有一个好处,它真正能够帮你去把一些繁琐的事情,有逻辑性的事情给你简化,帮你去执行,并且它有很强的点,跨端你在手机端作为管道,通过企微或者微信可以本地端部署到龙虾,或者云端龙虾进行协助。这个事情一定是正向的,但它具有一定的门槛,对于龙虾有一定的理解,甚至你有很多个龙虾进行协作,其实有门槛,怎么用好它,用好你自己的数字分身,要去训练它,并且在这个过程之中要有足够的耐心,有可能开始的时候很傻,最后变成帮助你。

我们没有讲龙虾上车,而是Agent,Agent解决一个场景化的问题去做的,龙虾上车就回到一个很核心的问题,它的能力在于啥?你赋予它的权限在哪儿?在电脑上来讲,我们给它几个权限,比如浏览器的User,可以操作浏览器,可能有一些文件查找的权限,在车上到底放到什么权限?这是一个底层安全思考的问题。短期之内没有解决好核心的安全问题和权限区隔问题,它不是一个特别好的状态,把龙虾直接搬到车上,可能有不同的形式,未来有特别好的形式能够上车。比如它可以跟微信手机集合,通过微信虾的管道到云端,有一个云端的虾,云端的虾经过安全处理等等可以把一些指令下发到车,形成一定的Agent应用,而不是涉及到远控车能力等等,可能跟我们设想中比较靠谱落到实处,并且没有安全隐患的状态。

要纠正一下,下载虾这个事情,可能很多人第一没理解,第一可能有些人没有用,只是尝鲜的居多。我也看到有很多人安完虾之后落灰在那里也不用,没有跟你实际的工作产生关联度,用得好的,从邮件、会议编排上等等还是给予我提高了非常大的效率,对于业务的管理、人员的管理上我切实感受到这里面给我带来大量工作效率的提升。

提问:今天车内外的数据车企已经开放给我们了吗?我们看到Agent更多是对话的方式。

李博:这些是传感器数据,核心掌控一定是车企,车企要掌控这些数据,至于用这些数据做哪些应用,腾讯可以提供能力帮助他们做这些事情。那么多摄像头,在中国会有隐私保护法,在海外也有隐私保护法,第一要做的就是脱敏脱密,这个事情到底有哪些应用,每项应用摄像头采集数据的应用都应该是在合规、隐私保护的前提下做应用,并不能滥用。我们原来有很多车企做了守卫模式等等,守卫模式对于人脸、车牌都做模糊化处理,就是因为隐私保护和合规的情况下再去做应用。

量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1