当前,以 Agent 为核心的新一轮技术浪潮正在席卷产业。那么,世界模型的下一个突破在哪?Agent 从 Demo 到工程化还差什么?研发体系不重构,还能撑多久?
6 月 26 日-6 月 27 日,AICon全球人工智能开发与应用大会将在上海举办。本次大会将围绕以上问题,邀请来自腾讯、阿里、快手、华为、飞猪等 50+头部企业的技术负责人、高校与科研机构的一线专家,分享 Agent 在真实生产环境中的落地经验与前瞻思考。深入探讨 Agent 从原型到量产的工程挑战、数据与记忆的基础设施底座、安全可信的落地保障,以及大模型推理优化、智算架构升级等关键命题。
京东算法工程师梁志伟已确认出席 “大模型推理优化” 专题,并发表题为《京东 xLLM 的投机推理架构设计》的主题分享。本次演讲将聚焦于 xLLM 的投机推理架构设计,从一个核心问题出发:如何让大模型推理在保证生成质量的前提下,实现数量级的效率提升?传统的自回归推理如同“逐字思考”,速度存在瓶颈。投机式推理则引入了一个“快速草稿机”(小模型)和一个“权威审核员”(大模型)的协作范式,从根本上改变了推理流程。xLLM 不仅实现了这一范式,更通过一系列创新的系统架构设计,解决了将其投入实际生产时面临的计算、通信、调度等核心挑战。
梁志伟,拥有清华大学硕士学位,目前任职于京东零售 AI Infra 方向,专注于 LLM 推理优化、投机推理、生成式推荐及端智能等方向的研究与应用。作为 xLLM 项目的 Core Maintainer,参与了项目从 0 到 1 的开发,负责多个核心组件的研发,为京东零售全场景 LLM 在线服务提供底层支持。同时深度参与端智能项目,主导关键算法与架构设计,相关成果已在京东 APP 内稳定运行,覆盖海量用户场景。致力于通过技术创新,推动大模型与智能系统在超大规模业务中的落地与实践。他在本次会议的详细演讲内容如下:
演讲提纲:
大模型推理的挑战与投机式推理原理
当前大模型推理的延迟与计算资源矛盾
投机式推理的基本思想:用小模型“草案”引导大模型“验证”的加速范式
2. xLLM 架构总览
设计目标:面向国产芯片的高性能、高稳定的企业级 LLM 部署引擎
核心功能介绍:
深度解耦的分布式推理:计算(专家)、调度、KV Cache、数据(输入/输出)的分离,为动态调度提供基础
全局多级 KV Cache 池:统一的内存抽象,支持跨请求、跨节点的快速缓存访问与复用,是投机候选序列生成与验证的关键
全局智能调度器:具备全局视图,能够协调草稿模型与主模型的执行,并实施严格的 SLO 保证
3. 核心创新与工程挑战破解
挑战一:通信与主机开销
问题:中心式验证成为性能瓶颈,数据往返延迟抵消加速收益
解决方案:
逻辑下沉与本地缓存:将验证逻辑从 master 节点移至分布式子 worker 节点,减少数据往返
异步流水线调度:让输入准备与模型执行重叠进行,隐藏延迟
挑战二:大规模分布式部署支持
问题:投机推理在大规模集群上的高效运行问题
解决方案:适配 DP 并行与 PD 分离,保证每个节点的行为一致
挑战三:不同注意力结构的适配
问题:不同模型的 KV cache 缓存机制不同
解决方案:动态适配多种注意力变体,保证投机过程的正确性与内存效率
4. 总结展望
听众收益:
深入理解投机式推理的工业级实现方案
掌握构建高性能、可扩展大模型推理系统的关键架构设计思想
了解工业界在降低大模型服务成本、提升集群效率方面的前沿工程实践与优化技巧
除此之外,本次大会还策划了端侧 AI、物理与数字空间智能化、世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构、AI 原生数据工程、AI 时代的个人提效与组织变革等 14 个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在现场带来前沿技术洞察和一线实践经验。
更多详情可扫码或联系票务经理 13269078023 进行咨询。