京东 xLLM 的投机推理架构设计｜AICon上海

当前，以 Agent 为核心的新一轮技术浪潮正在席卷产业。那么，世界模型的下一个突破在哪？Agent 从 Demo 到工程化还差什么？研发体系不重构，还能撑多久？

6 月 26 日-6 月 27 日，AICon全球人工智能开发与应用大会将在上海举办。本次大会将围绕以上问题，邀请来自腾讯、阿里、快手、华为、飞猪等 50+头部企业的技术负责人、高校与科研机构的一线专家，分享 Agent 在真实生产环境中的落地经验与前瞻思考。深入探讨 Agent 从原型到量产的工程挑战、数据与记忆的基础设施底座、安全可信的落地保障，以及大模型推理优化、智算架构升级等关键命题。

京东算法工程师梁志伟已确认出席 “大模型推理优化” 专题，并发表题为《京东 xLLM 的投机推理架构设计》的主题分享。本次演讲将聚焦于 xLLM 的投机推理架构设计，从一个核心问题出发：如何让大模型推理在保证生成质量的前提下，实现数量级的效率提升？传统的自回归推理如同“逐字思考”，速度存在瓶颈。投机式推理则引入了一个“快速草稿机”（小模型）和一个“权威审核员”（大模型）的协作范式，从根本上改变了推理流程。xLLM 不仅实现了这一范式，更通过一系列创新的系统架构设计，解决了将其投入实际生产时面临的计算、通信、调度等核心挑战。

梁志伟，拥有清华大学硕士学位，目前任职于京东零售 AI Infra 方向，专注于 LLM 推理优化、投机推理、生成式推荐及端智能等方向的研究与应用。作为 xLLM 项目的 Core Maintainer，参与了项目从 0 到 1 的开发，负责多个核心组件的研发，为京东零售全场景 LLM 在线服务提供底层支持。同时深度参与端智能项目，主导关键算法与架构设计，相关成果已在京东 APP 内稳定运行，覆盖海量用户场景。致力于通过技术创新，推动大模型与智能系统在超大规模业务中的落地与实践。他在本次会议的详细演讲内容如下：

演讲提纲：
大模型推理的挑战与投机式推理原理
当前大模型推理的延迟与计算资源矛盾
投机式推理的基本思想：用小模型“草案”引导大模型“验证”的加速范式
2. xLLM 架构总览
设计目标：面向国产芯片的高性能、高稳定的企业级 LLM 部署引擎
核心功能介绍：
深度解耦的分布式推理：计算（专家）、调度、KV Cache、数据（输入/输出）的分离，为动态调度提供基础
全局多级 KV Cache 池：统一的内存抽象，支持跨请求、跨节点的快速缓存访问与复用，是投机候选序列生成与验证的关键
全局智能调度器：具备全局视图，能够协调草稿模型与主模型的执行，并实施严格的 SLO 保证
3. 核心创新与工程挑战破解
挑战一：通信与主机开销
问题：中心式验证成为性能瓶颈，数据往返延迟抵消加速收益
解决方案：
逻辑下沉与本地缓存：将验证逻辑从 master 节点移至分布式子 worker 节点，减少数据往返
异步流水线调度：让输入准备与模型执行重叠进行，隐藏延迟
挑战二：大规模分布式部署支持
问题：投机推理在大规模集群上的高效运行问题
解决方案：适配 DP 并行与 PD 分离，保证每个节点的行为一致
挑战三：不同注意力结构的适配
问题：不同模型的 KV cache 缓存机制不同
解决方案：动态适配多种注意力变体，保证投机过程的正确性与内存效率
4. 总结展望
听众收益：
深入理解投机式推理的工业级实现方案
掌握构建高性能、可扩展大模型推理系统的关键架构设计思想
了解工业界在降低大模型服务成本、提升集群效率方面的前沿工程实践与优化技巧

除此之外，本次大会还策划了端侧 AI、物理与数字空间智能化、世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构、AI 原生数据工程、AI 时代的个人提效与组织变革等 14 个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在现场带来前沿技术洞察和一线实践经验。

更多详情可扫码或联系票务经理 13269078023 进行咨询。