记忆感知的大模型 KVCache 优化|AICon上海

当前,以 Agent 为核心的新一轮技术浪潮正在席卷产业。那么,世界模型的下一个突破在哪?Agent 从 Demo 到工程化还差什么?研发体系不重构,还能撑多久?

6 月 26 日-6 月 27 日,AICon全球人工智能开发与应用大会将在上海举办。本次大会将围绕以上问题,邀请来自腾讯、阿里、快手、华为、飞猪等 50+头部企业的技术负责人、高校与科研机构的一线专家,分享 Agent 在真实生产环境中的落地经验与前瞻思考。深入探讨 Agent 从原型到量产的工程挑战、数据与记忆的基础设施底座、安全可信的落地保障,以及大模型推理优化、智算架构升级等关键命题。

阿里云高级技术专家马腾已确认出席 “大模型推理优化” 专题,并发表题为《记忆感知的大模型 KVCache 优化》的主题分享。本次分享重点介绍以 KVCache 为中心的开源大模型服务框架——Mooncake。将大模型推理引擎中的 KVCache 视作智能体系统最核心的“物理工作记忆”载体。通过打破传统推理中计算与存储的强耦合,Mooncake 实现了 Prefill 与 Decode 的分离式架构,并构建了全局共享的 KVCache 池。这种设计使得多智能体在频繁交互与协同工作时,能够通过跨节点的底层张量零拷贝与高效复用,实现记忆的“一次计算、全局共享”。

马腾,阿里云高级技术专家,在阿里云主要大模型软件栈在新硬件环境下国产化的研究工作,并共同创建了大模型开源项目 Mooncake(5K Star)。目前 Mooncake 已经有阿里云 / 清华 / 月之暗面 / 蚂蚁 / 字节 / 趋境科技等多方参与,并且成功接入 vLLM/SGLang/LMDeploy/LMCache 等社区。同时他也是 SGLang, RBG 等社区的 Committer。他在 SOSP, ASPLOS, ATC, SC, INFOCOM, VLDB, TPDS 等顶级会议和期刊上发表论文二十余篇,相关成果授权美国 / 中国专利 10 项。他曾入选 CCF 系统软件专委会优秀博士论文激励计划,担任 PPoPP, FAST, DASFAA, TPDS, ICME, TC, JSC 等国际会议 / 期刊的程序委员会成员和审稿人。他在本次会议的详细演讲内容如下:

记忆感知的大模型 KVCache 优化|AICon上海

演讲提纲:

  1. 多智能体时代的记忆挑战

    从单一对话到多智能体协作的演进趋势

    Agent Memory 的构成:系统提示词、工具描述、多轮交互历史、智能体间状态传递

    当前推理架构的瓶颈:重复 Prefill 计算、显存碎片化与端到端延迟

  2. 核心视角:KVCache 作为智能体的"物理工作记忆"

    重新定义 KVCache 的角色——从推理缓存到记忆载体

    "一次计算、全局共享"的设计目标

  3. Mooncake:以 KVCache 为中心的开源推理服务框架

    Prefill 与 Decode 分离式架构(Disaggregated Architecture)

    全局共享 KVCache 池的构建

    跨节点张量零拷贝与高效复用机制

  4. 多智能体落地的底层技术挑战

    基于记忆感知(Memory-aware)的请求调度与路由策略

    长短记忆在物理显存中的动态分层与淘汰机制(Eviction)

    高并发场景下的吞吐极限优化

  5. 总结与展望

    Agent Memory 需要下沉至物理推理基础设施

    通过底层"记忆流转"释放算力与智能潜能

听众收益:

  • 了解记忆系统和 KVCache 的无缝结合

  • 了解如何通过推理优化,显著提升 Agent 性能

除此之外,本次大会还策划了端侧 AI、物理与数字空间智能化、世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构、AI 原生数据工程、AI 时代的个人提效与组织变革等 14 个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在现场带来前沿技术洞察和一线实践经验。

更多详情可扫码或联系票务经理 13269078023 进行咨询。

记忆感知的大模型 KVCache 优化|AICon上海