记忆感知的大模型 KVCache 优化｜AICon上海

当前，以 Agent 为核心的新一轮技术浪潮正在席卷产业。那么，世界模型的下一个突破在哪？Agent 从 Demo 到工程化还差什么？研发体系不重构，还能撑多久？

6 月 26 日-6 月 27 日，AICon全球人工智能开发与应用大会将在上海举办。本次大会将围绕以上问题，邀请来自腾讯、阿里、快手、华为、飞猪等 50+头部企业的技术负责人、高校与科研机构的一线专家，分享 Agent 在真实生产环境中的落地经验与前瞻思考。深入探讨 Agent 从原型到量产的工程挑战、数据与记忆的基础设施底座、安全可信的落地保障，以及大模型推理优化、智算架构升级等关键命题。

阿里云高级技术专家马腾已确认出席 “大模型推理优化” 专题，并发表题为《记忆感知的大模型 KVCache 优化》的主题分享。本次分享重点介绍以 KVCache 为中心的开源大模型服务框架——Mooncake。将大模型推理引擎中的 KVCache 视作智能体系统最核心的“物理工作记忆”载体。通过打破传统推理中计算与存储的强耦合，Mooncake 实现了 Prefill 与 Decode 的分离式架构，并构建了全局共享的 KVCache 池。这种设计使得多智能体在频繁交互与协同工作时，能够通过跨节点的底层张量零拷贝与高效复用，实现记忆的“一次计算、全局共享”。

马腾，阿里云高级技术专家，在阿里云主要大模型软件栈在新硬件环境下国产化的研究工作，并共同创建了大模型开源项目 Mooncake（5K Star）。目前 Mooncake 已经有阿里云 / 清华 / 月之暗面 / 蚂蚁 / 字节 / 趋境科技等多方参与，并且成功接入 vLLM/SGLang/LMDeploy/LMCache 等社区。同时他也是 SGLang, RBG 等社区的 Committer。他在 SOSP, ASPLOS, ATC, SC, INFOCOM, VLDB, TPDS 等顶级会议和期刊上发表论文二十余篇，相关成果授权美国 / 中国专利 10 项。他曾入选 CCF 系统软件专委会优秀博士论文激励计划，担任 PPoPP, FAST, DASFAA, TPDS, ICME, TC, JSC 等国际会议 / 期刊的程序委员会成员和审稿人。他在本次会议的详细演讲内容如下：

演讲提纲：
多智能体时代的记忆挑战
从单一对话到多智能体协作的演进趋势
Agent Memory 的构成：系统提示词、工具描述、多轮交互历史、智能体间状态传递
当前推理架构的瓶颈：重复 Prefill 计算、显存碎片化与端到端延迟
核心视角：KVCache 作为智能体的"物理工作记忆"
重新定义 KVCache 的角色——从推理缓存到记忆载体
"一次计算、全局共享"的设计目标
Mooncake：以 KVCache 为中心的开源推理服务框架
Prefill 与 Decode 分离式架构（Disaggregated Architecture）
全局共享 KVCache 池的构建
跨节点张量零拷贝与高效复用机制
多智能体落地的底层技术挑战
基于记忆感知（Memory-aware）的请求调度与路由策略
长短记忆在物理显存中的动态分层与淘汰机制（Eviction）
高并发场景下的吞吐极限优化
总结与展望
Agent Memory 需要下沉至物理推理基础设施
通过底层"记忆流转"释放算力与智能潜能
听众收益：
了解记忆系统和 KVCache 的无缝结合
了解如何通过推理优化，显著提升 Agent 性能

除此之外，本次大会还策划了端侧 AI、物理与数字空间智能化、世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构、AI 原生数据工程、AI 时代的个人提效与组织变革等 14 个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在现场带来前沿技术洞察和一线实践经验。

更多详情可扫码或联系票务经理 13269078023 进行咨询。