国产GPU组了个开源局，把SGLang等核心开发者都摇来了！

因为过去提到国产GPU，外界最容易想到的关键词，往往还是硬件参数、显存容量、算力指标、生态替代、模型能不能跑起来。

说得更直接一点，就是让SGLang、Triton/FlagOS、TileLang、Mooncake、KVCache、P/D分离、分布式通信、CI/CD、upstream PR这些东西，能够围着国产GPU一起转起来。

SGLang是当下大模型推理serving领域关注度很高的开源框架，面向LLM和多模态模型，核心目标是低延迟、高吞吐，覆盖从单卡到大规模分布式集群的部署场景。

这类框架之所以重要，是因为今天的大模型落地，早就不是“模型训练好了，放上去跑”这么简单。

例如prefill和decode怎么拆，KVCache怎么复用，长上下文怎么省钱，多轮对话怎么降TTFT，大规模集群怎么调度，新模型发布后怎么day-0 support，出了性能gap怎么定位到具体kernel。

这个在GitHub上拥有27k星的开源推理框架，现在已经是全球开发者部署大模型的首选。

SGLang通过P/D分离架构，在12个H100节点上跑出了52.3k输入token/s/node、22.3k输出token/s/node的成绩，比DeepSeek官方API还便宜5倍，这个结果已经被全球10多个团队复现。

紧接着上台的摩尔线程Contributor R0CKSTAR，带来了全场最硬核的工程实践分享。

现在你只要克隆SGLang的官方仓库，安装sgl-kernel和sglang，就能在摩尔线程MTT S5000显卡上直接运行几乎所有主流大模型。

DeepSeek、通义千问3.5、GLM-4.5、FLUX、Wan这些热门模型，都已经完成了深度优化。

过去适配一个推理框架要改几千行代码，现在只要在开头加一行import torchada，99%的CUDA代码就能直接运行。这个看似简单的改动，解决了国产GPU生态的一大痛点。

据了解，截至5月12日，摩尔线程在SGLang主线累计提交47个PR，其中41个已合入，完成了从环境构建到分布式推理的全链路打通。

通过FlagOS的Triton算子优化和摩尔线程的SQMMA张量加速引擎，他们把DeepSeek V4的首token延迟降低了56.7%，吞吐量提升了23%。

FP8 矩阵乘算子平均加速8.85倍，稀疏注意力算子平均加速6.01倍，这两个占了推理时间80%的算子一优化，端到端性能自然就上去了。

这个2025年2月才开源的项目，短短一年多就收获了6k星和133位贡献者，连DeepSeek V4的核心kernel都是用TileLang写的，正如唐正举所说：

用TileLang写FlashAttention，只要50行Python代码，性能和专家手写的CUDA一模一样。

并且从他在现场展示的对比图来看，同样的GEMM算子，TileLang用15行代码达到了CUTLASS的性能，代码量减少了90%。

这个专注于KVCache解耦的项目，现在已经是SGLang、vLLM等主流推理框架的标配。

通过RDMA P2P权重更新，Kimi K2 1T模型的权重同步时间从53秒降到了7.2秒，加速了7.37倍；EPD三级解耦架构让多模态模型的首token延迟降低了6-8倍；HiCache + Mooncake后端让多轮对话的缓存命中率超过90%。

SGLang是推理框架主链路，MUSA是国产GPU底层平台，FlagOS/Triton解决关键算子优化，TileLang降低高性能kernel编程门槛，Mooncake补上KVCache和生产部署。

开源圈很现实，大家愿意来，核心原因不是谁会讲故事，是这件事真的和他们正在做的工程问题有关。

摩尔线程CTO张钰勃在开场中解释，MUSA是Meta-computing Unified System Architecture。

Meta-computing指向通用计算，摩尔线程希望GPU尽量拥抱通用计算，而不是给未来可计算的领域设限；Unified则意味着摩尔线程产品希望遵循同一套统一标准，避免不同产品线使用不同指令集和架构，导致软件生态无法积累。

不是新硬件本身，是为了新硬件，学习一整套新API，重写一堆代码，改完还进不了上游，社区一更新又要重新补丁。

所以MUSA的路线，是尽量贴近开发者已经熟悉的GPU编程方式、API接口和使用习惯。底层实现可以不同，但上层体验尽可能一致。

torch_musa负责把PyTorch和MUSA的基础能力接起来；torchada负责让CUDA-first生态继续工作；mthreads-ml-py负责把设备管理、拓扑、显存、MTLink、P2P等信息暴露给上层框架。

因为上游项目最看重的是低侵入、可维护、可复用。如果一个适配方案需要大面积改动主线代码，后续每次rebase都痛苦，上游很难接受。

反过来，如果适配可以通过更透明的方式完成，PR就更容易被review，也更容易持续跟随社区迭代。

摩尔线程从去年开始把SGLang作为重点接入和贡献的开源项目，经过大半年努力，MUSA后端近期已经合入SGLang主线。后续不只是跟随feature，也希望在框架层面贡献更多能力。

这件事的意义在于，国产GPU不再只是某个框架的外部适配对象，已经开始成为主线生态的一部分。

大模型推理的性能竞争，越来越多发生在kernel、编译器、调度、低精度和通信层。DeepSeek V4 day-0适配这样的工作，本质上考验的是从模型发布到工程落地之间的反应速度。能不能第一时间跑通，能不能快速调优，能不能在真实shape上找到更好的配置，决定了生态跟不跟得上。

KVCache的价值在Agent、多轮对话、长上下文时代被进一步放大。Mooncake与MUSA的结合，不只是让某个缓存后端能跑在国产GPU上，更是在探索跨实例KVCache共享、弹性扩缩容、缓存复用、原地升级这类生产级问题。

如果未来更多模型和硬件都需要定制kernel，算子编程不能永远停留在少数专家手里。TileLang这类DSL的价值，是把高性能kernel编程变成更多开发者能上手的工程工具。

它把自己放进了大模型推理的真实工程网络里，包括框架、算子、缓存、通信、部署、CI/CD、upstream等等。

许多厂商习惯了闭门造车，自己从头写一套深度学习框架，自己攒一套算子库，结果因为不符合主流开发者的习惯，鲜有人问津。

又或者，有的厂商只是拉一个私有Fork做适配，从来不向开源上游提交代码，导致主流框架一更新，自己的适配版本就成了无人维护的孤品。

在这场活动中，我们频繁听到几个词：Day-0 Support、Upstream PR、CI/CD。

这说明国产GPU的生态位正在发生质变。摩尔线程不再只满足于做一个被动的适配者，它要的是主动出击，成为核心代码的“贡献者”，甚至是未来架构的“共建者”。

他们不仅仅是丢一个单点的Patch过去，而是把一整套包含环境构建、PR提交、CI自动化测试、Release发布、文档维护在内的工程闭环，深深地嵌入到了SGLang等顶级项目的血脉中。

在这个牌桌上，已经坐着风头正劲的SGLang，坐着死磕底层编译的Triton/FlagOS，坐着重塑算子生态的TileLang，坐着主导解耦架构的Mooncake。

而现在，国产GPU，也可以拉开椅子，从容地坐下来，和这群明星玩家们一起打好大模型时代最关键的这把牌。

量子位 QbitAI