TPS Calculator · GPU 推理速度计算器
买不起机子,所以做了这个。
在线地址:tps.bunai.cc
突发奇想赶紧记录下来,直接 vibe code ,说敲就写
一个 vibe code 出来的 GPU 推理性能估算工具。
起因很简单——显卡太贵,买不起,想跑个模型又不知道自己的配置够不够, 于是把网上散落的参数和公式汇总了一下,做成了这个计算器。
输入显卡型号、模型、量化方式和运行参数,快速估算:
- 显存占用与 OOM 风险
- Decode / Prefill token/s
- TTFT / TPOT / 总时延
- 带宽瓶颈还是算力瓶颈
- 多卡 TP 通信效率
适合干什么
✅ 在买机子 / 租卡之前,先大概预估一下跑不跑得起来
✅ 学习推理性能建模,理解量化、KV Cache 、TP 、Roofline 这些概念
✅ 做方案初筛和参数对比
❌ 不适合直接替代真实 benchmark
❌ 不适合把估算值当作生产承诺
❌ Mac 电脑没有放出来,验证了一下差距有点大,先放一放
参考资料
- 模型参数来源:HuggingFace model cards 及 Ollama 官方页面
- MoE CPU Offload 场景参考:val1813/kaiwu
- 自己搭建模型Gemma4 26b
- 自己搭建模型Gemma4 31b
- 还有个 4070ti 得数据
这套公式和参数是我自己整理汇总的,没有大量真机跑过验证。 如果你手上有真实的测试数据,发现哪里估算偏差大、公式有问题, 欢迎开 Issue 或 PR 指出来,大家一起学习,一起把这个东西做得更准。
希望有真实数据的大佬帮忙指正,谢谢!🙏