[Local LLM] 自己做了一款在线 GPU 推理速度计算器 · TPS Calculator

TPS Calculator · GPU 推理速度计算器

买不起机子,所以做了这个。

在线地址:tps.bunai.cc

突发奇想赶紧记录下来,直接 vibe code ,说敲就写

一个 vibe code 出来的 GPU 推理性能估算工具。

起因很简单——显卡太贵,买不起,想跑个模型又不知道自己的配置够不够, 于是把网上散落的参数和公式汇总了一下,做成了这个计算器。

输入显卡型号、模型、量化方式和运行参数,快速估算:

  • 显存占用与 OOM 风险
  • Decode / Prefill token/s
  • TTFT / TPOT / 总时延
  • 带宽瓶颈还是算力瓶颈
  • 多卡 TP 通信效率

适合干什么

✅ 在买机子 / 租卡之前,先大概预估一下跑不跑得起来
✅ 学习推理性能建模,理解量化、KV Cache 、TP 、Roofline 这些概念
✅ 做方案初筛和参数对比

❌ 不适合直接替代真实 benchmark
❌ 不适合把估算值当作生产承诺
❌ Mac 电脑没有放出来,验证了一下差距有点大,先放一放

参考资料

  • 模型参数来源:HuggingFace model cards 及 Ollama 官方页面
  • MoE CPU Offload 场景参考:val1813/kaiwu
  • 自己搭建模型Gemma4 26b
  • 自己搭建模型Gemma4 31b
  • 还有个 4070ti 得数据

这套公式和参数是我自己整理汇总的,没有大量真机跑过验证。 如果你手上有真实的测试数据,发现哪里估算偏差大、公式有问题, 欢迎开 Issue 或 PR 指出来,大家一起学习,一起把这个东西做得更准。

希望有真实数据的大佬帮忙指正,谢谢!🙏