以前用命令行为每个模型启动一个 llama-server,管理起来挺麻烦的,尤其是切换模型看日志的时候。
最近写了个 Web 管理工具,核心功能:
- 多实例管理 - 同时运行多个 llama-server ,通过卡片管理
- 实时日志 - SSE 推送,启动/停止自动切换到对应实例
- 参数可视化 - 模型路径、端口、线程数、GPU 层数点点就配
- 守护进程 - 独立进程,Web UI 重启不影响运行中的实例
技术栈:
- Python Flask + SQLite
- Vue 3 (CDN ,无构建步骤)
- SSE 实时推送
项目地址: https://github.com/leaves615/llama-manager
有类似需求的可以试试,欢迎 Star Issue 和 PR 。
AI 辅助生成