开源了一个 LLM 推理服务监控面板 项目地址: https://github.com/coolwolfqs/llm-inference-monitor
为什么做这个
最近在用 llama.cpp 跑推理服务,一直缺一个好用的监控面板。
网上方案无非两条路:
- Prometheus + Grafana → 太重了,为了看个 GPU 温度搭一套监控体系
- nvidia-smi 刷屏 → 原始,但就看个 GPU ,CPU/内存/推理指标全没有
于是自己搓了一个面板,现在整理成开源项目放出来了。不会编程,全程就由 hermes 待开发,不成熟之处各位看官多包涵。
长什么样
一个页面搞定所有监控信息,分成几个区域:
服务概览区
- 当前运行的模型、上下文长度、量化精度
- 引擎版本号( llama.cpp / vllm )
- 健康评分(硬件分 + 系统分 + 推理分)
GPU 区
- 利用率 / 显存 / 温度 / 功耗 实时曲线图
- 每张卡的详细信息(频率、PCIe 链路、编码器负载)
- 带 GPU 进程列表(看一眼就知道谁在吃显存)
系统区
- CPU 每核利用率热力图
- 内存 / Swap / 缓存
- 磁盘读写速度 + 分区使用率
- 网络实时吞吐量
推理区
- TPS 实时心电图
- KV Cache 占用 + 剩余可用 Token 估算
- TTFT / TPOT / KV 命中率 / MTP 投机解码加速比
- IP 级 Token 消耗统计
技术栈
后端:Python FastAPI + psutil + nvidia-smi
前端:纯 HTML + CSS + JS (无框架,无需构建)
图表:Canvas 原生绘制(贝塞尔曲线,防抖重绘)
实时:SSE 推送( 2 秒间隔) + HTTP 轮询( 30 秒兜底)
部署:pip install -r requirements.txt 就行
整个项目 30 多个文件,前端零依赖,后端只依赖 FastAPI 、psutil 、aiohttp 三个库。
快速体验
git clone GitHub - coolwolfqs/llm-inference-monitor: Real-time monitoring dashboard for LLM inference services
cd llm-inference-monitor
pip install -r requirements.txt
python -m backend.server
打开 http://localhost:8081 就能看到面板了。
如果需要采集推理指标,旁边跑一个 llama.cpp server (默认 8080 端口)就行,自动对接。
项目地址
https://github.com/coolwolfqs/llm-inference-monitor
欢迎 Star 、Fork 、PR ,觉得有用的话也欢迎转发。
补充说明:项目从生产环境的内部面板整理而来,核心逻辑和 UI 布局都保留了原样,只是把后端从单体改成了模块化采集器架构,方便大家按需增删监控指标。中英文双语文档都有。
有什么问题或者建议可以直接回帖,也可以 GitHub 提 Issue 。