有一个千卡,甚至是万卡级的智算中心,我们想做个监控平台,来监控这个智算中心 GPU 、算力、电量等等一些参数,主要是想看每个卡及整个智算中心的使用情况以及物理卡是否被人掉包等情况,老哥们有啥点子没?
1
WorldDominator 115 天前
这种运维超级麻烦,机器一多光是光模块掉线就够头疼了,国内有能力运维万卡集群的估计是个位数公司
监控设备厂商有解决方案可以直接买的,这种卡都是焊接的也没法掉包吧。一定要自己搞 ipmi api 可以,npu 信息可以从类似 nvidia-smi 的输出里解析 |
2
julyclyde 115 天前
你可以问问 AI 应该怎么做啊
|
3
wxd21020 OP |
4
qaz999 115 天前
有预算吗,我们这有现成的商业平台。
|