V2EX › hughrover 的所有回复 › 第 1 页 / 共 1 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 月 14 日

以 16B 尺寸的模型部署推理为例，加载半精度模型权重占用显存 16G （全精度 32G ，此外还有 KV Cache 、激活缓冲区占用的显存），即使是 m4 max 的最高配 128G ，也很难流畅运行超过 100B 尺寸的模型，供楼主参考。