如题,最新体验英伟达的 70Bllama 感觉不错,打算搞个机器本地跑一跑。目前打算 x99 准系统+4*(p40/v100)搞一搞,有没有实践过的老哥评价下可行性,就奔着捡垃圾极致性价比来搞
1
papersnake 17 天前
4 * v100 跑 int8 量化没问题,速度可能会慢一点;占用大约 70GB 模型参数+20GB 的 kv 缓存
|
2
kzfile 17 天前
说实话,就算是捡垃圾,4 路 p40 也不便宜了。我觉得先租个云主机玩玩得了
|
3
lithiumii 17 天前 via Android
最低成本? cpu 跑呗,搞 128G 内存,跑量化的版本
|
4
xye0542 17 天前
2080ti 魔改 22G 版本也行吧。价格应该比 v100 便宜。现在应该不到 3k 一张卡。也能支持 nvlink
|
5
liu731 17 天前
直接二手 4090 ,到时候不玩了卖也亏不了多少钱
|
6
Hookery 17 天前
70B 就不可能低成本。。。
之前也想过低成本搞一套,P40 和 P100 都涨飞天了,而且还需要魔改散热,稳定性是堪忧的。多卡也需要电源,电源成本也跟着上来了。 最低成本直接搞两张 P102 ,单张 200 ,两张 400 ,一共 20G 显存,可以玩 32B 的 4bit 量化。整机成本不破千。 70B 显存需求大概在 40G 作用,最便宜就是两张 2080TI 22G ,两张卡都上 5K 了。 |
7
lsilencej 17 天前
看看 https://github.com/SJTU-IPADS/PowerInfer ,有量化好的 70B llama 可以跑 https://huggingface.co/PowerInfer/ReluLLaMA-70B-PowerInfer-GGUF ,限制显存可以在单卡上部署,不过好像对 70B 模型优化差点意思
|
8
shuimugan 17 天前
P40 很垃圾的,10 张 P40 加一起速度还没到 M2 Ultra 的 1/3
|
9
kuhung 17 天前
我在看 mac 的大内存版本,还没确定是 M4Pro 的 mini 64G 还是 M2U 的 studio
|
10
mmdsun 16 天前 via iPhone
魔改显卡,双显卡主机
|
14
Hookery 16 天前
大模型不吃 CPU 啊,不一定必须上超微吧,除非你要 4 满速 PCIE 接口,民用主板才没有。
|
15
shuimugan 16 天前 1
@dafen7 mac book pro 能跑 70B 吗?能
带宽不足吗?不足,所以速度慢 慢多少?带宽是 Ultra 的多少,速度就是 Ultra 的多少,看 https://github.com/ggerganov/llama.cpp/discussions/4167 可以发现带宽就是首要的决定因素,而且模型越大,带宽瓶颈需求就越大,特别是 70B 这个体量,传输都不够了,算得再快都没用 |