问一下要实现一个类似 GPT3.5 的离线模型要多大 effort

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 550 天前的主题，其中的信息可能已经有所发展或是发生改变。

就是想在本地离线使用，有现成的模型可以用吗，另外大概需要多少张显卡？有人做过这个吗？

离线

模型

GPT

Effort

3 条回复 • 2023-09-11 09:10:54 +08:00

noe132

2023-09-11 02:13:36 +08:00

gpt3 规模类似 bloom 176B ，bloom 176B 做推理使用 fp16 需要 352G 显存，通常来说会用 8 卡 A100 80G 的单机器效率最高，单机显存不够如果分机器的花会影响速度。老黄有 8 卡 A100 的平台卖，好像大概是 100w 一台左右当时？
bloom 模型有缩小版本的，像 bloom 7B1 可以在 24G 显卡上跑，bloom 3B 应该可以在 10G 显卡上跑，只不过相对来说生成结果质量会变差很多。
https://github.com/huggingface/blog/blob/main/bloom-inference-pytorch-scripts.md

gaobh

2023-09-11 02:37:10 +08:00 via iPhone

本地跑你是跑不起来的，至少得几张 A100 吧

akira

2023-09-11 09:10:54 +08:00

清华的那个好像不用太多资源就能跑起来了