1
karatsuba 2023-09-18 16:33:57 +08:00
租
|
2
lkwfive 2023-09-18 16:36:40 +08:00
显卡容量优先于算力,去官网确认下 3060 能不能组网,能的话就选这个
|
3
Takizawa 2023-09-18 16:37:22 +08:00
还不如内存加大一点,用共享显存
|
4
wipbssl 2023-09-18 16:39:56 +08:00
说实话不如租服务器,硬要选的话可以试试 3060*2 ,用 ddp 训练应该比 4060ti 强
|
5
daweii 2023-09-18 16:43:34 +08:00 via iPhone
colab 买算力
|
6
1014982466 OP |
7
qqjt 2023-09-18 16:58:49 +08:00
我的话会选 4060ti ,双卡的话可能的坑更多。这俩个方案其实都只能学习性质,正儿八经训练得加钱。
|
8
JayZXu 2023-09-18 17:16:19 +08:00
大显存 比 多卡兼容性更好,支持项目更多
不过这两个卡 CUDA 性能都不咋地,也就入门玩玩的水平 预算不高,同样建议 colab |
9
wipbssl 2023-09-18 17:18:47 +08:00
@1014982466 矩池云、featurize 、autodl 等等挺多的。
|
10
wipbssl 2023-09-18 17:20:01 +08:00
其实可以看看能不能和华为百度之类的合作,他们都有自己的深度学习框架,目前还在推广,给机器挺大方的
|
11
seres 2023-09-18 17:20:42 +08:00
2080Ti 魔改 22G
|
12
matchalatte 2023-09-18 17:37:58 +08:00 3
双卡推理目前有两种方案:
- 流水线并行:把层划分到不同 GPU 上,比方说切成前半后半,每次计算先用 gpu1 ,再用 gpu2 。好处是实现简单,缺点是推理延迟会变得很大。参考 ChatGLM 的一个多卡部署实现: https://github.com/THUDM/ChatGLM2-6B/blob/main/utils.py - 张量并行:把每个参数切片到所有 gpu 上,每次乘法完做一个 all reduce 。这个手写修改源代码很困难。比较简单的方法是套用 deepspeed zero3 ,accelerate 库也有这个功能。参考: https://huggingface.co/docs/accelerate/usage_guides/deepspeed 如果用上 deepspeed 的话,还有个单卡多卡都可以用的方案 - deepspeed 有 cpu_offload 和 nvme_offload ,可以自动把没用到的权重下放到内存/磁盘里,再把要用的挪到显存里,这样理论上多大的模型都能跑,但是对内存和磁盘要求比较高,而且推理很慢。 需要注意的几个点: - 双卡如果是 hf 模型,适配起来比较简单,调用 accelerate 库就可以了。但一些小众框架就很麻烦。多卡推理具体方法就是前面提到的两个。 - 3060 没有 nvlink ,双卡间通信是走内存,会很慢,而且 worker 开的多也会更吃内存。一万的预算不知道配了多少内存,跑大模型对内存的要求非常高,这个需要注意。 - 双卡需要注意主板的第二个 pcie 插槽能否跑到满速( x16 ),如果 x8 或者 x4 会降低通信速度,本身多卡就挺吃通信的。还有些主板第二个 pcie 还会和 nvme 硬盘槽位冲突,这些都得确认一下。 - 如果你们组不止一个人用,双卡会方便一些,在必要时可以分给两个人分别干不同的事情。 - 单张 4060ti 放的下模型的情况下,推理会比两张 3060 快。3060 虽然有 12Gx2 ,但分布在不同的卡上,计算需要来回通信,在推理时通信开销往往是比计算大很多的。 不过就像前面几层说的,仅推理 colab 就比较够用。自己组服务器还有维护、配置的一些成本,包括像内存要求这些问题。建议再三考虑。 |
13
jhdxr 2023-09-18 17:55:34 +08:00
没搞过上来就像挑战双卡难度有点大。。。除非就是跑跑别人现成已经调好的
|
14
OysterQAQ 2023-09-18 17:58:15 +08:00
得加钱 不然就💰全花显卡上 其他另外配 只报销显卡
|
15
talkischeap567 2023-09-19 02:05:48 +08:00
4090*n
|