我们自己组装机器,插了 3 块 1080ti 显卡,用来计算深度神经网络,性能还不错,基本跟一台用 P100 的服务器计算性能差不多。
可是有个烦心事情,用一阵之后,显卡就会少,比如 nvidia-smi 只能看到两块显卡,另外一块显卡就不见了。重启机器,显卡会回来。
机器用的 i9 7900x CPU,128G 内存。操作系统是 ubuntu 16.04 。
有人碰到类似情况吗,怎么解决?
1
7654 2017-12-18 09:04:39 +08:00
电源功率如何,有没有虚表
|
2
DreamCMS 2017-12-18 09:05:49 +08:00
电源问题,显卡独立供电。
|
3
dcll222 2017-12-18 09:24:25 +08:00
7900x 和三张 1080ti 大概得一千瓦供电才能长时间稳定运行
|
4
lonelygo 2017-12-18 09:30:55 +08:00
1080Ti,标的功率 275W,你还要留点富裕;
跑训练,估计硬盘也不少于两块,CPU 也不太差,这些都要单独用电; 建议电源不低于 1500W,最好直接上 2KW。 |
5
8355 2017-12-18 09:43:19 +08:00
我也觉得是电源的问题. 买个好点的电源吧. 高端海韵 全汉 海盗船 EVGA 都可以.
|
6
wecan 2017-12-18 09:54:31 +08:00 via Android
长期运行的话 1600w 要是要的。一般就是电源和散热
|
7
realpg 2017-12-18 10:20:10 +08:00
有动手能力么 如果有 淘宝买块 30 的神电源 买三个显卡 pin 带长线接头 自己焊上接上 美滋滋
挖矿机我就是这么干的 |
8
mfergg 2017-12-18 10:44:16 +08:00
这电脑要是用来玩游戏就爽了
|
9
turan12 2017-12-18 10:53:36 +08:00
建议上双电源。一个电源专门为显卡供电,另一个电源为 CPU 和板卡供电。
|
10
zhiqiang OP 楼上各位,我们的电源是 1600W 的,型号是:振华( SUPER FLOWER ) 额定 1600W LEADEX T。按道理应该足够了的。
|
13
focusheart 2017-12-18 11:16:58 +08:00
请教一下,主板用的是哪一款呀?
|
14
zhiqiang OP @focusheart 华硕( ASUS ) PRIME X299-DELUXE
|
15
Thiece 2017-12-18 11:26:07 +08:00
@zhiqiang 首先,如果你的显卡是公版的 250W,如果是非公版额定功率大概在 265W 左右,但是 NVIDIA 会有一个峰值功率墙,一般是 20%,换算下来就是 318W。你有 3 块也就是 954W。7900X 的额定功率是 140W,我不知道你有没有超频,如果超频了,CPU 的功耗会提的比较多,我就当你超频了 200W 吧。振华这块电源 12V 输出是 133.3A ,也就是 1600W 是完全没问题。那你需要注意一下是不是显卡散热的问题了,10 系的温度墙,控制温度是 83°C,上限温度是 92°C。不仅仅的 GPU 的核心温度需要注意,显存的散热和 VRM 散热。公版卡 VRM 散热是没有覆盖到的。解决方案也是有的,上水冷。
|
16
Thiece 2017-12-18 11:29:31 +08:00
X299-DELUXE 没有额外的 PCIE 供电,不排除是这方面的原因
|
17
daydaysay 2017-12-18 11:36:16 +08:00
和楼主出现一样的情况,但不是跑神经网络。 应该不是电源问题。
|
18
rogerchen 2017-12-18 11:39:08 +08:00
不太可能是电源的问题。。。很有可能是 BIOS 的问题,FYI https://devtalk.nvidia.com/default/topic/1010960/cuda-missing-gpu-/
|
19
cevincheung 2017-12-18 11:47:39 +08:00 1
人工智能自动卸载了一块显卡当备用。
|
21
focusheart 2017-12-18 12:13:10 +08:00
@zhiqiang 谢谢~~
|
22
turan12 2017-12-18 14:10:56 +08:00
|
23
em84 2017-12-18 14:17:17 +08:00
这电脑用来刷贴吧肯定很爽系列
|
24
BadMan 2017-12-18 14:45:48 +08:00
我们实验室的服务器有时候也会这样,带了 4 块 Titan X,后来让学院管理员弄了一下就没出现过了
|
25
realpg 2017-12-18 14:51:52 +08:00
@zhiqiang
换个主板看看吧…… 这主板压根就不是挖矿类场合设计的(计算基本就是跟挖矿同场景) 十有八九供电问题 这就是个超频 /游戏主板 做你这种需求的 弄专业点的挖矿板比较好 至少主板得带 至少一个大 4pin 甚至 8pin PCI-E 辅助供电 然后最好主电源用小点的就行,再弄个专门 12V 电源供显卡,我之前说的 30 元的艾默生 12V 65A 神电源就可以,自己动手简单改造一下即可 |
26
gpw1987 2017-12-18 15:55:51 +08:00
高级呀,神经网络
|
30
realpg 2017-12-19 11:51:53 +08:00 1
@zhiqiang #27
我基本不碰“高端”游戏主板,直接就能用的没推荐 我们这数据中心一堆计算类托管的业务,都不是这么玩的,都是 DIY,不放标准机柜 如果你 DIY 能力强就别装机箱了 类似挖矿那么的打个小架子 显卡固定架子上 然后用 PCI-E 延长线 找好 PCI-E 的电源针脚定义,直接从外部 12V 在排线对应针脚输入个 12V 电进去 建议买个我之前说的 30 元的艾默生神器电源,12V65A 的 改一下启动,给显卡辅助供电,再从主电源的大 4PIN 分出一个 12V 线 直接接到 pci-e 延长线的供电 算明白,一个 PCI-E 给 75W 供电,机械硬盘一个算 20W (考虑启动电流),CPU 按照 TDP 算,主板算 20W,主电源把这些加起来再加个 100 瓦余量就可以了,如果有额外的大散热风扇,直接算好风扇电流 然后三块显卡的 8pin 用 12V65A 那个神器带就够了 实际上,你的这个业务跟挖矿和计算区别不大,大量计算在显卡自己,cpu 调度明显比挖矿多一点,也不是助理,跟 cpu 的交换少得多,否则就不是用你这种单 CPU 的方案了 其实,最好还是用服务器挂多显卡,本身 SMP 系统支持的 PCI-E 通道数就多,然后用延长线弄出来挂在架子上,很多平台可以轻松 6 卡 PCI-E 8X 模式 这种超大功率的 PC 玩法,还是自己会设计会执行比较好 |
32
Thiece 2017-12-19 14:48:55 +08:00
@wecan
@zhiqiang PCIE 插槽会向其设备提供 75W 的供电,一般这个供电是由 24pin 提供,某些主板会提供额外的 PCIE 供电接口比如微星的 XPOWER 系列。显卡在使用过程中的供电有一部分也是由 PCIE 提供,具体多少看设计者了。 参考文章 http://3c.3dmgame.com/show-14-3850-1.html |