V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
w1573007
V2EX  ›  问与答

搭建实验室使用的深度学习服务器

  •  1
     
  •   w1573007 · 2020-09-16 09:25:41 +08:00 via Android · 2543 次点击
    这是一个创建于 1529 天前的主题,其中的信息可能已经有所发展或是发生改变。

    实验室资金有限只买了一台服务器。128 的内存,i5cpu,v100 卡。现在想让多人使用计算。

    我想的方案是 dock,但不知道性能怎么样。老师给出的方案是 Jupiter 多用户多虚拟环境。

    主要大家都要跑 bert,怕内存爆了导致所有人的实验都爆了。

    大佬们有什么建议或者方案嘛。

    13 条回复    2020-09-17 11:08:21 +08:00
    yangyaofei
        1
    yangyaofei  
       2020-09-16 09:55:08 +08:00
    v100 单卡? 那只够一两个人跑 BERT 吧.... 怎么都会爆的感觉
    w1573007
        2
    w1573007  
    OP
       2020-09-16 10:07:31 +08:00 via Android
    @yangyaofei 实验室好多少人,cpu,gpu 都用
    sleeepyy
        3
    sleeepyy  
       2020-09-16 11:04:33 +08:00
    直接多用户 ssh 进去自己匀时间用啊,炼丹的机器还搞那么复杂干什么。
    另外单卡可能真的不太行,gpu 的多任务其实挺难受的
    Tony042
        4
    Tony042  
       2020-09-16 11:07:49 +08:00
    可以搞个 slurm 系统,所有人上去按先后和权重一个一个任务算,和 hpc 一样管理就行了
    zhucegeqiu
        5
    zhucegeqiu  
       2020-09-16 11:18:29 +08:00
    让领导加预算
    我公司的服务器 Xeon(R) Gold 6240, 内存 512,P100 * 2,我一个人炼丹都嫌不够
    实在不行,2080Ti 多买几张,多人用比单卡方便
    misaka19000
        6
    misaka19000  
       2020-09-16 11:40:22 +08:00
    加预算
    chizuo
        7
    chizuo  
       2020-09-16 11:42:41 +08:00
    搞个服务器管理系统,貌似有这种适用于 gpu 管理的,联系你买服务器的供应商,找他们要
    yangyaofei
        8
    yangyaofei  
       2020-09-16 13:58:34 +08:00
    @w1573007 那基本只能每次一个人了
    w1573007
        9
    w1573007  
    OP
       2020-09-16 14:43:50 +08:00 via Android
    @Tony042 大佬有教程么
    594duck
        10
    594duck  
       2020-09-16 15:32:46 +08:00 via iPhone
    你老师的意见是对的。

    最烦干什么都上 docker
    Andiry
        11
    Andiry  
       2020-09-16 15:35:28 +08:00
    多买几张 V100,跑的时候用 CUDA_VISIBLE_DEVICES 指定 GPU
    Tony042
        12
    Tony042  
       2020-09-16 21:23:00 +08:00
    s0ne4ver
        13
    s0ne4ver  
       2020-09-17 11:08:21 +08:00
    实验室导师让我们自己找云主机然后报销,我们用过比较实惠的是 mistgpu.com 的,体验挺好。
    阿里云华为云滴滴云腾讯云等等各大云服务提供商也都有带 gpu 的服务器,只是价格可能贵一些,像宽带存储都得单独扣费。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1326 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 17:42 · PVG 01:42 · LAX 09:42 · JFK 12:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.