V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
yiyi1010
V2EX  ›  Python

PyTorch DistributedDataParallel 多卡训练结果变差

  •  
  •   yiyi1010 · 2023-01-31 19:09:39 +08:00 · 1890 次点击
    这是一个创建于 662 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本想使用多卡训练,训练结果应该会更加好,但是我发现使用三张 3090 训练,网络模型不收敛, 这是因为学习率的原因吗?

    11 条回复    2023-03-12 22:21:38 +08:00
    Ricardoo
        1
    Ricardoo  
       2023-01-31 19:21:22 +08:00
    正常。
    使用多卡后一般需要调小学习率,也有可能不需要调,比较玄学。
    clemente0620
        2
    clemente0620  
       2023-01-31 19:34:25 +08:00
    按卡倍数 降低 学习率
    leimao
        3
    leimao  
       2023-01-31 23:46:40 +08:00 via iPad
    DDP 本质就是增加了 Batch Size 。Batch Size 变了,模型可能需要就 Training Recipe 进行微调。
    hsfzxjy
        4
    hsfzxjy  
       2023-02-01 00:28:11 +08:00 via Android
    调学习率,以及注意 BN
    yiyi1010
        5
    yiyi1010  
    OP
       2023-02-01 09:03:13 +08:00
    对 DDP 增加了 batch size ,不是应该按照卡倍数 增加学习率吗?
    yiyi1010
        6
    yiyi1010  
    OP
       2023-02-01 09:03:44 +08:00
    @Ricardoo 这 那还能调吗
    yiyi1010
        7
    yiyi1010  
    OP
       2023-02-01 09:04:23 +08:00
    @hsfzxjy 请问 BN 是有什么影响吗
    hsfzxjy
        8
    hsfzxjy  
       2023-02-01 09:33:29 +08:00 via Android
    @yiyi1010 BN 要换成 SyncBatchNorm ,不然统计量不同步
    yiyi1010
        9
    yiyi1010  
    OP
       2023-02-01 10:08:32 +08:00
    @hsfzxjy 有道理。谢谢你,我去试试
    yiyi1010
        10
    yiyi1010  
    OP
       2023-02-01 10:09:35 +08:00
    看一般是需要线性提升 leanring rate
    yiyi1010
        11
    yiyi1010  
    OP
       2023-03-12 22:21:38 +08:00
    @hsfzxjy 你说 layernorm ,而不是 BN ,也要替换成 Syn 的版本是吗
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2230 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 01:37 · PVG 09:37 · LAX 17:37 · JFK 20:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.