V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
rjagge
V2EX  ›  问与答

跑模型的 server 很卡,但是判断不出问题的原因所在,有没有运维相关的老哥有偿看看?

  •  
  •   rjagge · 2023-02-12 15:35:23 +08:00 · 1549 次点击
    这是一个创建于 648 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,这个问题困扰了我很多天了,vscode 和 terminal 都能感知到明显的延迟。 基于知识付费的原则,小弟为您的知识付费,只为了解决小弟的困惑 wx: cmphZ2dl

    25 条回复    2023-02-15 15:14:28 +08:00
    xiri
        1
    xiri  
       2023-02-12 15:51:26 +08:00 via Android
    你这 CPU 占用 user time + system time 都 100%了,还问为什么卡,,,
    BanShe
        2
    BanShe  
       2023-02-12 16:13:37 +08:00
    27.7us ,72.3sy ,😂
    echoless
        3
    echoless  
       2023-02-12 16:15:20 +08:00 via Android
    你用 htop 会更明显
    des
        4
    des  
       2023-02-12 16:17:44 +08:00
    load 都 643 了你还问为什么卡
    imydou
        5
    imydou  
       2023-02-12 16:19:15 +08:00
    sy=剩余 🙈
    hsfzxjy
        6
    hsfzxjy  
       2023-02-12 16:22:34 +08:00 via Android
    几个核啊能这么跑
    rjagge
        7
    rjagge  
    OP
       2023-02-12 16:39:59 +08:00
    @imydou 笑死了,我一直以为 us 是 usage 的缩写,然后 sy 想必就是剩余了....
    rjagge
        8
    rjagge  
    OP
       2023-02-12 16:42:21 +08:00
    @hsfzxjy 有两块 Intel(R) Xeon(R) Gold 5215 CPU @ 2.50GHz
    rjagge
        9
    rjagge  
    OP
       2023-02-12 16:43:23 +08:00
    @wuhaoecho 不是 root 没有权限....
    rjagge
        10
    rjagge  
    OP
       2023-02-12 16:43:51 +08:00
    @xiri 了解了一下,是我无知了把 us 当作占用率...
    rjagge
        11
    rjagge  
    OP
       2023-02-12 16:47:07 +08:00
    @des 了解了一下 load ,发现问题很严重..............
    rjagge
        12
    rjagge  
    OP
       2023-02-12 16:52:15 +08:00
    @BanShe
    @xiri

    我看了一下 sy 过高是不是有问题啊大哥们
    idblife
        13
    idblife  
       2023-02-12 17:58:16 +08:00
    能放开 ssh 给网上的陌生人看一下吗?
    deorth
        14
    deorth  
       2023-02-12 18:38:23 +08:00 via Android
    把跑模型的进程加点负的 nice 就不卡了
    rjagge
        15
    rjagge  
    OP
       2023-02-12 20:03:33 +08:00
    @deorth 不是 root 。。。。nice 不了,有什么其他办法吗。。。
    des
        16
    des  
       2023-02-12 20:25:18 +08:00
    @rjagge 你这问题很多,首先 24users 是什么情况,然后 load 都六百多了,cpu 的 sys 到 72%也不正常,以及 72 个 zombie 也不正常。不知道你这太机器多少核心,跑这么多进程都是 RUNNING 状态
    des
        17
    des  
       2023-02-12 20:26:59 +08:00
    @rjagge 没啥好办法,就是跑的程序太多太卡了
    ETiV
        18
    ETiV  
       2023-02-12 20:28:48 +08:00 via iPhone
    装 docker 了没,你能用 docker ps 吗?
    ryd994
        19
    ryd994  
       2023-02-12 20:29:14 +08:00 via Android
    1. 不是 root 也能 nice ,但是只能从默认的 10 往上加。nice 越高优先级越低。root 可以减 nice ,也就是比默认更高。
    2. 你跑模型的程序需要调并行度。并行度太高、开太多进程只会更慢,因为增加了调度开销。基本原则是线程数等于 CPU 核心数(包括超线程)。一点往上加,刚好能稳定占满 CPU 就不必再加了。
    ETiV
        20
    ETiV  
       2023-02-12 20:29:59 +08:00 via iPhone
    (如果装了 docker 、并且你当前用户可以用 docker ,你就能把自己变成 root )
    muzuiget
        21
    muzuiget  
       2023-02-12 20:53:21 +08:00
    内存不足,SWAP 用满了,频繁虚拟内存切换。
    blackeeper
        22
    blackeeper  
       2023-02-12 21:25:21 +08:00
    你这个有几个问题:
    1 ,cpu 负载很高
    2 ,内存也有时候不足,SWAP 都用了一部分
    3 ,程序也有问题,有很多 zombie
    总结一下:是用户 user13 运行了命令 R 语言在跑模型,大概有四十多个进程,cpu 占用率非常大,基本全是他在占用,
    需要限制一下多用户使用系统资源,做一下任务队列
    kkkbbb
        23
    kkkbbb  
       2023-02-13 09:32:51 +08:00
    @xiri 你们能看到图片还是?
    kkkbbb
        24
    kkkbbb  
       2023-02-13 09:38:04 +08:00
    @kkkbbb 卡了,刚刷出来图片。。。
    rjagge
        25
    rjagge  
    OP
       2023-02-15 15:14:28 +08:00
    @ETiV 我的 user 能 docker ps ,咋搞啊大哥,我就想给 nice 减低一点
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5511 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 03:14 · PVG 11:14 · LAX 19:14 · JFK 22:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.