V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
LuoDiNate
V2EX  ›  云计算

阿里云 经常无故 IO 飙升, 然后不得不重启

  •  
  •   LuoDiNate · 2016-08-12 14:36:42 +08:00 · 5455 次点击
    这是一个创建于 3027 天前的主题,其中的信息可能已经有所发展或是发生改变。

    阿里云买的服务器, 东北节点 1G 内存, 40G 盘

    最近事故出现频繁, 看起来就是网站挂了, ssh 不上去, 然后超时 服务 80 和 8080 都有, 都是 pending 很久然后超时

    提交工单, 客服说 io 高, 丢我一个连接让我自己折腾 麻蛋, 我连服务器都上不去, 管理终端也连不上去, 给我一个帖子能怎么解决问题,

    重启后改善, 但是上面只有 mysql , docker, tomcat, 平时硬盘 io 也是 10M/s 级别, 假死时, cpu load 也才 0.2 左右,

    用 iotop 监控, 发现假死时最后的监控, 前三有两个都是阿里自己的服务!

    │Actual DISK READ: 203.99 M/s | Actual DISK WRITE: 87.95 K/s │ TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND │ 2185 be/4 root 12.80 M/s 0.00 B/s 0.00 % 99.99 % python /usr/sbin/iotop │ 1498 be/4 root 13.35 M/s 0.00 B/s 0.00 % 99.99 % AliHids [Thread (pooled)] │ 1439 be/4 root 8.06 M/s 0.00 B/s 0.00 % 99.99 % AliHids [QThread] │ 4572 be/4 www-data 8.33 M/s 0.00 B/s 0.00 % 99.99 % apache2 -DFOREGROUND │ 4514 be/4 www-data 10.39 M/s 0.00 B/s 0.00 % 99.99 % apache2 -DFOREGROUND │ 4624 be/4 mysql 7.14 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 1400 be/4 root 9.99 M/s 0.00 B/s 0.00 % 99.99 % AliHids │ 4615 be/4 mysql 13.70 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 4621 be/4 www-data 7.53 M/s 0.00 B/s 0.00 % 99.99 % apache2 -DFOREGROUND │ 2366 be/4 dix 2.09 M/s 0.00 B/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 2105 be/4 dix 10.59 M/s 0.00 B/s 0.00 % 99.99 % tmux new -s di │ 2357 be/4 dix 1222.61 K/s 0.00 B/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 1142 be/4 root 3.10 M/s 0.00 B/s 0.00 % 99.99 % docker -d │ 1307 be/4 root 7.65 M/s 0.00 B/s 0.00 % 99.99 % AliYunDunUpdate │ 2767 be/4 dix 1099.74 K/s 1262.48 B/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 1347 be/4 root 5.19 M/s 0.00 B/s 0.00 % 99.99 % AliYunDun │ 707 be/4 root 1201.24 K/s 0.00 B/s 0.00 % 99.99 % docker -d │ 947 be/4 mysql 4.69 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 4598 be/4 mysql 1997.28 K/s 0.00 B/s 0.00 % 99.99 % mysqld │ 2945 be/4 mysql 2.03 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 1966 be/4 ntp 6.41 M/s 0.00 B/s 0.00 % 99.99 % ntpd -p /var/run/ntpd.pid -g -u 103:109 │ 2359 be/4 dix 364.52 K/s 36.16 K/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 2479 be/4 dix 198.08 K/s 0.00 B/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 3385 be/4 mysql 3.82 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 3591 be/4 mysql 1488.51 K/s 0.00 B/s 0.00 % 99.99 % mysqld │ 1495 be/4 root 3.20 M/s 0.00 B/s 0.00 % 99.99 % AliHids [Thread (pooled)] │ 2106 be/4 dix 4.36 M/s 0.00 B/s 0.00 % 99.99 % -zsh │ 945 be/4 mysql 2.92 M/s 0.00 B/s 0.00 % 87.46 % mysqld │ 4432 be/4 root 4.12 M/s 0.00 B/s 0.00 % 84.23 % apache2 -DFOREGROUND │ 2352 be/4 dix 771.79 K/s 841.65 B/s 0.00 % 83.91 % java -Djava.util.lo~rtup.Bootstrap start │ 4614 be/4 mysql 1191.38 K/s 0.00 B/s 0.00 % 75.89 % mysqld │ 4560 be/4 mysql 1310.15 K/s 0.00 B/s 0.00 % 75.77 % mysqld │ 949 be/4 mysql 1904.40 K/s 0.00 B/s 0.00 % 64.58 % mysqld │ 4570 be/4 mysql 1189.74 K/s 0.00 B/s 0.00 % 58.15 % mysqld │ 4588 be/4 mysql 1231.24 K/s 0.00 B/s 0.00 % 57.72 % mysqld │ 3622 be/4 dix 2.24 M/s 0.00 B/s 0.00 % 56.63 % sshd: dix@pts/2 │ 925 be/4 mysql 62.06 K/s 0.00 B/s 0.00 % 51.01 % mysqld

    求是否有同样情况的朋友?

    阿里云是不是也是虚高的配置?然后各种复用, 将负载大的用户 压到众多普通用户服务器上?

    23 条回复    2016-08-13 10:14:12 +08:00
    LuoDiNate
        1
    LuoDiNate  
    OP
       2016-08-12 14:37:29 +08:00
    │Actual DISK READ: 203.99 M/s | Actual DISK WRITE: 87.95 K/s

    │ TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND

    │ 2185 be/4 root 12.80 M/s 0.00 B/s 0.00 % 99.99 % python /usr/sbin/iotop

    │ 1498 be/4 root 13.35 M/s 0.00 B/s 0.00 % 99.99 % AliHids [Thread (pooled)]

    │ 1439 be/4 root 8.06 M/s 0.00 B/s 0.00 % 99.99 % AliHids [QThread]

    这是前三
    MiguelValentine
        2
    MiguelValentine  
       2016-08-12 14:38:32 +08:00
    我之前也遇到,两次。
    LuoDiNate
        3
    LuoDiNate  
    OP
       2016-08-12 14:45:01 +08:00
    @MiguelValentine 有解决办法么?
    MiguelValentine
        4
    MiguelValentine  
       2016-08-12 14:45:50 +08:00
    @LuoDiNate - -!怼过工单,跟你一样的情况。一口咬定我这的问题。。
    LuoDiNate
        5
    LuoDiNate  
    OP
       2016-08-12 14:56:59 +08:00
    @MiguelValentine 同一个 docker 镜像, 在配置更低的 aws 上跑了半年没出过一次问题, 我 docker 导出的 zip 包来过了, 一周宕机 4/5 次, 气死我了
    kozora
        6
    kozora  
       2016-08-12 14:58:32 +08:00
    阿里个位数的 IO 我也是怕了
    scys
        7
    scys  
       2016-08-12 15:17:39 +08:00
    阿里云跑任何 IO 都要小心: D
    niudaye
        8
    niudaye  
       2016-08-12 15:18:27 +08:00
    我的也是这样,刚开始一周挂四五次,现在就是重启后也打不开了。
    hgzz
        9
    hgzz  
       2016-08-12 15:55:33 +08:00
    我也遇到过很多次,后来还是把自己程序优化了一下,后面就再也没出现过了
    SourceMan
        10
    SourceMan  
       2016-08-12 16:12:19 +08:00
    我也是, 2 月份一次, 6 月份一次,全部站点挂掉
    查询原因是 IO 突然跑满,机器假死,只能控制台“硬重启”
    qcloud
        11
    qcloud  
       2016-08-12 16:17:49 +08:00
    @SourceMan 那么问题来了,是不是该换家主机商了?
    SourceMan
        12
    SourceMan  
       2016-08-12 16:18:33 +08:00
    @qcloud 转移备案好麻烦,企业主体,各种盖章
    yangdehua
        13
    yangdehua  
       2016-08-12 16:41:53 +08:00
    看看 io 能力是多少 lsblk -t -d
    SourceMan
        14
    SourceMan  
       2016-08-12 17:20:07 +08:00 via iPhone
    @yangdehua min-io 512
    lun10439547
        15
    lun10439547  
       2016-08-12 17:55:27 +08:00
    我已经 N 多次了。。。幸亏 不频繁。。。。也就一两个月重启一回。。。。。真烦
    raykwok
        16
    raykwok  
       2016-08-12 18:13:49 +08:00
    @SourceMan 据我的经验,一点都不麻烦啊,弄好材料盖好章,走流程就行了。长痛不如短痛。
    fangpeishi
        17
    fangpeishi  
       2016-08-12 18:27:12 +08:00
    樓主貼下對應 ECS 的 IO 監控圖看看。遇到過,一般都是 IOPS 打的過高,然後假死了,得重啓。
    可以換 SSD 雲盤,換 2 系的 CPU ,開 IO 優化看看。
    em70
        18
    em70  
       2016-08-12 18:28:39 +08:00
    mysql 部署到 RDS 去
    notgod
        19
    notgod  
       2016-08-12 18:29:50 +08:00 via iPhone
    你们试试 使用 nginx + pagespeed
    开缓存
    经常假死 nginx
    查日志 全部是缓存文件读取 slow 引起的问题


    这么多年这玩意还是没长进
    尽然升级降级功能都找不到 谁教我下?
    qcloud
        20
    qcloud  
       2016-08-12 19:12:17 +08:00
    @SourceMan 不用转移呀。。。
    billlee
        21
    billlee  
       2016-08-12 19:37:45 +08:00
    把云盾关了并删除
    jiongxiaobu
        22
    jiongxiaobu  
       2016-08-12 20:12:28 +08:00
    + 1
    ragnaroks
        23
    ragnaroks  
       2016-08-13 10:14:12 +08:00
    卸载云盾有一点用,但是原罪是 IO
    云磁盘还没我淘宝买的扩容盘快
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1014 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 21:12 · PVG 05:12 · LAX 13:12 · JFK 16:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.