V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
7rack
V2EX  ›  云计算

云主机无端的起 IO

  •  
  •   7rack · 2015-07-03 22:58:16 +08:00 · 3511 次点击
    这是一个创建于 3422 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在维护一个游戏的服务器,用的金山云。4台云主机:4核心,8G内存。mysql使用金山云的关系型数据库,memcached使用自己编译的版本。其中一台运行nginx反向代理到其他机器php-fpm 9000端口。

    就在22:00其中2台机器(仅仅运行了php-fpm)的Disk I/O is overloaded on xxx
    事后查看zabbix监控出现告警的时间段:
    - nginx的rps(请求数)降低
    - 数据库qps降低
    - 另外2台机器(同样运行了php-fpm,其中一台有nginx,还有一个memcached)负载及I/O正常。
    - 出问题的2台机器,流量也降低了。仔细看时间点,负载在php-fpm日志WARNING: [pool xxx] seems busy出现前。

    个人感觉不应该是php-fpm引起I/O is overloaded,但出问题的2台机器就是只运行了php-fpm。会不会是金山的云平台出现了问题,但这4台机器也就2台出问题。怎么才能找到原因呢?

    13 条回复    2015-07-10 21:35:15 +08:00
    vibbow
        1
    vibbow  
       2015-07-03 23:18:12 +08:00
    云就是这样的,尤其是磁盘资源更不好隔离...
    akira
        2
    akira  
       2015-07-03 23:33:25 +08:00
    同意一楼的。 把其中一台换到另一个母机下,应该就能看出来了。
    esile
        3
    esile  
       2015-07-04 03:01:30 +08:00 via iPhone
    不知道lz有木有测试过
    nginx+(php-fpm)x3
    nginx+(nginx+php-fpm)x3
    哪种性能更好
    同样4台机子
    hiboshi
        4
    hiboshi  
       2015-07-04 08:46:13 +08:00
    应该是 母鸡问题,查下出现问题的时候查下iostat ,和自己测试下 硬盘io
    loveminds
        5
    loveminds  
       2015-07-04 09:47:48 +08:00
    @esile 我认为是A
    7rack
        6
    7rack  
    OP
       2015-07-04 09:54:49 +08:00
    @vibbow @akira @hiboshi
    出现问题时时间就3分钟(没来得及登录机器),iowait从47.54 %,恢复到了0.05%.目前我还没有后台权限,合作方给的机器,换不了母鸡测试:(
    @esile 这种倒是考虑过,但是在使用时,想减少TCP连接时间,简单点。nginxi->nginx->php-fpm:9000这样多了一次。如果用nginx->nginx->php-fpm.sock这样,经常出现**Connection timed out**的问题,应该时sock这种方式没有tcp握手可靠吧。你有过这种改进,效果明显?
    打算用haproxy反向代理加上maxconn来控制每台机器连接数,可能在高并发下不会让后端挂掉。
    esile
        7
    esile  
       2015-07-04 14:52:49 +08:00 via iPhone
    @loveminds 我测试出来是b
    ryd994
        8
    ryd994  
       2015-07-05 13:43:13 +08:00 via Android
    @esile 能说说测试条件么?
    感觉也许是fcgi长连接之类的设置问题
    akira
        9
    akira  
       2015-07-07 20:12:17 +08:00
    @7rack 理论上用sock的模式会更快一点。出现timeout应该是别的原因导致的。

    另外,仔细看了下你的描述,nginx的rps降低了,所有负荷同时降低不应该是正常的么。
    thinkxen
        10
    thinkxen  
       2015-07-08 12:24:23 +08:00 via Android
    自己买母机虚拟化吧
    7rack
        11
    7rack  
    OP
       2015-07-10 21:14:18 +08:00
    @akira 嗯,和backlog有关。
    7rack
        12
    7rack  
    OP
       2015-07-10 21:27:20 +08:00
    @thinkxen 最近弄了个2个主机xenserver的高可用,配置的iSCSI-HA,io性能和云主机差不多。看了下 xen server 6.5的free版功能已经很多了 ,有存储资源时再试试。![xenserver](http://https://forums.servethehome.com/proxy.php?image=http%3A%2F%2Fwww.poppelgaard.com%2Fwp-content%2Fuploads%2F2015%2F01%2F2015-01-13_1630.png&hash=e7b80468614007b977d4093f4412475a)
    7rack
        13
    7rack  
    OP
       2015-07-10 21:35:15 +08:00
    @thinkxen 图没贴好,
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2764 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 13:04 · PVG 21:04 · LAX 05:04 · JFK 08:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.