V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
nonfu
V2EX  ›  云计算

记一次阿里云系统故障、工单处理、自行恢复和事后维权的完整经历

  •  
  •   nonfu · 2019-12-17 12:57:08 +08:00 · 7873 次点击
    这是一个创建于 1802 天前的主题,其中的信息可能已经有所发展或是发生改变。
    58 条回复    2019-12-18 13:03:06 +08:00
    scukmh
        1
    scukmh  
       2019-12-17 13:02:41 +08:00
    想知道怎么唬你的。最后那一段。
    wangyzj
        2
    wangyzj  
       2019-12-17 13:04:11 +08:00
    希望不是 20 个 5 元代金券
    eason1874
        3
    eason1874  
       2019-12-17 13:07:58 +08:00
    不是百倍时间赔偿吗,不算你自己操作时间,纯粹工单耽误时间都有半天了,这半天不是应该赔偿吗?
    foamvalue
        4
    foamvalue  
       2019-12-17 13:08:38 +08:00
    这么强,还能维权?
    nonfu
        5
    nonfu  
    OP
       2019-12-17 13:19:22 +08:00
    @eason1874 这种免不了扯皮 比如怎么算损失 你说你的 他说他的 不好量化 有那精力不如干点别的开心点的事情
    nonfu
        6
    nonfu  
    OP
       2019-12-17 13:21:52 +08:00
    @scukmh 她一个妹子竟然跟我聊操作系统的调用问题 我赶紧刹车 说我不想关心这些
    graceday
        7
    graceday  
       2019-12-17 13:23:09 +08:00
    阿里云最近新活动,入门级 ECS 89 元 /年,值不值得入手?买了也不知道做什么
    nonfu
        8
    nonfu  
    OP
       2019-12-17 13:23:26 +08:00
    @wangyzj 不是 那我就不能关工单了 是货真价实的 100 元代金券 有效期是一年
    vus520
        9
    vus520  
       2019-12-17 13:24:44 +08:00
    这不千万云的日常么
    nonfu
        10
    nonfu  
    OP
       2019-12-17 13:24:59 +08:00
    @graceday 那就别买了 反正这种活动经常有
    nonfu
        11
    nonfu  
    OP
       2019-12-17 13:26:17 +08:00
    @vus520 千万云是个什么梗
    nonfu
        12
    nonfu  
    OP
       2019-12-17 13:27:15 +08:00
    @foamvalue 人在家中坐 锅从天上来 不维权对不起自己熬的夜
    nandehutu
        13
    nandehutu  
       2019-12-17 13:28:35 +08:00
    基本上各家云的客服,一开始上来都是答非所问,效率很差
    okwork
        14
    okwork  
       2019-12-17 13:36:44 +08:00
    楼主心大,用云服务器,每日定期快照是基础保障
    nonfu
        15
    nonfu  
    OP
       2019-12-17 13:40:30 +08:00
    @nandehutu 因为不懂技术
    dreamerlv3ex
        16
    dreamerlv3ex  
       2019-12-17 13:41:14 +08:00
    可怜的学院君。
    opengps
        17
    opengps  
       2019-12-17 13:43:09 +08:00
    现在的工单服务量太大,确实质量不到位
    nonfu
        18
    nonfu  
    OP
       2019-12-17 13:43:32 +08:00
    @okwork 嗯 是的 主要这是个新启用的机器 一直没顾上做 现在补上了
    nonfu
        19
    nonfu  
    OP
       2019-12-17 13:44:58 +08:00
    @opengps 是的 能理解 靠人去维护的东西都会有这个问题
    wunonglin
        20
    wunonglin  
       2019-12-17 13:55:45 +08:00
    不管怎么说还是要多备份才行,要是万一挂上去还是不能访问那就搞笑了
    ysoserious
        21
    ysoserious  
       2019-12-17 13:59:51 +08:00
    难怪昨天一整天都打不开.
    ysoserious
        22
    ysoserious  
       2019-12-17 14:00:24 +08:00
    下午.
    nonfu
        23
    nonfu  
    OP
       2019-12-17 14:04:06 +08:00
    @wunonglin 是的 这年头 连离职谈话都要多处备份
    nonfu
        24
    nonfu  
    OP
       2019-12-17 14:04:40 +08:00
    @ysoserious 争取以后不再发生这种事情了
    houzhimeng
        25
    houzhimeng  
       2019-12-17 14:19:31 +08:00
    被阿里坑过 2 次,果断选择云数据库
    nonfu
        26
    nonfu  
    OP
       2019-12-17 14:25:39 +08:00
    @houzhimeng 公司产品的建议使用云数据库了
    struggle001
        27
    struggle001  
       2019-12-17 14:37:16 +08:00   ❤️ 2
    @nonfu 作为一个渣渣运维分享自己的一些想法:
    1.生产环境的数据一定不要放在系统盘上(虽然阿里提供的方法可用,但是有一定的风险)
    2.数据放在数据盘(扩展盘)的前提下,定期对系统盘进行快照,如果出现类似问题,直接恢复快照,对数据不产生任何影响。也是分分钟恢复的事情。
    3.数据库数据要定时进行 sql 备份,用 bash 写定时脚本,留一个月第一天的备份 1 和近 7 天的备份。如果有条件,可以考虑异地或者 pc 本地备份。

    os 还是有一定几率会出现损坏的,或者说阿里的分布式存储出了问题,刚好影响你的系统盘(可能性很小)。所以切记不要放在系统盘数据。

    我作为云厂商的运维,出现类似问题,因为没有阿里那套恢复快照到新购磁盘的业务逻辑,我会协助他们保存系统数据,之后重置,效率肯定要比阿里快 N 呗。不过小厂商很难混下去。
    struggle001
        28
    struggle001  
       2019-12-17 14:40:25 +08:00
    @okwork 快照其实对云厂商很不友好,所以都有快照限制的。比如一个用户数据是 100G,打快照之后,所有的 100G 的数据都被修改过,那就额外占用了 100G,在加上 3 副本,实际占用我 600G 的空间。很坑啊。
    nonfu
        29
    nonfu  
    OP
       2019-12-17 14:46:23 +08:00
    @struggle001 嗯 受教 我现在就是按照你这个思路在做的 定期快照+数据库备份 并且数据库备份多处存储 避免单点故障
    struggle001
        30
    struggle001  
       2019-12-17 14:48:24 +08:00
    @nonfu 所以遇到一次问题 也挺好的。哈哈
    nonfu
        31
    nonfu  
    OP
       2019-12-17 14:51:56 +08:00
    @struggle001 是的 不出问题总以为朗朗乾坤 天下太平 有些事情总是习惯拖着 😂
    turi
        32
    turi  
       2019-12-17 14:54:59 +08:00
    6 个多小时 才 100 块钱

    这套路不就是,一榔头加一个枣吗?

    一小时 20 块不到,果然白菜价
    ben1024
        33
    ben1024  
       2019-12-17 14:59:28 +08:00
    阿里云店大欺客的习惯
    okwork
        34
    okwork  
       2019-12-17 15:00:29 +08:00 via Android
    @struggle001 这个没办法了,快照都是增量的,永远胖下去的。瘦身的办法只好隔段时间重置后再新快照,幸好存储空间一般都不算太贵,胖就胖点吧
    nonfu
        35
    nonfu  
    OP
       2019-12-17 15:04:22 +08:00
    @turi 其他的也没办法量化 之前所在的公司千万级流量 IDC 机房断电导致服务器宕机半天 最后也是不了了之了 跟他们扯皮他们有专门的律师团队 千儿八百块钱的事情也就懒得花时间去理会了
    struggle001
        36
    struggle001  
       2019-12-17 15:04:27 +08:00
    @okwork 我公司内部用户用了我 20T 的 ssd 空间,x3 就 60T 了,我都要疯了,采购扩容中.....
    天天和他斗智斗勇....
    1239305697
        37
    1239305697  
       2019-12-17 17:59:05 +08:00
    大概意思是:磁盘出问题了,但是磁盘里的数据是正常的
    这个算不算运气好,一般不是磁盘出问题了数据就也没有了吗。。
    mmdsun
        38
    mmdsun  
       2019-12-17 18:51:18 +08:00 via Android
    想起来 IT 之家 用阿里云期间各种崩溃和反应缓慢,最后阿里只陪了 1 天。

    https://www.ithome.com/html/it/267407.htm
    avenger
        39
    avenger  
       2019-12-17 22:06:06 +08:00
    为啥不直接用 rds,ecs 上自建数据库风险很大,运行了一年的服务器你也敢重启…… 不能启动很正常,ecs 应该要做成无状态的,随时可以清掉重新部署。
    a1274598858
        40
    a1274598858  
       2019-12-17 22:15:38 +08:00
    aqqwiyth
        41
    aqqwiyth  
       2019-12-17 22:20:01 +08:00
    mysql 居然一次性恢复成功.
    mytsing520
        42
    mytsing520  
       2019-12-17 22:56:58 +08:00
    @a1274598858
    小水管,或水管长期处于高使用率范围内
    nonfu
        43
    nonfu  
    OP
       2019-12-17 23:50:33 +08:00
    @a1274598858 还真是 应该是近期出现的 之前都是几~几十毫秒 明天看下
    nonfu
        44
    nonfu  
    OP
       2019-12-17 23:53:21 +08:00
    @avenger 贵 我这就是个个人博客而已 其实一台 2c4g 机器就够了 没必要花那个冤枉钱
    nonfu
        45
    nonfu  
    OP
       2019-12-17 23:55:58 +08:00
    才 1 天,够狠。。。
    nonfu
        46
    nonfu  
    OP
       2019-12-17 23:56:47 +08:00
    @1239305697 某个操作系统调用环节出问题而不是整个磁盘坏掉
    nonfu
        47
    nonfu  
    OP
       2019-12-17 23:58:11 +08:00
    @aqqwiyth 期间有些坎坷 坑我都绕过了 直接给了最终的指令
    nonfu
        48
    nonfu  
    OP
       2019-12-17 23:58:27 +08:00
    @mmdsun 才 1 天,够狠。。。
    akira
        49
    akira  
       2019-12-18 01:06:16 +08:00
    @nonfu 阿里的产品线里面,rds 其实算是稳定性可以的了。然而还是建议每日自己做一个数据库逻辑备份。
    生产服务器上面,最重要的事情就是
    备份!备份!备份!
    avenger
        50
    avenger  
       2019-12-18 09:25:48 +08:00
    @akira 还要异地备份才放心
    avenger
        51
    avenger  
       2019-12-18 09:26:11 +08:00
    @nonfu 比你的数据还贵吗?
    Zach369
        52
    Zach369  
       2019-12-18 09:52:25 +08:00
    建议使用 rds 吧. 我之前测试过,阿里云 ecs 上面搭建 mysql 和 mongodb 不是很稳定.
    nonfu
        53
    nonfu  
    OP
       2019-12-18 10:47:59 +08:00
    @avenger 我是在 ECS 上搭的 2c4g 3 年¥1500 两年前做活动的时候买的 你说便宜不便宜
    nonfu
        54
    nonfu  
    OP
       2019-12-18 10:50:58 +08:00
    @Zach369 这个等流量再翻几倍再说 😂 毕竟就是个个人博客
    nonfu
        55
    nonfu  
    OP
       2019-12-18 10:52:00 +08:00
    @avenger 看错了 不是贵不贵的问题 是目前实在还没有必要 只是个个人博客 不是商业产品
    nonfu
        56
    nonfu  
    OP
       2019-12-18 10:55:19 +08:00
    @akira 是的 遥想当年美团挂了 饿了么还撑得住就是异地多活的功劳 咱做不了异地多活 做个多处备份 再最低价租个国外 VPS 做备份服务器还是可以的 闲时还能拿来当梯子 美滋滋
    tailf
        57
    tailf  
       2019-12-18 11:29:43 +08:00
    买 RDS 吧,不用自己运维,稳定很多。。
    nonfu
        58
    nonfu  
    OP
       2019-12-18 13:03:06 +08:00
    @tailf 但问题是本次故障并不是 MySQL 数据库故障导致 而是 ECS 的问题
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1757 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 16:36 · PVG 00:36 · LAX 08:36 · JFK 11:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.