V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
工单节点使用指南
• 请用平和的语言准确描述你所遇到的问题
• 厂商的技术支持和你一样也是有喜怒哀乐的普通人类,尊重是相互的
• 如果是关于 V2EX 本身的问题反馈,请使用 反馈 节点
xiaoshouchen
V2EX  ›  全球工单系统

离谱!阿里云新加坡 ECS 崩溃了两天了,还没恢复!

  •  
  •   xiaoshouchen · 6 天前 · 6015 次点击
    状态显示 Instance Status Stopped
    节点区域 Singapore Zone C

    服务器出了问题可以理解,但是作为一个成熟的云服务商,居然可以超过两天都没有恢复,是不是太离谱了。而且没有任何的消息通知和道歉。
    56 条回复    2024-09-13 12:56:58 +08:00
    ntedshen
        1
    ntedshen  
       6 天前
    您的数据可能正在清洗(物理)
    请稍后再试(狗头
    https://v2ex.com/t/1071606#reply83
    tommyzhang
        2
    tommyzhang  
       6 天前   ❤️ 1
    我们都已经第一时间把服务迁到另外 2 个机房了 你没签吗?
    主要是大火把一些基建烧没了 网络需要重新弄 设备都要检修
    qoo2019
        3
    qoo2019  
       6 天前   ❤️ 1
    说明服务也没那么重要
    Jinnrry
        4
    Jinnrry  
       6 天前 via iPhone   ❤️ 16
    什么三地两中心,秒级扩容迁移,x 个 9 可用率,全都是扯淡啊
    luojianxhlxt
        5
    luojianxhlxt  
       6 天前
    @tommyzhang #2
    大佬,小弟请教下这个云服务器机房故障不是应该自动迁移吗?还需要用户自己去迁移吗?那什么容灾之类的就是这么设计的吗?
    qweruiop
        6
    qweruiop  
       6 天前
    上次 hk 出事,aliyun 也没赔钱。。。之后,就吸取教训了,现在宁肯用 aws ,也不会用 aliyun 了。。。
    vjnjc
        7
    vjnjc  
       6 天前   ❤️ 2
    @Jinnrry 出事前高可用,出事后不可用。 服务售价还是高可用 23333
    vjnjc
        8
    vjnjc  
       6 天前
    幸好我们海外在 hk ,
    不够之前已经被坑过一次了 0 0
    processzzp
        9
    processzzp  
       6 天前
    @Jinnrry 出事之前:5 个 9 可用率
    出事之后:9 个 5 可用率
    xmumiffy
        10
    xmumiffy  
       6 天前 via Android   ❤️ 1
    @luojianxhlxt 数据都在火里“上云”了吧,得自己用镜像迁。
    单可用区的 ecs 硬盘可没说放在多可用区,数据就算还在也得等可用区恢复。
    la2la
        11
    la2la  
       6 天前
    @luojianxhlxt 自动迁移那是另外的价钱,大客服云服务商会有人驻场 24 小时值班的
    8n1AfdFQWA5CWTNQ
        12
    8n1AfdFQWA5CWTNQ  
       6 天前
    @Jinnrry 那你自己要做这些方案的,不是云厂商帮你做.
    比如说你自己把数据放在三个地方
    tommyzhang
        13
    tommyzhang  
       6 天前
    @luojianxhlxt 我不是 aliyun 的哈 也不是大佬 你说的这个迁移理论上是 aliyun 要做的吧 但是实际下来业务遇到问题我们想的都是先赶紧跑掉
    Jinnrry
        14
    Jinnrry  
       6 天前 via iPhone
    @iammecn 我如果要自己做,那我还要毛云服务啊?两地三中心,异地多活,x 个 9 ,秒级迁移,业务无需关注灾备和迁移,这些话都是阿里云自己说的啊
    Jerry23333
        15
    Jerry23333  
       6 天前
    @luojianxhlxt #5 看你买什么级别的服务呀。贴一下我在另一个帖子下的回复:
    云服务也分单可用区部署和多可用区。以数据库为例,购买分了基础版和高可用版,高可用版又分了单可用区部署和多可用区部署。如果你买的是高可用版本,且是多可用区的,一旦出现主实例不可用,是自动会切换的。进度里也提到了“ [进展更新] 截至 11:30 按照产品调度策略,云数据库 Redis/MongoDB/RDS MySQL 、对象存储 OSS 、表格存储 OTS 等云产品的**高可用版本**已陆续完成容灾切换。”。但如果你买的基础版,服务器出问题了那谁也没办法,自己部署也是一样的。
    花多少钱,干多少事。
    nicoljiang
        16
    nicoljiang  
       6 天前
    @luojianxhlxt iaas 不会做这个,paas 或 saas 会做。
    lilyou
        17
    lilyou  
       6 天前
    两天了还没弄好,组里同事熬了俩通宵,太坑了
    Jerry23333
        18
    Jerry23333  
       6 天前
    @Jinnrry #4 得看你买的版本呀大哥,基础版的不带这些,高可用版肯定会切的。花多少钱,干多少事。
    exiaohao
        19
    exiaohao  
       6 天前
    因为 UPS 换了锂电池,锂电烧起来 灭火都灭不下来…

    另外就是因为一个成熟的服务商 搞太多的骚操作想降本增笑,好了现在火都灭不掉了
    其实最崩溃的是 Digital Reality ,楼都被烧废了,新加坡一栋楼啊

    楼主还是要学一下字节,阿里云被烧了就光速转移到马来,需要狡兔三窟
    sphawkcn
        20
    sphawkcn  
       6 天前
    自动灭火装置难道是摆设?
    superrichman
        21
    superrichman  
       6 天前
    您好,您的服务器已经(烧)上云了
    phithon
        22
    phithon  
       6 天前
    早说了云实际上就是 vps 换了个名字,其实没啥区别。
    wqhui
        23
    wqhui  
       6 天前
    物理层面出事了就不是几天能恢复的,该迁移迁移
    willli
        24
    willli  
       6 天前
    总结一下,那些吹的服务都是要加钱的,没有买那些服务,就跟你的个人电脑一样,坏了就坏了
    proxytoworld
        25
    proxytoworld  
       6 天前   ❤️ 1
    火烧云哈哈哈
    ssgooglg
        26
    ssgooglg  
       6 天前   ❤️ 1
    @Jinnrry 阿里还说永不限速呢
    me1onsoda
        27
    me1onsoda  
       6 天前
    @Jinnrry #14 sir ,得加钱
    txydhr
        28
    txydhr  
       6 天前 via iPhone
    @sphawkcn 锂电池起火灭不了吧
    rahuahua
        29
    rahuahua  
       6 天前
    @Jinnrry 都是要钱的,你不要想花买五菱的钱买法拉利啊,其他云也一样的,付费就有好的服务
    opengps
        30
    opengps  
       6 天前
    @Jinnrry 另一个帖子我刚回复过对于这句话的理解偏差:你买的服务器只是一个可用区下的云资源,不是两地三中心的云资源,想要多中心化,你的软件架构还需要很多东西
    deplives
        31
    deplives  
       6 天前
    有没有只种可能阿里云的高可用指的是 新加坡不行了我们还有北京的机房可用
    panzhc
        32
    panzhc  
       6 天前   ❤️ 1
    "
    昨晚 20:23 ,消防部门仍在处理大楼现场风险中,运维工程师正在等待获准进入机房大楼。如现场评估后不具备原地恢复的物理条件,应急小组将执行服务器设备迁移恢复预案。
    "

    看起来依然任重道远。
    qweruiop
        33
    qweruiop  
       6 天前   ❤️ 2
    @Jerry23333 高级版的也不会切的,上次 hk 出事,后台都打不开了。。。你想多了。。。
    Jhma
        34
    Jhma  
       6 天前
    重要业务要么云上多区域自建高可用,要么干脆自建私有云多地多活高可用而且故障转移可自主处理,以为上云是很轻松的事情实际更考研运维的能力
    vpsvps
        35
    vpsvps  
       6 天前 via iPhone   ❤️ 1
    火烧云
    f0101
        36
    f0101  
       6 天前
    几十块钱的东西,就别想着有什么三地两中心,秒级扩容迁移, 跟你没关系.
    bagel
        37
    bagel  
       6 天前
    你看看阿里云的历史事故总结,对比 aws 的,云泥之别。亚马逊的总结都是工程师写的,就事论事记录得非常清楚,还会给你科普技术背景,比如迁移技术架构导致出的事故,来龙去脉都有。阿里云的就一句话,公关口吻的事故发生了,事故解决了,抱歉噢,完了。
    lizytalk
        38
    lizytalk  
       6 天前
    人家机房烧了,咋给你马上恢复啊。唯一的路就是把服务迁移到别的 AZ 呗
    lizytalk
        39
    lizytalk  
       6 天前
    @luojianxhlxt 当然有支持多 AZ 容灾的产品,但是价钱不一样
    twl007
        40
    twl007  
       6 天前 via iPhone
    @tommyzhang 阿里云做了 你要掏钱 你可以看很多服务会有额外的一个多可用区域的选项 这个选了才是多可用区
    xiaoshouchen
        41
    xiaoshouchen  
    OP
       6 天前
    @f0101 确实钱不够多,但是一年也好几万,并不是几十块钱的服务。而且也不是不能接受出现故障,而是不能接受这么久的故障,一般几个小时,忍忍也就过去了,这次是两天多,快 3 天了
    chenduke
        42
    chenduke  
       6 天前
    还好烧的不是在腾讯云购买的新加坡服务器所在的机房。
    ETiV
        43
    ETiV  
       6 天前 via iPhone   ❤️ 1
    能迁就迁,全当它不存在了吧,机房的某些楼层已经成危楼了


    罗央大道一座数据中心起火,消防员仍在现场进行浇湿工作。虽然大楼整体结构未受影响,新加坡建设局仍对大楼的部分楼层区域发出危楼和封闭令,以策安全。https://zb.sg/VHkV
    tomatocici2333
        44
    tomatocici2333  
       6 天前
    = =要是锂电池一点办法都没有。ups 敢用锂电池也是牛
    8n1AfdFQWA5CWTNQ
        45
    8n1AfdFQWA5CWTNQ  
       6 天前
    @Jinnrry 对的,他是说他可以做到,但你没有买这个服务啊.
    比如数据库,他是支持异地备份的,但你没有买,当然没有了.并不是所有服务都能做到完全的多地多活的,这个成本很高.
    比如这么说吧,你一个月 100 元买了一个核 1G 的主机,他怎么可能给你默认做到三个地方都存在一个活跃的点?
    这三个点还要实时数据传输,出了问题,还要实时恢复?这个不可能的.不要说三个异地了,就是本地也做不到,你一般来说,一台主机就是在一台物理机上,不可能给你放在三台物理机的,但这台物理机出了问题,他可以给你迁移到其它机器上,相比于传统的物理机恢复是快了.但他这个是整个机房出问题了,没有办法的.
    ZZ74
        46
    ZZ74  
       6 天前   ❤️ 1
    @bagel 事情已经发生,损失已经产生,总结写得好有什么...aws 该崩照样崩。这不是哪家技术好不好的问题。说到底都是买卖。忽悠你上云,然后收割你
    qq1427168550
        47
    qq1427168550  
       6 天前
    @qweruiop 来来来,用 aws
    neptuno
        48
    neptuno  
       6 天前
    这次最严重的还不是自己服务挂了,我们当天就迁移完成了,但上下游都用的阿里云,他们搞了好久没恢复!
    zhuanggu
        49
    zhuanggu  
       6 天前
    锂电池起火了
    qweruiop
        50
    qweruiop  
       6 天前
    @qq1427168550 已经迁移了几个客户了,还有几个差钱的,也正在迁移中。
    也给楼上的同学说没花钱的提个醒。我们很多项目都是花了钱买了多可用区域了。事实证明,信了就输了。无论是之前 hk ,还是这次。出事的时候,他们的 很多控制台要么打不开,要么不可用。现在想来,他们连自己的业务都做不到高可用,还可以怎么弄呢。。。而且他们处理故障的时间。。。基本上,你要是 2b 的话,你的客户是等不到他们恢复的。。。
    sphawkcn
        51
    sphawkcn  
       6 天前
    @txydhr #28 锂电池的化学反应是无法中止的,但是明火是可以灭掉的,就是必须保持灭火装置持续工作。
    txydhr
        52
    txydhr  
       6 天前 via iPhone
    @sphawkcn 来不及
    galenzhao
        53
    galenzhao  
       5 天前
    @qweruiop 你得上跨 region 多活,单纯多 AZ 不是很好用。我们有客户就上的多 region 。
    galenzhao
        54
    galenzhao  
       5 天前
    @qweruiop 因为确实遇到过整个 region 不可用状态
    galenzhao
        55
    galenzhao  
       5 天前
    @qweruiop 举个简单例子,多 AZ 你可以理解为一个机房大楼里的不同楼层,像碰到挖断整栋光纤的时候简单的多 AZ 就没啥用了
    andyliu24
        56
    andyliu24  
       5 天前
    @ZZ74 拉长时间维度去看呢?故障又不是只有 0 和 1 ,0.4 和 0.6 差别还蛮大的……
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5549 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 01:37 · PVG 09:37 · LAX 18:37 · JFK 21:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.