V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  johnjiang85  ›  全部回复第 13 页 / 共 24 页
回复总数  472
1 ... 9  10  11  12  13  14  15  16  17  18 ... 24  
2018-08-08 15:11:24 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
理论、协议和工程实现有时候差距还是不小的,尤其涉及到具体管理的时候,也不能说一定就是坑吧,当然具体实现我也不了解。
2018-08-08 15:02:22 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@mhycy 嗯对,就是写入的时候是没有回读校验的,毕竟我也只是半把刀,有些名词不提就想不起来。

缓存是有的,但是迁移没有通过缓存。

具体的迁移流程细节就完全不清除了,理论上应该是这个流程,镜像加快照流水。
2018-08-08 14:58:15 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@firefox12 只有仓库 I 和仓库 II, 仓库 II 中的 3 副本数据因为读取就是没校验的错误数据,写入的全错;仓库 I 中 3 副本 1 份错误的,2 份正确的,正常的操作都不会有问题,也可以自动修复。但是把客户的操作切到仓库 II 之后,仓库 I 的数据回收就会把 3 个副本全部删除掉了,然后其他客户的写入又会把这 3 个副本原本的数据空间覆盖掉。
2018-08-08 14:53:26 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@mhycy #43
我#45 #47 的回答想了下确实是有问题的,因为我也不了解细节,我了解到的信息也只是公开的故障复盘报告。所以应该还是去随机访问的,但是正好访问到了出问题的这个副本的这个磁盘,导致读取到了错误的数据,并且没有进行校验。
2018-08-08 14:47:16 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@mhycy 当然一个副本也是随机散列到不同磁盘上的,所以这里其实并不是数据完全丢失,其实是丢失了一部分数据,主要是部分系统元数据从这块磁盘上读的错误,影响了更多的实际数据。
2018-08-08 14:45:18 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@mhycy 实际的用户访问业务系统确实是你说的,随机( hash 或者 range 或者 hash+range )打散的,但是数据迁移据我了解没去做随机打散访问请求,就是指定的其中一个副本去访问的,这里的流程是有问题的。
2018-08-08 14:43:07 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@firefox12 我的意思是写入的时候不校验计算出来的块校验信息,3 副本之间的校验信息对比肯定要做的。
2018-08-08 14:41:49 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@firefox12 写入会计算校验信息并写入,但是不进行校验是我了解的原理,工程实现怎么做的细节不清除。

老副本的问题还是去看下公告的第二个违规操作吧,数据立马会收掉了,仓库 1 还一直有非常多的客户再写入的。也就是楼主的疑问 2.
2018-08-08 14:35:22 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@mhycy 静默错误是有可能导致磁盘本身的块校验时效。存储系统的块校验和三副本校验公告是迁移过程中把校验关了,根本没校验,这个就是严重的问题。。。
2018-08-08 14:32:36 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@firefox12 建议你先看下公告的具体内容吧。
2018-08-08 14:29:06 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@mhycy 存储了解的意思是了解部分分布式存储的原理,但不了解出问题的 CBS 的架构。
2018-08-08 14:27:11 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@mhycy 我并不是做存储的,主要是做网络的,存储了解,但没做过,具体架构细节我也不清除。
2018-08-08 14:20:08 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@johnjiang85 腾讯云的对象存储叫 COS,默认高频是 3 副本,低频是 EC 纠删码存 1.33 份,可以自己选。
2018-08-08 14:18:36 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@firefox12 出问题的是 CBS,块存储,且是系统盘。
2018-08-08 14:18:01 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
这里貌似迁移的过程中关闭了校验,且正好选中了静默错误的这块盘作为迁移源,没有和其他 2 个正确副本做校验,直接读取到了错误的数据(磁盘静默错误会导致数据块本身的 hash/crc 校验失效不会报错,除非存储系统自己加了额外的数据块校验信息并且进行校验),写入到了仓库 2 的 3 个副本中就都是错误的,因为分布式存储一般写入只会写入校验信息,并不会进行实际的校验,只有读取的时候才会做数据校验
2018-08-08 14:14:12 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@firefox12 云的块存储因为要求高 IOPS,一搬都是 3 副本的。EC 纠删码性能要比三副本低很多,尤其是在数据有频繁随机读写(主要是修改)的时候,性能差距太大,一般用在对成本控制比较严且对随机读写性能要求不高的场景。
2018-08-08 13:40:23 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
另外还有些概念需要科普下,存储计算分离一般是对业务来说的,存储本身的存储和计算是一体的,是按照计算好的配比提前配置好的存储和计算资源的配比,当然计算资源确实不会成为瓶颈。
2018-08-08 13:30:10 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@mhycy
疑问 1: 什么情况下关闭校验可以加速搬迁。
分布式存储的读取校验并不是只是校验本副本的 hash (其实存储更多是 crc 校验本数据块,当并不是所有的存储都会有 crc 校验),而是说要把 3 副本的数据都读出来进行对比校验,这样关闭校验可以节省大量的磁盘 I/O,速度就算快不了一倍也差不多。

疑问 2:什么情况下才能让运维人员那么着急回收空间释放资源?
这个没什么疑问,就是源仓库空间水位太高,且写增长非常快,当然这些都不能把保留 24 小时变成立即回收,至少人员持续观察 30 分钟无异常还是必须要有的,所以不排除运维人员长时间工作疲劳、减少告警等其他原因。

疑问 3:前面大家有回复。
2018-08-08 12:19:07 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@nullornull 第二篇技术复盘对了解分布式存储的人信息是足够了的,但即使是技术人员对分布式存储原理和机制了解的人并不多,确实还是会有一些疑问的。
2018-08-08 12:11:53 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@mhycy 仓库 1 是 3 副本的,正常对读取到的数据块都有校验,只要不是 2 个以上副本错误都是可以读取到正确数据(这里迁移的过程中关闭了校验),并且会自动修正错误的一个副本。读取不到的数据块就需要常规巡检发现,但是巡检都是低优先级操作一搬速度很慢,巡检一次的周期会非常长。
1 ... 9  10  11  12  13  14  15  16  17  18 ... 24  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5544 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 03:04 · PVG 11:04 · LAX 19:04 · JFK 22:04
Developed with CodeLauncher
♥ Do have faith in what you're doing.