V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  mhycy  ›  全部回复第 41 页 / 共 189 页
回复总数  3764
1 ... 37  38  39  40  41  42  43  44  45  46 ... 189  
2018-08-08 16:04:14 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@xud6 #62
想了想有道理,然而绕开缓存以后还是绕不开主控节点...
这个能关掉读取校验的巨锅....唉~

@xud6 #64
三副本该不会是单节点 0 吧?感觉 RAID61 才更为合理,不然可靠性依旧巨坑
且存储节点自身用 ZFS 能更上一层楼的避免各种异常...具体能否实现就看实验了

望科普!
2018-08-08 15:15:24 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@johnjiang85 #57
期待技术细节分享
2018-08-08 15:14:29 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@johnjiang85 #54
迁移不过缓存直接把请求压到最后的根节点是基本不可能的
对整个集群的性能是一个严重的拖累(假定为机械硬盘)
2018-08-08 15:07:05 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@xud6 #55
这个不知道腾讯云的具体实现我就不好说什么了
只是现在看起来....坑是越来越大了....
2018-08-08 15:02:19 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@xud6 #48
所以缓存很重要,ZFS 的原理和性能瓶颈是知道的,块存储集群其实也是为了解决这类问题
所以 CPU 资源配备理应足够,但感觉更大的瓶颈在内存上面,毕竟运算是需要数据来回搬的
具体没见到实现也不好说什么,只是。。。看起来。。。。计算资源是没配够了。

> RAIN 工作和 RAID 类似,正常工作中同一个 IO 操作只会访问一份数据,除非出错(或校验失败),本质上就是以某个数据源作为数据拷贝源,只是粒度更细。

关于这个,只能说别忘了这是 3 副本,不是 RAID-Z/Z2/Z3, 是 RAID1....
2018-08-08 14:53:49 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@johnjiang85
随机 -> 等效随机,不是实际随机
块与校验数据是一体的,写入的时候三副本并行写入必然三副本都会存在理论上一致的块,不做回读校验可以理解
但从你的回复中似乎理解错了这个校验数据的位置

另外,数据迁移如果请求源位于存储的主控节点,由集群的主控集群对外提供块存储访问请求支持的话
对于一个有着正常业务的三副本存储集群最底层的存储节点就根本不可能获得真正的顺序读取请求,一切都是随机
对于这类集群缓存是极其重要的,除非为纯固态集群。

既然要做缓存,那么直接访问指定节点的可能性就不存在了
毕竟涉及到一个很重要的问题:数据副本同步

这也是疑问 3 没想通的
既然是迁移,既然是同步,自然需要尽可能少量数据进行快照后的增量数据同步

正常说迁移一个镜像:
快照,同步数据,同步快照后增量,剩余数据到某个阈值
最高优先级断流同步,再重新服务,这是理想的无停机迁移
(也可以让集群 2 作为代理访问集群一的原始数据的同时同步到集群 2,但读延迟会增加)
对于业务来说近乎无感(实际上至少有百毫秒级的 IO 断流或者延迟)

为何是到 8 点多的一刀切切换?难道是停机迁移?
2018-08-08 14:42:38 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@johnjiang85
前提不存在,校验计算是接收到写入请求后在内存中进行计算
为了避免计算结果错误建议是使用 ECC 内存(应该没哪家是 DIY PC 做存储服务器吧?)
三副本的存储架构原则上根本不允许外部请求直接访问指定的节点,一切都是随机化
因为外部请求到达存储节点后几乎不可能有持续读取的可能
既然都是随机请求那么也没有把请求压到特定某个存储节点的必要了

这暴露出来的问题...
2018-08-08 14:32:38 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@johnjiang85 #26
块级校验码与块数据同步存放在一个物理块上,静默错误不可能让块校验码与块数据对的上号的
难道数据 00 的校验码等于 00 ?
如果读取校验实施正确的话,理应是不造成过于严重的性能瓶颈的,除非计算资源与存储规模失配
且,三副本基于成本考虑理应可以提供类似 R0 的同步读取能力,读 IO 高写 IO 低
(由主控节点发起的并行写入,有同步开销)
直接杜绝了直接访问的可能...

如果真如回复的这样,可以以某个数据源作为源进行数据拷贝源....
这暴露的问题更为严重啊
2018-08-08 14:20:40 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@firefox12
出问题的是块存储 #24 回复没有问题,但是 #15 的回复。。
说实在点开个人信息看发帖历史的时候我是吓到了
希望这不是腾讯云的真实做法.....
2018-08-08 14:06:24 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@firefox12
请求科普 9+3 所罗门做法
2018-08-08 13:51:37 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@johnjiang85 #19
所以可能性就只剩下一个了

另:前一个回答关于 IO 描述有误
块数据 hash 和块自身是一体的且一般不是 CRC 算法
读取过程中如果没有校验出异常只会产生一次磁盘读取请求
所以开不开校验应该没有太大区别
除非。。。
2018-08-08 13:39:41 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@johnjiang85
疑问一与现实有出入,建议参考 zfs 原理

疑问二暴露出的问题就不多说了

疑问三在实际架构流程公布前无法得到正确答案
2018-08-08 13:36:41 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@xud6 显然这就是问题
2018-08-08 13:11:58 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@xud6 不会,具体可以查看各个处理器的 hash 性能,限制集群规模的瓶颈就在这
@pinews 只是这违规操作的原因。。不敢细想
2018-08-08 12:29:25 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@swulling 这就是第二次复盘暴露出来的问题,没敢把猜测写出来
2018-08-08 12:19:54 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@johnjiang85
正因为了解,才产生疑问
2018-08-08 12:18:48 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@nullornull #6
参考 ZFS 的实现,块存储集群的一般而言实现类似于 ZFS,读校验绕不开
对不上 hash 就需要三副本读取修复,除非出现 hash 碰撞,那么需要等到巡检才能发现了
2018-08-08 12:14:42 +08:00
回复了 mhycy 创建的主题 云计算 关于“腾讯云用户数据丢失故障”最新公告的一些细节的疑问
@johnjiang85
所以...什么情况下关闭校验可以提速呢?
https://www.v2ex.com/t/477885

看起来有更深层的问题
人祸只是让问题暴露出来了而已
1 ... 37  38  39  40  41  42  43  44  45  46 ... 189  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3635 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 24ms · UTC 04:18 · PVG 12:18 · LAX 20:18 · JFK 23:18
Developed with CodeLauncher
♥ Do have faith in what you're doing.