V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
yueyoum
V2EX  ›  云计算

终于知道阿里云服务器突然重启的原因了

  •  
  •   yueyoum · 2015-09-14 11:35:16 +08:00 · 18257 次点击
    这是一个创建于 3359 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我们在阿里云有 8 台 ECS

    其中一些服务器 突然重启过, 这种事情一共有三次。

    第一次 是去年十一假期, 当时服务器刚上线, 一些配置还没写入到 /etc/rc.local 中
    如果服务器重启,那么我们的服务是没有自动启动的。

    还好,当时旅游是 十月一号下午出去, 上午服务器重启了,用户反映无法登录。
    最后及时把问题处理了。

    后面 所有机器都配置了 /etc/rc.local , 重启也不怕了
    但是 第二次,第三次重启 还是造成了 两分钟左右的服务不可用。

    前几次都提过工单, 但是后面都不了了之。
    昨晚这次重启, 又提交过一次工单

    阿里云客服首先是 引导我去买他们的 SSD 云盘。

    然后我把 syslog 给他们看,

    他们终于说出了实情:

    售后工程师 :您好,是由于物理机异常发生了宕机迁移操作导致的

    真是蛋疼!!!

    下个项目 还是上 ucloud 吧!

    62 条回复    2015-09-16 22:07:16 +08:00
    nonoroazoro
        1
    nonoroazoro  
       2015-09-14 11:37:40 +08:00
    秒懂。
    lucifer9
        2
    lucifer9  
       2015-09-14 11:43:57 +08:00
    三台恰好都在一个物理机上确实挺悲剧的
    cyl5753
        3
    cyl5753  
       2015-09-14 11:45:15 +08:00
    ECS 的问题真是多啊,之前碰到 CPU 总是 100%的问题客服最终也没搞定。
    chenshaoju
        4
    chenshaoju  
       2015-09-14 11:45:54 +08:00
    所以……这并不是什么云服务器,只是 VPS 而已?
    knightdf
        5
    knightdf  
       2015-09-14 11:46:42 +08:00
    为啥不用 aws
    zzxworld
        6
    zzxworld  
       2015-09-14 11:48:30 +08:00
    用他家主要也就是为了备案方便。
    yp2800
        7
    yp2800  
       2015-09-14 12:08:37 +08:00
    据我使用经验,母机有时候监控突然物理机 cpu100%,有可能是超负荷了,或者多 cpu 之间有时负载不匀,导致虚拟机不响应,死掉了,如果对虚拟机状态有监控的话,一般会发现死机前系统运行的很稳定一个状态
    yexm0
        8
    yexm0  
       2015-09-14 12:15:24 +08:00 via Android
    目测阿里是堕落到跟搬瓦工比在线时间了
    jianyunet
        9
    jianyunet  
       2015-09-14 12:21:16 +08:00
    @chenshaoju 我感觉他家的 ecs 其实就是 vps ,不是单纯镜像
    chenshaoju
        10
    chenshaoju  
       2015-09-14 12:22:40 +08:00
    @jianyunet 不发表意见,我没用过阿里云的服务……
    leassy
        11
    leassy  
       2015-09-14 12:26:38 +08:00
    楼主是在打广告吗
    有需要的可以找我,天翼云 8 折
    哈哈,逃~~~
    xzchina
        12
    xzchina  
       2015-09-14 12:31:39 +08:00
    阿里云就是垃圾
    9hills
        13
    9hills  
       2015-09-14 12:40:23 +08:00
    @chenshaoju 哪个云服务支持不间断宕机迁移?
    wzxjohn
        14
    wzxjohn  
       2015-09-14 12:46:17 +08:00
    @9hills VMWare ESXi 的 HA 就支持。
    chenshaoju
        15
    chenshaoju  
       2015-09-14 12:51:41 +08:00
    @9hills 不知道
    9hills
        16
    9hills  
       2015-09-14 12:53:55 +08:00
    @wzxjohn VMWare 的 HA 也不是对单个 VM 就能无间断中断。

    它也是有多个 VM (一般 2 个),挂一个换台宿主机启动,只要不是全挂,就是 zero downtime
    9hills
        17
    9hills  
       2015-09-14 12:56:10 +08:00
    @chenshaoju 目前提供的公有云,私有云。纯粹的 VM 是没有不间断宕机迁移这个功能的。

    你想想也不可能啊,磁盘可以用中心 or 分布式存储来保证一样。进程状态你总不能实时同步过去吧。。

    只能在上层架构上做容错和冗余
    9hills
        18
    9hills  
       2015-09-14 12:57:10 +08:00
    @jianyunet 现在提供的云主机不都是 vps 么,宿主机挂了都是换台机器启动。
    xuhaoyangx
        19
    xuhaoyangx  
       2015-09-14 13:01:17 +08:00
    一直觉得阿里的不是云, qingcloud 的还不错,只不过青云的挂掉几率比阿里还高
    twl007
        20
    twl007  
       2015-09-14 13:05:43 +08:00
    @yp2800 卧槽 这个问题还没解决啊! 我 11 年开始用的时候就有了 那时候扯皮工程师就说是我们的问题 问题我们程序屁都没动啊 为了这个问题车皮好久 经常莫名其妙的就 100% 根本找不到原因 但是说是阿里云的问题我们又不可能拿到物理机的证据 阿里云也不给 巨坑无比
    ipconfiger
        21
    ipconfiger  
       2015-09-14 13:22:06 +08:00   ❤️ 1
    ucloud 都是商业用户, 稳定性要好很多了,反正我的机器 uptime 都快 2 年了
    cnhejia
        22
    cnhejia  
       2015-09-14 13:25:33 +08:00
    物理机总是会出现宕机的情况的,这个不可避免。
    阿里云宕机迁移后数据存储是分布式的所以物理机不会影响数据安全性。
    但内存数据遇到突然宕机是没办法的。这个估计哪家服务商都一样吧, VMWare 的 HA 也是物理机没有突然挂掉的情况下实现的。
    atom
        23
    atom  
       2015-09-14 13:28:40 +08:00
    因为他家虚拟机间的隔离性不好
    echo1937
        24
    echo1937  
       2015-09-14 13:30:08 +08:00
    @9hills vSphere 的 HA 的 FT 功能,可以把你的内存状态都同步过去。
    show8salary
        25
    show8salary  
       2015-09-14 14:18:05 +08:00
    坐等阿里云解释
    Havee
        26
    Havee  
       2015-09-14 14:27:02 +08:00
    其实他家自己的云盾吃了太多的资源,我一直认为阿里不是做技术也不是做产品,完完全全就是营销为王。
    c742435
        27
    c742435  
       2015-09-14 14:35:27 +08:00
    虽然虚拟机可以热迁移 但是主机跪了就啥用也没有了
    9hills
        28
    9hills  
       2015-09-14 15:13:16 +08:00
    @echo1937 就算是 FT ,主机突然挂掉也是几乎实时同步,还有有些许 diff

    进程状态同步永远不会是实时的,除非网络带宽达到了内存带宽。
    9hills
        29
    9hills  
       2015-09-14 15:21:30 +08:00
    @echo1937 当然 FT 说能做到 1ms delay 。。。对大部分业务来说足够了,几乎无感知。
    但是代价是算钱算双份,另外开源界应该还没有相应的实现出来。
    dudesun
        30
    dudesun  
       2015-09-14 15:36:16 +08:00
    自己不会用怨别人?典型的半瓶子醋
    wzxjohn
        31
    wzxjohn  
       2015-09-14 16:37:38 +08:00
    @9hills 但是阿里云不是只有一台宿主。。。我的意思是技术上做得到,只是愿不愿意做而已。。。
    ksex
        32
    ksex  
       2015-09-14 16:50:03 +08:00
    打广告还要黑一下阿里云 6666
    est
        33
    est  
       2015-09-14 17:05:14 +08:00
    我觉得虚拟机的 HA 技术挺神奇的。比如我买了个 256G 内存的机器,突然掉电, host 母鸡是需要瞬间持久化序列化这 256G 数据啊。想想真是碉堡了。
    likuku
        34
    likuku  
       2015-09-14 17:15:41 +08:00
    GAE 这种的代码丢云上就 OK ,其它所有资源都靠 API 来读写的,才能称为真正含义上的云吧。
    wintersun
        35
    wintersun  
       2015-09-14 17:47:19 +08:00
    @est
    首先,母鸡机器都是连接 UPS (不间断电源),支撑个几分钟到你能正常关机是没问题的;
    其次,机房可能还有发电机设备……
    我也没搞过,只是瞎猜!
    em70
        36
    em70  
       2015-09-14 18:07:19 +08:00 via Android
    这贴 99%可能是广告
    ipconfiger
        37
    ipconfiger  
       2015-09-14 18:21:26 +08:00
    @est 要做到秒级快照就有可能实现
    9hills
        38
    9hills  
       2015-09-14 18:27:34 +08:00
    @wzxjohn 我感觉阿里云技术上做不到 VMware 的 Fault Tolerance ,这个东西没有开源实现啊

    但是 HA 是可以做到的,但是这个其实用户这边做就行了
    9hills
        39
    9hills  
       2015-09-14 18:30:41 +08:00
    @est vmware 是这么实现的: http://www.vmware.com/files/pdf/resources/ft_virtualization_wp.pdf

    将 Input (network, user ),asynchronous I/O (disk,devices ), CPU timer events ,在备机 replay ,号称 delay 只有 1ms

    碉堡了有没有,反正开源的我还没见过这么厉害的
    geeklian
        40
    geeklian  
       2015-09-14 18:33:55 +08:00 via Android
    @9hills vmware 的 ft 技术可以。但是目前 cpu 限制单核,确实是利用光纤同步内存实现的。可能也就我们银行业会用。
    9hills
        41
    9hills  
       2015-09-14 18:36:37 +08:00
    @geeklian 新版本支持 4 核, 64G 内存,连名字都改了叫 smp-ft 。。
    geeklian
        42
    geeklian  
       2015-09-14 18:37:09 +08:00 via Android
    @9hills 好吧,没看到那么多楼, v2 的 cdn 什么鬼.

    ft 看起来很美,但是也不完善,单核限制了很多应用。
    shiny
        43
    shiny  
       2015-09-14 18:37:16 +08:00
    之前的阿里云有过三年的 uptime ,刚出来就买的
    9hills
        44
    9hills  
       2015-09-14 18:38:13 +08:00
    @geeklian 不过 VMWare 真贵,也就银行用的起了吧
    geeklian
        45
    geeklian  
       2015-09-14 18:40:43 +08:00 via Android
    @9hills 4 核倒是方便了,不过 esxi 最好部署 x.5update5 以后的版本才足够稳定
    sunyang
        46
    sunyang  
       2015-09-14 18:41:29 +08:00
    ![未命名图片.png]( https://ooo.0o0.ooo/2015/09/14/55f6a453c61d9.png "未命名图片.png")
    @yexm0 说起来搬瓦工
    geeklian
        47
    geeklian  
       2015-09-14 18:43:33 +08:00 via Android
    @9hills 售价不知道啊....不过我接触的几个银行卷商,都是和 vmware 谈的买断协议....作为运维拿来就用就是了
    est
        48
    est  
       2015-09-14 18:47:36 +08:00
    @9hills 那这个 replica 之间连接断了,或者延时怎么办。。。感觉很纠结。
    sevenonly
        49
    sevenonly  
       2015-09-14 21:59:37 +08:00 via iPhone
    @leassy 我又需要
    lenran
        50
    lenran  
       2015-09-14 22:23:19 +08:00
    @9hills 为啥每次我过来看到你都在,你不吃不睡吗?
    9hills
        51
    9hills  
       2015-09-14 22:24:12 +08:00
    @lenran 额,感觉我回复的也不多啊。可能是你的错觉
    lenran
        52
    lenran  
       2015-09-14 22:25:53 +08:00
    @9hills 好吧
    maxsec
        53
    maxsec  
       2015-09-14 22:36:28 +08:00
    呵呵呵 广告太明显 200G 流量送上
    Andy1999
        54
    Andy1999  
       2015-09-14 22:49:21 +08:00 via iPhone
    快来用腾讯云 百倍补偿 233
    x615
        55
    x615  
       2015-09-14 23:14:21 +08:00
    是阿里云的服务器,不是阿里的云服务器。
    leassy
        56
    leassy  
       2015-09-15 08:38:22 +08:00
    @sevenonly 请联系我 leassy#gmail
    loqixh
        57
    loqixh  
       2015-09-15 08:43:56 +08:00
    xen 和 kvm 都可以动态迁移,不过代价很高。。。
    shawshank
        58
    shawshank  
       2015-09-15 11:03:47 +08:00   ❤️ 2
    我是从 Ucloud 迁移到阿里云的,当时我们被 DDos ,峰值才十几个 G 的时候, Ucloud 跟我说他们整个机房都被我们拖慢了,其他用户在投诉。后来临时接了个第三方的云盾,然后峰值达到了 30G 。事后, Ucloud 说我们应该是被别人盯上了,建议迁移到友商阿里云。从此, Ucloud 一生黑
    xiawinter
        59
    xiawinter  
       2015-09-15 13:22:50 +08:00
    @ipconfiger 机器稳定不稳定不好说,但是网络挂个 5 个小时我会乱说
    weisdong
        60
    weisdong  
       2015-09-15 16:11:18 +08:00
    看着各位吐槽,忍不住夸一夸网宿的服务了,嘿嘿。
    feicheche
        61
    feicheche  
       2015-09-16 10:09:29 +08:00
    这种踩着别人往上爬实在是不太好。
    esplendo
        62
    esplendo  
       2015-09-16 22:07:16 +08:00
    @ipconfiger
    @ksex
    @em70
    @maxsec

    感谢楼主的信任,也谢谢大家对 UCloud 的关心。经我 U 市场中心鉴定,此贴确实不是我司广告..
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2728 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 11:14 · PVG 19:14 · LAX 03:14 · JFK 06:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.