V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
dante6733
V2EX  ›  Linux

一个运维可以管理 5 万台服务器吗?怎么管?

  •  
  •   dante6733 · 71 天前 · 10854 次点击
    这是一个创建于 71 天前的主题,其中的信息可能已经有所发展或是发生改变。

    理性讨论,如果有 5 万台服务器,虚拟机和物理机都行,一个人能管好吗?如果一个人管不好,那怎么管?

    有没有大佬有这么多台服务器的管理经验?也希望能够分享一下经验,改进大家的运维效率。

    112 条回复    2021-10-21 16:13:16 +08:00
    1  2  
    salmon5
        1
    salmon5  
       71 天前   ❤️ 2
    什么?阿里云只有 1 个员工?集团一下子节约几百亿
    salmon5
        2
    salmon5  
       71 天前   ❤️ 41
    别整天看公众号瞎鸡巴吹牛逼
    zhengxiaowai
        3
    zhengxiaowai  
       71 天前
    虚拟机有平台还行,物理机肯定不行
    x86
        4
    x86  
       71 天前
    1 个人 5 万台?我要知道怎么管我会告诉你?
    salmon5
        5
    salmon5  
       71 天前   ❤️ 1
    保安大爷 1 个人可以管,开门关门就行了
    lostberryzz
        6
    lostberryzz  
       71 天前   ❤️ 69
    你的头像,出卖了你
    echo1937
        7
    echo1937  
       71 天前
    你一个人能管 5 万台,我来帮你接 IDC 运维的外包,我们都发财。

    每天能管好硬盘失效一项,都有方方面面的事情要考虑。
    dante6733
        8
    dante6733  
    OP
       71 天前
    理性讨论,不一个人也行,主要是想看大佬团队管理几万台服务器的经验
    dante6733
        9
    dante6733  
    OP
       71 天前
    @salmon5 为什么不是插拔电插座
    dante6733
        10
    dante6733  
    OP
       71 天前
    大家不要纠结一个人了,只是想知道数万台服务器怎么管,大佬分享一下经验!
    duqich
        11
    duqich  
       71 天前
    5w 台太少了 格局小了
    salmon5
        12
    salmon5  
       71 天前
    @dante6733
    “5 万台服务器”,公司怎么着也上万员工了,这么大体量,运维团队 50-100 人至少;
    1 个人管?开玩笑呢,现实一点;
    salmon5
        13
    salmon5  
       71 天前
    您说的应该是物理机,国内可以找一些例子
    henvm
        14
    henvm  
       71 天前
    一个人难
    dante6733
        15
    dante6733  
    OP
       71 天前
    @salmon5 问题写了,不是一个人也行,主要是想了解数万台服务器的案例~
    dante6733
        16
    dante6733  
    OP
       71 天前
    蹲大佬,分享数万台服务器管理的经验,不用一个人~
    salmon5
        17
    salmon5  
       71 天前
    @dante6733 这种案例没人给你瞎扯,透露泄露数据是要负法律责任的
    masterclock
        18
    masterclock  
       71 天前   ❤️ 5
    我帮你贴了??

    睿象云隶属于四川睿象科技有限公司,是一家全球领先的智能运维平台厂商,创始团队始终秉承 “让开发运维工作变得更加高效” 的使命,专注于为企业提供更加智能、全面的跨云监控和事件管理平台。

    睿象云团队致力于运用便捷的集成方式,精准的智能算法,及完善的分派响应机制,为企业搭建灵活、统一的运维管理平台,实现云环境下所有 IT 指标和事件信息的汇聚、处理、分派以及智能分析。从而帮助业务运维团队更加快速的掌握业务健康状况,甄别运维问题,判定故障根因,建立知识图谱,最终全面提升企业的 IT 运维能力,降低运营成本和风险,创造更加优质的用户体验。
    salmon5
        19
    salmon5  
       71 天前
    @dante6733 大傻才会分享
    cominghome
        20
    cominghome  
       71 天前
    应用容器的话应该还行, 物理机当我没说
    salmon5
        21
    salmon5  
       71 天前
    另外:“5 万台服务器”的公司,那 IT 服务器存储带宽支出,真不会买运维平台(零头),早自己团体开发了。
    dolphintwo
        22
    dolphintwo  
       71 天前   ❤️ 2
    只有资本家才会问这个问题
    dante6733
        23
    dante6733  
    OP
       71 天前
    @salmon5 理论上分析一下,怎么实行
    lasuar
        24
    lasuar  
       71 天前
    这类大佬没时间来这分享
    dante6733
        25
    dante6733  
    OP
       71 天前
    @dolphintwo 格局大了
    bing0
        26
    bing0  
       71 天前
    一个人管理过 50 台物理机路过,从 1850 到 R740XD,就问你,一个人扛 40*3.5 寸硬盘的盘阵下架你怎么做??
    myd
        27
    myd  
       71 天前
    开玩笑。

    5 万台服务器,意味着上面有各种系统。光是部署环境、配置环境账号啥的就够忙活了。除非像云服务器一样,装好系统交给开发,其余撒手不管!

    一个运维,出了问题,处理的来?
    Mac
        28
    Mac  
       71 天前   ❤️ 2
    不舍得在 V2 上花钱做广告的我是不会相信的
    salmon5
        29
    salmon5  
       71 天前
    傻狍子领导才会干这事,
    明明可以团队带 100 多人,这下好,只有 1 个光杆司令了,任人蹂躏。

    这事儿要从管理上来分析,技术上分析没啥意思,自动化运维容器技术资料到处都是
    dante6733
        30
    dante6733  
    OP
       71 天前
    @Mac 打广告,有意义吗
    @myd 抛弃一个人的设定,团队管理,怎么管
    salmon5
        31
    salmon5  
       71 天前
    “5 万台服务器”的 leader 级别比总监高了,部门总经理了;
    这下好,被你们真么一折腾,就 1 个人了,你说你这项目可能中标吗?睿象云
    xiaofeifei8
        32
    xiaofeifei8  
       71 天前
    @dante6733 想用你们的平台一个人管理 5 万台,你给个方案吧
    Remode
        33
    Remode  
       71 天前
    5w 物理机?什么神仙。。。
    harde
        34
    harde  
       71 天前   ❤️ 1
    本来就是过来打广告的,大家还认真了,散了吧
    ScotGu
        35
    ScotGu  
       71 天前
    一个人员 1 台服务器都运维不了!
    运维可是要 7*24*365 oncall 的,生产队的驴也不敢这么造啊!
    huangmingyou
        36
    huangmingyou  
       71 天前
    一看就是广告
    Mac
        37
    Mac  
       71 天前
    @dante6733 #30 没意义你来发什么帖钓什么鱼呢?
    yamedie
        38
    yamedie  
       71 天前
    广告钓鱼
    SingeeKing
        39
    SingeeKing  
       71 天前   ❤️ 1
    怎么管理?当然是选择睿象云 AIOps [V2EX Plus 的狗头什么时候能回来]
    salmon5
        40
    salmon5  
       71 天前
    确实是广告,如果不是广告,这种言论非蠢即坏,坑人不浅。
    dante6733
        41
    dante6733  
    OP
       71 天前
    @salmon5 很多网站都有这个问题,你搜一下就知道了,可别说是我想出来的
    salmon5
        42
    salmon5  
       71 天前
    老板这么推理:你看别人 1 人 5 万台服务器,你 500 台,工资÷100 吧;所以我说这个言论非蠢既坏,坑人不浅。
    hkz670
        43
    hkz670  
       71 天前   ❤️ 1
    管理万台服务器,我推荐睿象云。(一条 5 毛)
    lakehylia
        44
    lakehylia  
       71 天前
    花点钱打广告啊
    xsm1890
        45
    xsm1890  
       71 天前   ❤️ 1
    老板对 HR 说:看别人一个人管理 5 万台服务器,运维部门的留一个工资最低的,其他人开了吧。
    dante6733
        46
    dante6733  
    OP
       71 天前
    @xsm1890 hr:啊,这!
    masterclock
        47
    masterclock  
       71 天前   ❤️ 1
    目前 google “一个人 运维 服务器 数量”, 第一还是 某乎 的 4 万:行云管家。
    大家加油,争取超越 某乎,让 V2EX 5 万:睿象云 到第一。
    905928762
        48
    905928762  
       71 天前 via iPhone
    一个运维,99 个临时工
    yunyuyuan
        49
    yunyuyuan  
       71 天前
    一个人可以月赚 5W 吗?怎么赚?:doge:
    sdushn
        50
    sdushn  
       71 天前
    别的不说,7*24 值班,一个人扛得住?
    sadfQED2
        51
    sadfQED2  
       71 天前 via Android
    你给我 500 万月薪,别说 5 万台了,10 万台我都有办法。大不了多找点外包呗
    eason1874
        52
    eason1874  
       71 天前
    一个人,五万台,光是日常巡检都不够时间,能不能少做点梦?
    yin1999
        53
    yin1999  
       71 天前
    tutustream
        54
    tutustream  
       71 天前
    合理怀疑这个睿象云拖欠了 LZ 工资 狗头
    littlewing
        55
    littlewing  
       71 天前
    一个人管,20 个人开发自动化运维系统
    Pipecraft
        56
    Pipecraft  
       71 天前
    你找一个搞 AI 的大佬,请他开发一个能管理 5 万台服务器智能系统。系统有了,管理 5 万台都不是事儿。
    这样你俩的 KPI 都打成了,平时你俩闲聊,旁边他的系统管理你的机器,多么悠哉。
    CodeCodeStudy
        57
    CodeCodeStudy  
       71 天前
    一个人管 5 万台,那肯定是自动化管理啊,既然能管 5 万台,50 万、500 万、5000 万、5 亿自然不在话下,到时候所有的运维人员都不用上班了,既然都这么智能了,想必 AI 也能编写代码了吧,程序员也可以不用要了。
    JamChiu
        58
    JamChiu  
       71 天前
    我要是知道,我还会上来 V 站摸鱼么?
    gstqc
        59
    gstqc  
       71 天前
    5 万台,假如均价 5 万一台,总价 25 亿

    楼主你愿意把 25 亿生产资料给一个人管理并让这些生产资料顺畅运作吗?
    gstqc
        60
    gstqc  
       71 天前   ❤️ 1
    你们这些人啊,搞事情也不看下实际情况,想装逼但其实显得你很 low,没见过世面

    记得在知乎看过一个问题:如何实现千万并发登录
    瞎 JB 扯蛋,地球上有千万并发的登录系统吗
    ch2
        61
    ch2  
       71 天前
    外包给阿里云管
    ltruntu
        62
    ltruntu  
       71 天前
    打广告 都有这么多人在那边杠 服了
    Microseft
        63
    Microseft  
       71 天前
    1 个运维能管理好物理 500 台设备我就觉得已经很了不起了
    而且这 500 台基本都是同类型,不然光想想各类硬件巡检故障处理就够头大
    500 台也基本意味着,平均每天都会有一个硬件故障(警告或严重级别)
    fxxkgw
        64
    fxxkgw  
       71 天前
    我们这物理机+虚机+容器大概 20W+ 运维部大概 200 人+ 工作内容包括机器管理、运维平台开发、数据库、R2M/日志、服务治理、CICD 等。。
    dante6733
        65
    dante6733  
    OP
       71 天前
    @fxxkgw 真正的大佬来了,可否大致讲讲,分享一下经验~
    atpking
        66
    atpking  
       71 天前
    快请坐到主席台来
    halk
        67
    halk  
       71 天前
    看你怎么定义 管理 这两个字
    twl007
        68
    twl007  
       71 天前
    看你怎么定义管理了 是一个人管机器的环境部署配置还是连机器上架下架 网络配置 硬件故障排查都要管……
    JensenQian
        69
    JensenQian  
       71 天前   ❤️ 2
    你去问下做 steam 的 V 社,他们只有 3 个员工,一个 G 胖负责数钱,一个冰蛙负责更新 dota2,一个散播半条命有 3 的,怎么服务几千万的 steam 用户的
    EchoUtopia
        70
    EchoUtopia  
       71 天前   ❤️ 1
    如果不开机应该很好管
    kangkang
        71
    kangkang  
       71 天前   ❤️ 3
    一个运维可以管理 5 万台服务器,你们是不是都一筹莫展?现在 let me present 睿象智能运维管理平台,不宕机者,运维的救世主,带五奥破死先驱,七云统治者暨全境守护者,运维行业毁灭者,AIOps 之母。
    AllenHua
        72
    AllenHua  
       71 天前
    如果不出问题应该很好管,可以嗑瓜子看屏幕监控服务器运行状况。有一两台机器出了问题,怎么管得过来?有时候一个问题需要好几天才能找到解决办法,累积的任务不做了?
    tqyq88
        73
    tqyq88  
       71 天前
    ssh [email protected] rm -fr / 解君愁
    WispZhan
        74
    WispZhan  
       71 天前
    @JensenQian 不是一个 G 胖数钱,一个客服,一个更新 Steam 客户端吗?
    JensenQian
        75
    JensenQian  
       71 天前
    @WispZhan #74 不管怎么样,都是 G 胖数钱就对了
    muzuiget
        76
    muzuiget  
       71 天前
    建议钓鱼时先换个头像。
    JensenQian
        77
    JensenQian  
       71 天前
    @JensenQian #75 剩下两个得干活
    Junzhou
        78
    Junzhou  
       71 天前
    有五万台物理服务器需要管理的技术公司,会选你们作为技术解决方案,搞笑呢。
    snownarrow
        79
    snownarrow  
       71 天前
    一般都是硬件和软件系统分开的,硬件人力不可计,软件和系统一般也不会一个人管理,也是的有个小团队,服务器除了磁盘,其他的应该都是很稳定的,也就是业务问题多需要多一些人处理
    keepeye
        80
    keepeye  
       71 天前
    5 万台 光每天处理告警就不用睡觉了吧
    Junzhou
        81
    Junzhou  
       71 天前   ❤️ 6
    所以你们 5w 个客户,平均两个客户才拥有一台主机吗?话说你们客户人均 0.5 台机器还用得着自动化运维平台吗? https://i.loli.net/2021/09/24/eKuD2nwpEcsxmtQ.png
    neilyoone
        82
    neilyoone  
       71 天前
    问这个问题的 绝不是 干运维的
    TAFMT
        83
    TAFMT  
       71 天前
    阿里:月薪 100w,明天来报道
    ajaxfunction
        84
    ajaxfunction  
       70 天前
    你要见过 5 万台物理机长啥样 就不会说这话了
    恐怕你 1 台物理机都没见过,1 个人能把一台 2u 服务器 上到机架吗?
    aru
        85
    aru  
       70 天前
    什么?阿里云只有 1 个员工?集团一下子节约几百亿
    sickoo
        86
    sickoo  
       70 天前
    华为:天才少年计划,明天报道
    2i2Re2PLMaDnghL
        87
    2i2Re2PLMaDnghL  
       70 天前
    @JensenQian G 胖:你说我公司有几个人?
    fs418082760
        88
    fs418082760  
       70 天前
    如果一个人管不好,那怎么管?


    招人啊,愚蠢的问题
    JensenQian
        89
    JensenQian  
       70 天前 via Android
    @2i2Re2PLMaDnghL 比 2 多,比 4 小个人
    sutra
        90
    sutra  
       70 天前
    好像可以估算一下每天需要更换的硬盘数量。
    Microseft
        91
    Microseft  
       70 天前
    @ajaxfunction 一个人上 2U 还真可以...标准操作是先去掉所有硬盘,到机柜固定好了再上硬盘

    硬盘很少的情况,也可以冒险直接上

    我们运维都是肌肉男[doge]
    pjntt
        92
    pjntt  
       70 天前
    扯个蛋:一个公司运维+200 个外包。远程控制下工单给外包,然后等着完成。
    steptodream
        93
    steptodream  
       70 天前
    @ajaxfunction 这个的分人了 我也是运维 表示 2U 的很轻松的 撤服务器的时候不怕弄坏 1U 的我经常一手一个 锻炼的时候单手 25KG 哑铃弯举大概一组 12 个
    Liang
        94
    Liang  
       70 天前
    「 1 个运维管理 5w 台服务器」和「 1 个运维管理 5 亿台服务器」没什么很大的区别了,全球服务器都外包给我管理吧!!!
    k1z
        95
    k1z  
       70 天前
    来套方案的吧?
    dextercai
        96
    dextercai  
       70 天前
    打广告也不能这么打啊
    lucybenz
        97
    lucybenz  
       70 天前
    把硬件做成带理财功能的路由器,卖给消费者,提供运维教程即可 50 万台都没问题
    danhahaha
        98
    danhahaha  
       70 天前
    可以的,机房总电闸安装一个自动远程控制,运维 24 小时手机随时待命,出问题直接断电重启机房
    piloots
        99
    piloots  
       70 天前
    这还不好管?只需要一个超级大的“闸”设置好来电自启,你说什么时候关机就什么时候关机,秒关,启动不归我管。
    ragnaroks
        100
    ragnaroks  
       70 天前
    理性分析,一天 86400 秒,50000 个机器,每台机只看一眼( 1 秒),这起步得 966,说不定还得加班
    1  2  
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2274 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 12:20 · PVG 20:20 · LAX 04:20 · JFK 07:20
    ♥ Do have faith in what you're doing.