V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Gtristan
V2EX  ›  问与答

如何集中管理 200 台云服务器

  •  
  •   Gtristan · 2023-07-14 13:30:32 +08:00 · 2436 次点击
    这是一个创建于 529 天前的主题,其中的信息可能已经有所发展或是发生改变。

    搜罗的帖子说用 k8s 目前还没搭建 k8s ,有其它的铁子说说,你们都是怎么管理多台云服务器( Centos+Ubuntu )的吗 主要实现基本功能如下

    1. 能看服务器在线状态(尽量多显示 cpu 内存等信息那更好)
    2. 服务器离线提醒
    3. 其它系统信息

    有这样的开源平台吗

    21 条回复    2023-08-25 18:16:36 +08:00
    cuixiao603
        1
    cuixiao603  
       2023-07-14 13:40:20 +08:00
    Prometheus
    Aliencn
        2
    Aliencn  
       2023-07-14 13:40:49 +08:00   ❤️ 2
    这个需求只需要一个监控就能实现吧。zabbix 或 prometheus
    GeorgeWai
        3
    GeorgeWai  
       2023-07-14 13:51:43 +08:00
    先拿出一台机器,然后把公钥丢给下面 200 台机器。然后基于 ssh 可以愉快的玩了,想看啥,就发命令,坐等返回,返回结果里会告诉你哪些机器超时了,5 分钟跑一次即可。
    ropon
        4
    ropon  
       2023-07-14 13:54:27 +08:00
    jumpserver 统一管理
    prometheus 监控
    ropon
        5
    ropon  
       2023-07-14 13:55:15 +08:00
    @ropon prometheus+node_exporter 监控
    b7cn
        6
    b7cn  
       2023-07-14 14:14:08 +08:00
    有个 iis7 的服务器管理工具
    Gtristan
        7
    Gtristan  
    OP
       2023-07-14 14:28:17 +08:00
    CaCo6
        8
    CaCo6  
       2023-07-14 15:53:59 +08:00
    随便整个探针不就行了?
    graetdk
        9
    graetdk  
       2023-07-14 15:55:33 +08:00
    哈哈,我想起我当年管理一堆服务器的艰难经历了。不过,如今的技术真是越来越发达了,管理云服务器也变得更加容易。建议可以考虑采用一些云平台的管理工具,或者使用自动化部署等技术,来轻松应对这个数量级的服务器管理工作。祝你好运!
    bytesfold
        10
    bytesfold  
       2023-07-14 16:51:38 +08:00   ❤️ 1
    说随便整整的一定没有大批量机器😅;

    机器规模一旦起来了管理非常困难,不过基础的开源工具无论如何都是要用的,例如:Ansible 、Prometheus 、ELK
    vast0906
        11
    vast0906  
       2023-07-14 17:28:16 +08:00   ❤️ 1
    Ansible / SaltStack (批量执行工具) + Prometheus (监控) + Grafana (展示)
    flexbug
        12
    flexbug  
       2023-07-14 18:27:48 +08:00 via iPhone   ❤️ 1
    监控用 prometheus ,grafana ,alertmanager 管理的话 saltstack ,puppet ,ansible ,jump server 也行
    deorth
        13
    deorth  
       2023-07-14 18:47:44 +08:00 via Android
    招个好点的运维
    LCD
        14
    LCD  
       2023-07-14 21:34:47 +08:00 via Android
    jumpserver 简单够用,但不知道为什么批量执行脚本的图标转很久。。。,不知道是否 bug
    LCD
        15
    LCD  
       2023-07-14 21:37:56 +08:00 via Android
    另外 fabric 也是不错,几行就可以跑起来,只是开始接触的时候坑太多了
    Illusionary
        16
    Illusionary  
       2023-07-14 21:45:31 +08:00
    你都说云服务器了,还需要你搞这些这么基础的监控? 云厂商本来就有,你只要稍微配置一下告警指标和告警渠道就好了
    me1onsoda
        17
    me1onsoda  
       2023-07-14 21:49:32 +08:00
    就这么简单的需求,云厂商的控制台不就能满足
    wuzhewuyou
        18
    wuzhewuyou  
       2023-07-15 02:54:19 +08:00 via Android
    蹲个结果,暂时想到写一个 mqtt ,各服务器向总服务台发送状态信息,很容易做到离线提醒,支持一些远程指令等
    nomytwins
        19
    nomytwins  
       2023-07-15 10:37:36 +08:00
    我们用的 appnode
    Subfire
        20
    Subfire  
       2023-07-17 20:07:30 +08:00
    Proxmox VE
    chilaoqi
        21
    chilaoqi  
       2023-08-25 18:16:36 +08:00
    jumpserver + 1panel
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5316 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 05:52 · PVG 13:52 · LAX 21:52 · JFK 00:52
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.