V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
www5070504
V2EX  ›  云计算

请教一下做运维开发的前辈关于 zabbix 的 api

  •  
  •   www5070504 · 2019-05-09 12:47:31 +08:00 · 4312 次点击
    这是一个创建于 2027 天前的主题,其中的信息可能已经有所发展或是发生改变。

    请问下有没有遇到过 zabbix api 经常超时的情况

    现在我这是 50 台服务器 每秒新值大概 60 多 但是在访问 zabbix 的 api 的时候总是出现 http read timeout

    想问下是不是压力有点大

    第 1 条附言  ·  2019-05-09 15:21:47 +08:00
    感谢各位回复的老哥 我也是一直没弄清楚到底是什么原因 之前用的是 mariadb 在查询历史数据的时候比较慢 换成了 es 顺便问一下每个主机有多少个监控项比较合适呢 我现在每个主机有 50 个监控项 而且 text 的比较多 这样是不是不太合理

    top 信息:
    top - 15:08:53 up 98 days, 21:08, 4 users, load average: 14.67, 13.06, 12.28
    Tasks: 813 total, 2 running, 811 sleeping, 0 stopped, 0 zombie
    %Cpu(s): 28.3 us, 3.5 sy, 0.0 ni, 66.5 id, 1.6 wa, 0.0 hi, 0.1 si, 0.0 st
    KiB Mem : 13149579+total, 2426244 free, 8150868 used, 12091868+buff/cache
    KiB Swap: 67108860 total, 66929744 free, 179116 used. 11816456+avail Mem

    进程信息太长了只能简述一下了。。

    poller 有 128 个
    trapper 有 5 个
    alerter 有 5 个
    preprocessing worker 有 12 个

    感觉是不是我参数调的有问题。。

    配置文件:
    LogFile=/var/log/zabbix/zabbix_server.log
    LogFileSize=0
    PidFile=/var/run/zabbix/zabbix_server.pid
    SocketDir=/var/run/zabbix
    DBName=zabbix
    DBUser=root
    DBPassword=password
    HistoryStorageURL=http://es_ip:9200
    HistoryStorageTypes=uint,dbl,str,log,text
    StartPollers=128
    StartPreprocessors=12
    SNMPTrapperFile=/var/log/snmptrap/snmptrap.log
    CacheSize=2G
    HistoryCacheSize=2G
    HistoryIndexCacheSize=1G
    TrendCacheSize=128M
    ValueCacheSize=4G
    Timeout=30
    AlertScriptsPath=/usr/lib/zabbix/alertscripts
    ExternalScripts=/usr/lib/zabbix/externalscripts
    LogSlowQueries=3000
    AllowRoot=1
    16 条回复    2019-05-09 16:07:34 +08:00
    pmispig
        1
    pmispig  
       2019-05-09 14:04:05 +08:00   ❤️ 1
    你不会 top 看一下么。。
    www5070504
        2
    www5070504  
    OP
       2019-05-09 14:19:51 +08:00
    @pmispig top 关于 zabbix 的进程很多但是也不知道是不是 zabbix 的压力大
    www5070504
        3
    www5070504  
    OP
       2019-05-09 14:20:24 +08:00
    @pmispig cpu 使用率和内存占用都不高。。
    richzhu
        4
    richzhu  
       2019-05-09 14:21:32 +08:00   ❤️ 1
    top 主要看 load,load 是多少
    CallMeReznov
        5
    CallMeReznov  
       2019-05-09 14:31:43 +08:00   ❤️ 1
    一台服务器一秒 60 还是全部服务器加起来 60?
    另外单纯的键值可以选择有时序库,搞起来也比 ZABBIX 的 API 简单有效,快速
    Prometheus
    Influxdb
    opentsdb
    以上几个加上 grafana 就是一套简单的一批.
    han3sui
        6
    han3sui  
       2019-05-09 14:43:33 +08:00   ❤️ 1
    磁盘负载吧
    CallMeReznov
        7
    CallMeReznov  
       2019-05-09 14:44:38 +08:00   ❤️ 1
    @www5070504 #2 另外你报表-Zabbix 状态-要求的主机性能, 每秒新值
    这个值是多少??
    CallMeReznov
        8
    CallMeReznov  
       2019-05-09 14:50:08 +08:00   ❤️ 1
    我 ESXI 里 1 核 1G 已经是 94 了
    下图是我群里 32G 16C,而且数据库是独立的


    你那太低了...
    defunct9
        9
    defunct9  
       2019-05-09 14:50:11 +08:00   ❤️ 1
    开 ssh,让我上去看看
    boxvivi007
        10
    boxvivi007  
       2019-05-09 14:51:39 +08:00   ❤️ 1
    把 api 域名换成 IP 再试试
    www5070504
        11
    www5070504  
    OP
       2019-05-09 15:11:22 +08:00
    @CallMeReznov 我也好奇不应该这么慢呢 每秒新值就是 60 多 但是在请求 zabbix 的 api 的时候就是老是 timeout 我基本上都是请求最新的数据
    @richzhu load 10 几 挺低的 这个服务器基本上没咋用

    @defunct9 在内网呢 开 ssh 作大死。。。
    www5070504
        12
    www5070504  
    OP
       2019-05-09 15:24:31 +08:00
    @richzhu thx load 挺低的 这个服务器也基本没咋用
    @han3sui 之前查询历史数据的时候确实挺慢的 感觉是数据库查询压力太大了 现在换成 es 了
    @CallMeReznov 确实有打算换时序数据库的想法 感觉现在用的 es 还是有点味道不对

    Zabbix 服务器端运行中 是 localhost:10051
    主机数量(已启用 /已禁用 /模板) 143 51 / 0 / 92
    监控项数量(已启用 /已禁用 /不支持) 2697 2693 / 0 / 4
    触发器数量(已启用 /已禁用 [问题 /正常]) 592 592 / 0 [104 / 488]
    用户数(线上) 2 1
    要求的主机性能, 每秒新值 78.92

    今天又添加了几个主机 之前每秒新值是 60 多来着 不过感觉也没差别。。
    www5070504
        13
    www5070504  
    OP
       2019-05-09 15:36:56 +08:00
    @CallMeReznov 我这被领导限制用 zabbix。。
    hasdream
        14
    hasdream  
       2019-05-09 15:40:16 +08:00   ❤️ 1
    zabbix api 是 php jsonrpc 超时看下是不是 php-fpm 进程太少到账的。
    billychow
        15
    billychow  
       2019-05-09 15:46:52 +08:00
    @CallMeReznov 1C 1G 怎么做到的... 是否有进行什么优化配置?
    Cooky
        16
    Cooky  
       2019-05-09 16:07:34 +08:00 via Android
    重启 Apache ?
    硬盘会有问题?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3016 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 14:33 · PVG 22:33 · LAX 06:33 · JFK 09:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.