V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
deben
V2EX  ›  问与答

请问 V2er, 类似于 cnzz 这种大流量的统计工具, 大概的系统构架是什么样的呢? 有相关的开源项目吗?

  •  
  •   deben · 2016-03-08 09:04:24 +08:00 · 3349 次点击
    这是一个创建于 2943 天前的主题,其中的信息可能已经有所发展或是发生改变。
    接了个小项目, 做一系列网站的流量统计, 流量比较大(相对单一网站), 全部加起来每天千万 PV 差不多, 那么整个系统的构架大概应该是什么样呢?

    或者哪位同学用过或者了解过有关的开源项目吗?

    PS: 由于某些特殊原因, 无法使用目前市面上的公用统计服务.
    6 条回复    2016-03-08 12:08:07 +08:00
    zrj766
        1
    zrj766  
       2016-03-08 09:18:24 +08:00 via Android   ❤️ 1
    piwik
    deben
        2
    deben  
    OP
       2016-03-08 09:39:05 +08:00
    @zrj766 piwik 如果是多用户多站点支持, 貌似 piwik 改起来有点儿工作量, 不过看看 piwik 的源码来学习的确是非常好的思路.
    jugelizi
        3
    jugelizi  
       2016-03-08 09:45:04 +08:00   ❤️ 1
    自己做广告平台吗

    piwik 还是不错的 随便改过一点
    你还需要 Hadoop
    deben
        4
    deben  
    OP
       2016-03-08 10:08:42 +08:00
    @jugelizi 请问, 千万 PV, 就需要 Hadoop 了吗? 我的想法比较简单, 用 Nginx 分发到几个服务器能解决问题吗? 另外, 这个级别的数据存储用 MySQL 就不行了吧, 需要上 noSQL 的数据库了吧?
    lecher
        5
    lecher  
       2016-03-08 11:02:49 +08:00 via Android   ❤️ 1
    日千万 PV ,第一个问题在写入量上面,但是算下来就是峰值一秒顶多就是一千的日志, MySQL 绝对可以扛得住,至于接收日志的 Web 处理如果单台的性能不行,分几台服务器可以扛得住。用 NoSQL 撑写入量在数据管理上更容易做分布式。
    其次是分析计算,这个重计算的事情,看业务有多复杂了,如果计算模型很复杂用 spark 、 Hadoop 这类的计算框架来节省开发成本也不错。如果不是很复杂就是简单的统计汇总可以不用那么重型的计算框架,自己写。
    deben
        6
    deben  
    OP
       2016-03-08 12:08:07 +08:00
    @lecher 非常感谢, 受益匪浅!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2799 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 13:31 · PVG 21:31 · LAX 06:31 · JFK 09:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.