首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
宝塔
V2EX  ›  互联网

煎蛋被爬虫爬炸了

  •  2
     
  •   WuwuGin · 2017-10-16 12:37:38 +08:00 · 6815 次点击
    这是一个创建于 760 天前的主题,其中的信息可能已经有所发展或是发生改变。
    昨晚到现在煎蛋后台大部分时间是瘫痪着的,因为有人在疯狂采集,连接数过多让煎蛋数据库频繁挂掉。点不了 OOXX 发不出评论 /吐槽的同学不要猜测,原因就是这个。

    至于为什么被频繁采集,这要归功于某些拿煎蛋练手还去 github 开源采集煎蛋程序的牛逼程序员们。



    原本我们是可以从服务器端屏蔽掉恶意采集,但服务器扛不住 DDOS,不得不全站 cdn,但 cdn 又等于是把静态内容贡献给恶意采集者。

    COLT 正努力从技术层面解决。请耐心等候。


    以上来自煎蛋站长 sein。
    30 回复  |  直到 2017-12-13 13:24:50 +08:00
        1
    iShawnWang   2017-10-16 12:54:46 +08:00 via iPhone
    这.....
        2
    laogui   2017-10-16 13:01:58 +08:00 via Android
    采集不是用同一个 IP 吗?这都防不了?难道换着 IP 采集?
        3
    Mikewu   2017-10-16 13:04:33 +08:00
    @laogui 看正文,估计是成为开源爬虫项目中的 Demo 了。
        4
    lwbjing   2017-10-16 13:04:42 +08:00
    @laogui 文中有提到“开源采集煎蛋程序”,想像一下场景...
        5
    jas0ndyq   2017-10-16 13:08:01 +08:00 via iPhone
    快了?
        6
    takanasi   2017-10-16 13:09:15 +08:00 via Android   ♥ 1
    所以不爱写爬虫,感觉比较缺德
        7
    zts1993   2017-10-16 13:21:37 +08:00
    写个爬虫练个手,你看知乎现在登陆都要验证码了。
        8
    oh   2017-10-16 13:24:39 +08:00 via iPhone
    @laogui 多 IP 多线程 甚至分布式采集 不都是必备的么…
        9
    coderluan   2017-10-16 13:47:33 +08:00   ♥ 1
    写爬虫从来只用单线程龟速爬,否则感觉自己在干缺德的事。
        10
    yu099   2017-10-16 13:58:46 +08:00 via Android
    果然,我说图怎么刷不出来
        11
    doublleft   2017-10-16 13:58:51 +08:00
    猜测一下,因为我也采过,一般都是爬妹子图吧。。 既然妹子图链到的是微博图床,能不能直接开个 api
        12
    swulling   2017-10-16 14:02:05 +08:00
    技术不行罢了
        13
    deeporist   2017-10-16 14:48:23 +08:00
    加油
        14
    EricCartman   2017-10-16 14:51:06 +08:00   ♥ 1
    重定向爬虫到开源操作系统镜像文件
        15
    yu099   2017-10-16 15:02:32 +08:00 via Android
    @EricCartman 这个不错
        16
    Sapp   2017-10-16 16:09:53 +08:00
    最近知乎的爬虫教程都烂大街了,真搞不懂弄那么多爬虫是搞毛?就图个好玩?
        17
    gamexg   2017-10-16 16:23:16 +08:00   ♥ 1
    @oh #8

    如果确认是开源爬虫问题,那么很好搞定啊。
    直接照着爬虫规则改,让爬虫无法匹配即可。

    另外虽然多 ip 分布式是爬虫常见功能,但是个人学习的话 ip 来源不会有那么多,高频率 ip 封禁或者加 js 验证、验证码验证都能够解决。
        18
    lingo   2017-10-16 18:03:09 +08:00
    @swulling 个人感觉不能单纯用技术不行来说。本来以他们技术可以维持网站的的正常访问,结果这个开源项目带来大量的异常流量导致网站挂了,总不能要求每个公司都跟 BAT 一样吧。
        19
    iFlicker   2017-10-16 18:26:45 +08:00   ♥ 1
    老大加油, 可怜的 COLT。。。估计 colt 系列无聊图又要出了
        20
    WordTian   2017-10-16 19:28:08 +08:00 via Android
    我说怎么最近评论的时候总出问题呢
        21
    mohoumk2   2017-10-16 21:11:35 +08:00   ♥ 11


    发现回复下面有个有趣的评论
        22
    ccc008   2017-10-16 21:19:45 +08:00
    爬蚱好吃
        23
    congeec   2017-10-16 21:34:04 +08:00 via iPhone
    缺德
        24
    jy02201949   2017-10-16 22:52:29 +08:00 via Android
    访问到这个量级的站也不好好考虑自身条件是否符合发展需要,当年被告也是这样不知所措
        25
    Lentin   2017-10-16 23:03:48 +08:00
    搞个 api 不就好了,还采集啥(雾
        26
    fuxkcsdn   2017-10-16 23:13:47 +08:00   ♥ 2
    @mohoumk2 正解!上次在 V 站上看到有人“又”(为什么说又呢?你们懂的)在发布所谓牛逼的煎蛋爬虫,at 了站长也没做处理
    这边不让讨论盗版,却可以光明正大的分享偷(别说爬虫不算偷)别人数据的项目...
        27
    zander1024   2017-10-30 13:45:58 +08:00
        28
    wbt   2017-10-30 14:03:17 +08:00
    。。。
        29
    tuding   2017-10-30 17:28:23 +08:00
    @coderluan +1
    我也是单线程爬, 而且挂服务器上, 避开高峰时间
        30
    Jayce245   2017-12-13 13:24:50 +08:00
    你要是说练个手爬几张图片看看是不是正确也就算了,无限制爬取的确挺缺德的
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1892 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 26ms · UTC 16:17 · PVG 00:17 · LAX 08:17 · JFK 11:17
    ♥ Do have faith in what you're doing.