V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
harry890829
V2EX  ›  问与答

爬虫与反爬虫的问题

  •  
  •   harry890829 · 2016-08-05 10:02:21 +08:00 · 2276 次点击
    这是一个创建于 3036 天前的主题,其中的信息可能已经有所发展或是发生改变。

    一直听说爬虫和反爬虫技术,这段时间也在看 csrapy 框架,不过这次问的不是代码相关.

    一个网站为什么需要反爬虫呢?

    我们爬虫主要不就是仿造浏览器访问页面,然后收集页面么?

    如果网站上有广告,有一批爬虫在一直扫,这样不能带来广告收益么?

    如果有爬虫在爬,也能把网站的流量数据升上来吧。

    不过一些有实体收益、服务的网站除外,比如宝,东这类,毕竟爬虫会影响网站效率,不过一般的资讯网站呢?

    10 条回复    2017-07-28 00:00:33 +08:00
    gimp
        1
    gimp  
       2016-08-05 10:30:13 +08:00   ❤️ 1
    1 , 原创数据 /文章,小说类网站防爬,目的显而易见,航班 /金融类数据,有些也都是花钱买来,整理出来的。当然不希望别人爬,再者,爬虫太多后消耗服务器资源
    2 ,爬虫本质就是获取页面指定数据
    3 ,网站上有广告,需要爬虫支持渲染 js 才行,比如 selenium+浏览器
    4 ,现在的 web 站我觉得已经不是靠流量的时代了,广告展示的收益很小,网站红火需要有真实的用户去存留,消费
    5 ,如果是原创资讯网站,自己写的文章,被别人自动采集,自动修改内容发布,这样一键操作,不仅被盗取劳动果实,对 SEO 也有很大影响,就像自己写完博客,搜索标题关键字,到了采集站...
    sheep3
        2
    sheep3  
       2016-08-05 10:42:41 +08:00
    1, 爬虫并不能对你的网站有什么广告收益
    2, 爬虫其实就是在偷数据
    3, 服务器受不了
    harry890829
        3
    harry890829  
    OP
       2016-08-05 10:49:51 +08:00
    @gimp
    @sheep3
    原来爬虫并不能创造广告收益啊,那流量也没什么用么?
    qiayue
        4
    qiayue  
       2016-08-05 10:56:39 +08:00
    所谓的流量必须是真实的流量才有广告价值,因为真实的用户才有可能对你的广告感兴趣,进而点击广告。
    当然上面说的是按照点击计算的广告,也有按照时间计算的广告。
    一般小网站流量不多,放 Adsense 或者百度广告联盟,都是按点击计算居多,也有少部分按照效果计费。
    大网站或者强势的媒体,他们一般是按时间付费,包月包年之类的。比如 V2EX 就是按日收费。
    sheep3
        5
    sheep3  
       2016-08-05 12:38:23 +08:00
    @harry890829 爬虫那几个 ip 有什么用?

    还有,站在 SEO 的角度,这种对 SEO 也没有什么用
    harry890829
        6
    harry890829  
    OP
       2016-08-05 14:46:47 +08:00
    @sheep3
    @qiayue
    好吧,多谢两位
    3dwelcome
        7
    3dwelcome  
       2016-08-05 20:05:32 +08:00 via Android
    楼主不知道流量是要花钱的嘛。
    harry890829
        8
    harry890829  
    OP
       2016-08-05 20:24:48 +08:00
    @3dwelcome 啊啊?我一直以为网站的流量高了能赚钱啊……
    InFaNg
        9
    InFaNg  
       2016-08-23 21:26:59 +08:00 via Android
    如果你被 cc 了,流量不少啊,但是并不能赚钱
    wulin76
        10
    wulin76  
       2017-07-28 00:00:33 +08:00
    如何判断流量的真实性呢?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5913 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 01:55 · PVG 09:55 · LAX 17:55 · JFK 20:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.