大家都怎么防采集的？哪一种性能最高？

This topic created in 3308 days ago, the information mentioned may be changed or developed.

有不少站都有防采集，一般是 IP 和 cookie，还有 session （会员）

1、从 IP 入手一般限制某个时间段内访问的最多次数，超过则出现验证码，弊端是每次访问都要检测该 ip 的访问次数和执行判断

2、从 cookie 入手，较为简单，但是显然防守能力很差

3、从会员入手，页面只有会员才能访问（或者超过多少页面就必须会员才能访问），一个会员一天只能访问多少次，弊端也很明显

有没有更佳的方法？

访问

会员

入手

44 replies • 2017-05-22 14:28:27 +08:00

metowolf

May 18, 2017

对特征明显的、频度高的请求返回脏数据（删字改字添字）

dsg001

May 18, 2017

会员限制，超过阀值则每次访问都需要验证码

gouchaoer

May 18, 2017 via Android

验证码不是一个好的方案，反爬虫最重要的是不能让爬虫知道你已经知道它是爬虫了

humxman

May 18, 2017 via Android

先载入一部分然后监听事件，如果没有动作（滚屏、鼠标动作）的话不请求后续内容。

karia

May 18, 2017

刚写完爬虫的我用极其幽怨的眼神看着楼主。

ivmm

May 18, 2017

@karia 哈哈哈哈哈哈哈哈，笑出声

elfsong

May 18, 2017

讲道理除了 Plan 3 其他两种代理池都可以搞定

olOwOlo

May 18, 2017

之前爬过的某站上面三种都有
反爬虫一般都是独立出来的，类似 fail2ban 这种扫描日志（或者做个流量分析系统_(:з)∠)_？
个人感觉从会员入手是效果最好的，频率过高直接封号_(:з)∠)_
不过爬虫是挡不住的，只要是浏览器能访问的爬虫都能想办法获取到，除非像一些网站一样只显示前 X 页的内容

yidinghe

May 18, 2017 via Android

传输内容加密，加密解密的代码混淆，解密出来的文字用 canvas 画出来。

Reign

May 19, 2017 via iPhone

反爬做的足够好把用户和搜索引擎都干跑了，你能想到的反爬我们这些写爬虫的早就想到了，“弊端是每次访问都要检测该 ip 的访问次数和执行判断”，根本不是这个弊端，你还太年轻

ioriwong

May 19, 2017

我觉得动态加载是个不错的方案，一般爬虫不会模拟鼠标滚轮动作或键盘 Pagedown 动作

mokeyjay

May 19, 2017

用小说站的反采集方案吧。小说入库时，随机挑选一些字生成图片，将图片链接插入原文，删掉被图片替换的字。显示时用户无感知但爬出来的内容全是乱的

Akkuman

May 19, 2017 via Android

直接提供接口😂

yangqi

May 19, 2017

要想 100%防是不可能的，只能防止一些比较初级的爬虫。现在的框架都是模拟浏览器访问，基本看不出来是爬虫

t6attack

May 19, 2017

自己设计了一套缺德的繁琐的机制。简单的说，判断出采集行为后随机穿插错误数据、重复数据。

crayygy

May 19, 2017 via iPhone

display:none

bjlbeyond

May 19, 2017 via iPhone

只能说是用一些手段去限制初级爬虫选手

tinyproxy

May 19, 2017 via iPhone

人家真要爬你，也就看谁更耗不起了。

dong3580

May 19, 2017

@yidinghe
没用,全是 canvas 的话 jquery 直接提出 txt 来得了.

zpvip

May 19, 2017

把最常用的几百个汉字每小时生成图片，相同汉字每小时的图片名称不一样，程序内部有对应 hash，图片过一小时就自动删除，PHP 处理这个过程非常快，不到一秒。

用 dns 检查是否为 Google 和百度爬虫，对爬虫不用图片替换。

如果高手用 OCR，并且把所有图片都保存下来，也够他忙的，不可能绝对防住，只能恶心他们。

actto

May 19, 2017 via Android

还不如加个 api 接口提供给爬虫们，然后收费，每月 5 元。

AllenHai

May 19, 2017

1：网页中用框架，比如 QQ 空间；
2：写一套流弊的 JS 加密程序，比如网易云音乐；
3：每分钟请求超过一个阈值就弹验证码，检测到爬虫后返回 404 或者弹验证码或者给掺假的数据（半真半假那种）；
4：必须用手机号注册账号，检测到异地登录必须输手机验证码，cookies 有效期短一点；
5：换字体，以前去哪儿用过；
6：把阿里云的 IP 段禁掉；
7：自己爬一下网上的免费代理，禁掉 IP ；
8：提取浏览器特征，来反 webdriver ；
9：UA 里做一些排查

silva

May 19, 2017

@AllenHai
你好，问两个问题，换字体来防御爬虫是个什么原理？
UA 是什么？

ty89

May 19, 2017

@AllenHai
qq 空间的例子就算了，我刚爬完一批文章

lepture

May 19, 2017 via iPhone

@silva 改字体对应关系，字符是 A 显示为 B。

AllenHai

May 19, 2017

@silva UA 是指 user-agent，你去看下 requests，scrapy 的请求头，封它就对了；
字体那个就像凯撒密码那样，把字体里数字换一下，通常数字顺序是 0~9，而自定义的字体里做个转换，比如 0 和 5 对应，1 和 9 对应。这个是挺有意思，但是也容易破解

Reign

May 19, 2017

@ioriwong 我写爬虫最喜欢你这种动态加载的方式了，一个 ajax 返回数据，连 HTML 解析都省去了

sampeng

May 19, 2017

特别反感爬虫，特别反感反爬虫

这是一个矛盾的话题，做内容的，自然要去爬数据。如果有公开的接口信息，没人愿意去爬数据。可现实是没有。
如果豆瓣，时光网有非常好的 api 直接提供，我相信没人愿意花费大量的时间精力去爬数据。
这是国内环境造成的，看看国外的，基本有权威的影音数据库，直接公开查询接口。

有些公共信息真的非常反感反爬虫机制，比如影音类的。。新闻类的。做个自定义 rss 都麻烦。。如果有收费的 api。我会直接购买。当然这是个遥不可及的想法。。。因为没有网站希望用户压根不上自己的平台。。国内现在大部分做内容的还是靠广告收费。任重而道远啊。。。。