首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
V2EX  ›  Python

谈谈网易云的反爬机制

  •  1
     
  •   smallgoogle · 69 天前 · 2836 次点击
    这是一个创建于 69 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近想做大数据分析; 所以想爬取了网易云的所有用户信息;

    那么重点来了,我发现,网易云有单模块防御机制; 比如个人用户主页,我爬取了大概 5W+左右,反爬机制就生效了, 不管访问哪一个用户的主页,都是返回 404,连我自己的个人中心都无法登录了;

    我试过 cookie 变换,但是得出结论绝对是 IP 被黑了。 请问各位,有没有相关经验。 到底是不是黑了 IP。。。。。

    第 1 条附言  ·  49 天前
    根据我那么半个月的爬取,得出稳如狗的结论;

    网易云的反爬机制:
    首先 Ban Cookie,然后 Ban IP ;
    如果更换 IP 了,不更换 Cookie,依然被 Ban ;


    所以只要更换 IP 和 Cookie 就可以了,UA 不需要随机。

    数据那么多,随机间隔也是没啥用的,自我安慰一下吧。大概是;
    24 回复  |  直到 2018-11-30 09:49:56 +08:00
        1
    sunzongzheng   69 天前 via Android   ♥ 1
    我被 ban 过 ip,大概 ban 了 7 到 10 天左右
        2
    smallgoogle   69 天前
    @sunzongzheng 不是。那么认真的么? 7-10 天?
        3
    cyrbuzz   69 天前
    网易云的反爬貌似是基于账号的,换 cookies 是有用的吧?
        4
    Baboonowen   69 天前
    来个爬虫代码 让大伙验证一下 嘿嘿
        5
    CivAx   69 天前
    去随便一个云买个小鸡跑一下就知道了
        6
    locoz   69 天前 via Android
    不换 IP 又不在限制范围内当然会被封 IP 啊。。
        7
    smallgoogle   69 天前
    @cyrbuzz 是 IP 挂了。cookie 换过了。无效。
        8
    masterjoess   69 天前
    虽然让你爬了 5W+了,但你该不会是想用单 IP 爬全站吧?全国混拨了解一下
        9
    sunzongzheng   69 天前 via Android
    @smallgoogle 我上次是 for 循环无延时调的音乐接口,在服务器上,然后被 ban 了这么久
        10
    LukeChien   69 天前
    网易云有啥好爬的
        11
    whoami9894   69 天前 via Android
    我记得原来爬 ins,cookie+ip+请求间隔反爬,接口还乱糟糟,头疼
        12
    smallgoogle   69 天前
    @sunzongzheng 目前来看。我到现在还没解封。估计是六七天才行了。
        13
    smallgoogle   69 天前
    @masterjoess 大概是我太单纯了。
        14
    smallgoogle   68 天前   ♥ 2
    这两天摸出结论:

    网易云是双封,先在你的 cookies 写入封禁的字段,然后封禁 IP ;
    如果你换了 IP,不清理 cookies,一样死;

    所以解封的办法是,先清理 cookie,然后换 IP。然后访问就 OK 了。
        15
    cxa   66 天前
    现在还有写爬虫不叫代理的么。。。
        16
    bjt5521   65 天前
    我是做代理 IP 的,我们有个企业客户,成立了一个攻坚反爬部门,专门研究怎么绕过风控抓取数据。现在风控台厉害了
        17
    smallgoogle   63 天前
    @bjt5521 成功绕过了么?
        18
    skywingfs   59 天前
    搞爬虫你需要代理池
        19
    kr380709959   56 天前
    你这单 ip 单 cookie 想爬全站么?
    我一个新手爬拉钩都用了十几个 cookie+代理隧道爬取,爬了 50 万+的数据,压根没毛病。
    楼上有个哥们说得对,随机 cookie 列表+代理 ip+随机间隔请求时间,基本上对付中小网站没问题了,除非你想碰阿里这种怪物。
        20
    find456789   50 天前
    @kr380709959

    请问您这十几个 cookie,是同一个账号生成的, 还是 十几个不同账号生成的。 谢谢
        21
    kr380709959   50 天前
    @find456789 我用的是一个账号生成的 cookie,但是不知道网站是不是对 cookie 有限制的。你也可以生成十几个账号对应的 cookie 来爬,那样反爬就更难处理了
        22
    kr380709959   50 天前
    @find456789 我简单说下我的反反爬思路吧。
    1.随机 UA
    2.随机 time.sleep
    3.随机 cookie
    4.代理隧道动态 ip
        23
    smallgoogle   49 天前
    @kr380709959 其实网易云的反爬除了 IP 还有 cookie。如果 IP 被墙了。Cookie 也是有问题的。。就算你换 IP,不清除 cookie。依然被墙。UA 倒是没限制。
        24
    kr380709959   49 天前
    @smallgoogle 那就要仔细研究下了。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3618 人在线   最高记录 4236   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 19ms · UTC 07:31 · PVG 15:31 · LAX 23:31 · JFK 02:31
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1