V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
smallhaes
V2EX  ›  Python

selenium 天猫爬虫登陆

  •  
  •   smallhaes · 2019-07-02 11:10:54 +08:00 · 5575 次点击
    这是一个创建于 1971 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1.获取 cookies:
    使用 selenium 打开 chrome 访问天猫登陆界面,接着扫码登陆并保存 cookies,
    2.使用 cookies:
    再用 selenium 打开一个 chrome 访问天猫登陆界面,给 driver 添加刚才保存的 cookies,此时再访问某个商品界面时还会要求登陆
    这两步间隔比较短,cookies 应该没有过期
    求问,为什么 cookies 没有效果 /哭
    19 条回复    2019-07-06 23:05:09 +08:00
    cxbanana
        1
    cxbanana  
       2019-07-02 11:16:54 +08:00
    因为天猫对 selenium 有指纹信息识别,可以尝试捕获下天猫发送过来的 js 文件,修改检测代码,拦截替换下……
    youxiachai
        2
    youxiachai  
       2019-07-02 11:17:05 +08:00
    天猫的防爬很先进的.....
    你这个模型太简单了...一下下就被设别了..
    zr8657
        3
    zr8657  
       2019-07-02 11:17:44 +08:00
    天猫 cookie 很多的,你确定你添加全了吗,你都用 selenium 了直接登陆完开爬不行吗,一个账号爬个 5、6 页大概就会出验证了
    yaoye555
        4
    yaoye555  
       2019-07-02 11:23:15 +08:00
    selenium 已经被淘宝系产品防死了,目前暂时能解决的就是修改 window.navigator.webdriver
    hoyixi
        5
    hoyixi  
       2019-07-02 11:26:18 +08:00
    能请教下,爬这些电商爬来的数据,怎么变现?很好奇
    d5
        6
    d5  
       2019-07-02 11:32:10 +08:00   ❤️ 1
    可以考虑用测试框架来干这种事,比如在真机上用 airtest
    di1012
        7
    di1012  
       2019-07-02 11:41:28 +08:00
    @hoyixi 可以做国内代购
    misaka19000
        8
    misaka19000  
       2019-07-02 11:43:24 +08:00 via Android
    试下 puppeter
    di1012
        9
    di1012  
       2019-07-02 11:44:20 +08:00
    其实你要是想搞到淘宝商品的数据,还不如直接爬一些做代购的公司的网站,人家用的是接口,还稳定
    lusi1990
        10
    lusi1990  
       2019-07-02 11:48:56 +08:00
    换成 firefox, 或者使用 puppeteer 试试
    https://www.jianshu.com/p/afdabf486b54(然后参考这个)
    yanheqi
        11
    yanheqi  
       2019-07-02 15:23:24 +08:00
    如果要抓 cnbeta 这种网站,能做到吗?
    annielong
        12
    annielong  
       2019-07-02 15:34:51 +08:00
    天猫正常访问还时不时来个验证,
    smallhaes
        13
    smallhaes  
    OP
       2019-07-02 16:30:59 +08:00
    谢谢大家的回复, 果然用天猫作为练习太难了, /哭 没把握好难度. 实验室的师兄师姐推荐换个网站练习
    3 楼说的是 OK 的, 可以登录后直接开爬, 不方便的地方是得显示浏览器界面. 如果不显示浏览器界面的话, 登录这块也是个大难点, 所以我才想着用 cookie 跳过登录,同时不再显示浏览器界面
    同时也感谢其他小伙伴们提出的建议, 我会去尝试哒~
    再次感谢大家!!
    LicV587
        14
    LicV587  
       2019-07-02 16:32:34 +08:00
    selenium 这种东西,理所当然的会被淘宝系封,连我挂 VPN 访问都会被封。淘宝系现在的体验是越来越差,所以都不要淘宝天猫了
    limuyan44
        15
    limuyan44  
       2019-07-02 16:35:46 +08:00 via Android
    连正常访问都可能拦截何况是个爬虫入门都会写的 selenium。。。
    murmur
        16
    murmur  
       2019-07-02 16:39:40 +08:00
    我怀疑淘宝已经走火入魔,现在调试工具已经开始请求 webmidi 这种正常需求不可能用到的技术了,我怀疑是他在枚举当前浏览器支持的是所有技术,来判断你是正常的 chrome 还是在 headless 里
    2805408253
        17
    2805408253  
       2019-07-02 17:43:12 +08:00
    说白就是技术检测 加 行为规则验证。
    技术检测就不说了
    行为规则:比如正常人浏览一种商品的一页数据,最低也要超过 1 秒钟(极限啊 CAC )。你搞的爬虫一秒钟上百个页面,当然过不了。(行为规则库还是很强大的)
    Meli55a
        18
    Meli55a  
       2019-07-02 23:07:38 +08:00
    别说是爬虫,正常人点都会出现这种验证,搜索几下就让爷休息,疯了
    wongyusing
        19
    wongyusing  
       2019-07-06 23:05:09 +08:00
    selenium 基本上是没有办法爬取阿里系的网站的
    他们会检查你的浏览器的 webdriver 是否为 True。
    即使绕过了这个检测,还有各种各样的 js 行为检测
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2820 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 13:40 · PVG 21:40 · LAX 05:40 · JFK 08:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.