V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Maskeney
V2EX  ›  Python

如何利用爬虫批量获取多帐号登录后显示的信息?

  •  
  •   Maskeney · 2016-02-22 11:59:38 +08:00 · 2594 次点击
    这是一个创建于 2997 天前的主题,其中的信息可能已经有所发展或是发生改变。
    比如说一个网页需要输入账号密码才能显示出信息,并且每个帐号现实的信息都不相同,如何用爬虫实现从文件读取帐号密码,自动输入-抓取数据-保存到文件-继续读取下一个帐号-输入下一个帐号密码-抓取下一个帐号密码-再保存到文件,直到把所有的帐号爬完。写完才发现这个需求好像有点干坏事的样子...好吧其实不是..小白用户恳切希望能有大大耐心写写如何实现的
    6 条回复    2016-02-22 17:45:56 +08:00
    knightdf
        1
    knightdf  
       2016-02-22 12:11:18 +08:00
    不就是多线程登录么,提交表单的事,原来写过集群登录 LinkedIn 抓取账号的
    popok
        2
    popok  
       2016-02-22 13:48:08 +08:00
    你就按照正常浏览器操作的流程来模拟不就完了。

    提交用户名和密码登录,获取 cookie ,然后带着 cookie 获取信息
    pyengwoei
        3
    pyengwoei  
       2016-02-22 16:56:38 +08:00
    1 、先读取所有帐号密码报错 存放到一个列表
    2 、 FOR 帐号循环列表,
    2-1 、登录,
    2-2 、保存 COOKIE 到一个列表
    3 循环里面就是你要干的事情
    pyengwoei
        4
    pyengwoei  
       2016-02-22 16:57:21 +08:00
    上面错了两个字 是保存 不是报错
    Maskeney
        5
    Maskeney  
    OP
       2016-02-22 17:45:20 +08:00
    @pyengwoei 你的意思是先保存 cookie 最后再用 cookie 读取内容?
    Maskeney
        6
    Maskeney  
    OP
       2016-02-22 17:45:56 +08:00
    @popok @knightdf 有没有 python 入门学习的途径?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3262 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 14:39 · PVG 22:39 · LAX 07:39 · JFK 10:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.