V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
zhangyouming
V2EX  ›  Python

新榜、豆瓣阅读数据抓取

  •  
  •   zhangyouming · 2017-07-24 15:52:32 +08:00 · 2864 次点击
    这是一个创建于 2474 天前的主题,其中的信息可能已经有所发展或是发生改变。

    公司最近在做上量,用两天时间从零开始学习,写了两个网站的抓取 demo、

    新榜抓取: 1、接口是加密的,通过页面的 js 分析出了接口请求数据的加密规则。 2、需要登录才能获取数据。通过 selenium 模拟用户登录。然后抓取数据 豆瓣阅读: 1、频繁请求会封掉 ip、使用随机代理、请求延迟去获取数据

    项目地址戳我,喜欢的话给个 star 吧。

    zhangyouming
        1
    zhangyouming  
    OP
       2017-07-24 15:54:52 +08:00
    第一次发帖。好紧张,自己顶一下。
    mingyun
        2
    mingyun  
       2017-07-24 23:06:51 +08:00
    支持 py3 就好了
    zhangyouming
        3
    zhangyouming  
    OP
       2017-07-25 13:00:23 +08:00
    @mingyun 写的时候 由于刚接触 不了解 2 和 3 有啥区别 mac 上自带 2.7 版本,所以就直接用了。。。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2196 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 15:39 · PVG 23:39 · LAX 08:39 · JFK 11:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.