首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
宝塔
V2EX  ›  Python

新手学 Python 爬虫

  •  
  •   buaishi · 58 天前 via Android · 2150 次点击
    这是一个创建于 58 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我是一名大学 Python 小白,我一次偶然的机会接触到了 Python 爬虫,感觉很是喜欢,所以我现在真心想了解和学习这方面技能,不知道前辈有什么推荐书籍或者其他学习方式吗?

    25 回复  |  直到 2019-09-23 00:49:19 +08:00
        1
    linvaux   58 天前 via Android
    先把 requests 库看明白
        2
    buaishi   58 天前 via Android
    @linvaux 好嘞 明白
        3
    MrZhaoyx   57 天前
    最近在看《 Python 网络数据采集》,写的挺不错的
        4
    Leigg   57 天前 via Android
    requests,beautifulsoup,scrapy,lxml,re,这几个是爬虫必知必会的库,先用熟,再看源码掌握其原理就是中高级了。
        5
    aaronhua   57 天前
    哔哩哔哩上一搜一大把的视频教程。个人觉得,新手不建议看书。视频更容易入手些。
        6
    buaishi   57 天前 via Android
    @MrZhaoyx 好的 我去了解了解
        7
    buaishi   57 天前 via Android
    @Leigg 谢谢哈
        8
    locoz   57 天前
    先定义一下爬虫的两种方向:
    垂直爬虫指只爬特定的某些网站,且对所需数据都进行标准化、格式化的爬虫
    通用爬虫指做搜索引擎、新闻聚合等用的那些爬虫,什么网站都爬,但只需要提取一些浅层的数据

    然后你可以先看看崔庆才的书,现在他那个书的第一版已经免费了,在博客上就能直接看,虽然不算很深,但广度基本足够了,入门的时候用来了解一下还是可以的。
    然后看方向决定是深入哪方面,如果想往垂直爬虫方向发展就深入逆向,如果想往通用爬虫方向发展就深入算法、机器学习。
        9
    buaishi   57 天前 via Android
    @aaronhua 进军 b 站 哈哈
        10
    buaishi   57 天前 via Android
    @locoz 知道了 会去了解的 谢谢哈😁
        11
    locoz   57 天前
    偷偷打个广告,我之前发的文章也可以看看。我现在和几个号主一起组建了 NightTeam 团队(微信公众号沿用了之前的 [小周码字] ),未来发布的文章也可以看看,都是高质量文章,跟那些一天到晚标题搞噱头、内容纯水的号不一样。
        12
    buaishi   57 天前 via Android
    @locoz 好的 OK 我也弄了个公众号 孟夏启明 但不知道干什么用😂😂😂
        13
    Zhancha   57 天前 via iPhone
    @buaishi 也可以试试原生库,再使用 requests 和 requests-html
        14
    zdnyp   57 天前
    @Leigg 这个里中高级还有点远吧...还有 JS 和逆向呢
        15
    zdnyp   57 天前
    @locoz +1
        16
    hackxing   57 天前
    自己学 Python 爬虫的笔记: https://meowv.com/category/python/
        17
    wangkai0351   57 天前
    @hackxing 大多是照本宣科,看不出有自己的理解见解,库源码分析都没有,就不要拿出来了吧
        18
    wolfan   57 天前 via Android
    @aaronhua 看书加视频,理论加实践更好。
        19
    SjwNo1   57 天前
    反爬 反反爬 反反反爬 。。。。
        20
    DOUWH   57 天前
    真心劝你别学爬虫~
        21
    337136897   57 天前
    你悠着点,已经不少学爬虫 的进了看守所了
        22
    cherbim   57 天前
    实战效率最高,找视频跟着爬
    ps:对了,讲个笑话,搞爬虫的最后归宿永远是看守所
        23
    buaishi   56 天前 via Android
    @DOUWH 我觉得很酷很感兴趣 爬虫是炒起来的吗?
        24
    DOUWH   56 天前
    @buaishi 单纯的爬虫技术栈太单一, 复杂的爬虫技术栈太乱,我看过一篇文章讲的好,文章中提到,现在的爬虫是公司想让你爬什么你就能爬什么,当你的爬虫成本远大于你的爬虫收益,企业就会放任你去爬。现在网络安全法律日益健全,爬虫的道路越来越窄,整合表层数据,获取的都是普通数据,凡是深入一点的数据都是商业犯罪。自己玩玩还可以,不利于职业发展
        25
    buaishi   54 天前 via Android
    @DOUWH 明白了
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1122 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 23ms · UTC 23:38 · PVG 07:38 · LAX 15:38 · JFK 18:38
    ♥ Do have faith in what you're doing.