V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
zror
V2EX  ›  Python

想系统的学一下爬虫,各位大佬有没有比较好的,比较系统的教程,最好是从零开始。

  •  
  •   zror · 192 天前 · 3183 次点击
    这是一个创建于 192 天前的主题,其中的信息可能已经有所发展或是发生改变。
    开始用 selenium 感觉还挺好用的,我说那就爬爬淘宝,然后刷一会就被淘宝限制了。网上反爬的教程一大堆,也不知道哪些是可行的。
    后来又发现有 Puppeteer 个东西,v 友有爬虫大神能分享点教程么 谢谢了
    第 1 条附言  ·  192 天前
    看了大家的回复,我准备从入门到放弃了
    33 条回复    2021-05-29 09:47:57 +08:00
    SlipStupig
        1
    SlipStupig  
       192 天前
    先从学习《网络安全法》学起,这不是开玩笑,我是认真的
    murmur
        2
    murmur  
       192 天前
    爬虫简单,反爬攻破难,需要经验,那都是别人吃饭的东西怎么可能随便分享给你,你上来就想挑战淘宝
    zror
        3
    zror  
    OP
       192 天前
    @murmur 我不是想爬淘宝的数据,就是想秒杀个玩具
    no1xsyzy
        4
    no1xsyzy  
       192 天前
    @zror 那不还是淘宝吗?能爬淘宝大概能算爬虫学硕士毕业。
    所有网站你只能一个个去试,指不定昨天刚封堵一个反爬方式。
    herozzm
        5
    herozzm  
       192 天前 via Android
    一来就调整高难题目,先爬爬小网站吧,无非就是验证码破解,ip 限制,前端加密等等
    chennuo
        6
    chennuo  
       192 天前
    真的!从 《网络安全法》学起!真的认真的 ~ 不要问我为什么?我是一个有故事的人!
    Lemeng
        7
    Lemeng  
       192 天前
    淘宝是非常钢的。建议参考上面大神的建议
    mschultz
        8
    mschultz  
       192 天前 via iPhone
    阿里系的很多网页(淘宝、高德地图)正常人类正常浏览都有困难吧(休息会儿呗,坐下来喝口水,我们马上回来)
    palexu
        9
    palexu  
       192 天前
    一上来就挑战电商网站。。。 这种大电商都养着一整个专业反爬虫团队呢
    Jwyt
        10
    Jwyt  
       192 天前
    哪有一上来就用自动化测试的东西弄爬虫的?
    建议先去看看 http 协议,python 的话先多用 urllib 和 requests
    获取数据之后是清洗数据,看看 html 解析、xml 、正则
    上面的用的差不多了,学习下爬虫框架,scrapy 、pyspider
    再深入的话就是反反爬和大规模爬虫性能这块了,包括 js 反解、app 抓包、逆向。。
    tuoov
        11
    tuoov  
       192 天前
    《 Python 网络爬虫权威指南》算是比较系统的基础爬虫教程,不过现在高级点的爬虫基本上都靠逆向和抓包,更多是偏实践的东西
    Numbcoder
        12
    Numbcoder  
       192 天前   ❤️ 1
    爬虫写的好,牢饭吃到老
    byte10
        13
    byte10  
       192 天前
    爬虫其实很简单的啦,如果高频的去爬就很难。你要先搞定账号,IP,这些搞定之后,去重写一个 开源的浏览器,然后把 GUI 那层 css 渲染去掉,基本就完美的爬了。
    shuxhan
        14
    shuxhan  
       192 天前
    从入门到入牢
    ysmood
        15
    ysmood  
       192 天前 via Android
    只是个人使用的话看看我写的这个教程 https://go-rod.github.io/i18n/zh-CN/#/
    imn1
        16
    imn1  
       192 天前
    没事,就三个步骤:抓页面,分析代码,保存(或下载文件)
    只是 2 用 python 比较省心,多年以前用 php 就一个编码都弄得头疼
    1/3 其实跟 python 没啥关系(哪个顺手都可以),我更多用 wget/aria2

    以前爬过几千万张图片(累计),可能上亿,现在没啥动力爬了,另一方面是封闭了,有帐号都不给看,更别说没帐号了

    最后,一开始就刷大厂,你真以为所见即所得啊,爬虫练手最好先找外面的,例如岛国(顺便学一下编码问题)
    buffzty
        17
    buffzty  
       192 天前
    @imn1 哪个语言写爬虫没有编码语言? 函数都不会用还写 php 吗? html 适合你
    imn1
        18
    imn1  
       192 天前
    @buffzty #17
    我不知道你这么激动是为什么
    我说的编码指的是,gbk/big5/shift-jis/enc-k/utf8 这些,不是写代码
    php5.3 前在 windows 处理 unicode 是痛点,特别是非 ASCII 路径,5.3 后就没写过了,“多年前”指的是这个

    我以前就是用 php4 写的爬虫扒了 mm.taoba_.com 几百万张图片和模特资料,不过没空整理,都送人了
    我没任何歧视 php 的意思,我是因为发现 python 处理韩文 windows 路径很方便,才转过去的
    zhengfan2016
        19
    zhengfan2016  
       192 天前
    上来就是搞淘宝,你当淘宝那些 985,211,硕士都是纸糊的吗。你觉得你一人能搞得过人家几万人的团队?
    x86
        20
    x86  
       192 天前
    这是一上来就挑战最高难度的...
    tsuih
        21
    tsuih  
       192 天前 via Android
    秒杀建议写浏览器插件跑
    0044200420
        22
    0044200420  
       192 天前
    爬虫写得好 牢饭吃得早
    Yeen
        23
    Yeen  
       192 天前
    爬虫主要就是在反抓取和反反抓取的轮回里醉生梦死
    zjsxwc
        24
    zjsxwc  
       192 天前
    爬大众点评试试
    7075
        25
    7075  
       192 天前
    爬虫这东西,如果做好了,来钱很快。但是做好很不容易。上帝是公平的。
    lopetver
        26
    lopetver  
       192 天前
    崔庆才的博客是个好地方
    cdlnls
        27
    cdlnls  
       192 天前
    爬虫说简单也简单,说难也难。简单的模拟接口请求数据就行了,难的就有一堆东西,JS 要熟悉、人机验证、代理调度、数据清洗储存、逆向,还有性能,这里哪一块都能深入。
    godblessumilk
        28
    godblessumilk  
       191 天前 via Android
    秒杀可以写浏览器油猴插件脚本啊,爬虫正面刚,估计不可
    zror
        29
    zror  
    OP
       191 天前
    @godblessumilk 油猴我写了,但那个店铺的商品是不定时上架的,不是正常套路的秒杀。用油猴刷不出来商品上架了
    zone10
        30
    zone10  
       191 天前
    爬虫学点简单的确实有意思, 爬爬盗版小说, 小电影之类的. 如果是全职的话我是来劝退的, 一来容易入狱不说, 二来和反爬的不断内卷死磕, 相互加大对方的工作难度, 想想何必呢, 程序员何苦为难程序员
    ritaswc
        31
    ritaswc  
       191 天前
    真的!从 《网络安全法》学起!真的认真的 ~ 不要问我为什么?我是一个有故事的人!
    DeWjjj
        32
    DeWjjj  
       191 天前
    反扒其实是个体力活,每次要解决不同程度的数据欺骗和数据混淆。
    ch2
        33
    ch2  
       190 天前
    爬虫最难的就是反制,反制没有系统的学习方法,你必须至少达到跟对面同等的技术水平才能有效解决对方的反制,但是你那么牛逼的话干啥都比干爬虫强
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1343 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 17:19 · PVG 01:19 · LAX 09:19 · JFK 12:19
    ♥ Do have faith in what you're doing.