首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
V2EX  ›  Python

人生的第一个 5k-star 项目诞生,感谢 V2EX 上所有的人,为此我要贡献一篇爬虫从入门到熟练的教程

  •  
  •   CriseLYJ · 201 天前 · 9609 次点击
    这是一个创建于 201 天前的主题,其中的信息可能已经有所发展或是发生改变。

    人生的第一个 5k-star 项目诞生,感谢 V2EX 上所有的人,为此我要贡献一篇爬虫从入门到熟练的教程

    [5kstar 项目地址]https://github.com/CriseLYJ/awesome-python-login-model()

    真心感谢 V2EX 上的所有的人,但是就想总结一下发几个小脚本,然后突然有很多人支持我,真的很感谢,如果没你们的支持,可能这个项目就不会一直走下来。所以我还是感谢!谢谢谢
    • 为了不辜负你们的支持,前段时间决定了写一套系统的爬虫教程,用来感谢这里的所有人,当然也有其他支持我的人!

    • 教程包括:js 逆向,xpath,bs4,正则,selenium, tesseract OCR 识别,mongodb 的使用,以及 scrapy 框架

    • 囊括搜有知识:如果你能吸收完,那么你可以爬取市面上 90%的网站,绝对没吹牛!

    • 在学习之前请务必掌握一些蟒蛇基础知识,之后我们就可以开始了!

    • 项目预估时间 20 天左右,平均两天更新一章内容,敬请期待........

    • 项目是免费的,所以你们要是喜欢可以给个 star,或者在 ISSUES 中留言都可以

    最后放项目地址点击此处跳转至 github

    100 回复  |  直到 2019-05-01 14:07:37 +08:00
        1
    CriseLYJ   201 天前
    第一个链接多了个括号,访问的时候记得删除掉。。。。失误各位
        2
    Bigglesworth   201 天前 via Android
    支持一下。
        3
    CriseLYJ   201 天前
    @Bigglesworth 多谢了,内容很丰富!
        4
    Willjim   201 天前 via Android
    @CriseLYJ MD 语法用错,几分钟内还可以改。教程收下了慢慢看,赞一下先!
        5
    CriseLYJ   201 天前
    @Willjim 怎么改求教求教
        6
    Willjim   201 天前 via Android
    @CriseLYJ 文章下面有个 edit 呀😂
        7
    guog   201 天前 via Android
    [地址别名](链接)
        8
    Foreverdxa   201 天前
    这些网站真是太棒了,新手来学习很舒服
        9
    barrelsoil   201 天前
    看了下第一篇,很详细~
        10
    CriseLYJ   201 天前
    @Willjim 没找到 可能我之前放链接的时候没有放到括号里面
        11
    teslayun   201 天前
        12
    luboyan   201 天前 via Android
    支持下大佬
        13
    CriseLYJ   201 天前
    @Foreverdxa 感谢
        14
    CriseLYJ   201 天前
    @barrelsoil 嘿嘿
        15
    CriseLYJ   201 天前
    @teslayun 感谢
        16
    sinver   201 天前
    @CriseLYJ 如果可以,教程建议变更为视频版放到 B 站 [单个文件 2G 内保持原画不压缩] 。文字版读起来有些枯燥且内容多了之后会变更成手册,视频版可提高转播属性,给你带来更多 Star :D
        17
    CriseLYJ   201 天前
    @luboyan 不是啥大佬啦
        18
    CriseLYJ   201 天前
    @sinver 现在时间不是很多啊!我尽可能写详细点,不过还是多谢你的建议,等我有时间我可以尝试尝试
        19
    tumbzzc   201 天前 via Android   ♥ 1
    果然都喜欢聚合型的东西,即使都是一开始楼主拿来都是网上收集来的旧老代码
        20
    CriseLYJ   201 天前
    强烈建议,http 一定要好好看!因为很有用!
        21
    HuasLeung   201 天前   ♥ 1
    支持 虽然我不写 python ……
        22
    CriseLYJ   201 天前
    @HuasLeung 哈哈 感谢
        23
    capre   201 天前
    加油楼主,以前用过一次 selenium 不太深入,期待楼主写的这个
        24
    CriseLYJ   201 天前
    @capre selenium 不太好用的其实,一般都是 js 逆向
        25
    miv   201 天前
    像这种开源无私的我强烈支持,自己也虽然不是专业搞爬虫的,不过这东西很有价值。另外,也想学习 selenium,所以就期待楼主的教程了!已经 start !!支持!!
        26
    xiongxiaoyang   201 天前
    感谢
        27
    694169224   201 天前
    加油楼主
        28
    Ehco1996   201 天前
    我前几年写爬虫也搞了一个类似的 repo https://github.com/Ehco1996/Python-crawler
        29
    zhuzhibin   201 天前 via iPhone
    404 page
        30
    CriseLYJ   201 天前
    @miv 好的
        31
    CriseLYJ   201 天前
    @zhuzhibin 删掉后面的括号
        32
    CriseLYJ   201 天前
    @Ehco1996 很棒,哈哈
        33
    anyuhanfei   201 天前
    支持支持
        34
    adrianyoung   201 天前
    支持一下,自己也写爬虫,借楼主宝地打个广告 [爬虫监控 demo]( https://github.com/adrianyoung/CrawlerMonitor)
        35
    zhuzhibin   201 天前 via iPhone
    @CriseLYJ 哦没仔细看 直接点的
        36
    wangchonglie   201 天前
    已 star
        37
    VictorFrank1   201 天前
    火钳
        38
    spidermansam   201 天前
    已 star,加油
        39
    yasumoto   201 天前
    支持一下 已 star
        40
    CriseLYJ   201 天前
    谢谢各位的支持
        41
    madtwilight   201 天前 via Android
    支持
        42
    lpdy4   201 天前 via iPhone
    感谢。已收藏
        43
    CriseLYJ   201 天前
    @lpdy4 谢谢
        44
    CriseLYJ   201 天前
    @madtwilight 谢谢
        45
    XiaolinLeo   201 天前 via iPhone
    支持支持
        46
    CriseLYJ   201 天前
    @XiaolinLeo 感谢感谢
        47
    zz25   201 天前
    萌新感觉不错,先 Star,说不准以后会学到
        48
    aoe2ex   201 天前
    star 为敬
        49
    godgc   201 天前
    学习学习~~
        50
    luckyswag   201 天前
    学习
        51
    CriseLYJ   201 天前 via iPhone
    多谢支持🙏
        52
    Sivan2017   201 天前
    支持
        53
    kuyuzhiqi   201 天前
    404 代表 5k star 的项目不存在
        54
    nznd   201 天前
    哇 老哥要是有投稿 b 站的计划的话 我可以帮忙做一些吗 录制 后期 剪辑 字幕 啥的 都会一点
        55
    supersadmin   201 天前 via iPhone
    已用
        56
    way2create   201 天前
    支持 虽然不是搞这个的
        57
    CriseLYJ   201 天前
    @nznd 如果搞得话,我联系你性阿布
        58
    CriseLYJ   201 天前
    @kuyuzhiqi 去掉链接后面的括号,我写的时候写错了
        59
    nznd   201 天前
    @CriseLYJ #57 好的哦 ;)
        60
    kodSen   201 天前 via iPhone
    开源很棒,多谢,学习一下
        61
    CriseLYJ   201 天前
    @kodSen 谢谢
        62
    Majeriot   201 天前
    支持支持
        63
    CriseLYJ   201 天前
    @Majeriot 谢谢
        64
    baicai0817   201 天前 via iPhone
    支持
        65
    rosu   201 天前 via Android
    先 watch,等楼主更新了再 star (滑稽
        66
    hfutzj   201 天前 via Android
    支持一下
        67
    chungzhao   201 天前
    支持!
        68
    CriseLYJ   201 天前
    谢了各位,希望对你们有帮助
        69
    meteor957   201 天前
    已 start
        70
    JeongReich   201 天前 via Android
    已收藏 最近在学。
        71
    CriseLYJ   201 天前
    今天应该可以更新
        72
    mythace   201 天前
    请问下你的项目都是 python 3 写的吗?怎么 instal 老是失败
        73
    CriseLYJ   201 天前
    @mythace 对啊 python3
        74
    Exia   201 天前
    不错,帖主试试花瓣
        75
    ronman   201 天前 via Android
    很好,两个项目都 star 了,平时虽然也在用爬虫,但是都是小打小闹,正需要一个系统的知识,辛苦楼主了。
        76
    Exia   201 天前
    教程很赞,果断 star
        77
    ronman   201 天前 via Android
    对了多问一句,完成更新后会考虑以 git book 的形式整合吗?这样更加方便查阅
        78
    CriseLYJ   201 天前
    @ronman 可以尝试
        79
    CriseLYJ   201 天前
    @Exia 谢谢
        80
    0x000007   201 天前
    /t/541855 砸场子的来了
        81
    0x000007   201 天前
    @0x000007 贴错了 /t/550323
        82
    CriseLYJ   201 天前
    @0x000007 不喜欢我也没办法,毕竟我不能满足所有人,这里我想请问一下,你能帮我定义一下爬虫吗??能帮我定义一下 http 吗??钢精。。。。。
        83
    Meli55a   201 天前
    淘宝的不知道失效没,先 star + 1 再说
        84
    CriseLYJ   201 天前
    我就不过多解释了行吧,你们开心就好
        85
    xyb12138   201 天前
    支持,想系统的学习一下爬虫知识,已 star~
        86
    0x000007   201 天前
    @CriseLYJ 我杠你啥了?我只是贴个链接告诉你有人砸你场子,我这就杠了?
        87
    CriseLYJ   201 天前
    @0x000007 那不好意思,兄弟,行吧!我误解你了,等我写完所有东西,我新开一个帖子,你们再来发表观点好不好?现在就只是个预备知识!
        88
    chen11   201 天前
    支持一波,感谢
        89
    jarry118   201 天前
    感谢大佬
        90
    xxx78797084   201 天前
    支持大佬
        91
    EyreFree   201 天前
        92
    cnzzz   201 天前
    多谢教程,很详细很多干货,支持大佬
        93
    shuangyeying   201 天前
    用 Java 写过 selenium,确实非常方便。
        94
    persimmon   201 天前   ♥ 1
    That's why we cannot have nice things in China now.
        95
    belin520   200 天前 via iPhone   ♥ 1
    不是说 5k 吗?怎么才 660 个 star
        96
    chpiter   199 天前
    加油
        97
    asus10tu   198 天前
    非常感谢大佬!
        98
    wdcrgb   197 天前
    学习了
        99
    iorilu   187 天前
    厉害了, 爬虫高手啊, 收藏学习了
        100
    liwenbest   169 天前
    期待更快地更新哈 谢谢分享
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1867 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 31ms · UTC 16:22 · PVG 00:22 · LAX 09:22 · JFK 12:22
    ♥ Do have faith in what you're doing.