V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
cr4fun
V2EX  ›  Python

用 Python 抓取图片,用 wget 下载,那速度,让你怀疑人生

  •  
  •   cr4fun · 2018-08-02 16:35:54 +08:00 · 6234 次点击
    这是一个创建于 2084 天前的主题,其中的信息可能已经有所发展或是发生改变。

    1、clone

    git clone https://github.com/pmthink/get_pic_for_4chan.git
    

    2、install

    cd get_pic_for_4chan
    
    pip3 install -r install.txt
    

    3、download

    python3 get2.py
    

    demo

    demo

    说明,本来想用多线程的,但是搞来稿去,觉得还是 wget 简单粗暴有效。

    后续,打算做成 sqlite 的,把每个图片存进去,以便日后更新时不重复下载。

    当然,为了追溯,最好能用区块链把图片的指纹给上链,哈哈哈。

    声明,本程序默认下载 diy 频道的手工制作方面的图片,你们若用这个爬虫下载其他频道的东西,毁了三观可和我无关。

    16 条回复    2018-08-07 17:49:34 +08:00
    qsnow6
        1
    qsnow6  
       2018-08-02 16:45:28 +08:00 via iPhone
    迅雷了解下
    Mogugugugu
        2
    Mogugugugu  
       2018-08-02 17:03:36 +08:00
    搞出一堆下载链接,然后扔在迅雷里面不就好了么 - -
    OpenJerry
        3
    OpenJerry  
       2018-08-02 17:07:18 +08:00 via Android
    楼上+1,把下载链接整理好,批量导入专门的下载工具
    imn1
        4
    imn1  
       2018-08-02 17:12:00 +08:00
    1.下载工具
    2.多个 wget 一起来,我以前就是这样
    imn1
        5
    imn1  
       2018-08-02 17:12:59 +08:00
    @imn1
    3.pip install wget
    import wget
    ……
    annielong
        6
    annielong  
       2018-08-02 17:55:20 +08:00
    以前懒省事,也用 python 采集图床,直到下载到两三百兆大小的 GIF 文件,把 python 拖崩溃
    tomfs
        7
    tomfs  
       2018-08-02 17:56:45 +08:00
    python 调用迅雷的 SDKServer 了解下?
    shengyu
        8
    shengyu  
       2018-08-02 18:19:47 +08:00
    RPC 调用 aria2 怎么样
    cr4fun
        9
    cr4fun  
    OP
       2018-08-02 18:29:49 +08:00
    @shengyu 这个比较好,至少可以丢到服务器上去下载。
    longyutao444
        10
    longyutao444  
       2018-08-02 21:47:39 +08:00
    还好有最后一句,要不谁知道是 hm 还是 hc …
    RqPS6rhmP3Nyn3Tm
        11
    RqPS6rhmP3Nyn3Tm  
       2018-08-02 22:56:20 +08:00
    switch fork()
    case 0: execl(blah blah)
    msg7086
        12
    msg7086  
       2018-08-03 03:41:44 +08:00
    aria2 的链接文件批量下载了解一下,还能重用 HTTP 连接。
    xiaqi
        13
    xiaqi  
       2018-08-03 07:24:52 +08:00 via Android
    调用 wget,还不如调用 axel,多线程,而且还不怕网络中断
    cz5424
        14
    cz5424  
       2018-08-03 09:28:17 +08:00 via Android
    系统命令调用 wget &😉
    jimmyczm
        15
    jimmyczm  
       2018-08-03 09:41:09 +08:00
    我用 requests。。感觉还可以
    cr4fun
        16
    cr4fun  
    OP
       2018-08-07 17:49:34 +08:00
    @jimmyczm requests 很慢啊
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3478 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 11:51 · PVG 19:51 · LAX 04:51 · JFK 07:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.