V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
wangleineo
V2EX  ›  分享创造

宅男福利 - 一个图片爬虫,基于 Tornado 协程

  •  
  •   wangleineo ·
    RealHacker · 2015-09-21 23:55:33 +08:00 · 6786 次点击
    这是一个创建于 3370 天前的主题,其中的信息可能已经有所发展或是发生改变。

    写了一个基于 Tornado 的图片爬虫: https://github.com/RealHacker/python-gems/tree/master/image_crawler

    成果展示:
    成果展示

    只需要两步:
    - 在 ini 文件中设置几个选项:

    ; start url for crawler
    starturl  = http://pic.kdslife.com/
    
    ; regexes for links and image urls
    linkregex=http://pic.kdslife.com/content_.*.html
    imgregex=http://img.club.pchome.net/.*.jpg
    
    ; integer>=1, larger politeness means slower crawling
    ; but also less likely to be denied service
    politeness=3
    
    ; the directory to store the downloaded images
    imgdir=E:/kds/
    
    ; the min size of images that you want to download
    minwidth=200
    minheight=200
    
    • 执行python crawler.py http://start-url-to-crawl

    然后就等着收获吧!

    欢迎报 bug ,提需求。

    17 条回复    2015-09-23 22:34:52 +08:00
    Tink
        1
    Tink  
       2015-09-21 23:58:23 +08:00
    原来大家都好这口
    wangleineo
        2
    wangleineo  
    OP
       2015-09-21 23:59:46 +08:00
    @Tink 人家只是研究爬虫,图片看也不看全删掉的 :)
    Tink
        3
    Tink  
       2015-09-22 00:01:59 +08:00
    @wangleineo 大家都懂 233
    kchum
        4
    kchum  
       2015-09-22 00:25:28 +08:00 via iPad
    先收藏 😁
    veau
        5
    veau  
       2015-09-22 07:59:27 +08:00
    原来大家都好这口
    vietor
        6
    vietor  
       2015-09-22 08:26:35 +08:00 via Android
    加数据库支持,关键字搜索, Web 预览,才行
    radio777
        7
    radio777  
       2015-09-22 10:06:32 +08:00
    硬盘不够大啊
    alohathomas
        8
    alohathomas  
       2015-09-22 11:38:10 +08:00
    小白表示不知道怎么用。
    nisnaker
        9
    nisnaker  
       2015-09-22 11:54:37 +08:00
    新手表示也想练手,请各位不吝推荐图片站~~
    @all
    nisnaker
        10
    nisnaker  
       2015-09-22 11:55:13 +08:00
    我靠, v2 真有人叫 all
    jamesfuxk
        11
    jamesfuxk  
       2015-09-22 14:02:15 +08:00
    请问下,你是针对什么网站爬的?
    zkzipoo
        12
    zkzipoo  
       2015-09-22 14:54:47 +08:00
    1.登陆模块?
    2.命名规则?
    zhajming
        13
    zhajming  
       2015-09-22 15:14:25 +08:00
    onlyxuyang
        14
    onlyxuyang  
       2015-09-22 18:52:01 +08:00 via Android
    @zhajming 有水印 非高清 …… 差评…… 不抓……
    wangleineo
        15
    wangleineo  
    OP
       2015-09-22 21:54:53 +08:00
    @vietor 额 scrapy 好像都没有这么多功能吧
    @jamesfuxk 图片站
    @zkzipoo 命名规则现在就是简单的 4 位数字
    @zhajming @onlyxuyang 只是拿这个站做个例子,改配置就可以爬别的网站。
    scenix
        16
    scenix  
       2015-09-23 12:56:48 +08:00
    哈哈 你这是把全站都爬下来的节奏啊。

    我闲着没事写过一个从 1024 指定帖子页爬图转成 PDF 的,众所周知的原因还支持 socks5 代理。

    https://github.com/scenix007/1024toPDF
    gaocegege
        17
    gaocegege  
       2015-09-23 22:34:52 +08:00
    咋不用 scrapy 啥的呢~
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2226 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 15:58 · PVG 23:58 · LAX 07:58 · JFK 10:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.