V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
mokeyjay
V2EX  ›  Python

萌新边学边写、基于 Python3 的 Yande.re 图片爬虫

  •  
  •   mokeyjay ·
    mokeyjay · 2017-03-07 22:56:58 +08:00 · 2867 次点击
    这是一个创建于 2861 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Yande.re 图片爬虫

    前言

    每天打开电脑第一件事,就是打开Y 站,看看又更新了哪些图片、其中又有哪些适合作为壁纸

    日久天长,总会感觉浪费时间精力,每天都要在一堆图片里找 PC 壁纸

    这可不符合我作为一个码农的身份

    正好最近想学学Python3,于是一边看着廖学峰的 Python 教程一边撸出来这个项目。写得很差,轻喷

    本项目基于Win7Python3.5.2开发,其他环境下未测试

    功能

    • 支持从指定的开始页码爬取到结束页码
    • 也支持从第一页爬取到上一次开始爬取的位置
    • 支持设置爬取的图片类型(全部、横图、竖图、正方形)
    • 支持最大或最小图片尺寸宽高比限制
    • 按照当天的日期创建目录并存放爬取的图片
    • 爬取结束后会在图片目录下生成日志文件

    如何使用

    必须 编辑Function.py5行,将该变量的值设为自己想要的目录,程序将会自动创建,路径必须以斜杠结尾

    • 方案一:如果想要从开始页码爬到结束页码,请修改index.py12行和第15行的两个变量;
    • 方案二:如果想要从开始页码爬取到上一次开始爬取的位置,请修改index.py15行的值为0。还有last_start_id.data的内容,改为某张图片的 id 即可。爬到此图片时程序将停止。该方案下推荐将开始页码设为1,相当于每次执行都只从新增的图片中爬取

    例如某图片的详情页 Url 为:https://yande.re/post/show/346737,则图片 id 为346737

    然后命令行执行python index.py即可( Windows 下)。 Linux 下可直接执行

    注意事项

    值得一提的是,无论使用哪种方案运行,last_start_id.data的内容都会被自动修改为爬取到的第一张图片的 id

    这样做的目的是为了实现方案二,相当于每次执行都只从新增的图片中爬取。比较适合设置为自动运行之类的

    项目地址

    https://github.com/mokeyjay/Yandere-crawler

    4 条回复    2017-03-08 14:14:21 +08:00
    menduo
        1
    menduo  
       2017-03-07 23:24:21 +08:00 via iPhone
    酷!
    fengxiang
        2
    fengxiang  
       2017-03-07 23:28:12 +08:00
    mokeyjay
        3
    mokeyjay  
    OP
       2017-03-08 08:23:09 +08:00 via Android
    @fengxiang 我在写这个程序的时候也注意到了……并发会导致被禁止访问一阵子,所以最终成品是单线程的……跟我手动访问也差不多啦
    green68599
        4
    green68599  
       2017-03-08 14:14:21 +08:00
    66666666,大神给跪
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3169 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 13:12 · PVG 21:12 · LAX 05:12 · JFK 08:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.