首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
V2EX  ›  Python

写了一个人人网信息备份工具,敬请指教

  •  1
     
  •   whusnoopy · 2018-08-20 11:35:12 +08:00 · 3348 次点击
    这是一个创建于 391 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前阵子人人网又冒了个热点,在热点事件前就考虑是不是把自己的人人信息备份下来。找了一圈,之前的各个备份工具在 2017 年人人登录机制改变后就都不能用了。参考前辈们的经验,写了这么一个工具:

    https://github.com/whusnoopy/renrenBackup

    目前可以

    1. 邮箱密码登录
    2. 抓取自己的 状态、留言板、相册、日志 及对应的评论和点赞信息
    3. 抓取指定用户,被当前登录用户可见的上述内容
    4. 用 Flask 展示抓取的信息

    1. 头像、照片都抓到本地了,但是可能有因为人人的原因导致原图不存在的情况
    2. 原文评论和点赞评论都抓了,但有遗漏多半是人人自己的锅,登录到官方网页版都看不到
    3. 点赞数是对的,但只能显示最近 8 个点赞的人,也是人人接口的锅,官方网页版也只显示 8 个人

    还打算做的工作

    1. 纯静态输出(即脱离 Flask 查看,方便抓取后导给没有 Python 环境的其他人看)
    2. 对抓挂了的图的补救抓取(对应上面注 1 )
    3. RESTful + Vue.js 纯动态输出(自我学习玩)
    第 1 条附言  ·  305 天前
    纯静态输出已经完成,有环境的可以抓完了生成一个压缩包给别人,直接离线查看
    25 回复  |  直到 2019-05-19 17:20:01 +08:00
        1
    yanyuechuixue   2018-08-20 12:02:25 +08:00
    赞一下~ 这是有用的东西, 比什么知乎爬虫高到不知道哪里去了~
        2
    xream   2018-08-20 13:16:16 +08:00
    感谢 已备份
        3
    RYAN0UP   2018-08-20 13:20:18 +08:00 via Android
    不错不错
        4
    ys0290   2018-08-20 13:24:44 +08:00 via iPhone
    活在我的记忆中
        5
    matrix1010   2018-08-20 13:35:40 +08:00 via Android
    我以前按最近来访爬,爬了大概几万人
        6
    4u1kto   2018-08-20 13:57:56 +08:00
    谢谢提醒,已停用
        7
    sniper1211   2018-08-20 15:31:41 +08:00
        8
    vjnjc   2018-08-20 16:14:08 +08:00
    看起来不错,多谢分享
        9
    luanluan   2018-08-20 16:19:15 +08:00
    不错,我把它改一下
        10
    muyi   2018-08-20 16:20:24 +08:00
    非常实用,已备份,送上感谢~
        11
    wocanmei   2018-08-20 21:22:58 +08:00 via iPhone
    人人网好久不用了
        12
    mingyun   2018-08-20 23:03:58 +08:00
    进入主页就是一个妹子直播,还开着声音 现在人人网都这样了。。。
        13
    lemonda   2018-08-20 23:36:59 +08:00
    有人人的时候交往女生真是很容易啊
        14
    whusnoopy   305 天前
    今天看到新闻,人人网的社交资产已经被陈一舟卖掉了,真庆幸自己先留了个后手
        15
    neoprc   304 天前
    File "fetch.py", line 5, in <module>
    from playhouse.shortcuts import model_to_dict
    ImportError: No module named playhouse.shortcuts
        16
    whusnoopy   304 天前
    @neoprc 环境都装好了么?这个应该是 sqlite 库里的
        17
    crazybaikal   302 天前
    非常实用,感谢楼主!
        18
    hackpro   137 天前
    感谢大佬 非常棒的工具 已 Star

    提两点意见:
    1、浏览器中显示时支持左右方向键自动切换图片,这个比一个个点按钮体验要好很多
    2、当前显示大图的时候似乎是按照 Actual Size 模式显示的,能否做成 Fit 模式显示,这样不用滚轮上下滚了。用户查看原图的话可以考虑双击或者放大镜工具。

    再次感谢🙏
        19
    whusnoopy   137 天前
    @hackpro 麻烦直接在 GitHub 项目下提 issue 吧,issue 不仅仅是问题,也可以是建议,这样有助于统一管理,如果有其他人能做,也可以看到 issue 后提 Pull Request (或者你有空的话也可以把这两个功能做掉发个 PR 来)
        20
    whusnoopy   122 天前
        21
    whusnoopy   119 天前
    @hackpro 展示大图对宽高比过高的图片现在也加了最大高度限制,通过点击图片查看原图(可能会影响习惯了点图是看下一张操作),详见 https://github.com/whusnoopy/renrenBackup/issues/39
        22
    hackpro   119 天前 via iPad
    @whusnoopy 感谢 键盘快捷键现在已经很好用了 但是图片显示还是有的问题 每次都要上下拖动滚动条才能看全图片
    另外请教下如何按用户名 /相册名称层级导出原始图片 方便用其他软件查看 谢谢🙏
        23
    whusnoopy   119 天前
    @hackpro 看全图片这个可能还要再考虑下屏幕大小的适配优化,我开发调试是在 1920x1080 或 2560x1440 的分辨率下弄的,对更低分辨率或开了高 DPI 的是不太友好(捂脸

    按用户名和相册名称导出原始图片,这个可以参考下 export.py 下的 export_albums 这个方法,就是导出的时候别渲染页面,直接新建文件夹拷贝图片就好
        24
    hackpro   119 天前
    @whusnoopy 可以按照长宽中取 max 按照一定的比例缩放就行了
    另外更新之后的版本似乎经常出现验证码的问题 而且验证码按照弹出的图片输入四个汉字总是通不过

    get icode image, output to ./static/icode.jpg
    Input text on Captcha icode image
        25
    whusnoopy   119 天前
    @hackpro 就是这个缩放尺度把握不好,而且还有外部容器和内部图片的比例问题,前端设计还是见仁见智并且各种坑

    验证码的问题,建议换个 IP 后把之前的登录信息清掉后再试,这个是触发安全阈值的问题,如果你的号在不同的地方登录或同一个 IP 不停的登不同的号,容易触发验证码,这个和代码版本没有关系
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2091 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 26ms · UTC 12:07 · PVG 20:07 · LAX 05:07 · JFK 08:07
    ♥ Do have faith in what you're doing.