V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
broono
V2EX  ›  分享创造

分享几个自家造的 python 轮子 :)

  •  
  •   broono · 2016-07-26 10:50:31 +08:00 · 2679 次点击
    这是一个创建于 2857 天前的主题,其中的信息可能已经有所发展或是发生改变。
    学 python 有些时间了,期间断断续续写了些东西,第一次来 V 站分享,求关照 :D

    1. alibabaa 爬点 s.1688.com 搜索结果,主要功能是获取搜索请求返回数据包并解析,并未获取商品详情页面信息 传送门: https://github.com/brunobell/freexici

    2. qiushibaikee 爬点糗事百科的帖子和用户,思路是先爬取每个分类的前 35 页,把获取到的帖子和用户信息记录写入,然后读取爬取到的用户列表,爬取用户首页信息包括用户资料和一部分有关联和互动的用户,好像其实百科防的比较严没找到爬取每个用户发帖页面的思路 传送门: https://github.com/brunobell/qiushibaikee

    3. freexici 爬取西刺免费代理,由于免费代理基本是快消品,只是爬取每个分类最新 1 页内容,验证访问百度通过之后写入本地当前目录代理列表文件,运行时检测代理列表文件修改时间超过 24h 则自动更新 传送门: https://github.com/brunobell/freexici

    4. autouseragents 在线获取大量浏览器 or 爬虫的 UA ,使用 random_agent()方法即可返回随机 UA ,支持指定操作系统和浏览器类型 传送门: https://github.com/brunobell/autouseragents
    2 条回复    2016-07-27 12:55:24 +08:00
    shindo10
        1
    shindo10  
       2016-07-26 11:33:11 +08:00
    先收藏了,感谢分享
    pango
        2
    pango  
       2016-07-27 12:55:24 +08:00
    autouseragents 不错
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3034 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 00:47 · PVG 08:47 · LAX 17:47 · JFK 20:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.