首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
V2EX  ›  Python

深夜兴奋,想要开源个代理池,大家能否帮我把把关,目前还未实现

  •  
  •   Lateautumn · 191 天前 · 1446 次点击
    这是一个创建于 191 天前的主题,其中的信息可能已经有所发展或是发生改变。

    具体地址在这里,由于写的有点匆忙,就请大家见谅啦,https://github.com/lateautunm/aioip

    7 回复  |  直到 2018-10-15 11:45:58 +08:00
        1
    munn   190 天前 via iPhone
    厉害了 手动支持
        2
    Lateautumn   190 天前
    @munn 没有没有,辣鸡一只
        3
    SpiderXiantang   190 天前
    免费代理池最大的问题是可用率
        4
    dorothyREN   190 天前
    有个问题就是怎么验证有效性,或者多长时间验证一次有效性。
        5
    Lateautumn   190 天前
    @SpiderXiantang 对,就是因为网络上爬来的 IP 数据格式比较乱,可用性比较低,才更需要实时,快速准确的识别有效的 IP,所以对于这个项目来说,最重要的也就是关于大数据方面的处理,这个可能以后需要更加精准的优化,目前来说只是希望用 kafka 做个实时流处理。
        6
    Lateautumn   190 天前
    @dorothyREN 这个是两个问题,( 1 ) Q:怎么验证有效性; A:若是抓取的 IP 有有效时间根据有效时间来判断,如果没有,则是根据比较大众的方法,采用将 IP 作为代理去访问网站看是不是连接的上( 2 )多长时间验证一次有效性:这个时间间隔主要也是考虑到有些网站的 IP 会显示最后验证时间,所以根据这个来判断, 我会将这个时间设置为 1 分钟。
    有个很严重的问题就是 IP 数量非常大的时候,以每分钟去验证 IP 会有难度,这个我觉得以后也是一个有优化空间的点。
        7
    asszxx123123   188 天前
    顶楼主一个。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3932 人在线   最高记录 4385   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 19ms · UTC 02:28 · PVG 10:28 · LAX 19:28 · JFK 22:28
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1