V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
dirls
V2EX  ›  Python

无聊初学 Python 爬虫,日常需要,写了个 IP 代理池程序,自动抓取几个代理网站的免费代理 IP,感觉 IP 质量好差,有没有什么好的建议?

  •  
  •   dirls · 2017-12-25 09:32:14 +08:00 · 6442 次点击
    这是一个创建于 2521 天前的主题,其中的信息可能已经有所发展或是发生改变。

    系统功能:
    ( 1 )自动爬取互联网上公开的免费代理 IP (目前已支持西刺代理、快代理、IP181 )
    ( 2 )周期性验证代理 IP 有效性
    ( 3 )提供 http 接口获取可用 IP

    系统逻辑架构:
    https://raw.githubusercontent.com/lsdir/proxypool/master/image/architecture.png

    GitHub:
    https://github.com/lsdir/proxypool

    各位大佬:
    抓取的 IP 质量好差,有没有什么好的替换方案?
    或者程序方面的其他建议都可以交流。

    23 条回复    2018-02-02 19:15:25 +08:00
    rootsir
        1
    rootsir  
       2017-12-25 09:53:33 +08:00
    花钱买
    shmon
        2
    shmon  
       2017-12-25 09:58:31 +08:00
    tq08iue
        3
    tq08iue  
       2017-12-25 10:33:47 +08:00
    免费的通常都没什么质量,像那些大量用这种代理刷人气之类的都是买的,一个 IP 可能几块钱甚至更低。
    mmz0707
        4
    mmz0707  
       2017-12-25 10:47:38 +08:00
    买高匿的要靠谱些吧
    yangzhezjgs
        5
    yangzhezjgs  
       2017-12-25 11:22:16 +08:00   ❤️ 1
    买,你可以去阿布云之类的,一块钱买一个小时先试一下
    vtwoextb
        6
    vtwoextb  
       2017-12-25 11:26:13 +08:00
    ioven
        7
    ioven  
       2017-12-25 11:38:37 +08:00
    对验证完成的 IP 根据端口、所在地进行分类,然后配置扫描
    zbl430
        8
    zbl430  
       2017-12-25 11:44:38 +08:00
    鲲鹏代理
    cdwyd
        9
    cdwyd  
       2017-12-25 11:48:15 +08:00
    就算是收费的很多也是垃圾 拨号 vps 最好用
    hotea
        10
    hotea  
       2017-12-25 14:13:19 +08:00
    @vtwoextb 重启路由器? 23333
    Zzde
        11
    Zzde  
       2017-12-25 14:16:22 +08:00
    质量差中调最好的来用
    vtwoextb
        12
    vtwoextb  
       2017-12-25 14:35:08 +08:00
    @hotea yes 程序自动判断 自动重启
    dongxiaozhuo
        13
    dongxiaozhuo  
       2017-12-25 14:54:21 +08:00 via iPhone
    jeterli
        14
    jeterli  
       2017-12-25 19:17:51 +08:00
    @vtwoextb 代理用多了居然忘了有这种操作,应该是重新拨号比较有效率,重启路由太慢了
    jeterli
        15
    jeterli  
       2017-12-25 19:24:52 +08:00
    VerifyProxy 可以做成针对目标检测,代理对于不同站点的可用性可能还不一样(比如已经被 Ban ),尤其这种开放的。
    vtwoextb
        16
    vtwoextb  
       2017-12-25 20:26:20 +08:00
    @jeterli 可以重新拨号
    lhx2008
        17
    lhx2008  
       2017-12-25 20:45:18 +08:00 via Android
    买吧,很多收费的自己的服务器揽了家庭宽带的 ip,不是扫的
    Soar360
        18
    Soar360  
       2017-12-25 22:26:02 +08:00   ❤️ 2
    又得秀一波我写的了。最近爬虫用的很 high ~
    https://proxy.coderbusy.com/
    mztql
        19
    mztql  
       2017-12-26 04:11:03 +08:00 via iPhone
    首先有免费的 api,但是免费代理的时效性和连通率都差太多了,最优的是拨号 vps
    dirls
        20
    dirls  
    OP
       2017-12-26 09:57:31 +08:00
    感谢各位 V 友回复<br>
    总结起来 2 种替代方案:<br>
    1、花钱买<br>
    2、自己拉网线自动拨号重启切换 IP<br>
    无奈以后爬虫要部署在阿里云之类的云主机的,拨号方案不可取。花钱买代理,系统太依赖别人,IP 质量也参差不齐,嘤嘤嘤。
    huanter
        21
    huanter  
       2017-12-26 13:45:50 +08:00
    @dirls
    我也初学 PYTHON
    我用的你的代码试着添加一个 Plugin
    网址如: https://proxy.coderbusy.com/zh-cn/classical/anonymous-type/transparent/p2.aspx
    但报错了。
    Log 如下:



    2017-12-26 13:26:49,535 connectionpool.py[line:805] INFO Starting new HTTPS connection (1): proxy.coderbusy.com
    2017-12-26 13:26:49,541 getproxy.py[line:71] ERROR request error, spider plugin: 码农, url: https://proxy.coderbusy.com/zh-cn/classical/anonymous-type/transparent/p9.aspx/, error: maximum recursion depth exceeded



    求解答。
    谢谢!!!
    hjuj91
        22
    hjuj91  
       2017-12-29 21:10:21 +08:00
    为啥不用 tor ?
    sw10
        23
    sw10  
       2018-02-02 19:15:25 +08:00
    /t/424630

    我们有提供代理 ip 服务。最近有几位 v 友在使用,反馈还不错。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5944 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 02:21 · PVG 10:21 · LAX 18:21 · JFK 21:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.