V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
sivacohan
V2EX  ›  问与答

在写一个爬虫代理服务,有人需要吗?

  •  
  •   sivacohan · 2016-09-02 13:10:17 +08:00 · 4111 次点击
    这是一个创建于 2765 天前的主题,其中的信息可能已经有所发展或是发生改变。
    因为之前写了一些小爬虫,管理代理池一直是一个很麻烦的事情。所以就写了一个小东西。来帮助自己管理代理池,自动更换出口代理 IP 。

    目前已经实现的功能有:
    1 、标准的 HTTP 代理 Basic Auth
    2 、利用 HTTP header 来区分进程,即一台服务器上有多个 fetcher 进程将分配多个出口 IP
    3 、对于同一个进程,按照不同的请求域名进行分流,即一个 fetcher 也有可能会分得多个 IP
    4 、状态监控,对于返回 403 , 500 的请求直接更换出口 IP
    5 、简单的,基于正则的结果验证,用户可以检测“请输入验证码”,“稍后再试等情况”
    6 、目前支持 GET, POST, PUT, DELETE 方法

    正在准备支持的功能:
    1 、增加 Web 管理界面
    2 、增加 HTTPS 支持,目前不支持 connect 方法
    3 、为部分网站增加缓存

    简单来说,这就是一个代理服务,与常规代理不同的是,我可以为一台机器分配更多的出口,极限情况为:一台机器的 fetcher 进程数 n ,抓取的网站数量 m ,出口数量 p = n*m

    有人对这个东西有兴趣吗?如果做成一个平台,你希望得到什么样的服务,以及你愿意为这个服务支付多少费用呢?
    16 条回复    2017-02-02 00:27:47 +08:00
    pango
        1
    pango  
       2016-09-02 13:16:17 +08:00
    其他都是空的。
    关键是:你们有多少个 ip ?都分布在哪些国家?都是干净的吗?
    laoyuan
        2
    laoyuan  
       2016-09-02 13:27:56 +08:00
    接口可以简单点,两个参数验证身份,一个目标 URL ,一个方法,一个 POST 的 raw data 。
    费用可以设几个档,我大概一个月几千万请求,不到一个 T 流量,可能用到几十上百个 IP ,一月 100 块钱肯定出的起。
    gimp
        3
    gimp  
       2016-09-02 13:35:12 +08:00
    @laoyuan 这个需求, 100 软妹币太少太少了。
    laurent
        4
    laurent  
       2016-09-02 14:14:33 +08:00
    我最近也写了个类似的东西,实际使用下来,发现最关键的还是代理 IP 的质量。代理 IP 质量不好的话,爬虫大多数时间都卡在等待可用 IP 上了。所以觉得这个服务的最大价值在于代理 IP ,那么定价自然是参考其他的代理 IP 提供商咯。
    sivacohan
        5
    sivacohan  
    OP
       2016-09-02 14:50:54 +08:00
    @pango 目前正在计划,主要就面向国内用户了。当前自己用了 20 多个 IP ,主要是阿里云和百度云的。如果有人需要的话,就再买些 IP 咯。网上的免费 IP 只能当玩具用。


    @laoyuan 不知道你爬去的是什么网站。我流量和你差不多,总共才用了 10 个 IP 。

    @gimp 终于有人给了一个中肯的评价了。他那个需求,自建的成本怎么也得 3k 到 4k 。

    @laurent 我现在是想找些人自建 IP 池,免费 IP + 各种云的 IP + 少量 ADSL 小区宽带。而实际上,我这个不太好定价。代理服务商是多少钱多少 IP ,封了就没了。我是根据爬去情况动态更换的。有人捣乱我这边会跪的很惨的……
    herozzm
        6
    herozzm  
       2016-09-02 18:29:04 +08:00 via Android
    关心 IP 池怎么来的
    imn1
        7
    imn1  
       2016-09-02 18:36:13 +08:00
    同 1 楼,我想爬北都集团, 2333
    fchypzero
        8
    fchypzero  
       2016-09-02 20:54:53 +08:00 via Android
    對這套感興趣,畢竟手上有很多 ADSL 寬帶
    gimp
        9
    gimp  
       2016-09-03 00:07:18 +08:00
    https://luminati.io/
    http://crawlera.com/
    https://www.proxyrain.com/

    挺正规的爬虫代理服务商,价格供参考。
    scnace
        10
    scnace  
       2016-09-03 01:34:53 +08:00 via Android
    好巧 我最近也在写 我连 ip 池都是免费的代理那里抓来的 233 大概有 7w 个 还没测 不知道能用的有多少。。。
    daiv
        11
    daiv  
       2017-01-11 09:11:00 +08:00
    楼主做出来了吗?
    我想要稳定一些的代理 IP 。

    例如一个 IP 用一个星期
    sivacohan
        12
    sivacohan  
    OP
       2017-01-11 15:03:41 +08:00 via Android
    @daiv

    做完自己用了,只做 IP 池管理。
    你的需求可以考虑用 bae 的 Python worker 版,单个 IP 一个月大概才 4 块钱。
    daiv
        13
    daiv  
       2017-01-11 15:10:11 +08:00
    @sivacohan 这么好? 我去试试。 除了 IP 费用,其他无费用了?
    sivacohan
        14
    sivacohan  
    OP
       2017-01-11 16:12:14 +08:00 via Android   ❤️ 1
    @daiv bae ,提供一个 Python worker 环境。选最低内存最便宜那个。

    在上面部署一个 tornado 的代理。
    然后你需要申请一个端口转发,每月好像一块钱吧。

    很简单,看一下就明白了。这是市面上能直接买到的最便宜的 IP 了。
    hadoop
        15
    hadoop  
       2017-02-01 23:59:00 +08:00
    @sivacohan 赞啊,这思路不错。如果 bae 能自动开,就更好了。带宽被限制了吧?
    sivacohan
        16
    sivacohan  
    OP
       2017-02-02 00:27:47 +08:00 via Android
    @hadoop

    没法自动开,接口都跪了。
    单个用户限制 100 个 bae 实例。
    而且量大的话,可能会有几个 bae 分到一个 ip 的情况。
    玩玩可以,实际的话,成本肯定更高。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2942 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 14:01 · PVG 22:01 · LAX 07:01 · JFK 10:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.