V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
qwe321
V2EX  ›  问与答

要开发动态代理 IP 项目,有什么需要注意的么

  •  1
     
  •   qwe321 · 2017-05-18 13:22:56 +08:00 · 6441 次点击
    这是一个创建于 2748 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本身做云主机和拨号 VPS,拥有的 IP 资源很多。发现很多客户买拨号 VPS 之类的过去自建代理 IP 然后做爬虫采集,但是这种客户的时间成本一般都比较高,拨号 VPS 因为各种因素(如运营商宽带大姨妈了)稳定性没办法很好的把控,对于大客户来说维护成本特别高。比如一些互联网巨头的程序猿再去做这些售后维护工作就太大材小用了(出现故障后需要客户先反馈给我们,然后我们进行处理)。市面上也存在着一些商业化代理 IP,但是或多或少都存在着一些弊端,比如 IP 切换的时间不受控制,或者带宽较低稳定性也不高等。我们想自己开发代理 IP 项目,原因一个部分就是因为我们的成本相对较低,另外一个如果我们直接提供给客户动态代理 IP 而不是拨号 VPS 的话,可以节省我们很大的人工量,因为出现问题的节点我们可以自行过滤掉,提供给客户的代理 IP 基本上能保障 99.99%的可用性,另外也可以提高我们产品的利润率。 所以,问题来了,想问问有做爬虫的朋友们,在使用代理 IP 的时候都有什么具体的需求?以便于我们在开发的过程中更加贴近客户的需求。

    56 条回复    2017-07-02 03:15:25 +08:00
    gdtv
        1
    gdtv  
       2017-05-18 13:27:15 +08:00 via Android
    我正需要很多 ip,希望可以提供 rest 接口,我从接口获取 ip,另外最重要的是价格要便宜
    firefox12
        2
    firefox12  
       2017-05-18 13:28:08 +08:00 via iPhone
    网上免费的 proxy 可用率太低 基本没办法翻墙
    firefox12
        3
    firefox12  
       2017-05-18 13:28:36 +08:00 via iPhone
    如果你们这个可以翻墙 还是不错
    shawngao
        4
    shawngao  
       2017-05-18 13:32:14 +08:00
    关注下,看后文
    klxq15
        5
    klxq15  
       2017-05-18 13:36:26 +08:00 via Android
    切换耗费的时间尽量小,价格合适
    qwe321
        6
    qwe321  
    OP
       2017-05-18 15:55:03 +08:00
    @gdtv 需要自己控制 IP 的切换时间么?如果普通的那种扫描来的代理 IP 貌似很便宜
    qwe321
        7
    qwe321  
    OP
       2017-05-18 15:55:57 +08:00
    @firefox12 这个不可能,与 ZF 政策相违背了,只会做国内的,主要用途就是爬虫采集之类的
    qwe321
        8
    qwe321  
    OP
       2017-05-18 15:57:19 +08:00
    @klxq15 我看了下目前市面上真正独享的代理 IP 价格大概都在月付 100-200 之间,切换频率貌似限制在 10-20S 之间。
    iannil
        9
    iannil  
       2017-05-18 16:09:18 +08:00
    要做动态 IP 的差异化吗?常年做爬虫类的东西,给你一些建议:
    1、指定省市区,越细分越好
    2、控制响应时间,根据客户本身的位置与 DNS 等,返回合适的代理,确保每次返回的 IP 代理速度优质,而不是爬虫尝试连了发现网络不行
    3、指定运营商,有线的电信、联通、长城、方正,无线的移动 4G,电信 4G,联通 4G
    4、指定目标,这个可能有争议,根据客户用 IP 的请求,分析客户的目标域名,那么如果其他客户请求 IP 的时候,一旦发现请求的也是这个域名,提示客户换一次 IP,这个 IP 被其他客户用来抓类似的目标了。

    暂时就想到这些...有再补充
    gdtv
        10
    gdtv  
       2017-05-18 16:49:29 +08:00 via Android
    切换频率是什么意思?
    binux
        11
    binux  
       2017-05-18 16:58:59 +08:00
    为什么代理 IP 会有切换频率这个东西?我们用的商业代理 IP,拿到都是用好几个月的。
    如果你要做切换,那就做个 forward 代理出口呗。
    gouchaoer
        12
    gouchaoer  
       2017-05-18 17:06:00 +08:00
    LZ 有微博之类的联系方式么,v2ex 没私信,有些东西想和你沟通沟通
    我自己做了一套类似的东西
    qwe321
        13
    qwe321  
    OP
       2017-05-18 18:59:24 +08:00
    @gouchaoer 扣扣 597335499 可以么?
    Showfom
        14
    Showfom  
       2017-05-18 19:00:57 +08:00
    @binux 因为会被对方服务器屏蔽 IP 呀
    qwe321
        15
    qwe321  
    OP
       2017-05-18 19:01:24 +08:00
    @binux 那个是固定 IP 的也可以做。但是貌似大多数爬虫采集的需求动态 IP,就是 IP 被目标网站封了后,可以切换其他 IP 继续采集。你们固定 IP 的代理主要是用来做什么业务呢?
    qwe321
        16
    qwe321  
    OP
       2017-05-18 19:07:13 +08:00
    @iannil 1 和 3 基本上都是一样,目前也是打算这样做的,按地市+运营商划分,然后会再按省份或者中西部和东部这样分组。
    第二点估计没有实现的可能性,而且如果都指定机房了,还返回什么合适的代理?
    第四点有看到部分网站是让客户主动提交需要采集的网址,感觉这点如果是一个 IP 共享给多个客户用的话比较需要,但是我们本身做的是一个 IP 同时只有一个客户在使用,池子足够大的话是基本上不会出现啥问题的。
    qwe321
        17
    qwe321  
    OP
       2017-05-18 19:07:52 +08:00
    @gdtv 就比如一分钟换一次 IP,或者以小时换一次 IP
    iannil
        18
    iannil  
       2017-05-18 19:22:55 +08:00
    @qwe321 #16
    1 和 3 不一样,比如抓某些 app,尤其是有大数据做用户行为分析的 app,对运营商、省市是有区分的,比如河南 IP 秒封,或者山西电信秒封,山西联通可用。

    2 并不是指定机房,比如我的服务器在上海,在没有指定省市的情况下,应返回最快的代理,在指定省市的情况下,应返回该省市内,最快的代理。不能随便分配一个。

    4 的话,我们用过很多号称百万 IP 的代理,在限定范围的情况下,我们每天消耗 1-5 万多的 IP,根本不够用,没几天就会重复了。如果你服务 10 个以上和我们一样情况的客户,就会出现我说的这种情况了。我们现在遇到这种情况一般立刻换一家服务商,避免同行撞车。
    binux
        19
    binux  
       2017-05-18 19:29:18 +08:00
    @Showfom #14
    @qwe321 #15
    问题是,我们用的商业代理直接给了 3000 个 IP,我们都是轮流用,根本没有「 IP 被目标网站封了后,可以切换」这种需求啊。
    Showfom
        20
    Showfom  
       2017-05-18 20:07:07 +08:00
    @binux 我们直接买两万个的,随机读取用- - 封了就封了 但是有些人有需求的,比如要特定地区动态拨号的 IP 游戏工作室一般会要
    binux
        21
    binux  
       2017-05-18 20:35:18 +08:00
    @Showfom #20 3000 IP,每个一分钟访问一次,也有 50 QPS 了。IP 量够了都差不多。
    gdtv
        22
    gdtv  
       2017-05-18 20:39:41 +08:00
    和#11 楼一样,我也不知道为什么代理 IP 会有切换频率这个东西。
    你就给我一个接口,我访问这个接口你就实时给我返回一个代理 IP 不就行了吗?我想什么时候去获取 IP,以什么频率换 IP 由我这边的业务需求决定,你那边不用管,你那边接口只需要返回 IP 给我就行。
    qwe321
        23
    qwe321  
    OP
       2017-05-18 20:52:54 +08:00
    @iannil 噢,但是好多家代理 IP 服务商都是购买我们的拨号 VPS,所以。。。但是如果我们去做的话,我们完全有办法搞到上百个地市不同运营商的 IP,资源的能力完全不在一个等级上。
    1 和 3 的话对于我们基本一样,我们肯定会用地市+运营商去区分的,比如做到让客户可以选择上海电信或者上海联通。
    2 的话确实不太可能,只能随机分配 IP,本来对于大多数客户需求的就是 IP 的不同。
    qwe321
        24
    qwe321  
    OP
       2017-05-18 21:11:17 +08:00
    @binux 一次性批量获取 N 个 IP 的稳定性和私密性都较差。
    Showfom
        25
    Showfom  
       2017-05-18 21:13:38 +08:00 via iPhone
    @binux 我们抓数据的 嘿嘿 你们也是做爬虫吗
    qwe321
        26
    qwe321  
    OP
       2017-05-18 21:15:41 +08:00
    @Showfom
    @gdtv
    @binux
    客户还是有独享的需求,并且很多。因为购买我们拨号 VPS 去搭建代理 IP 的客户就很多了,不乏 WY、SG 等互联网巨头。
    iannil
        27
    iannil  
       2017-05-18 21:15:54 +08:00
    @qwe321 我不明白你所说的基本一样是什么意思?运营商是运营商,省市区是省市区,你能做到让用户选择上海电信或上海联通,这就是区分了运营商和省市区。

    如果不做区分,那应该是选了上海就指定给你电信的,或指定给你联通的,你不能选。或者随机给你个电信的或联通的,用户没有选择哪种运营商的权利。

    2 是可以做到的,就看愿不愿意做。

    上百个地市不同运营商的 IP....还是祝顺利吧。
    qwe321
        28
    qwe321  
    OP
       2017-05-18 21:17:45 +08:00
    不过普通的代理 IP,后期我们也会开发吧,前期主要还是开发独享的动态 IP,这个是我们的优势。
    binux
        29
    binux  
       2017-05-18 21:18:32 +08:00
    @Showfom #25 是啊,不过我们不是中国市场
    qwe321
        30
    qwe321  
    OP
       2017-05-18 21:20:22 +08:00
    @iannil 目前已经拥有了差不多一百地市的 IP 资源,我也是在拥有了资源基础的情况下,才想要来做这个项目的。如果纯粹做代理 IP,而不是 VPS 的话,维护工作量其实更小,很多人脉资源都可以利用。上百地市的 IP 真的只是起步。就比如目前做的混拨 VPS,就已经汇聚了一百多个地市的 IP。当然了,所以一个地市,指的是只有拥有其中一个 BAS 的 IP。
    iannil
        31
    iannil  
       2017-05-18 21:24:21 +08:00
    @qwe321 #30 我信我信,我是在『上百个地市不同运营商的 IP 』之后打了一堆字,然后又删了,觉得不用说那么多。随口说『还是祝顺利吧』当个结尾。

    加油,努力。
    onion83
        32
    onion83  
       2017-05-18 21:29:15 +08:00
    客户通过 VPN 连接到你的内网中,网关地址固定,关键需要维护好一个 DNAT 地址池,出口确保出口 IP 每次都不一样即可。当然 还要提供至少两个能力,

    1,客户主动告知你某 ip 已经被 ban,需要在地址池中去掉。
    2、定时返回地址池数量,当地址池消耗完毕或者接近下限时候,重现拨号或再次重建更大的地址池。

    好吧,说到这里我才忽然记得玩过类似的东西:阿里云的 DNAT 网关。。。。

    https://help.aliyun.com/document_detail/32322.html
    qwe321
        33
    qwe321  
    OP
       2017-05-18 22:49:29 +08:00
    @iannil 可以参照下我们目前拨号 VPS 项目的地域 www.qgvps.com/bohaovps.asp
    iannil
        34
    iannil  
       2017-05-18 22:59:09 +08:00
    @qwe321 #33
    ik
        35
    ik  
       2017-05-18 23:45:01 +08:00 via iPhone
    @binux 求问 3W 个,价格大概怎么样呢?是否稳定?
    ik
        36
    ik  
       2017-05-18 23:45:21 +08:00 via iPhone
    @binux 不对 是三千…
    sunorg
        37
    sunorg  
       2017-05-19 01:43:32 +08:00
    同求一个价格

    大概需要 3000 稳定。 国外优先

    报价来
    SP00F
        38
    SP00F  
       2017-05-19 01:49:26 +08:00
    。。。
    简单点如果只是做 Web 爬虫,你提供一个 API 接口,请求数据的服务由你 API 接口来处理,而不需要返回代理 IP。用户直接通过你提供的 API 接口请求指定的 Web 页面,而代理层由你后端处理。完全省去用户操作,这个比较受用户欢迎的。

    好像现在市场上已经有类似的了。
    changwei
        39
    changwei  
       2017-05-19 08:57:00 +08:00 via Android
    拨号 vps 主要就是用于爬虫吗?
    firefox12
        40
    firefox12  
       2017-05-19 09:56:26 +08:00 via iPhone
    @SP00F 这个活不就是一个分布式的 proxy 吗??
    firefox12
        41
    firefox12  
       2017-05-19 09:59:51 +08:00 via iPhone
    问一个技术问题 拨号 vps is 是说和电信那里播号吗?难道这个账号可以多开?
    qwe321
        42
    qwe321  
    OP
       2017-05-19 10:16:11 +08:00
    @firefox12 这个是商务问题了,你可以买几百个账户。

    @changwei 并不是

    @SP00F 感觉比较复杂,做代理 IP 简单多了
    LokiSharp
        43
    LokiSharp  
       2017-05-19 12:59:20 +08:00
    看价格吧
    SP00F
        44
    SP00F  
       2017-05-19 13:19:10 +08:00
    @firefox12 对的,只提供一个接口,后端自己提交到代理池处理后直接返回内容由爬虫处理内容,每次抓取都走接口


    @qwe321 只要做一个后端的请求处理,分发给代理池去请求结果返回即可。。这样保持用一个接口,就可以达到使用任意代理池。用户就不用考虑代理池的清洗验证了
    qwe321
        45
    qwe321  
    OP
       2017-05-19 13:57:32 +08:00
    @SP00F 等我们把代理 IP 开发出来,再考虑一下这个项目。
    surfire91
        46
    surfire91  
       2017-05-19 14:45:43 +08:00
    不知道卖爬虫代理 ip 表的有没有市场
    qwe321
        47
    qwe321  
    OP
       2017-05-19 15:53:37 +08:00
    @surfire91 这是什么
    surfire91
        48
    surfire91  
       2017-05-19 16:34:00 +08:00
    @qwe321 比如有些站不愿意爬虫爬,又不想花大精力跟爬虫斗智斗勇,就直接买专门提供代理服务的 ip 列表,直接进黑名单。
    firefox12
        49
    firefox12  
       2017-05-19 17:19:56 +08:00
    那 这些提供 ip 的不得立刻倒闭? 你说开赌场的会把赌客名单提供给公安局的吗?
    qwe321
        50
    qwe321  
    OP
       2017-05-19 18:42:06 +08:00
    @surfire91 那不可能的,提供的都是正常的家用 IP。首先你无法统计到全部的 IP,其次如果都封了等于也拒绝了 N 万的正常客户访问。如果是把我们涉及的 IP 都封了,估计全国上下受影响的客户不是一丁半点的多。
    binux
        51
    binux  
       2017-05-19 20:47:30 +08:00
    @ik #36 我不知道啊
    ik
        52
    ik  
       2017-05-19 21:33:54 +08:00 via iPhone
    @binux 昂 还是谢谢了
    plantparknet
        53
    plantparknet  
       2017-06-30 07:07:13 +08:00
    拨号 vps 有详细点的介绍么? ip 更换频率, 可用 ip 池多大
    qwe321
        54
    qwe321  
    OP
       2017-06-30 23:34:54 +08:00
    plantparknet
        55
    plantparknet  
       2017-07-02 00:35:49 +08:00
    @qwe321 好像并没有 IP 更换频率和 ip 池的介绍
    qwe321
        56
    qwe321  
    OP
       2017-07-02 03:15:25 +08:00
    @plantparknet IP 不是有介绍 IP 段么?频率都没限制,都是运营商的限制,一般都是几秒之间,除了福建电信需要一二十秒外
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1216 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 18:18 · PVG 02:18 · LAX 10:18 · JFK 13:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.