1
viking602 32 天前 1
我们两套方案 一套是用机场 后端不断自动切换 IP 还有一套就是买数据中心代理 买了很多家 然后做负载均衡轮训
|
2
MFWT 32 天前 2
国内 IP 毕竟还是会涉及到过墙问题,卡顿慢很正常
做大的那些主要还是靠量来堆,以及提高代理 IP 重用率,用各种来源的 IP (甚至有不光彩的手段,比如盗用家宽),等等 |
3
qsnow6 32 天前 2
2 楼说的对,业内大玩家基本都是通过肉鸡降成本的,这不是常规技术手段能解决的问题。
|
4
callmejoejoe OP @viking602 机场我也想到了,晚点试一试;数据中心的代理是包月吗还是按量?感觉对我这一个人瞎搞的成本还是太高了😂
|
5
callmejoejoe OP |
6
viking602 32 天前 1
@callmejoejoe #4 数据中心代理这个都有 主要是找相对便宜的
|
7
yunlongV 32 天前
一般动态住宅 IP 都有无限制流量套餐,大概$200 一天,有并发数和总带宽限制。按照流量买的越多越便宜,一般在$0.8/gb 左右,还是推荐买动态住宅 IP 。
|
8
laiyibeimeishi 32 天前 1
看看 ipv6 呢?
|
9
zqqzqq 32 天前
|
10
NoOneNoBody 32 天前
开 100 个 tor
|
11
xcsoft 32 天前 1
可以试试 ipv6, 有些服务商的服务器 v6 都是给整个段的 还不贵
但是不懂 ISP 的 ip 会不会有影响 |
12
Ritter 32 天前
op 代理 IP 哪家买的 可以推荐一下吗
|
13
aru 32 天前
aws 、digitalocean 、linode 这些 ip 能不能爬?
他们的都可以很容易的换 IP 比如用 aws ,可以创建一个实例负责调度和数据库 其他的用 spot 实例,下载流量不算钱,同一个区域内的流量也是免费的 |
14
Kinnice 32 天前 1
别拿一个 IP 连续爬,分布负载均衡一下。
|
15
callmejoejoe OP |
16
callmejoejoe OP |
17
aru 32 天前
@callmejoejoe
可以通过 api 操作 |
18
hujnnn 32 天前
亚马逊卖家, 他们基本都是用卖家精灵这些非常专业的工具.
你需要考虑你的用户是谁? 国内的卖家么, 他们都很抠的希望能白嫖. 如果你的目标用户是国外的卖家, 他们的付费意愿还是比较强的, 但你需要解决如何获取流量并转化流量. |
19
callmejoejoe OP |
20
vicv 32 天前 via iPhone
大佬国外的隧道代理在用哪家?我也参考一下
|
21
ns09005264 31 天前 1
我不了解爬虫代理的 IP 需求量是多少,不过我上个月做过类似的事,用的机场。
我自己买的两个 10 元机场加上机场白嫖分享,IP 加起来有 500 个左右,抛开无效和出口重复的,大概有 300 个 IP 左右, 如果找那种 1 元机场以及收集白嫖的,感觉应该能收集 1000 个 IP 没问题。 |
22
callmejoejoe OP @vicv 不是大佬啊,参照上面 v 友说的找便宜的都买点,应该是怕跑路
@ns09005264 请问什么机场能直接看到 IP ? @viking602 请问机场如何动态切换 IP 呢?我搜索了一下目前只看到用 privoxy 转发或者是用 nginx 负载均衡 |
23
ns09005264 30 天前 1
看不到出口 IP ,不过可以自建公网服务后通过代理访问进行 IP 查询。
我是通过启动 clash ,然后通过 API 进行节点切换。例子是单线程的,每次请求后,切换一次节点。 如果要多线程,可以每个线程启动一个端口不同的 clash 进程,每个 clash 进程需要提前分配好节点配置。 还有更简单的的方式就是只启动一个 clash ,代理组设置为负载均衡,负载均衡的策略为 Round Robin ,然后就可以多线程通过代理爬取目标地址。clash 会自动切换节点。 还有更进一步的方法,如果你用 golang 开发,直接将 clash(mihomo)导入为库,解析配置后拿到 proxies 随便你怎么分配请求。 https://gist.github.com/MapoMagpie/b7fa02328e0b7cd0a4f4669feae94733.js |
25
esee 30 天前
@ns09005264 这样切换节点是不是慢了点呀,有没有考虑直接把机场的每个节点转换成本地 sock5 这样直接使用方便点。
|
26
ns09005264 29 天前
@esee 相对爬虫请求来说切换节点不慢,上一个请求结束了立即重置 clash 的连接并切换节点,由于是本地服务,基本切换起来没什么延迟。
不过你说的把每个节点转换成本地 socks5 代理端口,我之前没听说过这种方案,搜索了下后,感觉确实是个不错的方案,本质是把每个节点变成一个入口,而 clash-meta 已经支持多入口。所以现在用机场当爬虫代理应该比较简单了。 |
27
sead 29 天前 1
PG + clickhouse , 撸过上千万的 asins ,IP 独享的情况下,20 秒左右一个请求不会 ban 。
|
28
nyxsonsleep 29 天前 1
举个例子,大量的物联网设备,大量的不开源路由器固件,甚至非官手机刷机包。低成本都是黑产出来的,那些东西的成本几乎为 0 ,正规渠道不可能竞争得过。而且爬数据基本是违法的,肉身不在国外属于作大死。
|
29
privateproxies 28 天前
|
30
viking602 28 天前 1
@callmejoejoe #22 用的 mihomo 内核调用 API 实时监测是否可用 每五秒调用一次切换节点的 API 然后用 gost 做的负载均衡 https://gost.run/
|
31
callmejoejoe OP |
32
sead 21 天前 1
@callmejoejoe PG: postgresql, 另外爬虫在国外没有那么玄乎,公开数据随便爬,如果是违法的,谷歌公司的不是得全抓了
|