首页   注册   登录

fate0

V2EX 第 210913 号会员,加入于 2017-01-15 17:53:47 +08:00
fate0 最近回复了
免费的 https://github.com/fate0/proxylist 了解一下
@slideclick 简单的方法就是转成 c 代码,需要保密的代码我直接用 go 写
@jason0916 功能多不多,主要看 dev protocol 开放的接口多不多,chrome 61 之后多了个 Network.requestIntercepted,看到这个 method,我就觉得 headless chrome 能够写爬虫了。
@chengxiao 区别是更接近 Dev Protocol 吧,selenium 依赖 ChromeDriver,然而 ChromeDriver 还是使用 Dev Protocol 来操作 chrome (这段话单讲 chrome...)
2017-06-25 15:29:11 +08:00
回复了 kamen 创建的主题 Linux 求一个简单靠谱的工具,能够在终端命令执行完后给我发一份邮件
```
sleep 1 && echo 'content' | mail -s 'title' username@mail.com
```
2017-06-22 15:04:06 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@samray 另外使用整个 request 进行 hash 还是 只使用 url 进行 hash,也可以在 dupefilter 里修改,都不是特别难。
2017-06-22 15:02:36 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@samray 可能我说的不清楚,我现在说的就是分布式爬虫的情况,可以稍微修改一下 scrapy-redis 里的 dupefilter 文件,不使用之前 redis set 去重的方式,在这里改成使用 bloom filter,将 bloom filter 所使用的 bit 数组用 Redis 的 bitmap 进行存取。其他地方不需要修改。
2017-06-22 14:16:05 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@samray 1000+w 的数据去重也可以用 bloom filter 啊,就用 Redis 的 bitmap 存 bit 数组就可以了。
2017-06-22 09:02:38 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@samray https://github.com/aivarsk/scrapy-proxies 这代码也是从一个文本读内容啊,完全可以自己实现一个 download middleware 从 redis 里取。
2017-06-21 23:27:03 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@samray 这不算什么问题吧,出现 exception 就换下一个代理,商业代理偶尔也有抽风的时候,也会出现下一刻不可用,就看换代理的频率是不是可以接收的范围内。
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3406 人在线   最高记录 3762   ·  
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.1 · 7ms · UTC 06:20 · PVG 14:20 · LAX 23:20 · JFK 02:20
♥ Do have faith in what you're doing.
沪ICP备16043287号-1