首页   注册   登录

fate0

  •   V2EX 第 210913 号会员,加入于 2017-01-15 17:53:47 +08:00,今日活跃度排名 2172
    fate0 最近回复了
    免费的 https://github.com/fate0/proxylist 了解一下
    @slideclick 简单的方法就是转成 c 代码,需要保密的代码我直接用 go 写
    @jason0916 功能多不多,主要看 dev protocol 开放的接口多不多,chrome 61 之后多了个 Network.requestIntercepted,看到这个 method,我就觉得 headless chrome 能够写爬虫了。
    @chengxiao 区别是更接近 Dev Protocol 吧,selenium 依赖 ChromeDriver,然而 ChromeDriver 还是使用 Dev Protocol 来操作 chrome (这段话单讲 chrome...)
    ```
    sleep 1 && echo 'content' | mail -s 'title' username@mail.com
    ```
    303 天前
    回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
    @samray 另外使用整个 request 进行 hash 还是 只使用 url 进行 hash,也可以在 dupefilter 里修改,都不是特别难。
    303 天前
    回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
    @samray 可能我说的不清楚,我现在说的就是分布式爬虫的情况,可以稍微修改一下 scrapy-redis 里的 dupefilter 文件,不使用之前 redis set 去重的方式,在这里改成使用 bloom filter,将 bloom filter 所使用的 bit 数组用 Redis 的 bitmap 进行存取。其他地方不需要修改。
    303 天前
    回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
    @samray 1000+w 的数据去重也可以用 bloom filter 啊,就用 Redis 的 bitmap 存 bit 数组就可以了。
    303 天前
    回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
    @samray https://github.com/aivarsk/scrapy-proxies 这代码也是从一个文本读内容啊,完全可以自己实现一个 download middleware 从 redis 里取。
    303 天前
    回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
    @samray 这不算什么问题吧,出现 exception 就换下一个代理,商业代理偶尔也有抽风的时候,也会出现下一刻不可用,就看换代理的频率是不是可以接收的范围内。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   1922 人在线   最高记录 3541   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.0 · 6ms · UTC 15:24 · PVG 23:24 · LAX 08:24 · JFK 11:24
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1