首页   注册   登录
 BruceWang 最近的时间轴更新

BruceWang

V2EX 第 145537 号会员,加入于 2015-11-03 14:41:36 +08:00
BruceWang 最近回复了
194 天前
回复了 hiboshi 创建的主题 Docker 怎么才是 docker 最佳实践
@hiboshi

Alpine 的 UID 和 Debian、Ubuntu 以及 macOS 都不一样。volume 到 host 之后文件权限一团糟。
2017-10-02 22:24:10 +08:00
回复了 BruceWang 创建的主题 Python macOS High Sierra, Xcode 9 下 pyenv 安装 Python 失败
已搞定。

删除了采用 pyenv-installer 安装的 pyenv,用 homebrew 安装 pyenv,就妥了。
2017-10-02 17:19:44 +08:00
回复了 BruceWang 创建的主题 Python macOS High Sierra, Xcode 9 下 pyenv 安装 Python 失败
终于回到酒店,可以传 log 了。

可是,怎么传啊? log 好大……
2017-10-02 14:30:42 +08:00
回复了 BruceWang 创建的主题 Python macOS High Sierra, Xcode 9 下 pyenv 安装 Python 失败
@a1060778506 问题是我没法重现你的问题啊
2017-10-02 13:10:30 +08:00
回复了 BruceWang 创建的主题 Python macOS High Sierra, Xcode 9 下 pyenv 安装 Python 失败
@nyanyh 我目前陪老婆等一大堆人在万达……爪机上的 v2ex。等会儿下午回酒店传 log。
2016-10-09 15:34:57 +08:00
回复了 cocoakekeyu 创建的主题 分享创造 中秋发布,写了一个用于 scrapy 爬虫的自动代理中间件
@cocoakekeyu 我猜他想说的是五仁月饼……
@billion 我想,应该是“去重”这两个字定义不清的问题。
我觉得有这么几个地方需要去重:
1 、在单一页面解析的时候,可能会提取到重复的链接,需要 url 去重;
2 、在不同任务、不同页面解析的时候,可能会提取到重复的链接,需要 url 去重;
3 、在数据提取的时候,可能会遇到重复数据,比如一份重要性比较高的数据被多个不同的站点以各种形式引用(类似论文的引用,不过被引用的论文重复发表在多个期刊),需要 data 去重。
4 、其它还没想到的

我在做一个基于 Scrapy 的动态生成的爬虫,也就是提取规则等参数是从数据库取得的(我知道应该已经有了,不过我想自己造个轮子)。所以我对前文( 2 )的情况不是光用集合判断存在还是不存在,我还记录了上次访问时间和任务要求。如果按任务要求比如每周爬一次,判断时间满足那么就再爬一次,否则丢弃。
@billion
@zts1993

难道你们都不考虑网页内容更新的情况吗?比如爬 V2EX ,爬完就算完成了,再也不考虑新回复?
2016-09-05 22:46:27 +08:00
回复了 njaulj 创建的主题 南京 南京有哪些适合敲代码的地方
定义一下“安静”先。
2016-01-05 00:53:17 +08:00
回复了 ruoyu0088 创建的主题 Python 开始编写《Python科学计算-第二版》
书上市了嘛?
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2262 人在线   最高记录 5043   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.3 · 13ms · UTC 14:52 · PVG 22:52 · LAX 06:52 · JFK 09:52
♥ Do have faith in what you're doing.