首页注册登录

diaoleona 最近的时间轴更新

diaoleona

V2EX 第 52685 号会员，加入于 2013-12-25 16:02:44 +08:00

diaoleona 提问技术话题好玩工作信息交易信息城市相关

diaoleona 最近回复了

2014-08-21 22:49:35 +08:00

回复了 endoffight 创建的主题 › Python › 求助正则表达式牛人帮忙解决一下

为何不用xpath

2014-08-01 11:11:21 +08:00

回复了 arbipher 创建的主题 › 酷工作 › [上海徐汇]技术创业团队求全栈工程师一枚

要求iOS方向，
却不能在移动设备上查看gmail，
不如先招个人让你们移动设备上先能看gmail?

2014-06-03 12:53:09 +08:00

回复了 LetFoxRun 创建的主题 › 问与答 › 对于我这种网络爬虫，应该使用哪种模型来加快效率呢？

scrapy or scrapyd

2014-06-03 10:58:44 +08:00

回复了 zrq495 创建的主题 › 求职 › [求实习]暑假 + 大四

有过在线做题数据分析的经验非常好，已经把你简历转发给HR．请耐心等待

2014-06-03 10:21:32 +08:00

回复了 JackyXiong 创建的主题 › Python › Python 的文档转换模块 docutils 的使用？

http://sphinx-doc.org/

2014-05-27 14:20:08 +08:00

回复了 hao1032 创建的主题 › Python › python 如何获取一个网址的标题？？

@dbow 不能同意更多

2014-02-27 16:32:02 +08:00

回复了 yakczh 创建的主题 › Python › 爬虫抽取连接和抽取内容的部分是不是应该分开?

@yakczh
类似这种页的话一个parser专门把ur,商品信息等可以xpath的信息保存下来，
另外一个parser来抽取相关评论，翻页什么的不是问题，储存时候　评论　和这个商品的ＩＤ联系起来.

2014-02-27 15:22:48 +08:00

回复了 yakczh 创建的主题 › Python › 爬虫抽取连接和抽取内容的部分是不是应该分开?

@yakczh
'多个页面都可能有数据,每个页面有多个数据区域的话,还不知道怎么写'
没看明白你具体问题是什么？
如果担心多个页面多个数据　区域有相同的的数据的话,把你需要的数据区域都爬下来hash一下或者放在一个专门判重redis也可以在scrapy 里的中间件加一道判重过程.
最好你发个子页面的例子给看一下

2014-02-26 13:59:11 +08:00

回复了 WeeTom 创建的主题 › 上海 › 上海明道 www.mingdao.com 招 iOS 工程师

来黑你们公司的么？？

2014-02-26 12:22:16 +08:00

回复了 yakczh 创建的主题 › Python › 爬虫抽取连接和抽取内容的部分是不是应该分开?

看你怎么设计了，我之前是爬到的response.url和 web content压缩一下放在一个数据库里，然后根据需求再做不同的抽取

» diaoleona 创建的更多回复

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 5786 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 19ms · UTC 06:17 · PVG 14:17 · LAX 22:17 · JFK 01:17
♥ Do have faith in what you're doing.