diaoleona 最近的时间轴更新
diaoleona

diaoleona

V2EX 第 52685 号会员,加入于 2013-12-25 16:02:44 +08:00
diaoleona 最近回复了
2014-08-21 22:49:35 +08:00
回复了 endoffight 创建的主题 Python 求助正则表达式牛人帮忙解决一下
为何不用xpath
2014-08-01 11:11:21 +08:00
回复了 arbipher 创建的主题 酷工作 [上海徐汇]技术创业团队求全栈工程师一枚
要求iOS方向,
却不能在移动设备上查看gmail,
不如先招个人让你们移动设备上先能看gmail?
2014-06-03 12:53:09 +08:00
回复了 LetFoxRun 创建的主题 问与答 对于我这种网络爬虫,应该使用哪种模型来加快效率呢?
scrapy or scrapyd
2014-06-03 10:58:44 +08:00
回复了 zrq495 创建的主题 求职 [求实习]暑假 + 大四
有过在线做题数据分析的经验非常好,已经把你简历转发给HR.请耐心等待
2014-06-03 10:21:32 +08:00
回复了 JackyXiong 创建的主题 Python Python 的文档转换模块 docutils 的使用?
2014-05-27 14:20:08 +08:00
回复了 hao1032 创建的主题 Python python 如何获取一个网址的标题??
@dbow 不能同意更多
2014-02-27 16:32:02 +08:00
回复了 yakczh 创建的主题 Python 爬虫抽取连接和抽取内容的部分是不是应该分开?
@yakczh
类似这种页的话一个parser专门把ur,商品信息等可以xpath的信息保存下来,
另外一个parser来抽取相关评论,翻页什么的不是问题,储存时候 评论 和这个商品的ID联系起来.
2014-02-27 15:22:48 +08:00
回复了 yakczh 创建的主题 Python 爬虫抽取连接和抽取内容的部分是不是应该分开?
@yakczh
'多个页面都可能有数据,每个页面有多个数据区域的话,还不知道怎么写'
没看明白你具体问题是什么?
如果担心多个页面多个数据 区域有相同的的数据的话,把你需要的数据区域都爬下来hash一下或者放在一个专门判重redis也可以在scrapy 里的中间件加一道判重过程.
最好你发个子页面的例子给看一下
2014-02-26 13:59:11 +08:00
回复了 WeeTom 创建的主题 上海 上海 明道 www.mingdao.com 招 iOS 工程师
来黑你们公司的么??
2014-02-26 12:22:16 +08:00
回复了 yakczh 创建的主题 Python 爬虫抽取连接和抽取内容的部分是不是应该分开?
看你怎么设计了,我之前是爬到的response.url和 web content压缩一下放在一个数据库里,然后根据需求再做不同的抽取
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1238 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms · UTC 18:11 · PVG 02:11 · LAX 11:11 · JFK 14:11
Developed with CodeLauncher
♥ Do have faith in what you're doing.