V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  data2world  ›  全部回复第 4 页 / 共 4 页
回复总数  67
1  2  3  4  
2018-03-06 08:58:02 +08:00
回复了 data2world 创建的主题 Python scrapy 爬虫 返回的 response 没有下一页这个属性。
@Zzde。。。。你都没看懂我的问题,
2018-03-05 19:20:46 +08:00
回复了 data2world 创建的主题 Python scrapy 爬虫 返回的 response 没有下一页这个属性。
@flyxl 因为我需要爬所有的分页页面爬完之后合并成一个 list,在赋给父 item。但是 yield 是异步的,所以不能以 for 循环的执行次数判断是否爬取完了。
2018-03-05 18:44:24 +08:00
回复了 data2world 创建的主题 Python scrapy 爬虫 返回的 response 没有下一页这个属性。
@locoz maxpage 我倒是能获取到,总的 urls 我也能拼。就是 scrapy 的 yield 是不按顺序返回的,而我需要 1 页爬了,再爬第二页。部分代码是这样的:
```python
max_page = int(response.xpath('//*[@id="bbstopic_set"]/@data-maxpage').extract()[0])

if max_page > 1:
for page_num in range(2, max_page + 1):
next_page_url = 'https://bbs.hupu.com/{}-{}.html'.format(response.meta["short_url"], page_num)
print "****", next_page_url, "****"
yield scrapy.Request(next_page_url, callback=self.parse_content, headers=self.headers,
cookies=self.cookies,
meta={"item": item})
else:
yield item

def parse_content(self, response):
pass
```
2018-02-08 09:16:34 +08:00
回复了 cz5424 创建的主题 Python pypi 豆瓣源是不更新了吗?
说清华源的,怕是没遇到清华源崩溃的情况
2017-11-29 13:49:07 +08:00
回复了 metrue 创建的主题 程序员 推荐一款降噪的有颜值的耳机吧 [迫生, 2500RMB 以内]
据说索尼大法( 1000x )有头梁会断。。。所以尽量别买
2017-11-22 16:12:16 +08:00
回复了 krisbai 创建的主题 Python Pandas 处理读取 excel 数据的时候中文字符显示问号乱码?
哥们儿,1,你的平台是什么? linux 还是 win。2。你这是 csv 不是 excel。3。一般来讲 sys.setdefaultencoding("utf-8") 几乎不能解决乱码问题。4. 你可以测试新建一个包含中文的 csv 文件,看是否乱码。5.以前我遇到过读文件只有一个字是乱码的。。。但是在 office 显示是正常的。。。
可以试试 fasttext,个人觉得还是多花点在原始数据上面。
1  2  3  4  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2406 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 18ms · UTC 13:04 · PVG 21:04 · LAX 06:04 · JFK 09:04
Developed with CodeLauncher
♥ Do have faith in what you're doing.