V2EX › data2world 的所有回复 › 第 4 页 / 共 4 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4

❮

❯

2018-03-06 08:58:02 +08:00

回复了 data2world 创建的主题 › Python › scrapy 爬虫返回的 response 没有下一页这个属性。

@Zzde。。。。你都没看懂我的问题，

2018-03-05 19:20:46 +08:00

回复了 data2world 创建的主题 › Python › scrapy 爬虫返回的 response 没有下一页这个属性。

@flyxl 因为我需要爬所有的分页页面爬完之后合并成一个 list，在赋给父 item。但是 yield 是异步的，所以不能以 for 循环的执行次数判断是否爬取完了。

2018-03-05 18:44:24 +08:00

回复了 data2world 创建的主题 › Python › scrapy 爬虫返回的 response 没有下一页这个属性。

@locoz maxpage 我倒是能获取到，总的 urls 我也能拼。就是 scrapy 的 yield 是不按顺序返回的，而我需要 1 页爬了，再爬第二页。部分代码是这样的：
```python
max_page = int(response.xpath('//*[@id="bbstopic_set"]/@data-maxpage').extract()[0])

if max_page > 1:
for page_num in range(2, max_page + 1):
next_page_url = 'https://bbs.hupu.com/{}-{}.html'.format(response.meta["short_url"], page_num)
print "****", next_page_url, "****"
yield scrapy.Request(next_page_url, callback=self.parse_content, headers=self.headers,
cookies=self.cookies,
meta={"item": item})
else:
yield item

def parse_content(self, response):
pass
```

2018-02-08 09:16:34 +08:00

回复了 cz5424 创建的主题 › Python › pypi 豆瓣源是不更新了吗？

说清华源的，怕是没遇到清华源崩溃的情况

2017-11-29 13:49:07 +08:00

回复了 metrue 创建的主题 › 程序员 › 推荐一款降噪的有颜值的耳机吧 [迫生， 2500RMB 以内]

据说索尼大法（ 1000x ）有头梁会断。。。所以尽量别买

2017-11-22 16:12:16 +08:00

回复了 krisbai 创建的主题 › Python › Pandas 处理读取 excel 数据的时候中文字符显示问号乱码？

哥们儿，1，你的平台是什么？ linux 还是 win。2。你这是 csv 不是 excel。3。一般来讲 sys.setdefaultencoding("utf-8") 几乎不能解决乱码问题。4. 你可以测试新建一个包含中文的 csv 文件，看是否乱码。5.以前我遇到过读文件只有一个字是乱码的。。。但是在 office 显示是正常的。。。

2017-11-10 17:00:46 +08:00

回复了 1722332572 创建的主题 › Python › Chinese-Text-Classification，用卷积神经网络基于 Tensorflow 实现的中文文本分类。

可以试试 fasttext，个人觉得还是多花点在原始数据上面。

1 2 3 4

❮

❯