我研究了半天 scrapy 发现搞的太复杂了。 除非大规模的爬, 一般 爬个几个站 不若自己写的方便。 不知是不是我打开 scrapy 的方式有问题。 我看到大家都在推崇 scrapy。
1
forgottencoast 2019-09-18 08:26:59 +08:00 via iPhone
标题和内容冲突啊?
|
2
sanjusss 2019-09-18 08:28:05 +08:00
我用的.net core 写爬虫,和你差不多。总感觉 dotnetspider 框架太复杂,写个简单的功能要绕弯好远,有的功能直接不能实现。最后自己写,部分功能直接 copy 框架。
|
3
gimp 2019-09-18 08:32:37 +08:00
设问句?
|
4
nevin47 2019-09-18 08:33:31 +08:00 via Android
我也觉得 scrapy 太复杂了,但是工程化开发肯定 scrapy 好,自己写点小东西随便用用 urllib 就完事儿了,但是大规模爬的时候吃力感就出来了
|
5
sadfQED2 2019-09-18 08:37:31 +08:00 via Android
你自己都说了,大规模爬虫用,另外你用熟了小项目用其实也很方便
|
6
php01 2019-09-18 08:40:20 +08:00
先问是不是,再问为什么。
|
7
yinjy 2019-09-18 08:40:29 +08:00
小项目也是 scrapy 方便啊,基础代码不用自己写
|
8
qsnow6 2019-09-18 08:45:36 +08:00 via iPhone
如何定义小规模
|
9
patx 2019-09-18 08:49:07 +08:00 via Android
nodejs 写爬虫
|
10
killerv 2019-09-18 09:02:16 +08:00 1
简单的用 requests,
稍微上点规模的就用框架了,自己造轮子多麻烦 |
11
keith1126 2019-09-18 09:08:26 +08:00 1
因为直接用 requests 已经可以满足大部分需求了,而且简单快捷
|
12
ljspython 2019-09-18 09:25:39 +08:00
requests 已满足基本小需求了
|
13
bonfy 2019-09-18 09:28:01 +08:00
requests 就可以了,为什么要去学个重量级的框架呢,学习不要成本的么?
|
14
tozp 2019-09-18 09:39:01 +08:00
我只用 Go
|
16
ClarkAbe 2019-09-18 09:49:24 +08:00 via Android
@tozp #14 同 go...设置好重复踢出然后一记狗肉挺,CPU 全核心多线程工作,简直不要太恐怖
|
17
fank99 2019-09-18 09:57:46 +08:00
写到最后。。你会发现你写的东西越来越像“scrapy”
这时候,你会问自己,我当时咋想的,为啥不直接用 scrapy 呢 |
18
coolair 2019-09-18 10:01:32 +08:00
看文档的时间已经写好了。
|
19
alphardex 2019-09-18 10:08:56 +08:00 via iPhone
自己写了个小型框架 looter,比 scrapy 轻便多了,地址: https://github.com/alphardex/looter
|
20
zqjilove 2019-09-18 10:48:54 +08:00
如果考虑到后期分布式的便携性。scrapy 是很好的选择,如果只是单机跑跑,其实上不上 scrapy 都可以
|
21
chengxiao 2019-09-18 10:52:01 +08:00
小规模用 scrapy 才快吧......几句业务 就 ok 了
|
22
BooksE 2019-09-18 10:59:09 +08:00
我十几个站都用 scrapy 爬的。。scrapy 很好用
|
23
WuMingyu 2019-09-18 11:07:50 +08:00
可以写个 scrapy 的模版,用的时候 copy 下,再改改一些业务代码
|
24
ClericPy 2019-09-18 11:22:35 +08:00
自己的 async await, 为什么要折腾 twisted, 后者作者倒是挺厉害... 能把 guido 老爹气出门去
|
25
d5 2019-09-18 12:15:06 +08:00
小折腾用 requests + pyquery 梭哈
|
26
niknik 2019-09-18 17:11:26 +08:00
emmm,就我目前的站点数据,都用不上 scrapy。。。。直接脚本了
|