为什么诸位老哥的爬虫的都是自己写的，不用 scrapy 呢？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2197 天前的主题，其中的信息可能已经有所发展或是发生改变。

我研究了半天 scrapy 发现搞的太复杂了。除非大规模的爬，一般爬个几个站不若自己写的方便。不知是不是我打开 scrapy 的方式有问题。我看到大家都在推崇 scrapy。

26 条回复 • 2019-09-18 17:11:26 +08:00

1

forgottencoast

2019-09-18 08:26:59 +08:00 via iPhone

标题和内容冲突啊？

2

sanjusss

2019-09-18 08:28:05 +08:00

我用的.net core 写爬虫，和你差不多。总感觉 dotnetspider 框架太复杂，写个简单的功能要绕弯好远，有的功能直接不能实现。最后自己写，部分功能直接 copy 框架。

3

gimp

2019-09-18 08:32:37 +08:00

设问句？

4

nevin47

2019-09-18 08:33:31 +08:00 via Android

我也觉得 scrapy 太复杂了，但是工程化开发肯定 scrapy 好，自己写点小东西随便用用 urllib 就完事儿了，但是大规模爬的时候吃力感就出来了

5

sadfQED2

2019-09-18 08:37:31 +08:00 via Android

你自己都说了，大规模爬虫用，另外你用熟了小项目用其实也很方便

6

anteros

2019-09-18 08:40:20 +08:00

先问是不是，再问为什么。

7

yinjy

2019-09-18 08:40:29 +08:00

小项目也是 scrapy 方便啊，基础代码不用自己写

8

qsnow6

2019-09-18 08:45:36 +08:00 via iPhone

如何定义小规模

9

patx

2019-09-18 08:49:07 +08:00 via Android

nodejs 写爬虫

10

killerv

2019-09-18 09:02:16 +08:00

1

简单的用 requests，
稍微上点规模的就用框架了，自己造轮子多麻烦

11

zackwu

2019-09-18 09:08:26 +08:00

1

因为直接用 requests 已经可以满足大部分需求了，而且简单快捷

12

ljspython

2019-09-18 09:25:39 +08:00

requests 已满足基本小需求了

13

bonfy

2019-09-18 09:28:01 +08:00

requests 就可以了，为什么要去学个重量级的框架呢，学习不要成本的么？

14

tozp

2019-09-18 09:39:01 +08:00

我只用 Go

15

wellhome

OP

2019-09-18 09:42:26 +08:00

@gimp 好多人推崇，但是老哥们开的项目都是自己写的，所以矛盾，不知道是不是自己的打开方式不对。

16

ClarkAbe

2019-09-18 09:49:24 +08:00 via Android

@tozp #14 同 go...设置好重复踢出然后一记狗肉挺，CPU 全核心多线程工作，简直不要太恐怖

17

fank99

2019-09-18 09:57:46 +08:00

写到最后。。你会发现你写的东西越来越像“scrapy”
这时候，你会问自己，我当时咋想的，为啥不直接用 scrapy 呢

18

coolair

2019-09-18 10:01:32 +08:00

看文档的时间已经写好了。

19

alphardex

2019-09-18 10:08:56 +08:00 via iPhone

自己写了个小型框架 looter，比 scrapy 轻便多了，地址： https://github.com/alphardex/looter

20

zqjilove

2019-09-18 10:48:54 +08:00

如果考虑到后期分布式的便携性。scrapy 是很好的选择，如果只是单机跑跑，其实上不上 scrapy 都可以

21

chengxiao

2019-09-18 10:52:01 +08:00

小规模用 scrapy 才快吧......几句业务就 ok 了

22

BooksE

2019-09-18 10:59:09 +08:00

我十几个站都用 scrapy 爬的。。scrapy 很好用

23

WuMingyu

2019-09-18 11:07:50 +08:00

可以写个 scrapy 的模版，用的时候 copy 下，再改改一些业务代码

24

ClericPy

2019-09-18 11:22:35 +08:00

自己的 async await, 为什么要折腾 twisted, 后者作者倒是挺厉害... 能把 guido 老爹气出门去

25

d5

2019-09-18 12:15:06 +08:00

小折腾用 requests + pyquery 梭哈

26

niknik

2019-09-18 17:11:26 +08:00

emmm，就我目前的站点数据，都用不上 scrapy。。。。直接脚本了

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · 实用小工具 · 2874 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 27ms · UTC 14:29 · PVG 22:29 · LAX 07:29 · JFK 10:29
Developed with CodeLauncher
♥ Do have faith in what you're doing.