V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sohoer
V2EX  ›  分享发现

鸟巢网页数据采集系统 V2.2

  sohoer · 2016-04-11 10:01:31 +08:00 · 13589 次点击
这是一个创建于 3148 天前的主题,其中的信息可能已经有所发展或是发生改变。

做个简单易用通用型采集器不容易,这个项目已经花了 6 年时间,还没完还将继续。

3 年前第一次发布

http://v2ex.com/t/65371#reply149

第一次发布后有人说太复杂,有人说应该提供独立的 WEB 管理界面等等,花了 3 年时间在这个版本都有实现,并且做了很多的重构与功能完善。

三年前注册的用户,可以直接安装使用(鸟巢采集器个人用户终身免费使用),

项目地址

https://github.com/speed/newcrawler

目前还不打算开放注册,准备再测试一个月(请不要申请邀请码)

鸟巢采集器

http://www.newcrawler.com

测试帐号(请使用海外节点,因为 GAE,OpenShift 都已被墙)

username:test 
password:test

演示视频

http://video.newcrawler.com/newcrawler_v2.2.mp4

http://ww3.sinaimg.cn/large/5e24c9a7gw1f2sj1vgfx8j20zk0rhtg2.jpg

第 1 条附言  ·  2016-04-11 11:15:52 +08:00
最快的部署自己的爬虫是
Fork coding 上的代码再开启演示功能,像这样
https://coding.net/u/speed/p/newcrawler/paas
第 2 条附言  ·  2016-04-11 16:35:03 +08:00
很期待大家多多提意见,我的目标是做一款强大好用又免费的工具(仅限个人)

上一次大家提的意见我花了 3 年时间完善,这一次说不定会花 4 年,刚好 10 年磨一剑。

再次感谢各位的赞!谢谢!
103 条回复    2024-04-13 05:27:08 +08:00
1  2  
rubyvector
    1
rubyvector  
   2016-04-11 10:28:49 +08:00   ❤️ 1
楼主强人哦.界面细腻,功能强大到难以想像.不知道处理有 IP 限制的页面是否有解决方案
mazyi
    2
mazyi  
   2016-04-11 10:31:50 +08:00   ❤️ 1
cool
shiny
    3
shiny  
   2016-04-11 10:35:15 +08:00   ❤️ 1
以前也考虑过写类似东西,但思路不及楼主。看得出花费了大量心血。
stiekel
    4
stiekel  
   2016-04-11 10:41:07 +08:00   ❤️ 1
有毅力,一个项目能够坚持这么多年,赞!
yanyuan2046
    5
yanyuan2046  
   2016-04-11 10:42:39 +08:00   ❤️ 1
牛逼,能用 6 年做一件事的都是牛人
server
    6
server  
   2016-04-11 10:51:03 +08:00
牛人,毅力!!
whahuzhihao
    7
whahuzhihao  
   2016-04-11 10:58:30 +08:00
好棒!楼主好毅力
pypy
    8
pypy  
   2016-04-11 10:59:00 +08:00
好厉害!学习楼主这种精神!
sohoer
    9
sohoer  
OP
   2016-04-11 11:11:27 +08:00
@rubyvector 可以实现基于代理池的网页抓取插件,也可以是独立于采集器的多线 ADSL+ROS 解决方案
其实我的终极目标是基于鸟巢采集器做爬虫共享

多谢各位的友情支持
mew7wo
    10
mew7wo  
   2016-04-11 11:15:32 +08:00
楼主牛人 已安装试用
kukat
    11
kukat  
   2016-04-11 11:18:32 +08:00
有 docker image 吗?
sewyu
    12
sewyu  
   2016-04-11 11:22:03 +08:00
吓到了,好强大。。。。 绝对大神
sohoer
    13
sohoer  
OP
   2016-04-11 11:24:38 +08:00
@kukat 还没有,之前准备用 BWG 做 DOCKER 弄了好久发现不支持,后续会加上

不有安装脚本也还方便吧


@mew7wo 有任何意见,建议请给我留言,重构太多目前应该还有不少 BUG
feather12315
    14
feather12315  
   2016-04-11 11:25:54 +08:00 via Android
@sohoer 爬虫共享赞一个。
sylviayoung
    15
sylviayoung  
   2016-04-11 11:30:01 +08:00 via iPad
佩服楼主持之以恒的精神!
leehon
    16
leehon  
   2016-04-11 11:30:05 +08:00
6 年有点太长,一直是楼主一个人开发吗
alongdj
    17
alongdj  
   2016-04-11 11:33:57 +08:00 via Android
楼主好毅力…
inoricho
    18
inoricho  
   2016-04-11 11:34:08 +08:00
楼主大触!
wuyadong
    19
wuyadong  
   2016-04-11 11:54:01 +08:00
楼主,吊~!
zeac
    20
zeac  
   2016-04-11 11:56:12 +08:00
佩服~
keepcleargas
    21
keepcleargas  
   2016-04-11 11:59:12 +08:00
大牛 膜拜.
Kilerd
    22
Kilerd  
   2016-04-11 12:01:25 +08:00
太厉害了,坚持了那么久,我很久之前也写过一个,不过完全不通用啊。
mahone3297
    23
mahone3297  
   2016-04-11 12:05:15 +08:00
什么毅力居然让你坚持了 6 年。。。赞。。。
kutata
    24
kutata  
   2016-04-11 12:06:08 +08:00
这项目的构建方式刷新了三观,好腻害.....
qa52666
    25
qa52666  
   2016-04-11 12:29:14 +08:00
牛逼
soulteary
    26
soulteary  
   2016-04-11 12:30:43 +08:00
成功炸出来潜水党...点赞。
dong3580
    27
dong3580  
   2016-04-11 12:38:35 +08:00
已经 star,真是膜拜大牛啊,
ixinshang
    28
ixinshang  
   2016-04-11 12:41:02 +08:00
在树莓派贴吧 看过一个类似的 info
sunbeams001
    29
sunbeams001  
   2016-04-11 12:45:40 +08:00
定制度和完成度都好高……膜拜下
Xrong
    30
Xrong  
   2016-04-11 12:45:46 +08:00
我了个去啊,牛逼到家啊。。。给楼上点个赞啊
heige853
    31
heige853  
   2016-04-11 12:49:17 +08:00
看了下 好牛逼 颠覆了对以往采集工具的理解~
Asimov
    32
Asimov  
   2016-04-11 12:49:29 +08:00 via Android
回家试试
missqso
    33
missqso  
   2016-04-11 13:00:27 +08:00
好厉害啊,很多 ux 动画也是非常的精致。
FanError
    34
FanError  
   2016-04-11 13:02:09 +08:00
一登录进去 NPE 了哦

java.lang.NullPointerException
at lllllllllllllll.IIlIIllllIIlllllI.lIlIllIllIIIllI(Unknown Source)
at lllllllllllllll.IIlIIllllIIlllllI.IIIIIllIlIIIIII(Unknown Source)
at lllllllllllllll.IIlIIllllIIlllllI.IIIIIIlllIlllIl(Unknown Source)
at lllllllllllllll.IIlIIllllIIlllllI.IIlIIIlIlIIlIIl(Unknown Source)
at lllllllllllllll.IIlIlllIlllIlIIII.lIIllIllllIIIIl(Unknown Source)
at lllllllllllllll.IIlIlllIlllIlIIII.check(Unknown Source)
at sun.reflect.GeneratedMethodAccessor60.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
at java.lang.reflect.Method.invoke(Unknown Source)
at lllllllllllllll.IIlIlIllIIIlIlIll.IIIIlIlllIIlIll(Unknown Source)
at lllllllllllllll.IIlIlllIlIllllIIl.call(Unknown Source)
at lllllllllllllll.IIlIIlIIIlIIlIIII.IIlIIlIlIlIlIIl(Unknown Source)
at lllllllllllllll.IIlIIlIIIlIIlIIII.service(Unknown Source)
Caratpine
    35
Caratpine  
   2016-04-11 13:03:51 +08:00
好厉害,赞赞赞
loadingimg
    36
loadingimg  
   2016-04-11 13:04:45 +08:00
膜拜一下
ketle
    37
ketle  
   2016-04-11 13:07:08 +08:00
可视化的怎么弄
Sunya
    38
Sunya  
   2016-04-11 13:09:56 +08:00 via iPhone
wecl come back 😆。赞
csx163
    39
csx163  
   2016-04-11 13:29:50 +08:00
三年前看过,记得当时根本无从下手,现在真的好用多了。 [赞]
sohoer
    40
sohoer  
OP
   2016-04-11 13:40:07 +08:00
@FanError 请切换到海外节点,在 LOGO 边上
sohoer
    41
sohoer  
OP
   2016-04-11 13:43:52 +08:00
上一次发布有人说访问太慢,
所以我自己实现了分布式同步,目前有三个节点, aliyun 、 gae 、 linode
被墙的资源如 GAE 请使用 linode(海外节点)访问
frankmdong
    42
frankmdong  
   2016-04-11 14:05:12 +08:00
好毅力 已 star
xiaogouxo
    43
xiaogouxo  
   2016-04-11 14:13:22 +08:00
楼主太刁了。已 star
walkershow
    44
walkershow  
   2016-04-11 14:25:06 +08:00
楼主牛逼啊!
sohoer
    45
sohoer  
OP
   2016-04-11 14:34:29 +08:00
@leehon 一直都是一个人开发

有时候想想都觉得自己很强大,坚持这么久做一件事情
无数次编译,数不清的重构,每一次重构都很痛苦
刚开始程序员生涯的时候做过很多垃圾站,也用过不少采集器
后面知道 GAE 免费,于是想用很多的 GAE APP 来搭一个免费的爬虫网络(违反 TOS )
基于 GAE 开发后发现 PAAS 平台限制太多,后来加上了标准的 JAVA 环境支持
目前同时支持 GAE 与标准 JAVA 环境,开发上也增加不少难度,
谁让我想吃免费的蛋糕呢!

最后大家都能有免费蛋糕吃
xingshu
    46
xingshu  
   2016-04-11 14:36:52 +08:00
能留个邮箱么,有点其他需求,希望能通过邮箱沟通。🤗
sohoer
    47
sohoer  
OP
   2016-04-11 14:40:30 +08:00
xingshu
    48
xingshu  
   2016-04-11 15:11:46 +08:00
@sohoer 已发,谢谢。
fengxiang
    49
fengxiang  
   2016-04-11 15:15:29 +08:00 via Android
手动点赞,楼主能坚持真的很厉害。不像某些项目,一堆 bug 还到处宣扬。
gimp
    50
gimp  
   2016-04-11 15:36:48 +08:00
佩服楼主的毅力和能力,点赞!
mcwanderer
    51
mcwanderer  
   2016-04-11 16:13:45 +08:00
膜拜
badcode
    52
badcode  
   2016-04-11 16:15:17 +08:00   ❤️ 1
看哭了,我确定是回这贴的
sohoer
    53
sohoer  
OP
   2016-04-11 16:26:50 +08:00
@badcode 你确定吗?
DesignerSkyline
    54
DesignerSkyline  
   2016-04-11 16:36:35 +08:00
给你点赞啦!希望以后也继续更新
Flygoat
    55
Flygoat  
   2016-04-11 16:40:01 +08:00 via iPad
垃圾站助手?
sohoer
    56
sohoer  
OP
   2016-04-11 16:43:00 +08:00
@Flygoat 现在不做垃圾站了,像这样的 http://www.shishibi.com(半成品)
binux
    57
binux  
   2016-04-11 17:51:56 +08:00
选项太多了,来试试 import.io
sohoer
    58
sohoer  
OP
   2016-04-11 17:59:57 +08:00
@binux 大神来了啊!

试用过 import.io 好卡,他也有不少可配置项,并且这种可视化配置并不能做到通用
其实我那两个导出图标都还是从他们家搬来的
ven
    59
ven  
   2016-04-11 18:03:57 +08:00
太强大了!赞!
sohoer
    60
sohoer  
OP
   2016-04-11 18:04:26 +08:00
@binux

哦你说的应该是那个无需配置的功能,那个复杂点的页面就解析不出来,不确定性太多
binux
    61
binux  
   2016-04-11 18:06:56 +08:00
@sohoer 最近更新了,现在是纯 web 的了,不知道你试过没有
import.io 给通用的解决方案是后处理
我给通用的解决方案是直接写脚本

与其在一大片菜单中学习一堆新的概念,还不如学几段脚本容易
ddter
    62
ddter  
   2016-04-11 18:26:27 +08:00
不是泼冷水啊,这个跟八爪鱼比起来有啥明显的优势吗。。。
jiezhi
    63
jiezhi  
   2016-04-11 18:41:14 +08:00
牛人,学习坚持精神!
sohoer
    64
sohoer  
OP
   2016-04-11 18:50:17 +08:00 via iPhone
@ddter 八爪鱼带个浏览器跑耗资源,好处是真的通用,八爪鱼能在 gae,openshift 上跑吗?
sohoer
    65
sohoer  
OP
   2016-04-11 19:08:35 +08:00
@binux

现在的可视化配置功能是没几个选项的, 保留原来的功能配置是对这个通用型采集器的强化,
我不想要这个能用那个用不了的采集器。

拿知乎的模拟登录来说, import.io 是绝对实现不了的
知乎的登录做了几次跳转,有一次是读取 cookie 的值做的跳转
HanSonJ
    66
HanSonJ  
   2016-04-11 19:08:38 +08:00
我吓尿了,好厉害!
sohoer
    67
sohoer  
OP
   2016-04-11 19:12:23 +08:00
@binux 刚刚看到,应该是最近几天更新的,好好玩一下
leafof
    68
leafof  
   2016-04-11 19:18:01 +08:00
很牛!可惜暂时用不到
ftp11yyy
    69
ftp11yyy  
   2016-04-11 19:30:38 +08:00
点赞,好厉害!
lemayi
    70
lemayi  
   2016-04-11 19:37:01 +08:00
太 nb 了!
alocne
    71
alocne  
   2016-04-11 19:37:43 +08:00
好厉害
isb
    72
isb  
   2016-04-11 20:06:33 +08:00
惊呆。~ 好厉害!!
yylzcom
    73
yylzcom  
   2016-04-11 21:00:18 +08:00 via Android
我见过的收藏人数最多的一个帖子
imWBB
    74
imWBB  
   2016-04-11 21:26:46 +08:00
点赞
xiaocsl
    75
xiaocsl  
   2016-04-11 21:34:39 +08:00
在以前的公司,有过类似的.
我负责前端,开发一个 Chrome 插件,来让人选择爬取的内容.

楼主这个,看功能要完善好多.犀利啊~
huijian222
    76
huijian222  
   2016-04-11 22:05:49 +08:00
cool
jaylong
    77
jaylong  
   2016-04-11 22:38:14 +08:00
好棒!
hpeng
    78
hpeng  
   2016-04-11 23:03:33 +08:00
好牛逼。读书的时候就有这个想法,但是并没有做下去。实在佩服,佩服。
h4lt
    79
h4lt  
   2016-04-11 23:12:31 +08:00
叼炸了。正好有相关的需要,学习学习。
strwei
    80
strwei  
   2016-04-12 00:03:14 +08:00
功能强大到爆,可惜不适合小白用
branchzero
    81
branchzero  
   2016-04-12 01:52:35 +08:00
好强大啊,已 star ,佩服 LZ 的毅力!
konakona
    82
konakona  
   2016-04-12 02:01:47 +08:00
看了介绍视频,很强大!
非常感谢楼主分享!
jacker
    83
jacker  
   2016-04-12 08:38:47 +08:00
和国外的 kimono 太像啦
sohoer
    84
sohoer  
OP
   2016-04-12 09:08:19 +08:00
@jacker 虽然 kimono 已死,但不否认有参考他的设计
cxshun
    85
cxshun  
   2016-04-12 09:26:19 +08:00
好强大,佩服楼主!
codeyung
    86
codeyung  
   2016-04-12 15:01:22 +08:00
支持楼主!
wq2016
    87
wq2016  
   2016-04-12 15:15:09 +08:00
支持一个!
myforgame
    88
myforgame  
   2016-04-12 15:52:48 +08:00
屌爆了
gutianyun
    89
gutianyun  
   2016-04-12 20:17:57 +08:00
@sohoer 不是都说 python 开发爬虫不错嘛,为什么你选择 java ,谢谢回答
jacker
    90
jacker  
   2016-04-12 21:17:35 +08:00
以前做过 SEO ,采集方面主要是采集后伪原创处理然后发布,现在主要做一些运营方面,会遇到需要采集一些数据做分析,根据这两方面我个人感觉可以加上的几个功能是
1.根据部分开源的程序有通用的规则,方便小白来采集(如 WordPress ,或者 magento );
2.对接一些 API ,如 copypass 等
如果能根据数据生成图就更好啦
kimono 可以生成自己的 API ,这个功能也是非常不错的
viosey
    91
viosey  
   2016-04-13 00:21:57 +08:00
太强大了, 虽然说个人免费使用, 但是即使收费了也是毫不犹豫的买买买
sohoer
    92
sohoer  
OP
   2016-04-13 09:24:06 +08:00
@gutianyun 简单的开发一个爬虫, python 是好原生 API 就很强大,复杂的熟悉哪个用哪个,用 JAVA 只因我能撑控他,为了优化性能,还需要对内存堆栈做分析


@jacker 数据导出 API 支持 JSON 、 RSS 格式,你看演示视频里不是可以将数据发布到 plot.ly (图表生成)
vvaaiinn
    93
vvaaiinn  
   2016-04-13 11:26:21 +08:00
NB 啊。求个邀请码注册玩玩
wingyiu
    94
wingyiu  
   2016-04-15 19:29:03 +08:00
NB
wingyiu
    95
wingyiu  
   2016-04-15 19:36:31 +08:00
test 账号进去各种 error ,引导做得不好,居然不是开源,不过好像反编译就行了
quericy
    96
quericy  
   2016-04-20 09:11:33 +08:00
看完 LZ 的项目,感觉自己写的爬虫的通用性就是个笑话
6 年....佩服 LZ 的毅力
mew7wo
    97
mew7wo  
   2016-05-25 12:51:23 +08:00
个人安装之后,用什么帐号可以登录使用个人采集器
wujunze
    98
wujunze  
   2016-08-19 13:48:22 +08:00
佩服楼主的毅力
coolloves
    99
coolloves  
   2016-08-20 07:25:34 +08:00 via Android
膜拜!!!!
fanghui
    100
fanghui  
   2017-02-21 00:31:17 +08:00
@sohoer 主要问题是没有 xpath 表达式显示在页面的左上角,你可以看下截图,截图地址: https://pan.baidu.com/s/1ctf1Yu
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2924 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 03:21 · PVG 11:21 · LAX 19:21 · JFK 22:21
Developed with CodeLauncher
♥ Do have faith in what you're doing.