V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Ariagle
V2EX  ›  Node.js

[招募] 萌否业余项目——网页爬虫,招募 node.js 开发者

  •  
  •   Ariagle · 2013-08-10 11:35:58 +08:00 · 10179 次点击
    这是一个创建于 4153 天前的主题,其中的信息可能已经有所发展或是发生改变。
    几个月前曾在 V2EX 发过类似的招募帖 http://www.v2ex.com/t/62611 ,里面有关于我们的介绍,这里就不再多写了。

    上次招到了一个可♂爱的开发者,不过还是不够。最近我稍微有了点点时间,希望能够尽快将萌否 Beta4 推上线,所以还要再找个同好帮忙推进后端的开发。

    现在要做的功能是:网页爬虫。更进一步,是指 ACG 媒体网站的爬虫。
    我们后台已经运行有一些爬虫了,这些爬虫也是针对具体网站来写的。现在,我们要针对媒体网站来抓取信息。后续还会扩大收录范围。
    由于各种原因,我们使用 node.js 来完成这类后端任务。因此我们希望你在 node.js 方面有一定的经验。
    同时,我也认为同是 ACGer 才能更好地融入我们团队。

    还是要注明的是,我们这个是业余项目。欢迎有兴趣、有余力、有时间的同好加入~

    联系方式:
    Email: ariagle [at] moefou.org
    QQ: 910437475
    Twitter: @Ariagle

    (・ω< )★
    43 条回复    2013-09-02 17:25:48 +08:00
    jasya
        1
    jasya  
       2013-08-10 11:42:37 +08:00
    _(:3」∠)_来写写练练手可以吗
    kenneth
        2
    kenneth  
       2013-08-10 11:46:52 +08:00
    @Ariagle 我可以提供全套的抓取解决方案,范例:www.mvmap.com
    chengyuhui
        3
    chengyuhui  
       2013-08-10 11:50:51 +08:00   ❤️ 1
    喵w
    davepkxxx
        4
    davepkxxx  
       2013-08-10 11:53:30 +08:00
    惊现圆长
    Ariagle
        5
    Ariagle  
    OP
       2013-08-10 11:54:41 +08:00
    @jasya 这是要上生产环境的,要是你觉得不太难,也可以当作是练手= =

    @kenneth 谢谢~不过现在还是想写套适用于我们自己实际情况的代码,你的方案是否属于通用型爬虫?
    kenneth
        6
    kenneth  
       2013-08-10 11:57:20 +08:00
    @Ariagle 没有我爬不了的网站,只需要告诉我,你要爬那些网站,那些结构化数据即可,我提供服务器直接入你数据库都可以。
    Ariagle
        7
    Ariagle  
    OP
       2013-08-10 12:01:09 +08:00
    @kenneth 厉害,听着像是商业服务的程度了 Σ( ° △ °|||)︴
    kenneth
        8
    kenneth  
       2013-08-10 12:06:59 +08:00
    @Ariagle 爬的同时,可以帮你把图片生成各种尺寸,按路径规则保存,等比例缩略+水印。爬虫全自动,无人值守,自动更新。mvmap就是全自动更新,不需要维护的。
    Ariagle
        9
    Ariagle  
    OP
       2013-08-10 12:13:29 +08:00
    @kenneth 是用什么写的呢?从长远来说,还是部署到自己服务器上比较好。
    kenneth
        10
    kenneth  
       2013-08-10 12:17:27 +08:00
    @Ariagle 爬虫Python开发效率高,运行效率也不错。可以帮你部署到你的服务器,配置定时任务,全自动抓取。
    jasya
        11
    jasya  
       2013-08-10 12:17:34 +08:00
    来了个高端人士...匿了..(´・ω・`)
    kenneth
        12
    kenneth  
       2013-08-10 12:19:30 +08:00
    @Ariagle 如果你用亚马逊AWS,可以帮你配置爬虫集群,快速闪电抓取,以最短的时间,完成海量数据抓取。
    jasya
        13
    jasya  
       2013-08-10 12:30:31 +08:00
    @kenneth 突然有个问题,大哥能抓新浪微博全站吗,求解决方案
    Ariagle
        14
    Ariagle  
    OP
       2013-08-10 12:42:19 +08:00
    @kenneth 我们这边没什么人熟 python ,以后维护起来不方便……
    gullon
        15
    gullon  
       2013-08-10 13:38:40 +08:00
    @kenneth 用的是scrapy?
    我想请我一下,有什么适合爬虫待着的vps推荐呢?
    kenneth
        16
    kenneth  
       2013-08-10 13:55:51 +08:00   ❤️ 1
    @gullon 我会各种各样的爬虫,各种各样的语言的爬虫方案。Scrapy只是一个方案,mvmap用的不是这个方案。爬虫的难点在于,分布式,异步,并发,队列,数据管道,数据持久化等,考虑的点有很多。但是灵活的用。
    fetchcoin
        17
    fetchcoin  
       2013-08-10 14:02:32 +08:00
    不就一定向采集吗?为啥不用火车头,耗费人力物力自己写?
    kenneth
        18
    kenneth  
       2013-08-10 14:04:58 +08:00
    @fetchcoin 我要管理100万的域,5万的论坛,10万的博客,这么多规则,你用火车头,你觉得行吗?
    fetchcoin
        19
    fetchcoin  
       2013-08-10 14:06:59 +08:00
    @kenneth 你自己定向采集,结构化数据,不也需要对每个点配置规则吗,别说智能结构化数据
    gullon
        20
    gullon  
       2013-08-10 21:48:02 +08:00
    @kenneth 多谢指教。
    但分布式,异步,并发,队列,数据管道,数据持久化等基本上已经是搜索引擎蜘蛛的要求了吧?对普通的数据采集需要考虑这么多因素么?
    huazhouji
        21
    huazhouji  
       2013-08-10 22:04:40 +08:00 via iPhone
    @kenneth 高手啊,一个人管那么多站,牛逼
    lewisc402
        22
    lewisc402  
       2013-08-11 00:06:54 +08:00
    @kenneth 问个问题:假设我想用爬虫访问 a.html,结果服务器会重定向到 redirect.html?url=a.html,而redirect.html中是一些javascript代码,用来写cookie,那么我该怎么办才能访问到原网页呢? 一般有哪几种方案可以解决这个问题??
    binux
        23
    binux  
       2013-08-11 11:40:13 +08:00
    @kenneth 分布式,异步,并发,队列,数据管道,数据持久化 都不是难点
    难点在于页面数据结构化,人工不算
    chengyuhui
        24
    chengyuhui  
       2013-08-12 00:21:15 +08:00
    @binux 一般的站点用jsdom甚至更简单的一些HTML Parser就能搞定
    最蛋疼的就是那些各种AJAX的Web App.....
    binux
        25
    binux  
       2013-08-12 00:56:50 +08:00
    @chengyuhui 我指的是,对不同的网站“自动”提取结构化数据
    clowwindy
        26
    clowwindy  
       2013-08-12 01:32:08 +08:00
    @kenneth 链接发现是怎么做的?
    isayr
        27
    isayr  
       2013-08-12 05:01:45 +08:00
    @clowwindy @kenneth 同问 链接发现是怎么做的?
    F0ur
        28
    F0ur  
       2013-08-12 11:54:03 +08:00
    搬凳子听讲课。。平时爬虫接触的真心不多
    emohacker
        29
    emohacker  
       2013-08-24 23:49:03 +08:00
    用node最简单的地方在于web上html内容抓回来之后可以把内容当dom操作,server端用jQuery操作dom获取指定内容,极大降低了门槛,不会传统爬虫技术的童鞋也可以无痛写定向爬虫了。
    请问楼主选择node是否处于这方面的考虑?
    Ariagle
        30
    Ariagle  
    OP
       2013-08-24 23:58:34 +08:00
    @emohacker 是的,若原本就懂类JQuery的选择器操作,那会有天然的优势。另外就是相对诸如Python等其他后端语言,我们对JS更熟一些。
    xieren58
        31
    xieren58  
       2013-08-25 09:54:07 +08:00
    用上node的cheerio,我和我的小伙伴们都惊呆了 ~~
    gdzdb
        32
    gdzdb  
       2013-08-29 15:08:04 +08:00
    我也来推荐一个node的爬虫模块:https://github.com/cgiffard/node-simplecrawler
    ling0322
        33
    ling0322  
       2013-08-29 15:26:43 +08:00
    咱报个名呢> <
    jinwyp
        34
    jinwyp  
       2013-08-30 11:33:08 +08:00
    没人用phamtomjs? 和node phamtom
    martinbruce
        35
    martinbruce  
       2013-08-30 15:13:06 +08:00
    @kenneth 这方面的高手啊! 求携带,最近一直在研究crawler
    kenneth
        36
    kenneth  
       2013-08-30 15:20:29 +08:00
    @martinbruce 欢迎来我网站和我交流mvmap.com,或者直接加我QQ:50009371
    kenneth
        37
    kenneth  
       2013-08-30 18:03:25 +08:00
    @clowwindy
    @isayr
    影大指的的爬虫的链接发现?这要看是盲爬,还是定向爬了。定向爬是用正则写规则,盲爬就是深度优先和广度优先,还有控制爬取的深度。
    clowwindy
        38
    clowwindy  
       2013-08-30 22:14:03 +08:00
    @kenneth 非定向抓取去重是个难题,我们以前的搜索项目也遇到了,没有很好的解决。比如爬淘宝,如何发现商品,如果顺着链接忙爬,会陷入各种搜索过滤条件的组合之中。这些搜索条件大部分是搜不出结果的。搜出结果的,结果条目也大量重复。我们虽然尝试用一些模型去学习和预测,但效果很差。最后只能单纯限制抓取深度。
    binux
        39
    binux  
       2013-08-30 22:18:02 +08:00
    @clowwindy
    1、去除无效参数
    2、泛滥控制
    3、翻页索引识别
    4、链接发现能力挖掘
    等等等等。。
    TimePower
        40
    TimePower  
       2013-08-31 20:17:51 +08:00
    你们服务器被墙了~?
    Ariagle
        41
    Ariagle  
    OP
       2013-08-31 20:52:07 +08:00
    @ling0322 可QQ联系。

    @TimePower 没有,可能是你的网络问题吧?
    crny520
        42
    crny520  
       2013-08-31 21:04:50 +08:00
    @kenneth 哥,牛吹太大了,你的PY也不是会太久.
    kenneth
        43
    kenneth  
       2013-09-02 17:25:48 +08:00
    @crny520 我一直都是小菜鸟。没有吹牛,只是贡献爬虫思路而已。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4679 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 10:04 · PVG 18:04 · LAX 02:04 · JFK 05:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.