首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
宝塔
V2EX  ›  程序员

你写爬虫的目的是什么?

  •  
  •   kehr · 2014-03-25 20:55:01 +08:00 · 9783 次点击
    这是一个创建于 2063 天前的主题,其中的信息可能已经有所发展或是发生改变。
    相信许多人都写过自己的网络爬虫。说说促使你写爬虫的目的是什么?用到了那些技术和工具?留下地址大家围观一下 ~\(^o^)/~
    59 回复  |  直到 1970-01-01 08:00:00 +08:00
        1
    janxin   2014-03-25 21:16:37 +08:00 via iPad
    写了这么久没写过爬虫…我不是合格程序员…
        2
    wvidc   2014-03-25 21:21:06 +08:00
    你猜猜
    ~\(^o^)/~
        3
    john990   2014-03-25 21:34:04 +08:00 via Android
    为自己的网站弄点数据
        4
    paicha   2014-03-25 21:37:22 +08:00
    微信公众号,教务系统成绩查询
        5
    caiych   2014-03-25 23:01:51 +08:00
    ……看漫画……网站不给打包下载……
    以及抓一些数据测试算法……
        6
    binux   2014-03-25 23:06:40 +08:00   ♥ 1
    这是我的工作。。
        7
    xuxu   2014-03-25 23:09:20 +08:00
    蛋疼的时候玩
        8
    vitoziv   2014-03-25 23:32:59 +08:00
    毕业设计的时候,为了做一个移动版教务系统,爬了学校的教务系统数据..
        9
    jsonline   2014-03-25 23:47:29 +08:00
    每个月都能看见有人发布一个新的爬虫……
        10
    reverland   2014-03-25 23:58:33 +08:00
    显然是为了搜集信息
        11
    csx163   2014-03-26 00:22:05 +08:00
    抓H种子
    抓H图

    果然H是第一生产力啊
        12
    WildCat   2014-03-26 09:02:48 +08:00 via iPhone
    @paicha 这…怎么查?没API诶
        13
    WildCat   2014-03-26 09:04:38 +08:00 via iPhone
    @paicha
    @vitoziv

    求如何爬正方教务系统
    http://123.232.100.110:86

    @csx163
    你不怕查水表?
        14
    Amoscoder   2014-03-26 11:27:56 +08:00
    工具用的Mechanize。。

    @WildCat
    你爬正方的教务系统难点在哪儿?很容易啊。
        15
    vilic   2014-03-26 12:04:44 +08:00
    主要是提高生产力吧, Marketing Research 之类的. 还有就是之前做的外包, 是 SEO 工具, 统计数据用的.
    另外现在自己的背单词应用也是爬的词库. 感觉经常会用到.
    @WildCat 哈哈, 说道这个还真的爬过教务处网站抓课表, 虽然那个项目后来没继续搞了. https://github.com/vilic/ClassScheduleProxy
        16
    xavierskip   2014-03-26 12:51:24 +08:00
    美女图!妹子图!无聊图!
        17
    kehr   2014-03-26 12:55:56 +08:00   ♥ 1
    @Amoscoder
    @vilic

    你们的教务系统外网能够访问么?比如查成绩,查课表之类的?我们这里只能通过内网进行。

    如果外网无法访问,那么爬虫还能爬到数据么?
        18
    bbiao   2014-03-26 13:20:42 +08:00
    要是能匿名回答就好了。
        19
    kehr   2014-03-26 13:36:30 +08:00
    @bbiao 查水表的没有那么快~
        20
    vilic   2014-03-26 13:37:59 +08:00
    @kehr 多数教务网貌似外网还是能访问的诶。
        21
    kehr   2014-03-26 13:40:32 +08:00
    @vilic 如果要爬外网无法访问的,有什么解决方法木有?
        22
    wtbhk   2014-03-26 13:58:21 +08:00
    爬教务处的课表、成绩、补考、饭卡余额明细等。教务处太渣,爬下数据来重新组织排版缓存再给学生使用,还可以提供移动端访问。
        23
    ChiangDi   2014-03-26 14:02:47 +08:00 via Android
    无聊。
        24
    vilic   2014-03-26 14:07:05 +08:00
    @kehr 用客户端访问咯, 然后服务器解析或者直接客户端解析就好了.
        25
    moondark   2014-03-26 14:24:01 +08:00
    爬我校BBS,完成课程作业
        26
    WildCat   2014-03-26 14:25:36 +08:00 via iPhone
    @vilic
    @Amoscoder
    只能查自己的成绩和课表,怎么爬别人的?
        27
    BackBox   2014-03-26 14:48:46 +08:00 via iPhone
    @Amoscoder 怎么处理验证码?
        28
    fange01   2014-03-26 15:04:11 +08:00
    @paicha 求共享源码。
        29
    Actrace   2014-03-26 15:43:04 +08:00
    用PHP写爬虫做了个网页搜索,code.so
        30
    Amoscoder   2014-03-26 16:06:15 +08:00
    @WildCat 这个没办法吧,只能用别人的账号模拟登陆
        31
    Amoscoder   2014-03-26 16:09:48 +08:00   ♥ 1
    @BackBox 可以试下tesseract+imagemagick
        32
    Amoscoder   2014-03-26 16:10:52 +08:00
    @kehr 大部分教务系统还是可以外网访问的,内网的估计悬。
        33
    yangxin0   2014-03-26 17:04:32 +08:00
    公司手游做猜球活动, 写了一个爬虫去爬实时比分数据。
        34
    kslr   2014-03-26 17:12:54 +08:00
    爬xx种子,然后在本地建立数据库。
        35
    kavi   2014-03-26 17:28:10 +08:00
    爬美女图,放在微信公众平台上
        36
    airyland   2014-03-26 17:35:42 +08:00
    @paicha 如何采集公众号的数据?
        37
    paicha   2014-03-26 19:03:46 +08:00   ♥ 1
    @WildCat
    @fange01

    水平太差就不好意思放源码啦,大致流程就是:
    获取学号密码——模拟登录——抓取成绩页面——正则提取数据——返回消息到微信。

    模拟登录的数据我是用 Chrome 开发者工具分析的,然后构造数据 POST 登录。(我们学校教务平台没验证码,所以可以3秒内完成查询)。

    贴个流程图:


    @airyland
    采集公众号的数据?什么意思
        38
    WildCat   2014-03-26 19:30:09 +08:00 via iPhone
    @paicha 我们有验证码,麻烦了
        39
    xi4oh4o   2014-03-26 19:35:52 +08:00
    好用的库
    nokogirl
    phpquery
    用过这些

    curl+regular exp写过模拟登录pixiv,目的是分享自己帐号收藏的用户发布的作品。
        40
    paicha   2014-03-26 19:40:46 +08:00
    @WildCat
    要么试试有什么工具库可以识别,效率的话不知道可以不可以在微信5秒规定内完成。再者就看看能不能绕过验证码。入侵数据库也是一个……不过太危险了。
    这方面没什么经验,只能说一些想法~
        41
    sb   2014-03-26 19:45:53 +08:00   ♥ 1
    @WildCat 直接模拟提交账号密码,不用验证码
        42
    sb   2014-03-26 19:52:26 +08:00
    @WildCat 或者有几个登录页面是没有验证码的,可以模拟提交。
        43
    fengliu222   2014-03-26 20:05:21 +08:00
    当然是拿种子。。不过有了迅雷云播之后,都是直接拿磁力链接什么的~~~
        44
    Lelouchcr   2014-03-26 22:07:02 +08:00
    一开始是给某妹子爬别人豆瓣上的照片。
    后来变成了工作。。。
        45
    summic   2014-03-26 22:11:37 +08:00
    爬股票数据做投资参考
        46
    action   2014-03-26 23:10:20 +08:00
    爬直播
        47
    airyland   2014-03-26 23:39:09 +08:00
    @paicha 我看到你答“微信公众号,教务系统成绩查询”,以为是你写爬虫去采集微信公众号的文章。原来不是么?
        48
    cabinw   2014-03-26 23:44:02 +08:00
    kimono解放了我
        49
    paicha   2014-03-26 23:53:50 +08:00
    @airyland 额,表达不当,我是说在微信公众号里做的开发。
    抓取微信这个有现成的应用: http://chuansong.me/
        50
    9hills   2014-03-26 23:55:51 +08:00 via iPad
    @kehr 内网爬完美解决
        51
    partysover   2014-03-27 01:30:22 +08:00   ♥ 1
    抓数据,然后计算,包装打包卖。
        52
    rainysia   2014-03-27 02:13:59 +08:00   ♥ 1
    我会说我在内网去抓了同事的工资条么...抓了后提了加薪... 加的没同事多...就走了...哎哎, 不作死就不会死
        53
    mclxly   2014-03-27 09:22:04 +08:00
    @summic 你是怎么做数据分析的?我当时爬了一段时间,积累了几千万的数据,后来没有很好的分析思路,就放弃了。
        54
    sunocean   2014-03-27 09:41:07 +08:00
    百度贴吧抓妹子图,我会乱说嘛
        55
    summic   2014-03-27 12:09:26 +08:00   ♥ 1
    @mclxly 最简单的就是看量价比,更多分析方法参见腾讯股票频道的智能选股
        56
    chengs2035   2014-03-27 12:56:33 +08:00
    曾经自己写过C#程序,把百度的所有图片爬下来,花了一天,10多T。。。
        57
    dong3580   2014-03-27 13:48:37 +08:00
    @chengs2035
    抓链接存到数据库,我会说你一天10T,好大的硬盘,到快的网速啊.
        58
    anjiannian   2014-03-27 15:25:08 +08:00
    @rainysia 太可爱了
        59
    Amoscoder   2014-03-28 10:56:04 +08:00
    @9hills 内网你是如何解决的?
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4232 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 36ms · UTC 06:03 · PVG 14:03 · LAX 22:03 · JFK 01:03
    ♥ Do have faith in what you're doing.