V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wudixiaomianyang
V2EX  ›  程序员

有偿求助:WebMagic 的模拟登陆和爬虫。

  •  
  •   wudixiaomianyang · 2018-05-31 10:05:34 +08:00 · 1478 次点击
    这是一个创建于 2373 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我现在需要使用 WebMagic 爬虫国外的一个网站,彭博网,这个网站现在需要登陆并开通会员后才能抓取到正确的文章信息。我刚接触爬虫不久,始终无法正确的登陆上去。下面说说我的尝试: 1.我使用 httpclient 发送 post 请求模拟登陆,始终无法正常登陆。 2.我使用 selenium 打开页面登陆后,获取到了 cookie 再塞给 httpclientDownloader,依然无法登陆。

    暂时不考虑全部使用 selenium 来爬数据,因为公司需求的数据量很大,而且我只需要文章内容,全部使用 selenium 来爬效率太低,无法满足我的需求。

    所以有偿 300 元人民币求助有空闲的大佬帮忙看看,因为我不清楚是否是 WebMagic 本身的原因,所以需要会 Webmgic 的大佬模拟登陆上了之后能在 Spider 里也登录上。 selenium 模拟登陆的代码我已经写好了,需要梯子我也可以提供。

    QQ:283259881

    7 条回复    2018-05-31 12:55:37 +08:00
    wudixiaomianyang
        1
    wudixiaomianyang  
    OP
       2018-05-31 10:06:38 +08:00
    归纳为一句话,保证模拟登陆成功以及 spider 运行时是登陆状态即可。其他不需要大佬操心。
    capo
        2
    capo  
       2018-05-31 10:17:47 +08:00
    友情提示:对方维权意识较强
    wudixiaomianyang
        3
    wudixiaomianyang  
    OP
       2018-05-31 10:19:54 +08:00
    @capo 会员 30 刀一个月呢。登陆上了也得付费才能看到完整内容。现在卡在登陆不上。
    holajamc
        4
    holajamc  
       2018-05-31 10:32:51 +08:00
    如果能用 Python 的话 emmm 可以帮你做)
    wudixiaomianyang
        5
    wudixiaomianyang  
    OP
       2018-05-31 11:52:23 +08:00
    @holajamc 不好意思。因为我其他几个爬虫都是用的这个框架。而且我不会 python,暂时不考虑了,不好意思
    LukeChien
        6
    LukeChien  
       2018-05-31 12:37:58 +08:00 via Android
    周末可以无偿帮你看下
    wudixiaomianyang
        7
    wudixiaomianyang  
    OP
       2018-05-31 12:55:37 +08:00
    @LukeChien 大佬加我 QQ 吧。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2949 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 00:32 · PVG 08:32 · LAX 16:32 · JFK 19:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.