V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
garham
V2EX  ›  外包

100 块爬网易一条新闻的评论

  •  
  •   garham · 2016-05-18 16:14:15 +08:00 · 1269 次点击
    这是一个创建于 3110 天前的主题,其中的信息可能已经有所发展或是发生改变。
    给定一个网址,比如 http://comment.news.163.com/news3_bbs/BNBIJDSQ00014AED.html
    把其中热门跟帖部分前 10 页的数据存成 json 格式,如果有盖楼需要存下来,用 python 或 node.js 实现。
    实验室需要做,周围没有人会,那位大神有兴趣可以微信联系我 ticat-
    第 1 条附言  ·  2016-05-30 17:12:19 +08:00
    已外包,谢谢大家
    12 条回复    2016-05-21 11:44:05 +08:00
    garham
        2
    garham  
    OP
       2016-05-18 16:30:15 +08:00
    这里面的 a2869674571f77b5a0867c3d71db5856
    这个数是怎么得到的呢?
    garham
        3
    garham  
    OP
       2016-05-18 16:44:45 +08:00
    @lwbjing 这里面的 a2869674571f77b5a0867c3d71db5856
    这个数是怎么得到的呢?你有兴趣做一下么?
    lygmqkl
        4
    lygmqkl  
       2016-05-18 16:56:35 +08:00
    客户端 抓包吧?
    lwbjing
        5
    lwbjing  
       2016-05-18 16:57:15 +08:00   ❤️ 1
    http://img1.cache.netease.com/tie/static/2016051302/tiepage.js ===>>>


    ```
    a = "http://" + document.location.host + "/api/v1/products/" + productKey + "/threads/" + i.srcData.docId + "/comments/" + (o ? "specHotList" : "hotList") + "?offset=0&limit=40&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc";
    ```


    ```
    var productKey="a2869674571f77b5a0867c3d71db5856";
    ```
    baohao
        6
    baohao  
       2016-05-18 16:58:28 +08:00
    @garham 你直接访问网站的时候,打开 chrome 或者 firefox 浏览器的 F12 ,调试界面,选到 NetWork/网络选项,就能看到 1L 给的这一系列请求评论的 HTTP 请求了。毫无技术难度。。。。
    Yannis1990
        7
    Yannis1990  
       2016-05-18 17:04:39 +08:00
    jQuery("[style ='line-height: 21px; margin-bottom: 3px; zoom: 1; word-wrap: break-word;overflow:hidden;']").text()

    用 PyQuery
    garham
        8
    garham  
    OP
       2016-05-18 18:42:04 +08:00
    @lwbjing 非常感谢!已可搞。如果你想来写这个函数可以联系我(输入是 news3_bbs , BNBIJDSQ00014AED ,输出是,把 json 文件稍微整理一下格式,去掉没用的信息,存成文件)
    atnoot
        9
    atnoot  
       2016-05-18 19:33:00 +08:00
    网易系的网站貌似习惯用 json
    Moker
        10
    Moker  
       2016-05-18 20:26:56 +08:00
    一定是要 py 或者 node 么
    realpg
        11
    realpg  
       2016-05-18 23:54:11 +08:00
    不是 py 如何交易……
    yangxiaoluck
        12
    yangxiaoluck  
       2016-05-21 11:44:05 +08:00
    爬虫专业 5 年, python 。 给你搭建完整的爬虫
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2929 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 00:09 · PVG 08:09 · LAX 16:09 · JFK 19:09
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.