如果只是爬取内容的话,可以用搜狗的微信搜索页面作为入口。但是其他元数据比如阅读量/点赞量怎么爬取?似乎只有微信内置浏览器能显示这些信息?爬虫怎样抓到?另外超过 10w 就不显示具体数字,怎样能获得真实的阅读数。还有,刚刚发布的文章怎样立即就能被爬虫发现?
这些都是可以做到的, http://www.newrank.cn/ 能看到榜单上图文的真实阅读量 http://chuansong.me/ 能精确显示几分钟前发布的文章,显然是实时抓取的
实时抓取的功能我猜测是用程序模拟了一个微信客户端,接受推送?
有没有人了解这些爬虫怎么实现的?
1
2232588429 2016-04-09 12:47:27 +08:00
传送门也爬不到阅读量和点赞数啊,要是能实时抓取这个就好了。
|
2
matsuijurina 2016-04-09 12:51:10 +08:00 via Android
iOS 逆向微信, hook 相应的消息函数,注入自己的 dylib ,想拿到的都能拿到。
|
3
wangleineo OP @2232588429 有的,看排行榜 http://werank.cn/
|
4
wangleineo OP @matsuijurina 一个微信可关注的公众号数量是有限的吧,要关注所有公众号,不是要很多个微信号和很多设备?
安卓有没有类似方案? |
5
matsuijurina 2016-04-09 13:27:53 +08:00 via Android 1
@wangleineo 安卓逆向微信玩的人更多吧,模拟器上多开,伪装真机验证。不过,关注所有公众号,这个有点猛,没有内部接口不知道怎么做到。
|
6
marenight 2016-04-09 14:37:58 +08:00 3
有个老师收购了几千部安卓手机,然后做了这个 http://www.gsdata.cn/
|
7
soho176 2016-04-09 18:02:38 +08:00 via Android
这个我也想知道咋做的
|