之前有个知乎用户‘苏莉安’做了一个网站,叫看知乎。
后来这个网站关闭了,现在感觉网上也没有什么地方可以查看知乎每天最多点赞的回答。索性自己撸了一个出来。
下面放链接: http://www.yanshuo.me/r/zhihuhot
另外对爬虫感兴趣的同学欢迎加群:566806792。
顺便分享下自己网站的邀请注册链接 :P
http://www.yanshuo.me/register/invite_code/snx43bOpeKywe3Kqrn2grYOqn6I
1
jtam 2017-09-04 10:07:09 +08:00
你知道那个网站被关闭的原因么?
|
2
FanError 2017-09-04 10:10:59 +08:00 via iPhone
本来不知道,看到 1 楼这么一说,知道了
|
3
wyan453351466 OP @jtam 这里想解释一下。可能很多朋友会误以为这是抄袭,不规范转载。其实不是的,我只存储了文章的链接,并没有存储原文,这和分享到朋友圈、百度收录链接、网址导航等网站是一回事的。建议你可以搜索一下避风港原则。
关于看知乎关闭的原因,是由于爬虫经常出问题,维护成本高关闭的。详情请看看知乎作者的文章: https://zhuanlan.zhihu.com/p/22477361。 |
4
wyan453351466 OP |
5
junbaor 2017-09-04 10:24:23 +08:00
楼主有打算提供 api 或者 rss 吗?
|
6
wyan453351466 OP @junbaor 后期也许会开发一个开放接口出来。但是眼下还在开发网站具体的功能哈。比如社交账号登录之类的。
|
7
cjyang1128 2017-09-04 10:30:44 +08:00
做的不错
|
8
amon 2017-09-04 10:33:44 +08:00 2
看了这些热门的帖子,居然基本都不感兴趣,很多都是那种想点击“屏蔽这个问题”的。
不是什么少无人知的技巧(全国人民都知道),就是惊为天人的操作(不明所以呵呵了),有什么文章你会背(九年义务教育语文书上的都写了一遍),再无非就是劝你健身看书刷知乎... 大概就是这些用了几年的套路... |
9
wyan453351466 OP @amon 这里确实有这个问题。随着知乎用户越来越多,内容越来越水似乎是一种必然。
毕竟社会中的大多数并不是精英,普通人或者说庸俗的人还是占大多数的。。 这里我并没有在这个版块上加入我自己的价值判断,或筛选,仅仅只是单纯的把点赞最多的内容排列出来了而已。 后期也许会改变一下爬取规则,比如通过只爬取特定用户(一些高质量大 V )点赞过的回答,来保证内容的优质率。 |
10
huijian222 2017-09-04 10:59:09 +08:00
@wyan453351466 #9 有些人也挺喜欢这些“水”的内容的,就像看故事会一样,乐呵乐呵就好了
|
11
junbaor 2017-09-04 11:01:59 +08:00
刚用 Huginn 搞的,顺便问一下,内容变成倒叙了怎么办
http://sg.wkfg.me/users/1/web_requests/11/zhihu.json http://sg.wkfg.me/users/1/web_requests/11/zhihu.xml |
12
liangguan5 2017-09-04 11:20:22 +08:00 via iPhone
赞一个,感谢!
|
13
l00t 2017-09-04 11:22:25 +08:00 21
为什么要爬一个垃圾站……
|
14
cnwtex 2017-09-04 11:29:48 +08:00
我忽然发现, 爱上知乎的人,应该是当年那批爱看<故事会>的人, 都是看回答里面别人讲故事.
|
15
rswl 2017-09-04 11:58:13 +08:00
王路飞
|
16
youyouzkn 2017-09-04 11:58:56 +08:00
我也忽然发现, 爱上知乎的人,应该是当年那批爱看<故事会>的人, 都是看回答里面别人讲故事.
|
17
yukimio 2017-09-04 12:20:25 +08:00
谢谢楼主~~很喜欢。感谢~~
|
18
qianmaole 2017-09-04 12:32:26 +08:00
露珠用的啥跑这个脚本啊?最近 vultr 丢包太多。
|
19
ljcarsenal 2017-09-04 12:37:02 +08:00 via iPhone
@jtam 什么原因
|
20
wyan453351466 OP @qianmaole 我是用 php 写的爬虫脚本。。然后 crontab 定时执行。
|
21
aitaii 2017-09-04 13:19:04 +08:00
知乎都是有故事的人
|
22
xvx 2017-09-04 13:27:44 +08:00 via Android
我觉得知乎以前还可以,现在挺无聊的,不知道为啥还有这么多人喜欢。
|
23
ResidualSoils 2017-09-04 13:30:52 +08:00
我已经好久没碰知乎了,刚刚碰了一下我已经感觉自己承受不了了,现在脑子里想的都是大学生活的反思。知乎真有毒。
|
24
tamlok 2017-09-04 13:32:42 +08:00 via Android
知乎现在基本就是微信公众号推广平台了?自从上次被一个昵称是啥“可能最值得关注的小仙女”喷我是三无小号(现在还是不清楚啥叫三无小号)后,就把知乎卸了!
|
25
stabc 2017-09-04 13:33:19 +08:00
是固定爬了某些分类么?怎么看起来全是“说出你的故事”这类的问题
|
26
wyan453351466 OP @stabc 不是。。是爬取了全部的。然后按照点赞数排序。。可能每天点赞、回答最多的就是这类的问题吧。。
|
27
won 2017-09-04 13:57:48 +08:00
LZ 以为只存储 URL 就不算侵权吗?天真了
|
28
Exgirlfriends 2017-09-04 13:59:58 +08:00
这个好。
已经收藏为每次开浏览器必开 |
31
sofs 2017-09-04 14:41:46 +08:00 via Android
这样的网站用的挺不爽的。点击一下,跳到别的网站跳来跳去的。体验太差
|
32
shapl 2017-09-04 15:18:00 +08:00
为啥标题和摘要要放在同一行,好难受的说。。。
|
34
jin5354 2017-09-04 15:27:38 +08:00
刚上大学的时候天天刷知乎,觉得可长见识了。。
现在已经 3 年没上过了,帐号密码都忘了 |
35
Zach2017 2017-09-04 16:14:13 +08:00
还是蛮喜欢上知乎的, 但是主要关注的还是些科普之类的文章, 感觉很长知识~
|
36
linuxchild 2017-09-04 16:20:41 +08:00
不看知乎了 - -。
|
37
yourimage 2017-09-04 16:46:41 +08:00
这个以前不是爬的是 douban 的图片吗
|
38
jallifish 2017-09-04 17:01:26 +08:00
厉害了!
之前时不时会看一下职得看的收集,感觉两家可以 PK PK。 http://ainterest.ailingual.cn/topics/e8aad82a-a360-4fa4-8e85-ee866259c5f9 |
39
wyan453351466 OP @yourimage 是的。。豆瓣图片现在由于经常出现不可描述内容。故暂时下线了。。后期我优化算法以后,可能会再次上线^ ^
|
40
bucky 2017-09-04 17:09:52 +08:00
有些人就别秀优越感了,前期的知乎绝对是个好网站,只不过现在变味了而已
|
41
Mavious 2017-09-04 17:33:55 +08:00 via iPhone
弱弱的球 rss 输出…
|
42
wyan453351466 OP @Mavious 嗯,后期会上的哈。。现在网站的功能还有些没做好
|
43
WheatField 2017-09-04 19:38:05 +08:00 1
其实知乎没变,看你怎么用而已。
我只关注技术大牛,看技术大牛的发言, 感觉还是学到很多东西,视野开阔了很多。 我没有关注任何一个讲八卦话题的人。 |
44
WheatField 2017-09-04 19:39:28 +08:00
在知乎,只看技术问题就行了,其他的东西都是扯淡、讲故事。
|
45
jerry12547 2017-09-04 19:53:05 +08:00
@WheatField 我顺带还关注了 一些历史政治类的 感觉有些角度还是挺好的
|
46
Sydney2016 2017-09-04 19:53:24 +08:00 via iPhone 1
总有人反智觉得自己高贵,看不上的就自封垃圾,建议这类人可以公布自己的微信公众号或者开一个 tg 群,看一下你高贵在哪,嘴炮倒是挺贵。
|
47
d7101120120 2017-09-04 20:03:22 +08:00
知乎前期的产出还是不错的,现在经常 Google 还能找到前期有用的答案。。。至于现在就不太清楚了
|
48
ggwp 2017-09-04 20:37:52 +08:00
现在知乎太多编段子、耍机灵的,要不就是营销号钓鱼的
|
49
jyf 2017-09-04 20:39:23 +08:00
建议弄个浏览器插件 大家一起共享 ip 资源 一起爬 一起分享获得的数据
|
50
Davidwg 2017-09-04 21:22:27 +08:00
不错
|
51
wyan453351466 OP |
52
wyan453351466 OP @Davidwg 谢谢!
|
53
Crossin 2017-09-04 23:51:07 +08:00
挺好的,赞一个。之前『看知乎』关了挺可惜的。
我也想过做一个,不过是另外的角度,想挖掘一些快速增长的大 V 号和受关注度高的问题。 |
54
drunkpianoNj 2017-09-05 01:38:10 +08:00 via iPhone
是这样,苏莉安提供了接口给客户端用,去年我用他的接口写了一个安卓 App 叫知乎每日精选,投稿到很多应用商店人家都说版权问题不予收录,后来投稿到酷安网和 Google Play,被收录了,后来我收到知乎的站内信说我侵权,让我下架,过了一阵子我发现酷安所有关于这种知乎的第三代 app 都被下架了....
|
55
linux40 2017-09-05 07:47:53 +08:00 via Android
少数专栏看一下还是不错,毕竟用户没走光。
|
56
axzy 2017-09-05 08:20:22 +08:00
谢谢楼主,已经收藏和注册了~希望网站保持住
|
57
SoulSleep 2017-09-05 08:59:13 +08:00
曾经做过爬取一些收藏夹的回答,效果不错,跑了两年没挂....但是.....也只是练手罢了
现在知乎版权意识很高了,指望这个盈利,怕是会吃律师函的..... |
58
SoulSleep 2017-09-05 09:01:33 +08:00
之前爬取的思路是,文本全部抓到本地,图片用 nginx 转发到知乎上,需要伪造一下 domain 就好
|
59
superXiong 2017-09-05 09:17:29 +08:00
知道为什么知乎没有开发该功能吗?不是技术问题,而是理念问题。
|
61
lovestudykid 2017-09-05 09:40:55 +08:00
检索了关于唐山的内容,结果点进去已经被删除了,哈哈
|
62
cat9life 2017-09-05 09:46:38 +08:00
还是要赞一个的
|
63
torment5524 2017-09-05 10:27:56 +08:00
以前觉得知乎能找到不少有价值的内容。现在感觉主流都是感受分享,情感交流,编故事大赛
|
64
poorcai 2017-09-05 11:21:23 +08:00
滋磁。。。另外建议上个 https
|
65
wyan453351466 OP @poorcai 嗯,最近抽空加一个。。
|
66
a4854857 2017-09-05 11:44:30 +08:00
很不错呀..还有别的网站的热门..简洁高效..以后上班摸鱼有东西看了
|
67
raincoat 2017-09-05 12:25:34 +08:00
很棒哎楼主,已收藏。
|
68
friejq 2017-09-05 13:12:22 +08:00
考虑开源么
|
69
czmecho 2017-09-05 13:20:06 +08:00 via iPhone
|
70
bluefountain 2017-09-05 13:33:10 +08:00
希望增加 rss 订阅功能~
|
71
Hagrid 2017-09-05 13:38:22 +08:00
知乎现在是变差了,所以自己在慢慢的取关一些人,要有新关注的时候也会点进去看看大多数回答的问题或者他关注的问题怎么样。
以及用好首页的话题、问题屏蔽功能,感觉这样用了一段时间后,变的好一点了。 |
72
yuansmin 2017-09-05 13:50:19 +08:00
其实这种爬虫最麻烦、成本最高的就是维护了,不是说爬虫不好不聪明,而是网站更新升级快啊
|
73
vtexcaonm 2017-09-05 14:47:00 +08:00
上知乎,分享你刚编的故事
|
74
wyan453351466 OP @cat9life 谢谢!
|
75
kurisu 2017-09-05 19:14:06 +08:00
诶。。。。言说,怎么好像在群里面看到有 boyz 以前说过
|
76
yaoxuwang 2017-09-07 17:46:51 +08:00
我觉得还是挺不错的,赞一个
|
78
CharlieInsight 2018-01-09 11:11:09 +08:00
我现在把知乎当内涵段子看
|