数据是各个用户劳动创造并免费共享的(比如帖子,视频,app),但是却不能被公开的免费获取,这点非常像论文下载公司,互联网公司以此牟利
小公司缺乏数据,很难竞争,导致互联网被几家大公司垄断,进而侵犯用户利益
那么,做一个将数据重新免费共享到全互联网的机制,就很有意义,诸位怎么看?
做一个数据爬取和分发插件,在用户授权的范围,当他浏览网页时,就爬取当前网页,并广播全网
下游数据消费者就能存储,解析,整理全网原始数据,供其他人使用
免疫所有反爬策略,毕竟你不能不让用户看你的网站数据吧
数据来源于人民,再被人民分发出去,道德架构上合理
1
iyiluo 173 天前
不是已经有了吗,web3 的数据存储,filecoin 啥的。你想的方案一看就是违法的,所有绕过 robots.txt 策略的爬虫都不怎么合法
|
3
kenshinhu 173 天前
我认为应尽量降低服务器存储的费用,并确保数据的长期保存。我不禁想到那些保存了数百万年信息的化石,这可能是最优的解决方案。
试想一下,如果前一个文明发展到了比我们更高的科技水平,他们是否也曾一开始使用电子设备记录信息?后来,他们可能也发现了类似的问题,才意识到石头是最廉价且时效最长的解决办法。 |
4
liprais 173 天前
你准备进去蹲几年?
|
7
pkoukk 173 天前
每个用户上报的数据相当于自己详细的浏览记录,属于个人隐私数据,还是极度隐私
你愿意公开自己的浏览器记录? |
8
summerwar 173 天前
请先回答下面的问题:
1.对于用户来说,这个插件的使用是收费的还是免费的?查阅别人产生的数据是收费的还是免费的? 2.别人使用插件产生的数据,是否对用户有益(金钱激励还是积分或者等级等提升)?如果有益,这些益处是否能让用户愿意让渡个人隐私而使用,如果免费,用户为何要使用插件来产生数据? 3.数据存储到哪里?服务器、数据库以及所产生的的各种费用谁来支付?代码及这些数据的日常维护产生的费用如何支付? 4.数据如何展示和使用?由展示产生的费用如何支付? 5.作为反对数据封闭的一员,你的数据必然不会封闭起来,那么请问,由此产生的爬虫问题如何解决?是否要屏蔽或者防止爬虫爬取数据?为了与目的相一致必然不能禁止爬虫,那么因为爬虫产生的流量费用如何支持? |
10
MMM25O7lf09iR4ic 173 天前
他能浏览不代表你能爬取他浏览的,某个网盘共享插件也干过这种小聪明,判了几年。
|
11
meeop OP @pkoukk 所以强调是在用户允许下共享特定数据
比如你是一个博主,每发一篇博客插件都会问你,是否愿意共享此篇博客到全网,通常应该都是愿意的。 另一个场景,我是一个普通用户,插件给你个按钮,推荐当前内容到全网(这个行为应该是会违法网站用户协议,不过每个人分享几篇内容目前不违反任何法律) |
12
meeop OP @summerwar
1 是否收费 必然不能收费,用爱发电,收费那就是非法牟利了 而且插件也未必是某个特定的人开发,它应该是类似 bt 下载之类的开源协议和客户端 2 是否有激励 一般没有 用户分享一般目的是分享自己发布的内容,以及如标题所述为打破数据垄断做一点微小的贡献 但也可以有 比如你可以悬赏说挖一篇抖音的视频返现几毛钱(少量分享目前是灰产,就各个网站之间互相搬运,剽窃别人创作的内容) 3 数据存哪里? 不存储 这里只是尝试建立一个内容共享生态机制 存储是内容消费侧考虑的事 当内容充分共享时,当然是谁用谁存储,各取所需 比如我提供一个网盘下载搜索,我自然要监听网盘类资源共享消息并存储 4 如何消费 如 3 所述,取决于生态圈具体的应用 5 如何反爬? 数据都共享了还爬什么,直接监听共享消息啥都有 |
14
kenshinhu 173 天前
那也是的,大容量存储是个重要的东西。不过,假如有了低成本、长期保存的方法,那信息压缩还会同时发展吧!
像那些远古的化石,虽然看起来只是石头,但实际上它们保存了非常丰富的信息,比如气候变化、生物进化等。这些信息在石头中存储了数百万年,而且非常密集。 |
16
qq135449773 173 天前
其实我觉得这个想法是 ok 的,但是现在需要立法角度考虑 1 用户数据归属权 2 赋予爬虫更宽松的合法权力。
指望国内某些人这辈子能想到这个问题肯定是没戏了。但是另一方面,不止国内,现在国外因为最近几年 AI 大火特火,各家各户都在各种限制爬虫。 这样下去肯定不是办法,我估计将来为了保护互联网开放权力,迟早国外会有国家牵头法律上去限制这种城墙高筑的行为。 |
17
somebody1 173 天前
你开发吧。
反正我不会用的,我浏览网站都不想网站知道,还想让你个第三方知道!!! |
18
meeop OP @pkoukk 我觉得不会,因为第一转发的人是某个具体用户,行为主体是该用户,第二也不存在“我”,因为这就是个开源软件,而且作者还是个外国人的话,中国法律管不到.
比如说有人用 bt 分发色情信息,抓谁? |
19
meeop OP @qq135449773 我觉得指望庙堂去改革是不可能的,也没有动力去改革
要想改变只能靠群众自发支持新技术 比如说短信和电话费用贵,我就做个 im 软件,当时不是各种阻挠吗,如今不还得妥协 还有个例子是电视机顶盒,明明互联网电视更方便,但是就是不让介入,现在把电视搞得没人看了 所以你觉得信息垄断不好,就应该力所能及的支持一些反垄断方案 |
21
pkoukk 173 天前
@meeop #17 你的软件通过什么途径,把信息“广播”到网络上面去呢?
网页么?那这个网页是谁提供的?如果是你,那么这个网站上出现违法内容,你就要担责。 如果你找些 github 这些公开免费网页作为途径,相当于薅公共服务的羊毛,他们愿意接收么? |
22
meeop OP @pkoukk 用 gossip 协议啊,比特币用的这个
或者用 dht 协议,ipfs 和 bt 都是这个方案 还可以用一些免费公共服务做信号服务器,比如电报群 或者使用 mastodon 等区中心消息服务 这些方案都不依赖中心服务器,上面都有违法内容,都不需要有人担责 |
24
meeop OP @somebody1 这里的隐私保护不是基于信用的,而是基于算法
上述比特币啊,dht 啊,电报啊都是保护隐私的 判断原理也很简单,只要一个服务不需要你填写任何隐私信息,那就是保护隐私了啊 你啥都没填有啥好获取的 如果是怕木马病毒后门之类,可以靠开源社区保证,你不懂有比人懂,代码开源的有问题就爆出来了 |
25
H97794 173 天前
各个大厂互相投广告!!!
|
26
linyongxin 173 天前
前段时间有篇爆文“中文互联网正在加速崩塌”,第二天全被删了。
|
28
meeop OP |
29
pkoukk 173 天前
@meeop #21 那你这个服务也不算 “广播” 吧,实际就类似于 tg 上面的盗版资源分享群咯?
想看到这些内容,也得知道你这个地方,再加入你这里,才看得到。 tg 上的盗版群也是需要管理员的,否则大量的灰黑产广告就会淹没有效信息 |
32
meeop OP @YGHMXFAL 我觉得不至于
1 如果真有红头文件,说明这一套这的可行且有很多人用(有巨大影响),那就已经成功了,能吸引到更多资源去对抗和迭代技术 2 理论上只要能和墙外服务器建立数据连接,就能实现所有信息的传播 实践层面上,比如 v2ray,支持对通信流量进行混淆和隐藏,看起来就是一个普通的 http 或者其他人畜无害协议包 一个简单的解法就是挂个梯子,后面就是外网对外网的通信了,国内管不着 |
33
YGHMXFAL 173 天前
还有一个问题就是,你这一套,在数据巨头看来也很好打击:
强制内容登录后可见,然后加隐藏水印,以后在私域之外发现该内容就追踪+封号 不止是截图可以藏水印,复制也可以藏“水印”,看看起点怎么追杀盗版,每一个账号看到的内容实际上不一样,随便多一个/错一个空格/空行/标点符号,不影响阅读,但是能追踪到你 |
35
meeop OP @YGHMXFAL 这个还是技术对抗问题
只要资源足够,你能反爬,我就能解反爬,结果取决于谁资源多 对于我说的这个场景,项目不成功没人对抗我,项目成功就有更多资源升级技术 而且最近不是还有兜底方案吗,直接用 ai 理解页面内容再整理数据输出,我已知的所有水印技术都会失效(明水印,隐水印,字符里藏隐藏字符或者编码) prompt 比如这么写:帮我理解当前页面,重新绘制所有图片并略微修改规避版权,重新理解并描述所有文字,并去掉可能的用户追踪编码 |
37
YGHMXFAL 173 天前 1
|
38
Goooooos 173 天前
“数据是各个用户劳动创造并免费共享的(比如帖子,视频,app),但是却不能被公开的免费获取,这点非常像论文下载公司,互联网公司以此牟利”
数据是用户创造没错,用户可以上传多家平台,除了特定签约用户,没人限制只能上传某个平台 |
39
summerwar 172 天前
你使用任何协议,即使不依赖于中心服务器,那么也必然存在着存储这些数据的服务器?那么请问,这些服务器存储这些数据,对他们有何益处?他们为什么要消耗金钱来存储这些东西?
其次,这些数据既然是开源的协议和客户端,那么必然要考虑第二个问题,如何保证数据的真实性。当用户访问量大的时候,我直接往上面发送大量广告数据或者垃圾数据如何处理?如何保证数据的干净,减少垃圾数据的产生?数据是否能够修改,如果可以修改,如何保证不被篡改? 最后,bt 协议也好,其他的协议也好,必然是对用户来说,好处大于坏处的,你这个我没看出来对用户好在哪里? 数据是免费的,但是存储数据和展示数据是需要消耗货币的,维护数据和筛选数据也是需要消耗货币的,不能觉得因为数据是用户直接共享的,而认为没有成本,其实成本还是很高的。 技术手段不能解决所有问题,但所有的问题最终要回到经济问题上来,那就是钱从哪里来? btw:广播全网,这里的全网指哪里?下游消费者就能存储解析,整理全网原始数据,那么当这个数据巨大的时候 ,每个人的硬盘上都先存储一份吗?按照今天互联网数据的产生速度,怕是不到一个月数据就把硬盘撑破了 |