首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Coding
V2EX  ›  程序员

写爬虫的要小心罗,爬数据要被判刑滴

  •  
  •   norain · 2018-06-20 17:43:25 +08:00 · 22686 次点击
    这是一个创建于 539 天前的主题,其中的信息可能已经有所发展或是发生改变。

    万金油罪名:非法入侵计算机系统

    http://tech.sina.com.cn/csj/2018-06-19/doc-iheauxvz7582325.shtml

    68 回复  |  直到 2018-06-22 14:17:53 +08:00
        1
    watzds   2018-06-20 17:52:06 +08:00 via Android   ♥ 1
    粗略看了一下,这是版权问题吧,是爬虫的锅?
        2
    won   2018-06-20 17:52:19 +08:00   ♥ 20
    手机收到推送的广告,短信,同样会让手机变得缓慢,是否也可以以此罪名像广告发出者们索赔呢
        3
    WildCat   2018-06-20 17:53:35 +08:00
    ImageNet 的作者们恐怕都要入狱了?
        4
    leeg810312   2018-06-20 17:59:58 +08:00 via Android   ♥ 1
    我觉得是版权问题,爬取有版权的内容并用于商业活动肯定是有法律风险的
        5
    qiukong   2018-06-20 18:04:26 +08:00   ♥ 3
    好的,先把 GettyImage 和方正字体抓进去
        6
    Removable   2018-06-20 18:06:04 +08:00
    我记得跨越长城也会安上这个罪名吧?
        7
    jtsai   2018-06-20 18:07:52 +08:00 via Android   ♥ 1
    浏览器就是爬虫,除非登录就是罪
        8
    OpenJerry   2018-06-20 18:08:38 +08:00 via Android   ♥ 10
    欲加之罪何患无辞
        9
    nosilence   2018-06-20 18:09:20 +08:00
    没经过网站 /APP 允许,模拟 POST/GET,被告的话也是用这个:非法入侵计算机系统。
    就看别人弄不弄你。
        10
    joaner   2018-06-20 18:15:56 +08:00
    瑟瑟发抖.jpg
        11
    gouxi   2018-06-20 18:15:59 +08:00 via Android
    怎么看这篇文章都像是秀淘的软文。
    首先炫耀了自己的工程师是来自于今日头条。
    然后扯了一波他的背景。
    最后蜻蜓点水,呼应一下新闻标题。
        12
    glfpes   2018-06-20 18:16:05 +08:00   ♥ 2
    每个中国人,都有罪。所以说莫须有弱爆了。
        13
    Foolt   2018-06-20 18:20:30 +08:00
    要看你爬什么,爬网页合法,爬 APP 接口违法,而且涉嫌违法的操作不仅是爬接口,还有抓包(一般是通过抓包拿到接口地址的)。
        14
    fuyufjh   2018-06-20 18:27:38 +08:00
    终极反爬虫技术
        15
    wenzhoou   2018-06-20 18:30:07 +08:00 via Android
    这下终于可以告百度了。
        16
    koodai   2018-06-20 18:31:59 +08:00 via iPhone
    吓出屎!
        17
    bbroot   2018-06-20 18:35:03 +08:00
    百度的末日要到了么
        18
    andylsr   2018-06-20 18:38:36 +08:00 via Android
    都是公开数据~怎么就入侵了~~除非牵扯别的问题
        19
    notreami   2018-06-20 18:42:14 +08:00
    关注 百度、360 搜、搜狗
        20
    Mind029   2018-06-20 18:57:19 +08:00
    瑟瑟发抖
        21
    liuxu   2018-06-20 19:05:42 +08:00   ♥ 16
    以后不要随便按 f5 了,按多了也会导致服务器其他用户缓慢,要判刑的
        22
    vuser   2018-06-20 19:06:50 +08:00
    宋某这是被抓后又入职了老东家吗
        23
    Baymaxbowen   2018-06-20 19:06:56 +08:00 via Android
    计算机入侵还真是滑稽
        24
    baoshuai33   2018-06-20 19:54:01 +08:00 via iPhone
    百度整天爬别人,是否也可以告他
        25
    koalli   2018-06-20 19:55:31 +08:00
    爬取了不下载呢?
        26
    vitalis   2018-06-20 21:18:10 +08:00
    虾扯蛋,谷歌百度都该关咯。再说谁入侵你系统了?码农的事儿怎么能说是入侵?这是有礼貌的请求,你也可以不答应啊。。。
        27
    vitalis   2018-06-20 21:19:08 +08:00
    楼主有标题党嫌疑哦
        28
    torbrowserbridge   2018-06-20 21:30:02 +08:00 via Android
    记得之前有人提供酸酸乳服务,也是这个罪名哦
        29
    ReinWD   2018-06-20 22:07:28 +08:00   ♥ 1
    网站公开的数据 正常用户和爬虫都是一个一个请求向服务器发,服务器一个一个回应
    本质上没有任何区别
    都是合法的流程, 怎么就扯上爬虫的事了

    案子的重点应该放在那些被爬下来的数据的流向上
    爬下来自己看 和正常用户分开发请求一个一个视频看基本没啥区别 但是爬下来传播出去是侵权
    错的是内容利用 而不是爬虫技术本身

    看这篇说的就像是“用户利用我们公开的 API 吃了我们的一堆带宽”
    和 DDoS 比较像
    还是有相应的策略可以防范的
    责任并非全在爬虫
        30
    JohnChu   2018-06-20 22:14:45 +08:00 via Android
    为了破解头条的反爬技术,侯某等人伪造了 UA ( useragent 的缩写,意思就是“用户身份”)来绕过。
        31
    ihancheng   2018-06-20 22:19:53 +08:00 via Android
    robots ?
        32
    IceCola1   2018-06-20 22:24:37 +08:00
    useragent 可还行
        33
    crab   2018-06-20 22:28:57 +08:00
    早就这样了。折腾 BAT 等大公司有关的,都要注意的。
        34
    applehater   2018-06-20 22:52:37 +08:00   ♥ 1
    今日头条的内容是自己生产的?不也是爬来的吗?
        35
    whoami9894   2018-06-20 23:33:10 +08:00 via Android
    原来有人自己买服务器搭$$r,被判了三年,也是非法入侵计算机系统罪
        36
    whoami9894   2018-06-20 23:35:44 +08:00 via Android
    @JohnChu
    说的今日头条的反爬这么弱鸡的吗 hhh
        37
    Cu635   2018-06-21 00:48:49 +08:00
    @Removable
    一般而言是获利的才管。
        38
    mario85   2018-06-21 00:52:11 +08:00 via iPhone
    人在江湖身不由己
        39
    xinleibird   2018-06-21 00:56:23 +08:00
    唉,千言万语不如闭嘴。看看现实再看看各种吹,够魔幻的了。
        40
    gleymonkey   2018-06-21 01:10:21 +08:00
    想定你的罪,会给你解释机会吗
        41
    lulinux   2018-06-21 07:03:30 +08:00 via Android
    读写入侵比只读入侵严重。
        42
    wee911   2018-06-21 09:59:38 +08:00   ♥ 3
    我们每个人都有罪,泛着不同得罪。
        43
    Reign   2018-06-21 10:14:58 +08:00
    换一个 User-Agent 就绕过了,今日头条的反爬技术是体育老师教的?
        44
    websterq   2018-06-21 10:29:50 +08:00
    。。上面调侃搜索公司的是认真的吗,不想被爬 robots 协议禁止就行了啊
        45
    EntheosTom   2018-06-21 13:17:28 +08:00 via Android
    破坏计算机信息系统罪,这个罪名了解一下。结合刑法条文和司法解释,你只要不按设计者 /提供服务者的预设的方式来使用都有可能构成,这个更口袋。
        46
    ml1344677   2018-06-21 13:30:47 +08:00
    头条视频的前总经理宋某、视频技术负责人侯某与新东家张某合谋,利用网页爬虫技术来获取今日头条的视频数据库。为了破解头条的反爬技术,侯某等人伪造了 UA ( useragent 的缩写,意思就是“用户身份”)来绕过。
    这下全国都知道头条高端的反爬技术了[doge]
        47
    paloalto   2018-06-21 14:09:04 +08:00
    @wee911 #41

    我能决定谁对,谁又该要沉睡。
        48
    menc   2018-06-21 14:33:09 +08:00   ♥ 5
    不明真相就不要说话了,这个案子不只有这俩人,还有内部人员。涉案人员有一个在我们组工作,当时在实习,突然某个周一就少了一个人,后来内部通告发出来才知道,被抓了。
    这是一个里应外合的案子,用的方案不是爬虫,是直接用了公司的代码,连了公司的数据库,拿到的视频等等东西。
    实际上 app 的后端架构基本拷贝是头条 app 的代码。
        49
    cppgohan   2018-06-21 14:58:17 +08:00
    头条告的? 之前头条的数据应该也都是通过爬虫起家的吧?
    互联网真的是越来越封闭了...
    rss 被微信公众号, 各种 app 取而代之
        50
    haaro   2018-06-21 15:30:20 +08:00
    这样的话是不是所有的薅羊毛行为(比如 bug 价、多个账号领红包、自己分享给自己领奖励等等)多可以算是“破坏计算机信息系统罪”了呢?
    @EntheosTom
        51
    oyyd   2018-06-21 16:18:20 +08:00 via Android
    @menc 有没有些更详细的信息分享下?
        52
    centralpark   2018-06-21 16:39:42 +08:00   ♥ 1
    这篇文章是瞎扯,真正入狱的原因是和前同事一起在头条内部服务器上偷数据,怕前东家顶多算不地道而已。头条内部通报过,北京电视台也报道过,都是公开可查的。
        53
    wee911   2018-06-21 17:11:30 +08:00
    @paloalto 讲道理,真的有一个人可以
        54
    menc   2018-06-21 17:24:45 +08:00
    @oyyd
    没了呀,这些足够了吧。。
    一个感想就是,我之前一直以为公司的破代码有什么用,技术栈都是自研的,难道还能拿走布别人服务器上不成?
    经过这件事,我发现,还真能。
        56
    marcong95   2018-06-21 18:09:52 +08:00
    @menc
    @centralpark

    公开可查的东西,我查到了判决书一份,还真没看见说是用了别人的代码。
    http://wenshu.court.gov.cn/content/content?DocID=cc5d28b2-ecca-45a9-9409-a85600ef4202

    或者说这个判决书里面的 tt_spider 是头条的代码?那我还真是服了,这判决书还真的不挑重点的写。说了一堆啥伪造 UA、IP 的废话,估计是那些人看见伪造这两字就高潮了。明明有合理入罪的理由,非要这样写落人口实
        57
    qsnow6   2018-06-21 19:09:02 +08:00 via iPhone
    各大抢票工具?
        58
    menc   2018-06-21 19:13:19 +08:00
    @marcong95
    可别公开可查了,谁会把深层次的东西告诉你呢。
    用脑袋想想,一个名不见经传的公司,爬你的东西,你告了他,起诉书上写造成损失 2w 块,图个啥?
        59
    felixlong   2018-06-21 23:35:46 +08:00
    真魔幻。被老东家拉到牢里了。出来再创业还要厚着脸说是老东家视频负责人。
        60
    mingyun   2018-06-21 23:40:41 +08:00
    @wee911 想起杰伦的歌
        61
    vansl   2018-06-21 23:50:22 +08:00 via iPhone
    借楼,微博关键词接口,最多只翻 100 页,怎么破?
        62
    snw   2018-06-22 00:42:46 +08:00
    判决文书:
    http://wenshu.court.gov.cn/content/content?DocID=cc5d28b2-ecca-45a9-9409-a85600ef4202

    从判决中来看,关键是两点:
    1.“在数据抓取的过程中使用伪造 device_id 绕过服务器的身份校验,使用伪造 UA 及 IP 绕过服务器的访问频率限制。”
    2.“造成被害单位北京字节跳动网络技术有限公司损失技术服务费人民币 2 万元。”

    第 2 条是因为该罪名入罪标准之一是“(四)违法所得五千元以上或者造成经济损失一万元以上的;”
    至于第 1 条嘛,只能说这种罪名其实就是口袋。再多说的话大概要被降权了……
        63
    hundan   2018-06-22 02:16:15 +08:00 via Android
    @menc 用爬虫的理由告盗窃?说实话是不是真的盗窃我们还真不关心,我们关心的只是,从文书看来,居然用 爬虫 的理由去告还告成功了,丝毫没有提到盗窃的问题
        64
    binux   2018-06-22 03:03:09 +08:00
    @hundan #63 爬虫只是做了什么,而不是理由。理由是「由侯明强指使被告人郭辉破解北京字节跳动网络技术有限公司的防抓取措施」
    你怎么知道 “ tt_spider ”文件中 的 「头条号视频列表、分类视频列表、相关视频及评论 3 个接口」不是对内接口?
    你怎么知道「伪造 device_id 绕过服务器的身份校验」不是内部白名单 device_id ?
        65
    hareandlion   2018-06-22 08:36:09 +08:00 via Android
    这就是个口袋罪名,和寻衅滋事一样,运用之妙存乎一心
        66
    Marsss   2018-06-22 08:43:10 +08:00
    照这么说,浏览器翻页点快了也要被判刑了。
        67
    marcong95   2018-06-22 09:38:43 +08:00
    @binux
    @menc 公开可查只是 @centralpark 说公开可查,那我就查了一下。用我为数不多的法律知识思考了下,2w 我觉得真的只是为了凑个起刑点。但是这件事我觉得既然你们说没经授权用了内部接口,那找个罪名还不容易么,明明有合情合理的罪名,就非要就一个无关紧要的事实大做文章,贻笑大方
        68
    wbswjc   2018-06-22 14:17:53 +08:00
    @paloalto 争论不能解决; 在永无止境的夜; 关掉你的嘴; 唯一的恩惠;
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4175 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 40ms · UTC 08:11 · PVG 16:11 · LAX 00:11 · JFK 03:11
    ♥ Do have faith in what you're doing.