V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
grayfox
V2EX  ›  程序员

请问对招聘网站的在线简历数据爬虫会涉及法律风险吗

  •  
  •   grayfox · 150 天前 · 3286 次点击
    这是一个创建于 150 天前的主题,其中的信息可能已经有所发展或是发生改变。
    36 条回复    2024-07-23 16:04:35 +08:00
    Joeith
        1
    Joeith  
       150 天前
    「真~面向监狱编程」
    grayfox
        2
    grayfox  
    OP
       150 天前
    像 51job 、boss 这些
    grayfox
        3
    grayfox  
    OP
       150 天前
    @Joeith 哈哈
    liaohongxing
        4
    liaohongxing  
       150 天前
    极大法律风险,爬虫可以定罪 非法获取计算机信息系统数据罪 , 网站还可以报警称我服务器被爬崩了(尽管没有爬崩),又来一个 破坏计算机信息系统罪
    nyxsonsleep
        5
    nyxsonsleep  
       150 天前
    控制你的频率。个人使用问题不大,人家有风控的,你还没爬几条 IP 就挂了。
    akira
        6
    akira  
       150 天前
    不要用任何 反反爬 技术,不要拿去卖钱,应该就问题不大了
    qoras
        7
    qoras  
       150 天前
    @liaohongxing 很好奇, 为什么大公司做火车票抢票, 代买这些就是可以的呢
    lucasj
        8
    lucasj  
       150 天前
    @qoras #7 可能是购买了 API 授权或公司合作之类的。
    iorilu
        9
    iorilu  
       150 天前
    肯定有风险得

    非要搞就弄个国外主机爬, 至少保护下自己

    当然了, 有的必须要账户登录, 那就要看你怎么隐藏自己了
    kk2syc
        10
    kk2syc  
       150 天前
    @qoras 火车票机票这些实际上是聚合调用很多大大小小票务公司的接口,人家本身是合法的,只要不超过官方给他们的接口 QPS/TPS 就没问题
    sead
        11
    sead  
       150 天前
    只要是境内的站点,就要远离爬虫;走正规渠道的 api
    yufeng0681
        12
    yufeng0681  
       150 天前
    没啥风险,你根本爬不了多少条。 人家反爬技术是一个团队在做。
    xe2vdw
        13
    xe2vdw  
       150 天前
    非法获取计算机信息系统数据罪、破坏计算机信息系统罪了解一下。另外简历也太敏感,侵犯公民个人信息罪了解一下。
    Rache1
        14
    Rache1  
       150 天前
    同前面所说的,除了非法侵入计算机系统,还有可能涉及侵犯公民个人信息
    ospider
        16
    ospider  
       150 天前
    收集个人隐私,不管按哪个国家都是严重的犯罪,这块还真不用黑天朝
    abcbuzhiming
        17
    abcbuzhiming  
       150 天前
    你自己爬着玩玩,只要不把别人的服务器拖垮了,一般不会找到你头上。

    但凡你是在公司干这事情,那你就得有一个极其靠谱的靠山——在出事的时候把你捞出来。这里面的关键点不在于“爬”,而是你把“爬”来的数据拿来干什么。绝大部分公司都是死在这上面。把没授权的数据拿来商用但凡抓到就是死

    @qoras 因为人家大公司有强力的法务团队和政府关系团队,你有吗?
    forgottencoast
        18
    forgottencoast  
       150 天前
    以前环境很宽松的时候,我们公司都爬过,全扒拉下来了,其中有个网站还给爬崩过。。。
    现在想想都发抖。。。
    zhw2590582
        19
    zhw2590582  
       149 天前
    现在的反爬虫技术应该很成熟了吧,所看到的文本根本就不是 html 文本
    akinoowari
        20
    akinoowari  
       149 天前 via iPhone
    以智联为例,爬简历需要账号上传营业执照,而且 qps 稍微一高,或者短时间爬的量稍微大一点,就直接封账号。
    lanyi96
        21
    lanyi96  
       149 天前
    非法存储公民信息罪
    ISOtropy
        22
    ISOtropy  
       149 天前 via Android
    个人用没人管你 商业上别侵害到对方的利益就行 当然 不按照 robot.txt 爬虫违法
    dyllen
        23
    dyllen  
       149 天前
    你这又爬虫,又别人简历的。你自己玩没事,你要公开被抓到了,别人要搞你,你看看你犯了不止一条。
    me1onsoda
        24
    me1onsoda  
       149 天前
    正常爬的话没问题,但没啥用肯定是满足不了你的预期,基本是做了反爬,跟它对抗那就是另一回事了
    Hozoy
        25
    Hozoy  
       149 天前   ❤️ 1
    @kk2syc #10 说错了,大公司提供火车票购票都是走的 12306 客户端或者 web 端协议,都是逆向出来搞的,不然为什么要你的 12306 的账号密码? 现在没出事是因为 12306 默许这些公司去爬。你可以去裁判网看一下,爬火车票没有一例被起诉的 不管是公司还是个人。
    chapiom
        26
    chapiom  
       149 天前 via iPhone
    @Hozoy 严格的说买票不算爬虫吧,只是去单次搜索购票,又不是把车次信息全部抓下来。
    zcybupt2016
        27
    zcybupt2016  
       149 天前
    讲个案例,我们是几个常用的招聘网站之一,有个猎头公司内部开发了个浏览器插件,可以批量获取简历,但是量也其实不是很大,跟公司内部的猎头的日常浏览行为混在一起,被我们发现送去踩缝纫机了
    cherryas
        28
    cherryas  
       149 天前
    12306 都澄清 100 次没有和任何第三方平台有合作了。
    kk2syc
        29
    kk2syc  
       149 天前
    @Hozoy 你自己买一张车票然后电子发票看看,12306 买一张然后电子发票看看

    @cherryas 票务公司不是三方平台,是合规代理商。属于历史遗留问题,绿皮火车时代大街小巷代售火车票大巴车票的那些人
    cherryas
        30
    cherryas  
       149 天前
    @kk2syc 首先 12306 就不会给绿皮时代的公司开发订票 api ,有也是和 12306 窗口同级的查票软件。 最终取数据还是走破解协议。
    Hozoy
        31
    Hozoy  
       149 天前
    @kk2syc #29 来,你要是较真我还真给你查一下,飞猪:纸质火车票就是报销凭证(暂不提供电子发票),您可在开车前或乘车日期之日起 180 日内(含当日),凭乘车人购票证件原件(如多乘车人,需分别提供),到全国任意火车站自助取票机或售票窗口换取报销凭证。携程:如需车票报销凭证,可在开车前或乘车后 180 日内凭乘车人购票证件原件前往车站的自助售/取票机打印。去哪儿:您好,火车票无法提供电子发票,如您需要火车票发票,请在开车前或乘车之日起 180 日内,凭乘车人购票证件原件自行去火车站打印报销凭证。 自己如果不了解行业内消息就别显得知道的很多。现在大厂买票都是走的逆向的协议,哪里来的订票 api 。
    kk2syc
        32
    kk2syc  
       148 天前
    @cherryas 也没错,和车站售票窗口一样的票务站务端,直连数据库,比 app 前台数据快 1 分钟
    @Hozoy 之前的东家是票务代理公司,我不涉及开发铁路部分,但是,一些东西还是知道的。 现在大厂买票都是走的逆向的协议,请问您是大厂负责这部分开发的员工吗?
    zzzlight
        33
    zzzlight  
       148 天前
    @qoras 因为顺带为了解决这些风险招了不少皇亲国戚吉祥物
    zzzlight
        34
    zzzlight  
       148 天前
    @qoras 顺带一提,它同时也是某区交税大户,这点保护还是要给的
    cherryas
        35
    cherryas  
       148 天前
    @kk2syc 错误,重点是走的逆向
    8355
        36
    8355  
       148 天前   ❤️ 1
    前面的说到 12306 这性质还一样,12306 是面向所有人公开信息
    你这个在线简历是非公开信息,而且还是个人隐私数据,涉及姓名/手机号码/生日/工作经历等敏感信息。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2833 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 14:57 · PVG 22:57 · LAX 06:57 · JFK 09:57
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.