V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
pol
V2EX  ›  问与答

关于爬虫的风险,请大家给我点意见

  •  
  •   pol · 122 天前 · 1926 次点击
    这是一个创建于 122 天前的主题,其中的信息可能已经有所发展或是发生改变。

    事情是这样的 公司想推销自己的产品,但这些东西基本上都需要投标才行

    那么我们一个小公司,是不知道有那些老板需要采购,那么就想到去 xx 投标招标网,这种数据聚合平台(平台提供了付费 api ,老板感觉贵)找客户

    由于他们手动一个个复制粘贴慢,就想让我们这里的 java 开发写爬虫来拿数据(电话,名字,地址)

    上面是故事背景

    我想的是,这种公司性质的爬虫,算不算商用,会不会有法律风险。

    其他公司的爬虫工程师是怎么操作的,他们不会有风险吗,或者是有没有什么规避的方法

    如果不开发爬虫,使用 rpa 那种自动化工具来爬数据,会不会有风险呢。(用 rpa 的话,风险是公司还是开发者还是 rpa 工具)

    27 条回复    2024-07-17 14:05:22 +08:00
    yzding
        1
    yzding  
       122 天前 via iPhone
    被发现了就违法, 没被发现就不违法. 是你公司的,你还是别趟了
    datehoer
        2
    datehoer  
       122 天前
    1. 被发现了就要进去,电话姓名算敏感数据了。gov 别碰,伸手必被抓。
    2. 看公司性质,有些公司没事,但大多数没资质的都会完蛋,一告一个准。基本上就是挂代理。
    3. 看来你不理解爬虫啊,使用别人的工具不也是爬取数据么。风险主要是个人其实,反正被抓的程序员基本上都要判几缓几。
    luzihang
        3
    luzihang  
       122 天前
    看影响。是否影响 C 端的日常生活,是否对 B 端造成大量经济损失或者不正常竞争。
    luzihang
        4
    luzihang  
       122 天前
    RPA 是封装给市场的概念。本质还是那些技术。
    pol
        5
    pol  
    OP
       122 天前
    @datehoer 资质这个东西具体指的是什么,我不太了解,确实我也认为我们要的数据是敏感数据不太好。

    我给公司写爬虫,被发现了,是开发者背锅吗?
    pol
        6
    pol  
    OP
       122 天前
    @luzihang #4 公司是想为了减少人力一行行看数据,肯定不会疯狂,不会导致对方服务不可用
    spacebound
        7
    spacebound  
       122 天前
    @pol #6 还是 1 楼那句话,被发现了就违法,没被发现就不违法,其他的自己衡量吧
    Sayuri
        8
    Sayuri  
       122 天前 via Android
    尽量使用非国内服务商提供的境外 IP 来进行操作。
    Sayuri
        9
    Sayuri  
       122 天前 via Android
    如果再避免风险,则尽量控制一下请求的频率,不要让对方网站收到大量请求而崩溃。
    可以用 puppeteer-extra 。
    teddy2725
        10
    teddy2725  
       122 天前
    电话姓名地址属于公民个人信息,很容易遭
    elonlee
        11
    elonlee  
       122 天前
    首先说结论: RPA 只是工具,违法主体是工具使用方.

    如果要安全爬取建议使用代理爬取不要用公司或者家庭网络去爬
    luzihang
        12
    luzihang  
       122 天前
    @pol 内部效率优化,一般没什么问题。对代码质量提出了要求,写的优雅点,别那么粗暴。还有招投标,是有难度的。
    luzihang
        13
    luzihang  
       122 天前
    RPA 有点像低代码平台,用户间可以分享脚本。但是 RPA 平台又规避了场景用途的风险。
    sagaxu
        14
    sagaxu  
       122 天前
    内部悄悄用,对方没法发现,那就不违法。但如果老板酒后在他的朋友面前吹牛,做了个系统很牛逼,不用付费也能用,那就呵呵了。

    换个思路,做个浏览器插件,自动提取打开页面的联系信息,那就不是爬虫了。
    datehoer
        15
    datehoer  
       122 天前
    @pol
    1. 资质:例如 某科研院所,某 xxx 单位。一般是跟国家沾边的
    2. 显而易见,大家都有锅。
    luzihang
        16
    luzihang  
       122 天前
    电话,名字,地址,这几个字段,在招投标领域,都是非常敏感,值钱的。

    先不论销售的推荐,打电话的推销方式是否合理。

    比如你的 xx 投标招标网,也要购买 vip 才能访问吧,才能拿到数据。比如难度在数据是加密的,也有可能在程序化拿数据的时候,就被封了。
    pol
        17
    pol  
    OP
       122 天前
    @luzihang #16 对对对,我就是认为,不管是不是敏感信息,对于招标信息网这种来说 ,电话和名字地址这几个对于他们来说是核心, 并且人家也提供了 api 付费接口的情况下,我通过爬虫获取,一定是动了人家的利益了,那我认为被发现一点点就会被搞
    luzihang
        18
    luzihang  
       122 天前
    @pol 手动一个个复制粘贴慢,需求的疼点是慢,还是手动。如果是慢,那可能无解,去买 API 吧。如果是手动,那还可以开发介入下。
    pol
        19
    pol  
    OP
       122 天前
    @luzihang #18 更倾向于需要手动,慢点无所谓。刚刚刷 v 站看到我们要爬的网站竟然是 v 友的站点,在推广节点还有贴子呢😂
    Jisxu
        20
    Jisxu  
       122 天前
    楼上也提到了,做个浏览器扩展/插件,对页面信息做自动化或者半自动化提取,控制好频次,这样可以规避。
    然后这个扩展也不要公开,就用的几个人内部传播就好了
    luzihang
        21
    luzihang  
       121 天前
    @Jisxu 浏览器插件/扩展,这个场景,这个设计最好。前端 JS 技术栈了,不是 Java 开发常用的。
    ansemz
        22
    ansemz  
       121 天前
    有付费 api ,为啥还要冒险?
    pol
        23
    pol  
    OP
       121 天前
    @Jisxu 确实啊,这个浏览器插件最合适
    pol
        24
    pol  
    OP
       121 天前
    @ansemz api 是包年的,好几万,抠逼老板不舍得,只想白嫖
    AdminZ
        25
    AdminZ  
       121 天前
    我猜测你要爬的是 120.bid ,但是我发给我经理看,他说这个上面放出来的招投标大部分都被控了,意思就是没价值?我不懂了
    zcybupt2016
        26
    zcybupt2016  
       121 天前
    几万块都不想掏那就还是让他们自己复制粘贴吧,这么抠你写了也落不到什么好处
    clifftts
        27
    clifftts  
       121 天前
    别人付费才提供的数据,你不付费就从人家那拿到了数据,绝对违法了,被发现肯定吃官司
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1031 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 20:03 · PVG 04:03 · LAX 12:03 · JFK 15:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.