V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ShadowFiendYan
V2EX  ›  酷工作

帮朋友找个有爬虫,数据处理经验的人,远程兼职就可以。

  •  
  •   ShadowFiendYan · 2023-03-13 09:59:04 +08:00 · 2752 次点击
    这是一个创建于 398 天前的主题,其中的信息可能已经有所发展或是发生改变。

    朋友公司业务上遇到瓶颈,原有的数据爬取不是很精准,爬到数据很多重复内容。 想找个有这方面经验的人帮忙解决问题。

    有兴趣的老哥可以加绿色软件:TXNwb3dlcndhbmc=

    27 条回复    2023-03-14 16:37:04 +08:00
    jstony
        1
    jstony  
       2023-03-13 10:11:07 +08:00
    肯定刑
    sherlockwhite
        2
    sherlockwhite  
       2023-03-13 10:11:18 +08:00
    肯定刑
    mastcer
        3
    mastcer  
       2023-03-13 10:15:46 +08:00
    必须刑
    xixibb
        4
    xixibb  
       2023-03-13 10:18:56 +08:00
    楼上几位说刑的是啥意思?不让爬数据吗 ?
    yaoliyc
        5
    yaoliyc  
       2023-03-13 10:20:35 +08:00
    爬虫写的好
    colinzhao
        6
    colinzhao  
       2023-03-13 10:30:03 +08:00
    牢房蹲到老
    x86
        7
    x86  
       2023-03-13 10:31:48 +08:00
    @xixibb #4 即便的互联网上公开的数据也不是说随便爬的,一搞一个准太多案例了
    herozzm
        8
    herozzm  
       2023-03-13 10:50:10 +08:00
    刑的话 今日 x 条是不是牢底坐穿了
    aeli
        9
    aeli  
       2023-03-13 10:52:10 +08:00
    @herozzm 你爬下今日头条的数据试试,看看他们的法务会不会让你刑。

    人家是有靠山的爬,和你去打工的一样么
    fiypig
        10
    fiypig  
       2023-03-13 10:52:36 +08:00
    重复内容就加个中间件做筛选不就可以啊
    ShadowFiendYan
        11
    ShadowFiendYan  
    OP
       2023-03-13 10:53:19 +08:00
    这个东西感觉没有清晰边界, 欲加之罪何患无辞。就跟快播一样。 各位老哥自己斟酌哈。 话说如果真追究,是开发人员担责,还是公司法人担责呢。
    ShadowFiendYan
        12
    ShadowFiendYan  
    OP
       2023-03-13 10:54:40 +08:00
    @fiypig 公司技术不行,他们公司是在小城市。 技术上解决不了重复数据问题了, 哈哈
    herozzm
        13
    herozzm  
       2023-03-13 10:59:10 +08:00
    @aeli gov 现在都强调资源数据共享,先搞清楚爬的什么吧,万一 op 公司就是有背景,而且是爬的公开合法数据呢,以来就 “刑”也是太绝对了
    herozzm
        14
    herozzm  
       2023-03-13 11:00:01 +08:00
    @ShadowFiendYan 爬过的加入 redis 记录,做一下数据清洗和筛选,入库的时候针对几个关键点做一下比对基本就行了
    abcbuzhiming
        15
    abcbuzhiming  
       2023-03-13 11:07:49 +08:00
    @herozzm 今日头条是多大的背景?你有多大背景?人家被抓住了有整个律师团队可以搞庭外和解,你的背景做得到吗?
    abcbuzhiming
        16
    abcbuzhiming  
       2023-03-13 11:11:44 +08:00
    @ShadowFiendYan 你的法律知识应该更新,法律边界非常清晰:

    爬一切没有得到 [授权] 的数据都是非法的!!!
    爬一切没有得到 [授权] 的数据都是非法的!!!
    爬一切没有得到 [授权] 的数据都是非法的!!!

    明白吗?都是非法,授权给你的数据还需要你去爬吗?你直接找数据持有方拿硬盘拷不方便吗?还是说你是和百度一样专业做搜索引擎的?能严格执行爬虫 bot 协议?

    另外法律早就定的很清楚,法人逃不掉,做开发的程序员一样要完蛋。就看对面搞不搞你,一旦搞你,证据到位的情况下一搞一个准
    abcbuzhiming
        17
    abcbuzhiming  
       2023-03-13 11:17:21 +08:00
    @ShadowFiendYan 大量出现重复数据其实就是已经被发现定位了,人家的技术团队针对性的在吐伪装数据给你,识相点要么自己收手,你继续对抗下去,对面肯定会准备线下搞你的。

    爬虫和反爬在现在国内环境下已经是政治问题,不要以为用技术能解决政治问题,这是很多技术人员的错觉。
    sadfQED2
        18
    sadfQED2  
       2023-03-13 11:19:48 +08:00 via Android
    提供一个参考,蛋壳以前爬自如的数据,自如发现以后报警。产品经理跟研发都进去了,按时间算最近应该快出来了。
    abcbuzhiming
        19
    abcbuzhiming  
       2023-03-13 11:24:48 +08:00   ❤️ 5
    @herozzm 你的法律知识应该更新:
    公开数据,不等于授权数据。明白吗?人家数据是公开的,但是人家那是在特定条件下的公开,比如,web 访问,app 访问,不代表允许你拿爬虫去爬。更进一步,搞清楚 [授权] 的概念,那些搞爬虫的公司,把别人的数据拿回来干嘛的?自己心里没点数吗?只是看看而已?不见得吧,爬虫最危险的问题,就在于你拿了别人的数据,做了什么,这几乎是所有被判刑的爬虫人员最后无法抵赖的,人家没授权你用它的数据干这个,你干了,等死,尤其这一点是很多干爬虫的程序员完全控制不了的——他们往往就傻乎乎的帮人把数据采集了,人家转头把数据干了非法的用途,程序员是要背锅的。为啥前面那么多说 [肯定刑] 的,这 tm 都是血的教训,程序员傻乎乎的写代码,结果出事了立刻就被卖了。

    最后, [gov 现在都强调资源数据共享] 人家强调的是政务部门之间的数据共享,人家可不是允许你拿爬虫去爬人家的数据。
    abcbuzhiming
        20
    abcbuzhiming  
       2023-03-13 11:28:11 +08:00
    最后,和楼主说一句,现在这个大环境还敢搞爬虫的,而且搞的技术还不错的,基本要么就是大公司的核心团队有法务保护的那种,要么就是黑产的,无论是哪一种,都不是楼主你随便在公开论坛能花点小钱请到的。普通的程序员现在还敢玩爬虫的,基本就是刚出来混没经验也没人教的愣头青。
    lookStupiToForce
        21
    lookStupiToForce  
       2023-03-13 11:33:08 +08:00   ❤️ 1
    具体刑不刑,推荐胆大的都可以以身试法逝逝

    github[.]com/HiddenStrawberry/Crawler_Illegal_Cases_In_China
    www[.]guantao[.]com/sv_view[.]aspx?TypeId=218&Id=1655&Fid=t8:218:8
    westoy
        22
    westoy  
       2023-03-13 11:33:14 +08:00
    @herozzm

    新闻平台吃资质, 还容易出事, 自古以来, 在那个没有备案, 论坛随便开的年代, 做垃圾站的都不做新闻采集站的

    今日 X 条敢做这个背景就已经很硬了
    luckbbs
        23
    luckbbs  
       2023-03-13 16:04:15 +08:00
    重复数据的是被故意掺沙子了。可刑
    ShadowFiendYan
        24
    ShadowFiendYan  
    OP
       2023-03-13 16:05:31 +08:00
    @luckbbs 那到不是,是因为这条信息在多个网站上都有。
    wzw
        25
    wzw  
       2023-03-13 19:51:50 +08:00 via iPhone
    那些垃圾站,采集的,会有问题?目前好多吧! 另外,采集英文 sf/amazon 太多了吧
    christin
        26
    christin  
       2023-03-13 20:26:20 +08:00 via iPhone
    @sadfQED2 真正的商战果然朴实无华
    mashihua
        27
    mashihua  
       2023-03-14 16:37:04 +08:00
    是 URL 没有去重吧
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   817 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 20:58 · PVG 04:58 · LAX 13:58 · JFK 16:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.