V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
kenshinhu
V2EX  ›  问与答

针对视频文件重去有哪些方案?

  •  
  •   kenshinhu · 2015-10-15 11:19:55 +08:00 · 4695 次点击
    这是一个创建于 3108 天前的主题,其中的信息可能已经有所发展或是发生改变。

    针对视频文件重去有哪些方案?

    造福人类的事情的问题来了
    大家没有有苦恼于日渐增多的视频文件,怎样可以有一个有效的方法查找出相同的视频文件?
    MD5?
    还是通过人肉?

    说说你们的想法

    第 1 条附言  ·  2015-10-15 13:10:36 +08:00
    注意是内容去重.
    文件名去重方案略过
    18 条回复    2024-04-02 15:21:47 +08:00
    MicrosoftAzure
        1
    MicrosoftAzure  
       2015-10-15 11:51:26 +08:00
    Everything 用通配符搜索视频文件后根据文件大小排序并手动删除重复项。
    imn1
        3
    imn1  
       2015-10-15 12:12:33 +08:00
    严谨: hash
    极简:字节
    一般:字节+mediainfo
    折中:字节+mediainfo+随机抽取相同位置的字节片段进行 hash
    huijiewei
        4
    huijiewei  
       2015-10-15 12:14:19 +08:00
    第一步先用 MD5 去除完全重复的文件, MD5 对文件的识别还是很保险的

    第二步就可以用高大上的智能识别了。对准确率不放心的话,可以人工审核一下
    my101du
        5
    my101du  
       2015-10-15 12:16:06 +08:00   ❤️ 1
    同需要。

    例如 番号-号码-1080.mkv 和 [一堆日语].rmbp 可能是相同内容的视频文件(或者是截取的部分相同)

    用大小、名称都是查不出来的……

    我觉得最佳的解决办法是大家约定固定使用一组压缩参数,使得同一个文件压缩出来,体积都是一样的,可以通过体积来判断。还有就是截取的话,文件名要把原来的视频名保留……

    是不是要求太高了
    csx163
        6
    csx163  
       2015-10-15 12:28:09 +08:00
    体积都是 5M 左右, webm 格式的怎么破
    abelyao
        7
    abelyao  
       2015-10-15 12:37:52 +08:00 via iPhone
    @imn1
    @huijiewei
    感觉用 hash 是不准确的,字节也一样,就像 @my101du 说的同一部片有不同的压缩版本…
    感觉应该是抽取几个时间点的截图,然后缩小到一定程度之后对比相似度(类似识别相同图片的原理)整个视频匹配下来相似度达到多少以上就算同一部视频…
    不过有一些发布者会在片头加广告,导致时间点对不上… 无奈…
    imn1
        8
    imn1  
       2015-10-15 13:02:51 +08:00
    @abelyao
    呃,这个我只理解了文件去重,没理解为内容去重,至少 LZ 没说清

    内容去重这个真没“智能”办法,即使截图,也很难
    例如一个版本前面带有几秒版权,另一个没有,两者就会存在时间差
    又如一个版本上了滤镜 A ,另一个用了滤镜 B ,两者即使时间同步,截图的差异也巨大

    我没什么这个问题,因为
    1.事前有版本选择,不清楚版本的忽略,避免浪费时间,除非稀有视频
    2.时候有归档习惯,所以归档时基本也人肉去重了,因为无论 hash 或者图片比较,花费时间和 CPU 还不如我快进一遍简单

    非个人使用,例如服务器,那就是另话
    但这个又有另一个逻辑:不同版本就是不同劳动(或不同权利持有人),能随意清理吗?
    imn1
        9
    imn1  
       2015-10-15 13:05:02 +08:00
    @imn1
    鉴于另一个帖子的争论,避免别人认为我态度有问题
    楼上 “ 2.时候……” 应为 “ 2.事后……”
    kenshinhu
        10
    kenshinhu  
    OP
       2015-10-15 13:08:32 +08:00
    @huijiewei 尝试过 md5 方式,但针对 web video 时候这个就不管用了
    kenshinhu
        11
    kenshinhu  
    OP
       2015-10-15 13:09:36 +08:00
    @my101du 番号这个标准仅对靠谱的文件名有用....
    kenshinhu
        12
    kenshinhu  
    OP
       2015-10-15 13:11:13 +08:00
    @imn1 这个针对家用环境吧
    eirk2004
        13
    eirk2004  
       2015-10-15 21:14:16 +08:00
    这样行不行? FFmpeg 抽取关键帧,然后把图像扔给 google 、 baidu 去提取关键词(并对关键词排序),供用户最终判定;如果完全无法匹配,尝试从关键帧中进行人脸识别,然后截取画面、重复前面一步。

    精确的文件内容去重,感觉应用范围窄、实现成本高
    kenshinhu
        14
    kenshinhu  
    OP
       2015-10-16 10:05:12 +08:00
    @eirk2004 这可能是其中之一个方案,貌似这个方案有在腾信的监黄里用到
    cz5424
        15
    cz5424  
       2018-09-29 16:05:49 +08:00
    楼主采用了什么方案了?

    FFmpeg 抽取关键帧好像是一个比较好的方法
    提取多个关键帧,视频去重就降级到了图片去重,使用图片去重的方法就可以搞了

    目前我也在找更好的方案
    jiqiren007
        16
    jiqiren007  
       2019-10-24 13:44:20 +08:00
    @cz5424 找到啥更好的方案了吗?
    cz5424
        17
    cz5424  
       2019-10-24 16:27:21 +08:00 via iPhone
    @jiqiren007 没有继续跟下去了,目前问题不是很搭
    wktop
        18
    wktop  
       16 天前
    @jiqiren007 有继续跟进吗?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   990 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 20:23 · PVG 04:23 · LAX 13:23 · JFK 16:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.