收藏夹里收藏的技术博客和政经类文章已经超过 500 篇了,而且时间跨度极长,比如会出现有一篇文章七八年前看过感觉还不错,下载收藏了,但是今年又看到,又感觉不错,忘记已经有了于是又存了一份的问题。
有什么算法能在新文章入库前进行查重检查吗。还要考虑排版,截取等等因素,因为文章经常因为不同网站转载,转出来的东西细微上有一些区别
1
wizos 2022-04-28 08:33:34 +08:00 via Android
simhash
|