前几个月我做了一个电影分享网站,在运营的过程中发现:很多人分享 18 禁的内容,在评论里还有可能出现一些污秽语言。
为了保证网站内部氛围的健康,之前采用在 code 写关键字的形式进行屏蔽。但是在运营的过程中还是会发现有不足,很多关键字依然没能屏蔽掉。关键字的维护工作也比较麻烦。不可能每次发现关键字都去调整代码。
希望大家能分享一下简单有效设计思路,谢谢!
ps :思路可行的前提下,尽量保证程序有效率。
1
kslr 2015-09-14 20:27:12 +08:00 1
DFA 算法,关键字去青云的青云志我记得有个文章里面带了份北京公安局给的关键词名单。
|
2
yinheli 2015-09-14 21:00:03 +08:00
https://log.qingcloud.com/?p=389
检索到了. 或许我也需要. |
3
virusdefender 2015-09-14 21:04:22 +08:00
|
4
imn1 2015-09-14 21:05:47 +08:00
有这个关键词详单分享一下
|
5
seiwev 2015-09-14 21:11:52 +08:00
都做电影分享网站了还怕 18 禁?电影分享一样被禁。
|
6
9hills 2015-09-14 21:16:30 +08:00
> 关键字的维护工作也比较麻烦。不可能每次发现关键字都去调整代码。
如果只是解决这个问题,那你把关键词做成可动态加载的字典不就好了。存到数据库里也行啊 当时高级点还有些别的方法 |
7
mengzhuo 2015-09-14 21:20:13 +08:00
直接上 cuckoo filter 不就结了,关键是分词得做好
|
8
2015813 2015-09-14 22:49:09 +08:00 via iPhone
这个自己写的话很麻烦,建议用现场代码
|
9
nowcoder 2015-09-15 09:51:33 +08:00
自己写很容易。把关键词做成一个字典树。 对 ugc 进行查找,效率很高的。 去百度搜 DFA ,字典树,敏感词代码到处都是,根本没几行
|
11
jugelizi 2015-09-15 13:18:59 +08:00
存到数据库发布后状态为 0 不立即显示呀,后台跑个任务过滤完成了再显示出来
|
12
dingyaguang117 2015-09-17 19:28:52 +08:00
请搜索 AC 自动机
|
13
kslr 2015-10-22 16:16:30 +08:00 1
|