1
jerryjhou 2014-12-20 18:12:24 +08:00 via iPad
如果V2EX装了这种东西,你的问题根本就发不出来。
能问一下你要干什么吗? |
3
jerryjhou 2014-12-20 18:14:14 +08:00 via iPad 1
|
4
lsylsy2 2014-12-20 18:33:08 +08:00 1
@jerryjhou 想在墙内飘,这种东西有时候少不了
你建个DZ论坛,就保留在默认状态,过一个月上去看看,已经被垃圾信息塞满了 |
9
lsylsy2 2014-12-20 18:52:47 +08:00
@jerryjhou 反正我遇到过大法的帖子,我觉得那就是彻头彻尾的垃圾信息。
跑题了,LZ的重点并不是他想过滤的是什么,而是他想要一个过滤系统而已。如果在天朝想做事情,怎么着都要一套。 顺便同求一套关键词系统,最好能部署在Nginx层,当关键词触发到达阈值时,给管理员发邮件提醒。 |
10
lsylsy2 2014-12-20 18:54:27 +08:00
|
11
blijf 2014-12-20 19:17:30 +08:00
您好
我朝已自带敏感信息过滤系统 XD |
12
abelyao 2014-12-20 19:40:54 +08:00 via Android
往简单了说就是一个黑字典,或者叫脏字典,但是这东西经常会添加新的。往大的说,可能是一个在线服务接口,有这东西也不错,楼主如果发现有 api 也圈我一下,然后如果要字典文件呢,可以找那些发短信的服务商要一份。
|
13
abelyao 2014-12-20 19:41:56 +08:00 via Android
楼上没有一个正经回答楼主问题的,V2 怎么也这样了
|
14
kslr 2014-12-20 19:43:52 +08:00 via Android
有限状态机 适合这种应用 python有现成的
|
15
caixiexin 2014-12-20 19:52:06 +08:00 1
现成的系统不大清楚,方法倒是有,就是用敏感词字典表来做,之前工作上做过敏感词检测模块,给你点思路。
1.项目启动时对载入敏感词库作为缓存(一个大map,敏感词为key,取任意值为value)。 对请求传入的文本分词,遍历分词结果,每个分词在map中查找,如果有值,则请求文本存在敏感词。 2.把敏感词库拼接成一个大的正则表达式,然后直接对文本匹配。 3.使用DFA(确定性有限状态自动机) DFA算法 ----------- 由于之前的需求比较简单,我用的是第一种的改进方法。后来整理了篇博文,但愿对你有帮助。 http://my.oschina.net/u/1010578/blog/308904 ps:当初见过敏感词字典后,感觉打开了新世界大门,好多没见过的词= = |
17
jerryjhou 2014-12-20 20:33:29 +08:00 via iPad
@lsylsy2 V2EX怎么也有了编辑功能? 提醒系统里写的是XX功(气功的全称),怎么到帖子里一看变成了大法(da fa)
|
18
lsylsy2 2014-12-20 20:39:06 +08:00
|
20
xiaolvmu 2014-12-20 21:50:48 +08:00 via Android 1
这个……如果是论坛的话,esotalk有一个Word Fliter Extension。你可以参考它的源代码#^_^#
|