V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
EchoChan
V2EX  ›  问与答

看到知乎现在不断地被刷垃圾信息,想请问一下 antispam 的工作难做吗?

  •  
  •   EchoChan · 2015-08-18 14:35:26 +08:00 · 2322 次点击
    这是一个创建于 3385 天前的主题,其中的信息可能已经有所发展或是发生改变。
    11 条回复    2015-08-18 16:32:38 +08:00
    leavic
        1
    leavic  
       2015-08-18 14:53:12 +08:00   ❤️ 1
    不是太清楚你说的垃圾信息是什么,我好像没看到。
    但如果要 antispam ,前提是搜集足够多的 spam 样本,有足够多的样本之后, antispam 只需要用贝叶斯就可以搞定大部分了。
    可是如何设定一个定义为 spam 的阈值又是个很头痛的问题,如何保证完全的过滤能力同时又不误伤正常的信息发布,这从贝叶斯方法的原理上就决定了几乎是个悖论,即使 gmail 也会把正常邮件当作垃圾邮件处理,而垃圾邮件可能会漏网进入收件箱。

    考虑到知乎这隔三差五挂掉的状态,还是跟新浪微博借 5000 审查专员比较快。
    yylzcom
        2
    yylzcom  
       2015-08-18 14:58:55 +08:00   ❤️ 1
    akismet 好, akismet 普渡众生……
    EchoChan
        3
    EchoChan  
    OP
       2015-08-18 15:12:13 +08:00
    @leavic http://www.zhihu.com/log/questions
    原来贝叶斯可以这么用,哎,学习没学好。
    leavic
        4
    leavic  
       2015-08-18 15:17:02 +08:00
    @yylzcom akismet 在防机器人上是很好的,碰上人工发帖的就很弱了。
    manhere
        5
    manhere  
       2015-08-18 15:22:55 +08:00
    知乎反广告就是个笑话,参见:
    http://www.zhihu.com/people/andychu66
    yylzcom
        6
    yylzcom  
       2015-08-18 15:24:27 +08:00
    @leavic 刚在另外一贴回复你 [:激动:]
    akismet 就易用性,用户体验 /拦截成功率来说,我觉得是目前最好的。可能是我见识少和对易用性理解不同。人工发帖只要是大规模发类似内容, akismet 还是能做到不错的拦截率。

    如果是软文那样的或者签名带个小尾巴的小规模 spam , akismet 可能的确会乏力……
    leavic
        7
    leavic  
       2015-08-18 15:42:40 +08:00
    @yylzcom 因为在 wordpress 上用 akismet 确实过滤了几乎所有的机器人 spam ,但几个明显人工发送的 spam 就没有挡住,所以我猜测 akismet 是利用了 wordpress 庞大的评论数据统计(包括对人工标志 spam 的内容进行学习),以此来建立他们精准的过滤规则。

    spam 数据获得之后我想他们也是用了贝叶斯之类的方法的,说真的,贝叶斯很简单但真的太有用了。
    问题就在于,知乎的 spam 内容和 wordpress blog 的 spam 内容可能是有很大差距的,转译过来说, spam 的特征向量在空间距离上差距很大,所以 akismet 能否直接应用在知乎上还未可知。

    akismet 的工作原理不是很公开(当然可以理解,否则 spam 就猖狂了),我只是猜测它是个比较专门化的针对 blog 的过滤体系。
    ehs2013
        8
    ehs2013  
       2015-08-18 15:43:57 +08:00
    其实对于中文博客,现在很普遍的做法不是屏蔽所有纯英文评论吗 233
    elviscai
        9
    elviscai  
       2015-08-18 15:48:11 +08:00
    知乎不是号称人工审核么,结果每次举报最后都觉得自己是个傻[哔~]……

    越点越傻……所以后来就不点了……
    EchoChan
        10
    EchoChan  
    OP
       2015-08-18 16:23:21 +08:00
    @elviscai 关闭首页新特性,关注一些优秀的人,时间线就不会被污染了。
    只是想去某些话题下看问题还是会遇到垃圾信息。
    elviscai
        11
    elviscai  
       2015-08-18 16:32:38 +08:00
    @EchoChan 默认不进首页,不想关注人,只看话题……
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2830 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 07:20 · PVG 15:20 · LAX 23:20 · JFK 02:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.