V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jamiesun
V2EX  ›  程序员

对于垃圾邮件内容检测,有什么更好的技术呢?

  •  
  •   jamiesun ·
    jamiesun · 2014-05-19 21:37:17 +08:00 · 4057 次点击
    这是一个创建于 3836 天前的主题,其中的信息可能已经有所发展或是发生改变。
    11 条回复    2014-05-20 21:59:56 +08:00
    megaforce
        1
    megaforce  
       2014-05-19 21:41:07 +08:00
    以前看过一本书《ending spam》,里面有讲一些技术

    http://shop.oreilly.com/product/9781593270520.do
    binux
        2
    binux  
       2014-05-19 21:49:14 +08:00
    在谈论更好之前,让我们先来看下现在的技术有什么缺陷,为什么不好吧
    Tianpu
        3
    Tianpu  
       2014-05-19 21:54:44 +08:00
    spamassassin自动学习。

    其实一般更头疼的是发出的邮件不进收件箱吧?
    kidlj
        4
    kidlj  
       2014-05-20 10:17:53 +08:00
    黑客与画家里有一篇?
    Actrace
        5
    Actrace  
       2014-05-20 14:42:18 +08:00
    最简单的,关键字检测,校长表示很管用.
    ety001
        6
    ety001  
       2014-05-20 14:44:17 +08:00
    正准备业余时间做一个类似 https://www.spamgourmet.com/ 的网站,然后计划统计出一份黑名单来,通过接口形式公布出来。这样就可以做一个插件,检测你当前要注册的网站是否有给你发垃圾邮件的风险。感觉防垃圾邮件的防源头才行。
    RangerWolf
        7
    RangerWolf  
       2014-05-20 17:42:09 +08:00
    @ety001 觉得你的idea不错啊 准备怎么搞?
    jamiesun
        8
    jamiesun  
    OP
       2014-05-20 18:11:17 +08:00
    根据邮件服务器dns反向解析做白名单可以解决一点点问题,关键还是内容,仅从关键字比较简单粗暴,误杀率太高,我觉得还是需要"大数据",在数据基础上做分析,把各种垃圾内容抽象出规则,这非单体力量所能, 不知道有没有类似的开放服务.
    davidli
        9
    davidli  
       2014-05-20 19:01:29 +08:00
    SpamAssassin有现成的。如果要自己做的话,
    纯文本的话贝叶斯、SVM之类常规的方法就已经有很高的成功率了。
    但是现在垃圾邮件厂商越来越精,比如会把广告文本放到图片里。这时一个简单粗暴又容量足够大的黑名单这时候就很好用了。(PS:看过一篇论文,里面列举了垃圾邮件过滤面临的四个主要问题,只记得这一个了。
    ety001
        10
    ety001  
       2014-05-20 21:15:43 +08:00
    @RangerWolf 在弄创(feng)业(tou)的(bu)事(hao)情(zhao)中,所以这个计划暂时搁置了,估计得等7月份就能有点时间了。
    表示当时有这个想法的时候,把域名都注册好了。。。 http://fuckspam.in
    原计划是要先把spamgourmet.com的功能实现出来,然后再实现API,做chrome插件(目的在于提醒当前访问页面的泄露邮箱的风险),然后再成立一个志愿性质的组织,邀请更多的人加入。
    现在还比较头疼的就是如何才能鼓励用户去举报发垃圾邮件的人,毕竟这个里面的操作步骤有些繁琐。

    PS:当时注册这个域名的时候,真心被垃圾邮件烦透了。。。大早上起来邮箱就20多封垃圾邮件。。。
    RangerWolf
        11
    RangerWolf  
       2014-05-20 21:59:56 +08:00
    目前我比较感兴趣的是在过滤垃圾评论上~
    我看了spamgourmet.com 真的很多用户么? 我感觉UI属于上个世纪的风格啊
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5297 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 46ms · UTC 09:26 · PVG 17:26 · LAX 01:26 · JFK 04:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.