订阅多个资讯网站以后,会发现部分资讯是重复的。相似的资讯,A/B/C 三个网站的feed流里都有。
有没有什么工具是可以将feed流去重或按关键词分一下组,再展示给用户呢?
1
zts1993 2015-05-02 20:37:12 +08:00
去重复的话,检测文本是否相似吧,最简单的是VSM
关键词分组最简单就是用朴素贝叶斯分类器了 这两个自己写代码应该不复杂 |
2
Stof 2015-05-02 21:54:13 +08:00 via iPhone
目前来说成品没有。
|
3
whtsky 2015-05-02 22:56:45 +08:00 via iPhone
买个 Fever ,看 Hot
|
4
myoula 2015-05-02 22:58:03 +08:00
百度有个算法,也比较简单。
把内容按照一句一句的长度进行排序,然后把每句的hash值保存起来,根据hash值来看相似度。 据说这种方式 80%左右的几率避免重复。 |
5
binux 2015-05-02 23:01:07 +08:00
很久以前就有过这样的想法,还能给 yande.re Konachan.com 去重就更好了
|
6
Daniel65536 2015-05-02 23:52:19 +08:00
fever有,很智能。
|