订阅多个资讯网站以后,会发现部分资讯是重复的。相似的资讯,A/B/C 三个网站的feed流里都有。
有没有什么工具是可以将feed流去重或按关键词分一下组,再展示给用户呢?
1
zts1993 2015 年 5 月 2 日
去重复的话,检测文本是否相似吧,最简单的是VSM
关键词分组最简单就是用朴素贝叶斯分类器了 这两个自己写代码应该不复杂 |
2
Stof 2015 年 5 月 2 日 via iPhone
目前来说成品没有。
|
3
whtsky 2015 年 5 月 2 日 via iPhone
买个 Fever ,看 Hot
|
4
myoula 2015 年 5 月 2 日
百度有个算法,也比较简单。
把内容按照一句一句的长度进行排序,然后把每句的hash值保存起来,根据hash值来看相似度。 据说这种方式 80%左右的几率避免重复。 |
5
binux 2015 年 5 月 2 日
很久以前就有过这样的想法,还能给 yande.re Konachan.com 去重就更好了
|
6
Daniel65536 2015 年 5 月 2 日
fever有,很智能。
|