非广告....
我的小网站, 是个人用来抓取、过滤出有价值的文章的. 核心的思路是用 Pocket 的标记量来代表文章的价值。临到 2016 年年末了,想出篇总结,给看看 2016 年有什么好的文章,这样大家要是有错过了的,也可以读一读
那么,问题来了:只按 Pocket 的标记量,肯定有失偏颇。因为大的订阅站,标记的人就很多。以前抓 NY Times ,就是太多 pocket 标记数量,影响极大。
个人的想法:
比如一个网站可能出了一篇爆款文章,高出其他文章很多,那么这篇文章的价值可能就比较大
如果两篇文章 pocket 标记量相同,那么更新频率低的源站的文章可能更好
比如科技媒体的水文比较多,那么得分可以乘个 0.8. 科技公司、个人博客的就不折减
这方面不知道有没有现成的东西可以用?感觉我自己做会比较民科....
另外,有没有可能根据文章内容关键字,自动分类、加标签?比如加上设计、创业、硬件,金融等等标签