V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
cqcn1991
V2EX  ›  问与答

求问一个简单的数学模型,用来筛选文章质量

  •  
  •   cqcn1991 · 2016-12-25 21:40:00 +08:00 · 1245 次点击
    这是一个创建于 2879 天前的主题,其中的信息可能已经有所发展或是发生改变。

    非广告....

    我的小网站, 是个人用来抓取、过滤出有价值的文章的. 核心的思路是用 Pocket 的标记量来代表文章的价值。临到 2016 年年末了,想出篇总结,给看看 2016 年有什么好的文章,这样大家要是有错过了的,也可以读一读

    那么,问题来了:只按 Pocket 的标记量,肯定有失偏颇。因为大的订阅站,标记的人就很多。以前抓 NY Times ,就是太多 pocket 标记数量,影响极大。

    个人的想法:

    1. 考虑每篇文章,偏离来源网站平均水平的程度

    比如一个网站可能出了一篇爆款文章,高出其他文章很多,那么这篇文章的价值可能就比较大

    2. 发帖频率

    如果两篇文章 pocket 标记量相同,那么更新频率低的源站的文章可能更好

    3. 按来源进行加权

    比如科技媒体的水文比较多,那么得分可以乘个 0.8. 科技公司、个人博客的就不折减

    4. 我网站上的读者点击率

    这方面不知道有没有现成的东西可以用?感觉我自己做会比较民科....

    另外,有没有可能根据文章内容关键字,自动分类、加标签?比如加上设计、创业、硬件,金融等等标签

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3665 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 00:49 · PVG 08:49 · LAX 16:49 · JFK 19:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.