V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
tonghuashuai
V2EX  ›  数据库

关于RSS阅读器的数据库的设计

  •  
  •   tonghuashuai · 2013-09-06 17:15:50 +08:00 · 1013 次点击
    这是一个创建于 4096 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近在想RSS阅读器(web版,有用户,像google reader)的实现,有几个问题比较困惑,希望大家能帮忙解答一下:

    1. 根据订阅的xml解析出文章以后是存到数据库中吗,未读和已读状态是更新数据库实现的吗?

    2. 如果1成立,那么已读以后就要删掉吗?如果删掉并且怎么知道下次来的文章已经读过了,如果不删掉,那么数据量就会猛张,怎么解?

    3. 用户数量到一定规模以后(比如google reader或鲜果阅读器)频繁的更新数据库怎么突破瓶颈,有必要用NoSQL吗?如果用关系型数据库能hold住吗?有啥方案?

    4. 来自不同订阅的内容按日期排序问题,怎么实现?直接在库里desc?

    先问这些吧,因为对rss还不是很了解,如果能有热心人整体描述一下工作原理就更好了。

    先谢过!!!
    4 条回复    1970-01-01 08:00:00 +08:00
    orzfly
        1
    orzfly  
       2013-09-06 17:31:40 +08:00
    我觉得你需要先考虑一下每个条目的 uuid 这个东西。
    horsley
        2
    horsley  
       2013-09-06 17:37:17 +08:00
    1 不然呢
    2 暴涨很正常啊,时间久了的dump出来放在冷库呗
    3 我觉得痛点是抓取,现有有不少开源的方案的,你应该先看看
    4 你是不了解rss还是不了解数据库……
    Mutoo
        3
    Mutoo  
       2013-09-06 17:39:11 +08:00   ❤️ 1
    google:分表分库分布式,总之硬件能解决的都不叫瓶颈,硬件不值钱。
    tonghuashuai
        4
    tonghuashuai  
    OP
       2013-09-06 19:07:11 +08:00
    @orzfly rss中有guid,但是是非必须
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2747 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 07:10 · PVG 15:10 · LAX 23:10 · JFK 02:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.