V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zarte
V2EX  ›  问与答

存储大量网页内容用什么数据库

  •  1
     
  •   zarte · 2019 年 2 月 3 日 · 2508 次点击
    这是一个创建于 2545 天前的主题,其中的信息可能已经有所发展或是发生改变。

    发觉之前的解决思路有问题,决定先爬取页面数据存入数据库,然后另外一个任务再一个页面一个页面分析内容提取数据。
    存储字段包括地址来源网站,页面文字内容。 目前用 mysql 加 redis 用来 url 去重

    第 1 条附言  ·  2019 年 2 月 3 日
    先按 1-3 楼的试试
    9 条回复    2019-02-04 19:43:18 +08:00
    GeekCourse
        1
    GeekCourse  
       2019 年 2 月 3 日 via Android
    当然是直接存到硬盘里
    jimages
        2
    jimages  
       2019 年 2 月 3 日   ❤️ 1
    存文件吧,mysql 做 index
    yuikns
        3
    yuikns  
       2019 年 2 月 3 日 via iPad   ❤️ 1
    大量文件存在一个目录下有时有效率问题。试试 leveldb ?
    lynskylate
        4
    lynskylate  
       2019 年 2 月 3 日 via Android   ❤️ 1
    ...落硬盘怎么横向扩展,数据落 mongo, redis 去重。
    CSM
        5
    CSM  
       2019 年 2 月 3 日 via Android
    如果 URL 非常多并且能容忍重复的话,可以考虑布隆过滤器。
    nicoljiang
        6
    nicoljiang  
    PRO
       2019 年 2 月 4 日
    Mysql 不就可以吗,百万千万都能存。。。
    lengyihan
        7
    lengyihan  
       2019 年 2 月 4 日 via Android
    oracle 肯定够。
    lynskylate
        8
    lynskylate  
       2019 年 2 月 4 日 via Android   ❤️ 1
    @CSM 布隆不会出现重复,而是有部分未爬过的 url 会认为爬过。
    CSM
        9
    CSM  
       2019 年 2 月 4 日 via Android
    @lynskylate 噢噢你说的对,感谢感谢
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   963 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 21:01 · PVG 05:01 · LAX 13:01 · JFK 16:01
    ♥ Do have faith in what you're doing.