V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
CaptainD
V2EX  ›  问与答

两个数据相关的需求,有没有更好的方式

  •  
  •   CaptainD · 2022-11-10 11:35:04 +08:00 · 634 次点击
    这是一个创建于 742 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在有一亿条左右的数据存在 Mongo 和 es ,需要对它们进行修改和分析

    同步

    Mongo 数据较新,es 较旧,需要从 Mongo 根据 ID 查询出来,再到 ES 找到对应数据,更新其中几个字段,我希望速度快一点,是否可以用 spark 之类的方式自动分片去查询?

    分析

    还是这批数据,需要简单的分析、统计,是否可以用 hive 、impala 这种 OLAP 数据库?

    3 条回复    2022-11-11 10:54:02 +08:00
    Morriaty
        1
    Morriaty  
       2022-11-10 12:02:44 +08:00
    为什么要比较呢,删除 es 数据,直接把 mongo dump 出来再新建一个 es 索引不就行了么
    CaptainD
        2
    CaptainD  
    OP
       2022-11-10 13:40:56 +08:00
    @Morriaty #1 首先 ES 现在还在提供服务,其次 ES 存的内容和 Mongo 很不一样,Mongo 的字段更贴近源数据,ES 大多数加工过的需要被搜索的数据,Mongo 到 ES 的过程有一个加工过程
    Morriaty
        3
    Morriaty  
       2022-11-11 10:54:02 +08:00
    @CaptainD
    1. PUT index_v2
    2. mongo pipeline to index_v2
    3. delete index_v1
    4. alias index_v2 as index_v1
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1250 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 23:30 · PVG 07:30 · LAX 15:30 · JFK 18:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.