V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
darren2900
V2EX  ›  程序员

大数据如何快速过滤????

  •  
  •   darren2900 · 2018-07-23 16:45:27 +08:00 · 2124 次点击
    这是一个创建于 2304 天前的主题,其中的信息可能已经有所发展或是发生改变。

    mysql 里有 1000W 手机号,如何将提供的 100W 号码在 1000W 里出现过的快速过滤掉?

    3 条回复    2018-07-24 19:55:54 +08:00
    gorilla
        1
    gorilla  
       2018-07-23 17:00:11 +08:00
    Pandas,或者 Spark
    两个数据集,求差集~
    linyinma
        2
    linyinma  
       2018-07-23 17:53:34 +08:00
    [这种问题最好还是和需求结合起来说明]
    如果单纯说算法这是很简单的将 1000W 条数据从 MySQL 导出创建 bitmap 索引,查询算法就是 O ( 1 ),这是最快的
    darren2900
        3
    darren2900  
    OP
       2018-07-24 19:55:54 +08:00
    需要实时,用户上传 100W 号码,就直接把 100W 中在 1000W 出现的过滤掉,1000W 记录当前是在 mysql
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3525 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 00:45 · PVG 08:45 · LAX 16:45 · JFK 19:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.