V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
jry
V2EX  ›  问与答

2 个 exlcel 千万条手机号,怎么合并去重呢?

  •  
  •   jry · 2021-05-02 22:24:46 +08:00 · 2399 次点击
    这是一个创建于 1302 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用 mysql 、es 、mongodb 、其它哪一种合适?

    15 条回复    2021-05-08 18:02:09 +08:00
    heyjei
        1
    heyjei  
       2021-05-02 22:32:36 +08:00
    linux 命令中的 sort | uniq 是最简单的方案。如果是 Windows, 安装了 git bash,应该附带了这两个命令
    wellsc
        2
    wellsc  
       2021-05-02 22:36:14 +08:00 via iPhone   ❤️ 1
    一楼审题了吗
    koast
        3
    koast  
       2021-05-02 23:11:36 +08:00 via Android   ❤️ 1
    其实一楼没毛病啊,只要打开这两个 excel,文件,导出为 csv,然后 sort|uniq 就行了,无非就是多等一会的事情。几乎不需要考虑什么...
    inhd
        4
    inhd  
       2021-05-03 00:07:18 +08:00   ❤️ 6
    Baboonowen
        5
    Baboonowen  
       2021-05-03 00:22:53 +08:00 via Android
    Excel 自带去重。。一键去重。。
    dzdh
        6
    dzdh  
       2021-05-03 00:31:59 +08:00
    需要经常使用,找个数据库。
    就用一次,145 楼都可
    czfy
        7
    czfy  
       2021-05-03 00:38:18 +08:00
    我好奇这千万条手机号是哪里来的
    HankLu
        8
    HankLu  
       2021-05-03 00:43:54 +08:00
    @czfy 你懂得
    xupefei
        9
    xupefei  
       2021-05-03 01:17:22 +08:00 via iPhone   ❤️ 1
    Sort uniq 性能肯定不如直接去重啊。
    你这数据量随便写个脚本用 hashmap 跑一遍就行了,不需要数据库。
    renmu123
        10
    renmu123  
       2021-05-03 07:59:15 +08:00 via Android
    然后发现最大的问题是从 xlsx 读取这个千万条数据
    matrix67
        11
    matrix67  
       2021-05-03 09:01:52 +08:00
    @koast #3 对 一楼没毛病,二楼是要导出都写在步骤里


    @czfy #7 社工库?黑产警告!!
    8e47e42
        12
    8e47e42  
       2021-05-03 11:09:35 +08:00 via iPhone
    @xupefei sort | unique = O(n log n)
    Hash 最差可能是 O(n^2)最好可能是 O(n)
    sort 的内存占用远好于 hashmap
    因此不一定 hash 更优
    drawstar
        13
    drawstar  
       2021-05-04 07:17:11 +08:00
    @Baboonowen 千万条的 excel 估计打不开吧
    jry
        14
    jry  
    OP
       2021-05-04 20:27:54 +08:00
    还要得到新旧合并、新旧合并不含重复,重复,三分数据。
    BQsummer
        15
    BQsummer  
       2021-05-08 18:02:09 +08:00
    看标题我还以为是算法题呢,用 bitmap 处理[doge]
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5649 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 08:11 · PVG 16:11 · LAX 00:11 · JFK 03:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.