V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
shanghai1943
V2EX  ›  问与答

漏斗数据分析的技术选项

  •  
  •   shanghai1943 · 2021-03-11 19:24:44 +08:00 · 826 次点击
    这是一个创建于 1345 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前我们把埋点数据存放在了 MySQL 表中,现在行数大概是 1.6 亿,数据容量 36GB,索引容量 63GB 。漏斗数据分析是按天纬度来查询,通过 sql+Java 代码统计的方式来处理的,如果时间跨度长的话,统计起来会比较慢。

    想请教一下,该如何做优化?

    网上我查了一下,貌似 spark+hdfs 可以解决类似这样的问题,不知道各位大哥有何高见?感谢。

    6 条回复    2021-03-12 10:05:56 +08:00
    lithiumii
        1
    lithiumii  
       2021-03-11 20:08:10 +08:00 via Android
    每天定时任务,把数量都数出来,存个表
    amoia50
        2
    amoia50  
       2021-03-11 20:19:00 +08:00 via iPhone
    clickhouse 适合你
    FucUrFrd
        3
    FucUrFrd  
       2021-03-11 22:48:13 +08:00 via Android
    1.6 亿行,赶紧开除 dba,实操上限一千万行
    shanghai1943
        4
    shanghai1943  
    OP
       2021-03-12 10:05:20 +08:00
    @lithiumii #1 目前的统计纬度是比较灵活的,相当于可以在这么多的埋点里做排列组合,可以认为统计是随机的。。所以目测定时这个不好搞。。
    shanghai1943
        5
    shanghai1943  
    OP
       2021-03-12 10:05:31 +08:00
    @amoia50 #2 感谢。我这边研究一下看看
    shanghai1943
        6
    shanghai1943  
    OP
       2021-03-12 10:05:56 +08:00
    @FucUrFrd #3 小公司。。木有 dba 。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2801 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 11:24 · PVG 19:24 · LAX 03:24 · JFK 06:24
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.