V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jirryzhang
V2EX  ›  职场话题

应届生去百度做 ETL 数仓如何?

  •  
  •   jirryzhang · 2019-01-04 18:28:46 +08:00 · 3153 次点击
    这是一个创建于 2139 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RT,据说是传说中的大数据开发,洗日志

    10 条回复    2023-05-09 15:03:37 +08:00
    sergio10
        1
    sergio10  
       2019-01-04 18:52:29 +08:00 via iPhone
    第一份工作就能去百度正编太好了 不要犹豫赶紧去
    Wisho
        2
    Wisho  
       2019-01-04 20:53:55 +08:00
    还不错,百度的数据量刚刚的。同是洗日志,难题和问题会多很多。
    别人日均洗 100GB,在百度你的业务搞不好要日洗 10TB,应该能学到不少。
    jirryzhang
        3
    jirryzhang  
    OP
       2019-01-05 17:18:23 +08:00
    @Wisho 你确定不是逗我的吗?洗日志不管是 TB 还是 PB 有啥区别,反正写 ETL 程序处理字符串而已,感觉是个人都能做啊
    Wisho
        4
    Wisho  
       2019-01-05 22:32:03 +08:00
    @jirryzhang 我确定没有逗你,我在 BAT 其中一家做过类似的东西。
    你试试从毫无时效要求的洗数据出报表,再渐渐到有时效性要求的需求( 2h 内跑完 xx 天的数据,出 xx 项统计量),再到交互式查询( xx 秒内跑完,研究预热机制,研究计算引擎)。
    你真以为就是表面看起来那么简单吗?
    Wisho
        5
    Wisho  
       2019-01-05 22:39:15 +08:00   ❤️ 1
    @jirryzhang 还有,你说的对,程序逻辑大概就是处理字符串。但是你上游要对接 mq 或者一些日志采集中间件,下游要对接存储组件吧( low b 一点的就说 hbase,es 这种好了)?假设你在小公司洗 100+GB 数据,随便洗随便存吧,开源组件用起来,横向拓展 10 个、20 个节点好像能搞定耶。假如到了 100+TB 级,搞不好开源组件靠不住,或者需要深度定制。再深入一步,到了 100+PB 级,难道不需要任何魔改,直接装社区版就能用?

    单纯说“洗日志”一个需求的话,确实没啥区别,代码逻辑都是那样处理字符串,substring 一下,组合一下,拼成一个个的 k-v 弄出去。但是这个东西背后有多少问题你可能需要好好地深思一下吧?
    aldorado
        6
    aldorado  
       2019-01-06 10:33:38 +08:00
    @Wisho 大佬有没有博客或者相关博客推荐的
    jirryzhang
        7
    jirryzhang  
    OP
       2019-01-06 18:52:54 +08:00
    @Wisho 唉,可是时效性要求不高,大都是离线场景,锦上贴花的东西,感觉也不好出绩效
    jirryzhang
        8
    jirryzhang  
    OP
       2019-01-06 19:09:01 +08:00
    @Wisho 而且处理框架这层有 inf 做,我这层更像是填充业务代码的...
    zcguo
        9
    zcguo  
       2019-01-07 09:28:27 +08:00 via Android
    能不能问一下这个岗位面试考啥了,我也想去面这个岗位
    liamli
        10
    liamli  
       2023-05-09 15:03:37 +08:00
    ETL 还是个岗位呀, ETL 这个工作在大数据里处于什么级别呢? 是否可以理解为就是数据清洗的工作?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4113 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 05:19 · PVG 13:19 · LAX 21:19 · JFK 00:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.