V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cenyu
V2EX  ›  程序员

请问大数据开发水有多深?

  •  
  •   cenyu · 2018-02-28 15:44:37 +08:00 · 14811 次点击
    这是一个创建于 2460 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想转大数据开发方向,之前看到过一个帖子,说大数据开发很无聊,大部分都写 SQL,https://www.v2ex.com/t/380398 请问是不是这样?这个方向的水有多深?

    18 条回复    2022-07-08 11:02:34 +08:00
    shuianfendi6
        1
    shuianfendi6  
       2018-02-28 16:42:53 +08:00
    是的
    大数据开发只是工具,需要统计就是 sql
    vonsy
        2
    vonsy  
       2018-02-28 17:16:05 +08:00   ❤️ 3
    Hadoop, MapReduce, NameNode
    HDFS, Hadoop 分布式文件系统
    Hive, 构建在 Hadoop 上的数据仓库,兼容 sql 92 部分
    Beeline, Hive 客户端
    HBase, 列数据库,分布式数据库,支持大型表格的结构化存储
    Spark, 大数据处理引擎,内存计算
    ZooKeeper, 任务规划,资源管理分配
    Yarn, 资源管理器, Hadoop 组件之一,
    Solr, 搜索,索引
    Redis, Key-Value
    MongoDB, NoSQL,灵活,例如用户,评论,等类型数据
    Kerberos, 计算机网络认证协议
    xiaoshenke
        3
    xiaoshenke  
       2018-02-28 17:48:18 +08:00
    想玩深的?来我司
    https://www.v2ex.com/t/432609
    wizardforcel
        4
    wizardforcel  
       2018-02-28 18:03:21 +08:00 via Android
    因为很多大数据组件都支持 sql 啊
    imzshh
        5
    imzshh  
       2018-02-28 19:13:34 +08:00
    想玩工业大数据的可以来我司,服务的都是行业数一数二的制造企业
    https://www.v2ex.com/t/414848
    belinda811
        6
    belinda811  
       2018-02-28 19:29:16 +08:00
    @vonsy 这位兄弟 我看你骨骼惊奇 要不要看看新机会?
    Comdex
        7
    Comdex  
       2018-02-28 21:48:53 +08:00
    看你做数据平台开发还是数据应用开发
    Allianzcortex
        8
    Allianzcortex  
       2018-02-28 22:08:52 +08:00 via iPhone   ❤️ 1
    在 top 3 to B 大数据公司呆过一段时间,表示确实很...很容易没有产出,基本就在天天调研和运维。真正有技术含量的是给开源项目打 patch,协调公司的内部产品和开源的一致性(但能做到这一点的人很少。spark 的中国 comitter 也就那些人)。如果有的选择的话,做 infra 来提高技术,或者做项目来尽快升级,都比呆在数据这个坑里面要好。
    hellolinux777
        9
    hellolinux777  
       2018-02-28 22:16:42 +08:00 via Android
    有大佬详细解答一下吗,我是本科大数据专业学生,我也想了解一下情况
    monkeylyf
        10
    monkeylyf  
       2018-02-28 22:41:35 +08:00
    主要是运维。运维做的不好,集群少则两三天,多则一个月就要出大岔子。
    回头想想,把一拖开源工具往锅里一扔做了大杂烩,也正常。
    理想情况下,最好公司里就有某个工具的 contributor,这样有了问题直接找他 /她。
    beginor
        11
    beginor  
       2018-03-01 08:16:24 +08:00 via Android
    其实和原来的 DB 差不多,只是换了个工具
    mougua
        12
    mougua  
       2018-03-01 08:55:58 +08:00
    原来接触过一个公司活得挺苦逼的,不过我们这种二线城市没资格说什么就是了。
    guyskk0x0
        13
    guyskk0x0  
       2018-03-01 09:39:54 +08:00 via Android   ❤️ 1
    70%时间干苦力,写业务,SQL+Python 写到吐。
    剩下一点时间造轮子,提高生产率。
    to B 公司,客户就是爹。
    如 #2 楼,开源工具大杂烩,有问题只能 work around,打 patch 太难 /不现实。
    owenliang
        14
    owenliang  
       2018-03-01 09:48:09 +08:00
    难道不是天天踩坑填坑的运维之路?
    cenyu
        15
    cenyu  
    OP
       2018-03-01 11:02:19 +08:00
    @guyskk0x0 说的我都不敢转了,感觉每个方向都是坑啊
    lwldcr
        16
    lwldcr  
       2018-03-01 11:04:45 +08:00
    我们 team 去年绩效唯一评 A 的人 主要工作就是大数据平台的治理维护 以及数不清的 etl 开发
    曾经有段时间因为平台不稳影响数据产出,每天早上从 CEO 开始层层追责,迫不得已这小哥住在公司好几天,每晚值守 job 执行情况。。也是结了婚的人了
    Bingbing
        17
    Bingbing  
       2018-03-01 11:34:34 +08:00
    SQL、Hive 数据加工写写+ETL 流程调度调度+前台报表搭建展现,偶尔后台部署调试下,完了。也是无聊枯燥!
    BrightLiao
        18
    BrightLiao  
       2022-07-08 11:02:34 +08:00
    大数据开发最核心的能力在于对大数据技术组件有深入的了解。
    楼上大家提到的 sql 开发的职责其实要想办法尽量转移给业务团队(数据分析师)。事实上,很多公司里面大部分写 sql 查数的工作实际上是 PM 或者运营完成的。

    咱们做开发的,应该定义为数据工程师 /数据架构师。而做探索性数据分析的,应该定义为数据分析师 /数据科学家。这两类角色职责是非常不一样的,要求的技能也是非常不一样的。

    对于公司里面的数据角色及职责,我有一些思考,给大家分享一下: https://brightliao.com/2020/11/26/data-work-roles/
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2745 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 06:56 · PVG 14:56 · LAX 22:56 · JFK 01:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.