项目描述:xxx 数据管理平台主要用于统一管理公司内部 TB 级用户数据,用以支撑业务所需的数据采集,数据清洗,数据提取等。
我的职责:1.设计并实施用户标签存储方案,使用 hive 和 hbase 作为存储工具,Spark SQL 作为数据处理工具,优化提高了 Spark 读取 Hbase 的性能,输出并维护相关文档。
2.数据采集:使用 maxwell 采集 mysql binlog,并发送到 kafka,使用 kafka connect 作为接收端存储到 hdfs 中。
3.数据管理后台开发,使用 spring boot,开发基于 ilvy 的 spark 自动化处理模块,元数据管理模块及数据可视化模块的开发。
4.数据处理及挖掘,使用 spark sql,spark ml 库等负责日常数据提取和挖掘需求。
项目描述:个人项目,基于 kdd99 数据集,使用 spark ml 库 svm 算法进行训练,将模型保存。使用 kafka + Spark streaming 实时接收数据,加载模型并对网络数据识别,然后存储到 mysql。使用 echarts 实时获取数据并展示。
所用技术:随机发送 kdd99 流量数据模拟实时场景,使用 kafka 的幂等的 producer 发送数据,实现 exactly once 数据传输。使用 spark Streaming+kafka 获取数据,其中使用 hbase 对 kafka 的 offset 数据进行外部持久化,避免当 spark streaming 出现故障的时候 offset 丢失的情况。
程序设计语言:熟悉 scala,java,python,熟悉函数式编程。
大数据生态:熟悉 hadoop hdfs,hive,hbase 等大数据存储组件及其设计原理,熟悉 spark 各组件及其原理,熟悉 kafka 等消息中间件及其原理。
web 后端开发:熟悉 Java 后端开发,Mysql 数据库,能使用 spring,spring boot 等框架进行 web 开发。
机器学习:熟悉常见机器学习算法及其内部原理,以及 sklearn,spark ml 等框架。
1
vision4fun 2020-03-04 10:27:36 +08:00
猪场内推可以联系 ig[at]gmail ~~
|
2
fei110 2020-07-23 18:00:55 +08:00
我们在招。
|