大数据开发工程师求职简历
个人信息( Personal Info )
姓名: 魏孝伟 性别: 男
籍贯: 福建省福清市 年龄: 24
电话: 13539578165 电子邮箱:
[email protected]工作经验: 2 年 期望薪资: 9~10k
教育背景( Education )
2014.09 — 2018.07 郑州大学 安全工程 本科
专业技能( Professional skills )
1.掌握 Hive、HBase、Flume、Kafka 等 Hadoop 生态技术圈的相关技术的使用 ; 理解
Spark 工作机制,熟练掌握 Spark core、Spark sql 的开发、熟悉 Spark Streaming 的开发。
2. 熟悉 Spark 大数据项目的性能调优、线上 troubleshooting 与数据倾斜的解决方案
3. 熟悉 MySql 数据库的使用,熟练编写 sql 语句和进行基本的 MySql 调优;熟悉 Hive 的开发,掌握 Linux 常用命令的使用,可以进行简单的 shell 编程
4.较为扎实的 Java 基础知识,熟悉多线程、IO、反射、集合、泛型,了解 JVM 的内存模型
和垃圾回收机制
5.了解 MongoDB、Redis、Zookeeper 的原理和基本操作
工作经验( Work Experience )
2017.7 — 2019.5
河南金明源技术有限公司 | 大数据开发工程师
工作描述:
1、负责数据的导入、过滤,及根据业务进行离线统计
2、负责对数据流的 实时计算、存储、查询
3、参与大数据平台的开发和维护,保证数据平台的稳定和可靠
4、负责对大数据平台进行性能优化
5、对系统出现的数据问题定位解决
6、负责项目前期的需求分析,编写相关技术文档
项目经验( Project experience )
项目一、云雀 APP 日志统计分析系统(2017.11--2018.5)
项目描述:
云雀 APP 日志统计分析系统 是收集用户使用云雀 APP 的日志记录,并进行统计分析,
通过统计 APP 的新增用户、活跃用户、沉默用户等,了解 APP 的详细使用情况;统计分析 APP 不同版本的分布,了解用户对不同版本 APP 的接受程度;统计 APP 的使用时长,来了解用户对于 APP 的依赖程度;通过留存用户分析、新鲜度分析,帮助公司了解不同用户的使用情况。
技术栈:Flume、Spark、Kafka、Hive、HBase
责任描述:
1、使用双 Flume 拓扑架构以及 Flume 拦截器对服务器中的日志文件进行监控、采集,并发送到 Kafka 集群;
2、消费 Kafka 中的数据,并写入 HDFS,编写 shell 脚本将数据导入到 Hive 分区表中;
3、通过 Hive SQL 以及自定义聚合函数对离线数据进行分析;
4、使用 SparkStreaming 处理实时数据流,实时统计每个城市的用户数量,并将结果
写入 HBase。
项目二、网站统计分析系统(2018.7--2019.1)
项目描述:
网站统计分析系统 是对用户访问网站产生的数据进行分析;通过使用 Spark 相关核心框架,对网站日志进行离线和实时分析。
通过该分析系统,对网站的各种用户行为(访问行为、购物行为、广告点击行为等)进行分析,根据平台统计出来的数据,辅助公司中的产品经理、管理人员分析现有产品的情况,并根据用户行为分析结果持续改进产品的设计,以及调整公司的战略和业务。最终达到提升公司的业绩、营业额以及市场占有率的目标。
技术栈:Flume、Kafka、Hive、Spark、MySql
责任描述:
1、对离线日志进行数据清洗,并导入到 Hive 分区表中;
2、实现对用户 Session 的统计分析,通过自定义累加器统计出 Session 各范围访问步长、访问时长占比;
3、统计 Top10 热门品类,以及热门品类下的 Top10 活跃 Session 统计;
4、实现对页面单跳转换率的统计分析;
5、处理实时流数据,实现广告黑名单、广告点击量、各个省份热门广告实时统计。
项目三、商品推荐系统(2019.1--2019.5)
项目描述:
推荐系统分为离线和实时推荐。离线推荐系统 是综合用户所有的历史数据,利用基于 ALS
的隐语义模型推荐算法,预测用户对每个商品的喜好度,并获取每个商品的相似商品;
实时推荐系统 为了反映用户最近的喜好,则是根据用户最近的对商品的评分作为评估用户最近喜好的依据,并根据用户最近的喜好推荐商品。使得推荐结果匹配用户最近的偏好,满足用户最近的口味。
技术栈:Spark Mllib、Redis、Kafka、MySql
责任描述:
1、对离线日志数据进行分析,根据用户行为的打分规则,得出用户对某个商品
的评分;
2、根据用户-商品评分表,通过 ALS 建立模型,根据模型预测每个用户对每个商品的评
分,并根据分数进行从大到小排序;
3、不断调节特征个数、迭代次数、正则化参数的值,得到最接近真实结果的一组参数。
4、根据模型获取商品的特征矩阵,求得每个商品和其他商品的余弦相似度,并根据相似
度进行排序;
5、从 kafka 中获取实时流,对于每个 Batch 的数据,根据实时流中用户评分的商品,从
Redis 中获取用户最近 N 次的评分,来推荐相似的商品。
自我评价( Self evaluation )
1、性格乐观向上,适应能力和抗压力强,敢于接受新的挑战。
2、工作积极主动,责任心强,做事耐心细致。
3、对技术充满热情,善于学习,对一门新技术和新知识可以很快的上手。
4、善于思考问题,有时间观念,独立性强,有较强的团队意识和奉献精神。