李宜润-个人简历

项目经验

2018.6个人demo

手机通信话单分析项目

IDEA maven hadoop zookeeper flume kafka hbase
数据生产：
- a) 创建 Java 集合类存放模拟的电话号码和联系人；
- b) 随机选取两个手机号码当做“主叫”与“被叫”，产出 call1 与 call2 字段数据；
- c) 创建随机生成通话建立时间的方法，产出date_time 字段数据；
- d) 随机一个通话时长，单位：秒，产出 duration 字段数据；
- e) 将产出的一条数据拼接封装到一个字符串中；
- f) 将通话数据写入到本地文件中；
数据消费：
- a) 编写 kafka消费者，读取 kafka集群中缓存的消息，并打印到控制台以观察是否成功；
- b)编写调用 HBaseAPI相关方法，将从 Kafka中读取出来的数据写入到 HBase ；
数据分析：
- a) 按照时间维度来统计通话，比如统计 2017 年所有月份所有日子的通话记录，那这个维度我们大概可以表述为 2017 年*月*日。
- b) 通过 Mapper将数据按照不同维度聚合给Reducer。
- c) 通过 Reducer拿到按照各个维度聚合过来的数据，进行汇总，输出。
- d) 根据业务需求，将Reducer的输出通过 Outputformat把数据输出到MySQL中。
2018.5个人demo

Spark Streaming实时流处理日志项目

IDEA maven hadoop zookeeper flume kafka Spark hbase
- 通过Python脚本模仿日志的产生
- Flume的选型，在本例中设为exec-memory-kafka
- 打开kafka一个消费者，再启动flume读取日志生成器中的log文件，可看到 kafka中成功读取到日志产生器的实时数据
- 让Kafka接收到的数据传输到Spark Streaming当中，这样就可以在Spark对实时接收到的数据进行操作了
- Spark中对实时数据的操作分为数据清洗过程、统计功能实现过程两个步骤。其中统计功能的实现基本上和Spark SQL中的操作一致，体现了Spark的代码复用性，即能通用于多个框架中
- 计算结果写入到Hbase
2018.5个人demo

HBase项目-微博系统

IDEA maven hadoop zookeeper hbase
- 创建命名空间以及表名的定义；
- 创建微博内容表；
- 创建用户关系表；
- 创建用户微博内容接收邮件箱表；
- 发布微博内容；
- 添加关注用户；
- 移除（取关）用户；
- 获取关注的人的微博内容；
- 测试。

项目经验

2018.5个人demo

Hive项目-某视频网站运营指标分析

eclipse maven hadoop zookeeper hive
- 统计视频观看数Top10；视频类别热度Top10；
- 统计视频观看数Top20所属类别包含这Top20视频的个数；
- 统计视频观看数Top50所关联视频的所属类别Rank；
- 统计每个类别中的视频热度Top10；
- 统计每个类别中视频流量Top10；
- 统计上传视频最多的用户Top10以及他们上传的视频；
- 统计每个类别视频观看数Top10。

教育及工作经历

2018.08新华三大数据技术有限公司
大数据开发工程师
2017.07华图教育
大数据开发工程师
2014.09硕士
中国石油大学(北京) 地质资源与地质工程
2010.09本科
长江大学地质学

工作技能

大数据: 理解hdfs分布式文件系统存储结构和高可用原理; 熟悉Zookeeper分布式服务框架，理解HA 高可用集群; 掌握mapreduce计算框架编程，对yarn的资源调度，作业监控有一定认识; 熟悉hive数据仓库工具及HQL的书写，能对日志数据进行查询，统计等数据操作; 熟悉linux系统，了解常用的linux的shell命令，能在linux系统下搭建开发环境; 理解面向对象设计思想，熟练使用Java编程语言; 熟悉kafka、flume数据采集工具的使用，实现流式数据的过滤和分析; 理解Hbase的存储原理，Hbase存储架构，实现数据的毫秒检索; 了解Spark相关组件，了解Storm运行流程; 熟悉Python、Scala语言编程，能运用Scala进行spark RDD，spark streaming编程

其他技能: 英语通过CET6，能够流畅阅读英文文档。具备良好的文档写作能力

自我评价

乐于沟通，能快速融入团队，具备团队合作精神

逻辑思维能力强，思路清楚，学习能力强，对新技术有着强烈的好奇心

对工作尽职尽责，乐于从事有挑战性的工作

具有良好的英语阅读能力，能阅读英文资料、技术文档等