李宜润

大数据开发工程师

项目经验

  • 2018.6个人demo
    手机通信话单分析项目
    IDEA maven hadoop zookeeper flume kafka hbase
    数据生产:
    • a) 创建 Java 集合类存放模拟的电话号码和联系人;
    • b) 随机选取两个 手机号码当做“主叫”与“被叫”,产出 call1 与 call2 字段数据;
    • c) 创建随机生成通话建立时间的方法,产出date_time 字段数据;
    • d) 随机一个通话时长,单位:秒,产出 duration 字段数据;
    • e) 将产出的一条数据拼接封装到一个字符串中;
    • f) 将通话数据写入到本地文件中;
    数据消费:
    • a) 编写 kafka消费者,读取 kafka集群中缓存的消息,并打印到控制台以观察是否成功;
    • b)编写调用 HBaseAPI相关方法,将从 Kafka中读取出来的数据写入到 HBase ;
    数据分析:
    • a) 按照时间维度来统计通话,比如统计 2017 年所有月份所有日子的通话记录, 那这个维度我们大概可以表述为 2017 年*月*日。
    • b) 通过 Mapper将数据按照不同维度聚合给Reducer。
    • c) 通过 Reducer拿到按照各个维度聚合过来的数据,进行汇总,输出。
    • d) 根据业务需求,将Reducer的输出通过 Outputformat把数据输出到MySQL中。
  • 2018.5个人demo
    Spark Streaming实时流处理日志项目
    IDEA maven hadoop zookeeper flume kafka Spark hbase
    • 通过Python脚本模仿日志的产生
    • Flume的选型,在本例中设为exec-memory-kafka
    • 打开kafka一个消费者,再启动flume读取日志生成器中的log文件, 可看到 kafka中成功读取到日志产生器的实时数据
    • 让Kafka接收到的数据传输到Spark Streaming当中,这样就可以在Spark对 实时接收到的数据进行操作了
    • Spark中对实时数据的操作分为数据清洗过程、统计功能实现过程两个步骤。 其中统计功能的实现基本上和Spark SQL中的操作一致,体现了Spark的代码复 用性,即能通用于多个框架中
    • 计算结果写入到Hbase
  • 2018.5个人demo
    HBase项目-微博系统
    IDEA maven hadoop zookeeper hbase
    • 创建命名空间以及表名的定义;
    • 创建微博内容表;
    • 创建用户关系表;
    • 创建用户微博内容接收邮件箱表;
    • 发布微博内容 ;
    • 添加关注用户;
    • 移除(取关)用户 ;
    • 获取关注的人的微博内容;
    • 测试。

项目经验

  • 2018.5个人demo
    Hive项目-某视频网站运营指标分析
    eclipse maven hadoop zookeeper hive
    • 统计视频观看数Top10;视频类别热度Top10;
    • 统计视频观看数Top20所属类别包含这Top20视频的个数;
    • 统计视频观看数Top50所关联视频的所属类别Rank;
    • 统计每个类别中的视频热度Top10;
    • 统计每个类别中视频流量Top10;
    • 统计上传视频最多的用户Top10以及他们上传的视频;
    • 统计每个类别视频观看数Top10。

教育及工作经历

  • 2018.08新华三大数据技术有限公司
  • 大数据开发工程师
  • 2017.07华图教育
  • 大数据开发工程师
  • 2014.09硕士
  • 中国石油大学(北京) 地质资源与地质工程
  • 2010.09本科
  • 长江大学 地质学

工作技能

大数据
理解hdfs分布式文件系统存储结构和高可用原理
熟悉Zookeeper分布式服务框架,理解HA 高可用集群
掌握mapreduce计算框架编程,对yarn的资源调度,作业监控有一定认识
熟悉hive数据仓库工具及HQL的书写,能对日志数据进行查询,统计等数据操作
熟悉linux系统,了解常用的linux的shell命令,能在linux系统下搭建开发环境
理解面向对象设计思想,熟练使用Java编程语言
熟悉kafkaflume数据采集工具的使用,实现流式数据的过滤和分析
理解Hbase的存储原理,Hbase存储架构,实现数据的毫秒检索
了解Spark相关组件,了解Storm运行流程
熟悉PythonScala语言编程,能运用Scala进行spark RDD,spark streaming编程
其他技能
英语通过CET6,能够流畅阅读英文文档。具备良好的文档写作能力

自我评价

乐于沟通,能快速融入团队,具备团队合作精神
逻辑思维能力强,思路清楚,学习能力强,对新技术有着强烈的好奇心
对工作尽职尽责,乐于从事有挑战性的工作
具有良好的英语阅读能力,能阅读英文资料、技术文档等