• PROJECT
  • SKILL
  • GITHUB
  • RESUME
  • 手机通信话单分析项目

    June 8, 2018

    需求描述

    • 通信运营商每时每刻会产生大量的通信数据,需要定时定期的对已有数据进行离线的分析处理。例如,当日话单, 月度话单,季度话单,年度话单,通话次数,通话总时长等等。项目需求就是要满足用户对通信话单的查询和展示。

    项目描述

    • 项目一共分为三块,第一部分为数据生产,在这部分要清楚项目数据的结构和内容,预判可能出现的问题并进行数据清洗, 将数据写入到日志文件中;第二部分是将生产的数据落地到HBase中,首先是用Flume监控日志文件, 采集实时产生的数据到kafka集群,再调用Kafka和HBase的API,将数据写入到HBase中。 第三部分是对HBase中采集到的数据进行分析,统计出我们想要的结果,将统计结果写入到MySQL中让用户查询。
    more...
  • HBase项目-微博系统

    May 28, 2018

    需求描述

    • 用户发布微博内容。
    • 用户社交体现:关注用户,取关用户。
    • 拉取关注的人的微博内容。

    项目描述

    • 微博系统包括三张表,一张是微博内容表(RowKey:用户ID_时间;Family:info;column:content;value:微博内容String), 一张是用户关系表(RowKey:用户ID;Family:attends,fans;column:用户ID;value:用户ID;), 一张是收件箱表(RowKey:用户ID;Family:info;column:用户ID;value:微博内容的RowKey)。 当用户发布微博内容时,我们在微博内容表中添加相应的行。当有用户添加关注用户时,我们在该用户的用户关系表列簇(attends)中添加相应列, 在被关注用户的用户关系表列簇(fans)中添加相应列,在收件箱表中添加相应列。收件箱表存放着每个用户及其关注用户的微博内容的RowKey, 收件箱表对所关注用户多个微博内容采用的是版本号的方法。当用户的关注用户发表微博内容时,在此用户的收件箱表中添加相应的版本号。
    more...
  • Spark Streaming实时流处理日志项目

    May 18, 2018

    需求描述

    • 实现实时(到现在为止)的日志访问统计操作。

    项目描述

    • 项目数据来源的日志为Python脚本产生的,通过crontab定时执行Python脚本模仿服务器日志的产生, 日志包括ip、time、url、status、referer信息。然后使用flume采集产生的日志数据并sink到 Kafka消息队列中,然后将日志信息传给Spark Streaming进行实时数据处理。最后将计算结果写入 到hbase上。
    more...
  • Hive项目-某视频网站运营指标分析

    May 8, 2018

    需求描述:统计某视频网站的常规指标,各种TopN指标.

    • 统计视频观看数Top10;视频类别热度Top10;
    • 统计视频观看数Top20所属类别包含这Top20视频的个数;
    • 统计视频观看数Top50所关联视频的所属类别Rank;
    • 统计每个类别中的视频热度Top10;
    • 统计每个类别中视频流量Top10;
    • 统计上传视频最多的用户Top10以及他们上传的视频;
    • 统计每个类别视频观看数Top10。
    more...
TOP

© 2018 - project My Resume