开发环境

eclipse+maven+jdk+linux

系统架构

hadoop+zookeeper+hive

需求描述

  • 统计视频观看数Top10;视频类别热度Top10;
  • 统计视频观看数Top20所属类别包含这Top20视频的个数;
  • 统计视频观看数Top50所关联视频的所属类别Rank;
  • 统计每个类别中的视频热度Top10;
  • 统计每个类别中视频流量Top10;
  • 统计上传视频最多的用户Top10以及他们上传的视频;
  • 统计每个类别视频观看数Top10。

项目描述

项目源数据是两个文件,一个是视频表,字段有视频的ID标识、视频上传者、视频的类别、视频的观看数、 视频流量和视频相关视频的ID等。另一个表为用户表,字段有上传者的用户名,上传的视频数等。 先使用MapReduce对视频表中的数据进行清洗,剔除不合要求的数据。再根据不同的需求,通过Hive, 使用Hive sql统计出各种TopN数据。

项目步骤

  • 通过MapReduce对原始数据进行清洗,生成规范数据文件上传到HDFS;
  • 然后在Hive中创建表并导入数据,对数据进行多维分析;
  • 再把Hive分析结果使用Sqoop导出到Mysql中。