Hive项目-某视频网站运营指标分析
May 8, 2018
开发环境
eclipse+maven+jdk+linux
系统架构
hadoop+zookeeper+hive
需求描述
- 统计视频观看数Top10;视频类别热度Top10;
- 统计视频观看数Top20所属类别包含这Top20视频的个数;
- 统计视频观看数Top50所关联视频的所属类别Rank;
- 统计每个类别中的视频热度Top10;
- 统计每个类别中视频流量Top10;
- 统计上传视频最多的用户Top10以及他们上传的视频;
- 统计每个类别视频观看数Top10。
项目描述
项目源数据是两个文件,一个是视频表,字段有视频的ID标识、视频上传者、视频的类别、视频的观看数、 视频流量和视频相关视频的ID等。另一个表为用户表,字段有上传者的用户名,上传的视频数等。 先使用MapReduce对视频表中的数据进行清洗,剔除不合要求的数据。再根据不同的需求,通过Hive, 使用Hive sql统计出各种TopN数据。
项目步骤
- 通过MapReduce对原始数据进行清洗,生成规范数据文件上传到HDFS;
- 然后在Hive中创建表并导入数据,对数据进行多维分析;
- 再把Hive分析结果使用Sqoop导出到Mysql中。