基于分布式架构大数据hadoop生态组件及数据分析可视化培训

课程大纲

课程大纲：

1 、分布式处理框架 MapReduce

2、资源调度框架 Yarn

1、分布式大数据框架Hadoop

主要讲解Hadoop MR、Yarn

2、式大数据框架Hadoop

Hadoop Shell操作及MR入门案例

03 ：Hadoop Shell基本操作

本任务介绍常用的Hadoop Shell命令。

04 ：Mapreduce实例——WordCount

本任务练习使用电商数据进行词频统计。

章节内容：数据仓库 Hive + 数据迁移工具 Sqoop

1、数据仓库 Hive 介绍 2、Hive 安装部署

3、Hive Shell 基本操作 4、Sqoop 安装部署

5、Sqoop 数据迁移 6、Sqoop 增量数据迁移

1、数据仓库Hive+数据迁移工具Sqoop（理论）

本节主要讲解数据仓库Hive及迁移工具Sqoop

2、数据仓库Hive+数据迁移工具Sqoop（）

本演练练习Hive基本操作及Sqoop应用

05 ：Hive安装部署

本任务介绍如何安装部署数据仓库Hive。

06 ：Hive基本操作

本任务详细介绍Hive的基本操作以及Hive的外部表与内部表的区别。

07 ：Sqoop安装

本任务主要介绍Sqoop的工作原理，然后详细说明Sqoop的安装部署过程。

08 ：综合案例—基本流程图

本任务介绍Sqoop在Hive与Mysql之间进行数据传递以及Hive数据分析

章节内容：分布式日志采集工具 Flume

1、Flume 介绍 2、Flume Agent 详解

1、分布式日志采集工具Flume（理论）

本节主要讲解Flume工作原理、架构、Agent概念

2、分布式日志采集工具Flume（）

本演练练习Flume安装部署及Agent配置详解

09 ：Flume安装部署

本任务介绍Flume的工作原理和Flume安装流程。

10 ：Flume配置：Source、Channel、Sink

本任务介绍配置多种source，channel，sink组合，实现多种需求。

11 ：Flume多source，多sink组合框架搭建

本任务介绍Flume多source，多sink组合框架搭建。

章节内容：分布式消息系统 Kafka

1、Kafka 结构分析 2、Flume 与 Kafka 联用

1、分布式消息体统Kafka（理论）

本节主要讲解Kafka工作原理、架构及名词概念

2、分布式消息体统Kafka（）

本演练练习Kafka安装部署、与Flume连用

12 ：Kafka安装及测试

本任务介绍安装scala与zookeeper，然后在已安装好的scala和zookeeper环境基础上，安装部署Kafka。

13 ：Flume传输数据给Kafka

本任务介绍Flume传数据到Kafka的执行原理和具体操作。

章节内容：分布式大数据框架Spark

1、Spark 框架介绍 2、Spark RDD 介绍

3、Spark SQL 数据处理 4、Spark Shell 数据处理

1、分布式大数据框架Spark（理论）

本节主要讲解Spark工作原理、架构及RDD概念

2、分布式大数据框架Spark（）

本演练练习Spark安装部署及Shell操作

14 ：Spark Standalone伪分布模式安装

本任务介绍在已经安装好Hadoop下，如何安装Spark Standalone模式。

15 ：Spark Shell操作

本任务介绍Spark Shell操作，在Spark Shell命令行下对算子进行实例讲解，包括去重、排序、Join、求平均值

章节内容：电商项目（上）

1、爬虫框架介绍 2、电商数据清洗

3、电商离线数据分析 4、数据迁移

1、电子商务数据分析项目（爬虫、清洗）

本演练练习电商案例之数据采集、清洗

2、电子商务数据分析项目（离线数据分析）

本演练练习电商案例之离线分析、数据迁移

16 ：一、采集电商网站交易及评论数据(局域网or互联网)

本次任务对爬虫进行了介绍，并分析网页的源码结构和如何爬取数据。

17 ：二、开发MR程序清洗电商评论数据

本次任务对数据清洗进行概述，包括Json解析，搭建解析框架和编写MapReduce代码。

18 ：三、利用HiveSQL离线分析评论数据

本次任务介绍使用HiveSQL根据多种需求对数据进行统计并演示。

19 ：四、利用Sqoop进行数据迁移至Mysql数据库

本次任务介绍了如何将Hive表中数据导入到MySQL以和如何将HDFS中数据导入到MySQL。

章节内容：电商项目（下）

1、离线数据可视化 2、SparkStreaming 实时流数据处理

1、电子商务数据分析项目（数据可视化）

本演练练习电商案例之数据可视化

2、电子商务数据分析项目（实时数据分析）

本演练练习电商案例之实时数据分析

20 ：五、利用JavaWeb+Echarts完成数据图表展示过程

本次任务介绍通过搭建JavaWeb框架，将数据进行可视化图表展示。

21 ：六、利用Spark进行实时数据分析（上）(局域网or互联网)

本次任务以京东商品评论为目标网站，架构采用Java爬虫框架+Flume+Kafka+Spark Streaming+Mysql等多种技术，动态实时的采集、分析、展示数据。

22 ：七、利用Spark进行实时数据分析（下）(局域网or互联网)

本次任务以京东商品评论为目标网站，架构采用Java爬虫框架+Flume+Kafka+Spark Streaming+Mysql等多种技术，动态实时的采集、分析、展示数据。

课程教师

进阶课程

课程教师

进阶课程

开始新实验

开始评估课实验

开始实验