课程目录:基于分布式架构大数据hadoop生态组件及数据分析可视化培训
4401 人关注
(78637/99817)
课程大纲:

基于分布式架构大数据hadoop生态组件及数据分析可视化培训

 

 

1 、分布式处理框架 MapReduce

2、资源调度框架 Yarn

 

1、分布式大数据框架Hadoop

主要讲解Hadoop MR、Yarn

2、式大数据框架Hadoop

Hadoop Shell操作及MR入门案例

03 :Hadoop Shell基本操作

本任务介绍常用的Hadoop Shell命令。

04 :Mapreduce实例——WordCount

本任务练习使用电商数据进行词频统计。

章节内容:数据仓库 Hive + 数据迁移工具 Sqoop

 

1、数据仓库 Hive 介绍 2、Hive 安装部署

3、Hive Shell 基本操作 4、Sqoop 安装部署

5、Sqoop 数据迁移 6、Sqoop 增量数据迁移

 

1、 数据仓库Hive+数据迁移工具Sqoop(理论)

本节主要讲解数据仓库Hive及迁移工具Sqoop

2、 数据仓库Hive+数据迁移工具Sqoop()

本演练练习Hive基本操作及Sqoop应用

05 :Hive安装部署

本任务介绍如何安装部署数据仓库Hive。

06 :Hive基本操作

本任务详细介绍Hive的基本操作以及Hive的外部表与内部表的区别。

07 :Sqoop安装

本任务主要介绍Sqoop的工作原理,然后详细说明Sqoop的安装部署过程。

08 :综合案例—基本流程图

本任务介绍Sqoop在Hive与Mysql之间进行数据传递以及Hive数据分析

章节内容:分布式日志采集工具 Flume

 

1、Flume 介绍 2、Flume Agent 详解

 

1、 分布式日志采集工具Flume(理论)

本节主要讲解Flume工作原理、架构、Agent概念

2、 分布式日志采集工具Flume()

本演练练习Flume安装部署及Agent配置详解

09 :Flume安装部署

本任务介绍Flume的工作原理和Flume安装流程。

10 :Flume配置:Source、Channel、Sink

本任务介绍配置多种source,channel,sink组合,实现多种需求。

11 :Flume多source,多sink组合框架搭建

本任务介绍Flume多source,多sink组合框架搭建。

章节内容:分布式消息系统 Kafka

 

1、Kafka 结构分析 2、Flume 与 Kafka 联用

 

1、 分布式消息体统Kafka(理论)

本节主要讲解Kafka工作原理、架构及名词概念

2、 分布式消息体统Kafka()

本演练练习Kafka安装部署、与Flume连用

12 :Kafka安装及测试

本任务介绍安装scala与zookeeper,然后在已安装好的scala和zookeeper环境基础上,安装部署Kafka。

13 :Flume传输数据给Kafka

本任务介绍Flume传数据到Kafka的执行原理和具体操作。

章节内容:分布式大数据框架Spark

 

1、Spark 框架介绍 2、Spark RDD 介绍

3、Spark SQL 数据处理 4、Spark Shell 数据处理

 

1、 分布式大数据框架Spark(理论)

本节主要讲解Spark工作原理、架构及RDD概念

2、分布式大数据框架Spark()

本演练练习Spark安装部署及Shell操作

14 :Spark Standalone伪分布模式安装

本任务介绍在已经安装好Hadoop下,如何安装Spark Standalone模式。

15 :Spark Shell操作

本任务介绍Spark Shell操作,在Spark Shell命令行下对算子进行实例讲解,包括去重、排序、Join、求平均值

章节内容:电商项目 (上)

 

1、爬虫框架介绍 2、电商数据清洗

3、电商离线数据分析 4、数据迁移

 

1、电子商务数据分析项目(爬虫、清洗)

本演练练习电商案例之数据采集、清洗

2、电子商务数据分析项目(离线数据分析)

本演练练习电商案例之离线分析、数据迁移

16 :一、采集电商网站交易及评论数据(局域网or互联网)

本次任务对爬虫进行了介绍,并分析网页的源码结构和如何爬取数据。

17 :二、开发MR程序清洗电商评论数据

本次任务对数据清洗进行概述,包括Json解析,搭建解析框架和编写MapReduce代码。

18 :三、利用HiveSQL离线分析评论数据

本次任务介绍使用HiveSQL根据多种需求对数据进行统计并演示。

19 :四、利用Sqoop进行数据迁移至Mysql数据库

本次任务介绍了如何将Hive表中数据导入到MySQL以和如何将HDFS中数据导入到MySQL。

章节内容:电商项目 (下)

 

1、离线数据可视化 2、SparkStreaming 实时流数据处理

 

1、电子商务数据分析项目(数据可视化)

本演练练习电商案例之数据可视化

2、电子商务数据分析项目(实时数据分析)

本演练练习电商案例之实时数据分析

20 :五、利用JavaWeb+Echarts完成数据图表展示过程

本次任务介绍通过搭建JavaWeb框架,将数据进行可视化图表展示。

21 :六、利用Spark进行实时数据分析(上)(局域网or互联网)

本次任务以京东商品评论为目标网站,架构采用Java爬虫框架+Flume+Kafka+Spark Streaming+Mysql等多种技术,动态实时的采集、分析、展示数据。

22 :七、利用Spark进行实时数据分析(下)(局域网or互联网)

本次任务以京东商品评论为目标网站,架构采用Java爬虫框架+Flume+Kafka+Spark Streaming+Mysql等多种技术,动态实时的采集、分析、展示数据。