基于分布式架构大数据hadoop生态组件及数据分析可视化培训
1、分布式大数据框架Hadoop(理论·上)
本节主要讲解大数据概述及Hadoop HDFS
2、分布式大数据框架Hadoop(实操·上)
本实操演练练习Hadoop部署及插件安装
01 实操:Hadoop 安装
绍搭建Hadoop集群的具体步骤。
02 实操:Hadoop开发插件安装
介绍如何给Eclipse配置Hadoop插件、方便使用Eclipse开发工具进行大数据开发。
视情况及反馈, 会选用 IntelliJ IDEA
章节内容:分布式大数据框架 Hadoop
课程内容: 1 、分布式处理框架 MapReduce
2、资源调度框架 Yarn
授课内容:
1、分布式大数据框架Hadoop(理论·下)
主要讲解Hadoop MR、Yarn
2、式大数据框架Hadoop(实操·下)
操演练练习Hadoop Shell操作及MR入门案例
03 实操:Hadoop Shell基本操作
本任务介绍常用的Hadoop Shell命令。
04 实操:Mapreduce实例——WordCount
本任务练习使用电商数据进行词频统计。
章节内容:数据仓库 Hive + 数据迁移工具 Sqoop
课程内容:
1、数据仓库 Hive 介绍
2、Hive 安装部署
3、Hive Shell 基本操作
4、Sqoop 安装部署
5、Sqoop 数据迁移
6、Sqoop 增量数据迁移
授课内容
1、 数据仓库Hive+数据迁移工具Sqoop(理论)
本节主要讲解数据仓库Hive及迁移工具Sqoop
2、 数据仓库Hive+数据迁移工具Sqoop(实操)
本实操演练练习Hive基本操作及Sqoop应用
05 实操:Hive安装部署
本任务介绍如何安装部署数据仓库Hive。
06 实操:Hive基本操作
本任务详细介绍Hive的基本操作以及Hive的外部表与内部表的区别。
07 实操:Sqoop安装
本任务主要介绍Sqoop的工作原理,然后详细说明Sqoop的安装部署过程。
08 实操:综合案例—基本流程图
本任务介绍Sqoop在Hive与Mysql之间进行数据传递以及Hive数据分析
1、Flume 介绍
2、Flume Agent 详解
授课内容:
1、 分布式日志采集工具Flume(理论)
本节主要讲解Flume工作原理、架构、Agent概念
2、 分布式日志采集工具Flume(实操)
本演练实操练习Flume安装部署及Agent配置详解
09 实操:Flume安装部署
本任务介绍Flume的工作原理和Flume安装流程。
10 实操:Flume配置:Source、Channel、Sink
本任务介绍配置多种source,channel,sink组合,实现多种需求。
11 实操:Flume多source,多sink组合框架搭建
本任务介绍Flume多source,多sink组合框架搭建。
章节内容:分布式消息系统 Kafka
课程内容:
1、Kafka 结构分析 2、Flume 与 Kafka 联用
授课内容:
1、 分布式消息体统Kafka(理论)
本节主要讲解Kafka工作原理、架构及名词概念
2、 分布式消息体统Kafka(实操)
本演练实操练习Kafka安装部署、与Flume连用
12 实操:Kafka安装及测试
本任务介绍安装scala与zookeeper,然后在已安装好的scala和zookeeper环境基础上,安装部署Kafka。
13 实操:Flume传输数据给Kafka
本任务介绍Flume传数据到Kafka的执行原理和具体操作。
章节内容:分布式大数据框架Spark
课程内容:
1、Spark 框架介绍
2、Spark RDD 介绍
3、Spark SQL 数据处理
4、Spark Shell 数据处理
授课内容:
1、 分布式大数据框架Spark(理论)
本节主要讲解Spark工作原理、架构及RDD概念
2、分布式大数据框架Spark(实操)
本演练实操练习Spark安装部署及Shell操作
14 实操:Spark Standalone伪分布模式安装
本任务介绍在已经安装好Hadoop下,如何安装Spark Standalone模式。
15 实操:Spark Shell操作
本任务介绍Spark Shell操作,在Spark Shell命令行下对算子进行实例讲解,包括去重、排序、Join、求平均值
1、爬虫框架介绍
2、电商数据清洗
3、电商离线数据分析
4、数据迁移
授课内容:
1、电子商务数据分析项目(爬虫、清洗)
2、电子商务数据分析项目(离线数据分析)
16 实操:一、采集电商网站交易及评论数据(局域网or互联网)
本次任务对爬虫进行了介绍,并分析网页的源码结构和如何爬取数据。
17 实操:二、开发MR程序清洗电商评论数
18 实操:三、利用HiveSQL离线分析评论数据
19 实操:四、利用Sqoop进行数据迁移至Mysql数据库
1、离线数据可视化 2、SparkStreaming 实时流数据处理