基于分布式架构大数据hadoop生态组件及数据分析可视化培训
1 、分布式处理框架 MapReduce
2、资源调度框架 Yarn
1、分布式大数据框架Hadoop
主要讲解Hadoop MR、Yarn
2、式大数据框架Hadoop
Hadoop Shell操作及MR入门案例
03 :Hadoop Shell基本操作
本任务介绍常用的Hadoop Shell命令。
04 :Mapreduce实例——WordCount
本任务练习使用电商数据进行词频统计。
章节内容:数据仓库 Hive + 数据迁移工具 Sqoop
1、数据仓库 Hive 介绍 2、Hive 安装部署
3、Hive Shell 基本操作 4、Sqoop 安装部署
5、Sqoop 数据迁移 6、Sqoop 增量数据迁移
1、 数据仓库Hive+数据迁移工具Sqoop(理论)
本节主要讲解数据仓库Hive及迁移工具Sqoop
2、 数据仓库Hive+数据迁移工具Sqoop()
本演练练习Hive基本操作及Sqoop应用
05 :Hive安装部署
本任务介绍如何安装部署数据仓库Hive。
06 :Hive基本操作
本任务详细介绍Hive的基本操作以及Hive的外部表与内部表的区别。
07 :Sqoop安装
本任务主要介绍Sqoop的工作原理,然后详细说明Sqoop的安装部署过程。
08 :综合案例—基本流程图
本任务介绍Sqoop在Hive与Mysql之间进行数据传递以及Hive数据分析
章节内容:分布式日志采集工具 Flume
1、Flume 介绍 2、Flume Agent 详解
1、 分布式日志采集工具Flume(理论)
本节主要讲解Flume工作原理、架构、Agent概念
2、 分布式日志采集工具Flume()
本演练练习Flume安装部署及Agent配置详解
09 :Flume安装部署
本任务介绍Flume的工作原理和Flume安装流程。
10 :Flume配置:Source、Channel、Sink
本任务介绍配置多种source,channel,sink组合,实现多种需求。
11 :Flume多source,多sink组合框架搭建
本任务介绍Flume多source,多sink组合框架搭建。
章节内容:分布式消息系统 Kafka
1、Kafka 结构分析 2、Flume 与 Kafka 联用
1、 分布式消息体统Kafka(理论)
本节主要讲解Kafka工作原理、架构及名词概念
2、 分布式消息体统Kafka()
本演练练习Kafka安装部署、与Flume连用
12 :Kafka安装及测试
本任务介绍安装scala与zookeeper,然后在已安装好的scala和zookeeper环境基础上,安装部署Kafka。
13 :Flume传输数据给Kafka
本任务介绍Flume传数据到Kafka的执行原理和具体操作。
章节内容:分布式大数据框架Spark
1、Spark 框架介绍 2、Spark RDD 介绍
3、Spark SQL 数据处理 4、Spark Shell 数据处理
1、 分布式大数据框架Spark(理论)
本节主要讲解Spark工作原理、架构及RDD概念
2、分布式大数据框架Spark()
本演练练习Spark安装部署及Shell操作
14 :Spark Standalone伪分布模式安装
本任务介绍在已经安装好Hadoop下,如何安装Spark Standalone模式。
15 :Spark Shell操作
本任务介绍Spark Shell操作,在Spark Shell命令行下对算子进行实例讲解,包括去重、排序、Join、求平均值
章节内容:电商项目 (上)
1、爬虫框架介绍 2、电商数据清洗
3、电商离线数据分析 4、数据迁移
1、电子商务数据分析项目(爬虫、清洗)
本演练练习电商案例之数据采集、清洗
2、电子商务数据分析项目(离线数据分析)
本演练练习电商案例之离线分析、数据迁移
16 :一、采集电商网站交易及评论数据(局域网or互联网)
本次任务对爬虫进行了介绍,并分析网页的源码结构和如何爬取数据。
17 :二、开发MR程序清洗电商评论数据
本次任务对数据清洗进行概述,包括Json解析,搭建解析框架和编写MapReduce代码。
18 :三、利用HiveSQL离线分析评论数据
本次任务介绍使用HiveSQL根据多种需求对数据进行统计并演示。
19 :四、利用Sqoop进行数据迁移至Mysql数据库
本次任务介绍了如何将Hive表中数据导入到MySQL以和如何将HDFS中数据导入到MySQL。
章节内容:电商项目 (下)
1、离线数据可视化 2、SparkStreaming 实时流数据处理
1、电子商务数据分析项目(数据可视化)
本演练练习电商案例之数据可视化
2、电子商务数据分析项目(实时数据分析)
本演练练习电商案例之实时数据分析
20 :五、利用JavaWeb+Echarts完成数据图表展示过程
本次任务介绍通过搭建JavaWeb框架,将数据进行可视化图表展示。
21 :六、利用Spark进行实时数据分析(上)(局域网or互联网)
本次任务以京东商品评论为目标网站,架构采用Java爬虫框架+Flume+Kafka+Spark Streaming+Mysql等多种技术,动态实时的采集、分析、展示数据。
22 :七、利用Spark进行实时数据分析(下)(局域网or互联网)
本次任务以京东商品评论为目标网站,架构采用Java爬虫框架+Flume+Kafka+Spark Streaming+Mysql等多种技术,动态实时的采集、分析、展示数据。