课程目录: R语言数据挖掘实战培训|
(78637/99817)
课程大纲:

     R语言数据挖掘实战培训

 

 

 

第1节
R语言数据对象概要
通过创建不同的对象(数据对象、图形对象、模型对象、自定义方程)详细介绍了在R语言中万物皆对象的说法,通过实际案例演示了如何创建向量、矩阵、数组、数据框和列表等数据对象。
学员学习完本小节的内容,懂得R语言中的常用数据对象创建、判断和转换的方法,为以后的数据分析和处理打下坚实的基础。
第2节
R语言数据导入概要

R语言没有提供图形化的数据导入界面,本小节利用RStuido导入外部的txt、csv文件;也介绍了利用read.table函数导入txt、csv文件数据;让学员对外部文本文件数据导入到R有基本的能力。

第3节
距离计算及数据标准化处理
本小节介绍了连续型变量间距离的计算方式;介绍了数据标准化处理的基本原理;并利用了caret扩展包中的preProcess函数快速实现数据的标准化处理,通过例子演示了利用preProcess函数和其他函数实现标准化和归一化处理的结果。

第4节
常用聚类算法原理及R语言实现

常用聚类算法介绍,并对K均值聚类及层次聚类算法原理的详细讲解;后介绍了不同聚类算法在R语言中对应的函数实现。

第5节
聚类分析案例演示

利用K-Means聚类对Vehicle数据集进行聚类分群,并通过汽车类型指标查看聚类效果;利用cluster函数对洛杉矶街区数据进行层次聚类,并绘制聚类系谱树图,并利用聚类结果对街区进行分群标识,在经纬度图上把街区数据展现出来;后利用cluster函数对mtcars数据集进行层次聚类,并对结果进行详细解读。

第6节
关联规则案例演示

简单介绍了关联规则的基本原理,并详细介绍了R语言关联规则的实现及其他相关函数;介绍了关联规则可视化包arulesViz;后通过超市购物数据进行事务型数据的探索,利用as函数进行数据格式转换,利用itemFrequency函数查看包含该商品的交易比例;通过arules函数构建关联规则模型,并对关联规则进行排序和筛选。

第7节
KNN算法原理及R语言实现
详细讲解了KNN近邻算法思想,KNN算法流程,如何对数据进行标准化以及呀变量处理;以及KNN算法的R语言实现。

第8节
KNN算法案例详解

利用KNN算法对鸢尾花数据集iris建立分类器,并利用混淆矩阵查看预测误差率,其中利用caret包的creatDataPartition函数对数据进行分区,并通过自定义函数ceshi让学员清楚KNN近邻算法的实现步骤。后利用KNN算法对乳腺癌数据识别患者,对汽车类型进行识别等。

第9节
决策树算法基本原理及R语言实现

介绍了决策树的基本思想以及其优缺点。我们从理论上概述决策树的构建过程,这一过程包括如下四个步骤。1、决策树的生成;2、生成树的剪枝;3、生成规则;4、模型性能和预测。
详细介绍了C5.0、CART算法的R语言实现,并利用不同的决策树算法对汽车类型进行识别。
第10节
条件推理算法决策树的案例演示

R语言中的party包主要用于实现条件推理决策树,介绍了ctree函数的参数设置。通过运用条件推理决策树算法对汽车类型进行识别,并绘制决策树图进行直观展示。

第11节
五折交叉验证方法及其他机器学习算法R语言实现

介绍了评估和选择合适的模型和算法:五折交叉验证的方法。并介绍了组合算法、随机森林、人工神经网络、支持向量机算法的R语言实现。

第12节
利用其他机器学习算法对cars数据集进行预测

利用数据集cars作为案例演示:介绍了构建五折交叉验证下标的代码,并通过for循环构建五折交叉验证,通过对训练集和测试集进行预测,利用平均误差率小原则,选择优模型对其他样本进行预测。

第13节
rattle的使用

介绍了R语言数据挖掘可视化工具—Rattle的主要功能。包括:数据导入、数据探索、数据可视化、数据建模及模型评估等操作。让学员能利用rattle工具快速完成数据挖掘工作的目的。