用商业案例学R语言数据挖掘pdf

图书网 2020年11月7日21:25:40
评论
1.7K
摘要

本书是一本面向商业数据分析初学者的教材,从具体的商业数据分析案例入手,使读者掌握数据挖掘的目的、理念、思路与分析步骤。本书力图淡化技术,对于方法的介绍也尽量避免涉及过多的数学内容,和高等数学相关的内容只在线形回归和主成分分析这两节中涉及,而且都辅以图形做形象的展现。因此本书的读者只需要具有高中水平的数学基础即可。但是本书强调每种方法的假设、适用条件都与商业数据分析的主题匹配。在教学实践中,我们发现业务经验丰富和有较好商业模式理解的学员,在学习数据挖掘时有更好的效果,主要原因可能是这类学员有较强的思辨能力、分析能力、学习目的性和质量意识,而不是简单地模仿和套用数学公式。

用商业案例学R语言数据挖掘 作者:经管之家,常国珍,曾珂,朱江

用商业案例学R语言数据挖掘 出版社:电子工业出版社

用商业案例学R语言数据挖掘 内容简介

商业智能时代已经全面到来,分析型人才的岗位数量在就业市场中呈现井喷式增长。无论是从事产品研发的工程师,还是从事产品推广的市场人员、人力资源和财务会计人员,都需要掌握数据分析技术,否则很有可能被人工智能替代。

本书包括 18 章,涉及使用 R 语言做数据分析和数据挖掘的主要分析方法。其中,第 1、 2 章为数据分析方法概述,第 3 章为 R 语言编程基础,第 4 章到第 8 章为统计学习方法,第 9 章到第 16 章为数据挖掘方法,第 17 章为特征工程,第 18 章为 R 文本挖掘。每章都根据所涉及的知识点的不同,选取了实用的案例,并为读者准备了相应的练习题。

用商业案例学R语言数据挖掘 目录

第1 章 商业数据分析基础

1.1 商业数据分析的本质

1.2 商业数据分析中心的建设

第2 章 数据分析的武器库

2.1 数据挖掘简介

2.2 R 语言简介

2.3 R 与RStudio 的下载和安装

2.4 在RStudio 中安装包

2.5 练习题

第3 章 R 语言编程

3.1 R 的基本数据类型

3.2 R 的基本数据结构

3.3 R 的程序控制

3.4 R 的函数

3.5 R 的日期与时间数据类型

3.6 在R 中读写数据

3.7 练习题

第4 章 R 描述性统计分析与绘图

4.1 描述性统计分析

4.2 制图的步骤

4.3 R 基础绘图包

4.4 ggplot2 绘图

4.5 练习题

第5 章 数据整合和数据清洗

5.1 数据整合

5.2 R 中的高级数据整合

5.3 R 中的抽样

5.4 R 的数据清洗

5.5 练习题

第6 章 统计推断基础

6.1 基本的统计学概念

6.2 假设检验与单样本t 检验

6.3 双样本t 检验

6.4 方差分析(分类变量和连续变量关系检验)

6.5 相关分析(两连续变量关系检验)

6.6 卡方检验(二分类变量关系检验)

6.7 练习题

第7 章 客户价值预测:线性回归模型与诊断

7.1 相关性分析

7.2 线性回归

7.3 线性回归诊断

7.4 正则化方法

7.5 练习题

第8 章 Logistic 回归构建初始信用评级

8.1 Logistic 回归的相关关系分析

8.2 Logistic 回归模型及实现

8.3 最大熵模型与极大似然法估计

8.4 模型评估

8.5 练习题

第9 章 使用决策树进行信用评级

9.1 决策树建模思路

9.2 决策树算法

9.3 在R 中实现决策树

9.4 组合算法(Ensemble Learning)

9.5 练习题

第10 章 神经网络

10.1 神经元模型

10.2 人工神经网络模型

10.3 单层感知器

10.4 BP 神经网络

10.5 RBF 神经网络

10.6 神经网络设计与R 代码实现

10.7 练习题

第11 章 分类器入门:最近邻域与贝叶斯网络

11.1 分类器的概念

11.2 KNN 算法

11.3 朴素贝叶斯

11.4 贝叶斯网络

11.5 练习题

第12 章 高级分类器:支持向量机

12.1 线性可分与线性不可分

12.2 线性可分支持向量机

12.3 线性支持向量机

12.4 非线性支持向量机

12.5 R 中的支持向量机

12.6 练习题

第13 章 连续变量的维度归约

13.1 维度归约方法概述

13.2 主成分分析

13.3 因子分析

13.4 奇异值分解

13.5 对应分析和多维尺度分析

13.6 练习题

第14 章 聚类

14.1 聚类分析概述

14.2 聚类算法逻辑

14.3 层次聚类

14.4 k-means 聚类

14.5 基于密度的聚类

14.6 聚类模型的评估

14.7 高斯混合模型(Gaussian Mixture Model)

14.8 客户分群

14.9 练习题

第15 章 关联规则与推荐算法

15.1 长尾理论

15.2 关联规则

15.3 序贯模型

15.4 推荐算法与推荐系统

15.5 练习题

第16 章 时间序列建模

16.1 认识时间序列

16.2 简单时间序列分析

16.3 平稳时间序列分析ARMA 模型

16.4 非平稳时间序列分析ARIMA 模型

第17 章 特征工程(Feature Engineering)(博文视点官方网站下载)

17.1 特征工程概述

17.2 数据预处理(Data Preprocessing)

17.3 特征构造(Feature Construction)

17.4 特征抽取(Feature Extraction)

17.5 特征选择(Feature Selection)

第18 章 R 文本挖掘(博文视点官方网站下载)

18.1 文本挖掘

18.2 文本清洗

18.3 中文分词与文档模型

18.4 文本的特征选择及相关性度量

18.5 文本分类

18.6 主题模型

18.7 综合案例

附录A 数据说明(博文视点官方网站下载)

用商业案例学R语言数据挖掘 精彩文摘

2. KNN 算法

决策树以女性相亲为例,那么对于一个在婚恋交友网站注册的男性,如何预测该男性的相亲成功率呢?这里使用 KNN 算法(K-NearestNeighor,最邻近算法)进行预测。

这里采用三个变量或属性来描述一个男性,即收入、背景和长相。在已有的数据中,深灰色点代表相亲成功的人,白点代表相亲不成功的人,中间连接线条的黑点代表一个新来的男性, KNN 算法在预测这个新人相亲是否成功时,会找到他和附近的 K 个点,并根据这些点是否相亲成功来设定新人约会成功的概率,比如图 2-8 中黑点与两个深灰色点、一个白点最近,因此该点相亲成功的可能性占 2/3。

KNN 算法属于惰性算法,其特点是不事先建立全局的判别公式或规则。当新数据需要分类时,根据每个样本和原有样本之间的距离,取最近 K 个样本点的众数(Y 为分类变量)或均值(Y 为连续变量)作为新样本的预测值。该预测方法体现了一句中国的老话“近朱者赤,近墨者黑”。

图书网:用商业案例学R语言数据挖掘pdf

继续阅读

→→→→→→→→→→→→→→→→→→→→查找获取

计算机教材

网站建设运营推广从入门到精通pdf

网站建设运营推广从入门到精通 作者:张婷 网站建设运营推广从入门到精通 出版社:人民邮电出版社 网站建设运营推广从入门到精通 内容简介 本书全面、详实地介绍了网站设计、开发、维护、推广的具体方法和步骤...
计算机教材

电脑快速入门pdf

电脑快速入门 作者:文丰科技 电脑快速入门 出版社:清华大学出版社 电脑快速入门 内容简介 《电脑快速入门》是“学电脑7日通”系列之一,以通俗易懂的语言、翔实生动的操作案例,全面讲解了电脑操作方面的知...
计算机教材

自然语言处理技术入门与实战pdf

全书主要从语义模型详解、自然语言处理系统基础算法和系统案例实战三个方面,介绍了自然语言处理中相关的一些技术。每一个算法又分别从应用原理、数学原理、代码实现,以及对当前方法的思考四个...
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: