应用预测建模pdf

2018年8月29日09:05:2763.2K

摘要

本书专注于预测建模的实际应用，介绍了从数据预处理到建模再到模型评估和选择的整个过程，以及背后的统计思想，涉及各种回归技术和分类技术。从解决实际问题延伸到模型拟合，以及随之出现的主题，如处理类不平衡、选择预测因子等在实践中经常出现的问题，作者意在为读者提供预测建模过程的指导，并结合开源软件R语言来求解实际问题，详细给出R代码和处理的步骤。R包AppliedPredictiveModeling包含了书中例题和习题使用的数据，以及用于重复书中每一章分析的R代码。

应用预测建模内容简介

这是一本专注于预测建模的数据分析书，意在为实践者提供预测建模过程的指导，比如如何进行数据预处理、模型调优、预测变量重要性度量、变量选择等。读者可以从中学到许多建模方法以及提高对许多常用的、现代的有效模型的认识，如线性回归、非线性回归和分类模型，涉及树方法、支持向量机等。第10章和第17章分别研究混凝土混合物的抗压强度和作业调度两个案例。

作者重实际应用，轻数学理论，从实际数据出发，结合开源软件R语言来求解实际问题，详细给出R代码和处理的步骤。R包AppliedPredictiveModeling包含书中使用的数据，以及可以用于重复书中每一章分析的R代码，让读者能在一定精度范围内重复本书的结果，并自然地将书中的预测建模方法应用到自己的数据上。章后附有习题，方便读者巩固所学。

这本业界互相推荐的好书，适合所有数据分析人员阅读。

应用预测建模目录

第1章导论

1.1 预测与解释

1.2 预测模型的关键部分

1.3 专业术语

1.4 实例数据集和典型数据场景

1.5 概述

1.6 符号

第一部分一般策略

第2章预测建模过程简介

2.1 案例分析：预测燃油效能

2.2 主题

2.3 总结

第3章数据预处理

3.1 案例分析：高内涵筛选中的细胞分组

3.2 单个预测变量数据变换

3.3 多个预测变量数据变换

3.4 处理缺失值

3.5 移除预测变量

3.6 增加预测变量

3.7 区间化预测变量

3.8 计算

习题

第4章过度拟合与模型调优

4.1 过度拟合的问题

4.2 模型调优

4.3 数据分割

4.4 重抽样技术

4.5 案例分析：信用评分

4.6 选择调优参数值

4.7 数据划分建议

4.8 不同模型间的选择

4.9 计算

习题

第二部分回归模型

第5章衡量回归模型的效果

5.1 模型效果的定量度量

5.2 方差-偏差的权衡

5.3 计算

第6章线性回归及其扩展

6.1 案例分析：定量构效关系建模

6.2 线性回归

6.3 偏最小二乘法

6.4 惩罚模型

6.5 计算

习题

第7章非线性回归模型

7.1 神经网络

7.2 多元自适应回归样条

7.3 支持向量机

7.4 K近邻

7.5 计算

习题

第8章回归树与基于规则的模型

8.1 简单回归树

8.2 回归模型树

8.3 基于规则的模型

8.4 装袋树

8.5 随机森林

8.6 助推法

8.7 Cubist

8.8 计算

习题

第9章溶解度模型总结

第10章案例研究：混凝土混合物的抗压强度

10.1 模型构建策略

10.2 模型性能

10.3 优化抗压强度

10.4 计算

第三部分分类模型

第11章分类模型的效果度量

11.1 类预测

11.2 评估预测类

11.3 评估类概率

11.4 计算

第12章判别分析和其他线性分类模型

12.1 案例分析：预测是否成功申请经费

12.2 逻辑回归

12.3 线性判别分析

12.4 偏最小二乘判别分析

12.5 惩罚模型

12.6 最近收缩质心

12.7 计算

习题

第13章非线性分类模型

13.1 非线性判别分析

13.2 神经网络

13.3 灵活判别分析

13.4 支持向量机

13.5 K近邻

13.6 朴素贝叶斯

13.7 计算

习题

第14章分类树与基于规则的模型

14.1 基本的分类树

14.2 基于规则的模型

14.3 装袋决策树

14.4 随机森林

14.5 助推法

14.6 C5.0

14.7 比较两种分类预测变量编码方式

14.8 计算

习题

第15章经费申请模型的总结

第16章对严重类失衡的补救方法

16.1 案例分析：预测房车保险所有权

16.2 类失衡的影响

16.3 模型调优

16.4 选择截点

16.5 调整先验概率

16.6 不等案例权重

16.7 抽样方法

16.8 成本敏感度训练

16.9 计算

习题

第17章案例研究：作业调度

17.1 数据切分和模型策略

17.2 结果

17.3 计算

第18章衡量预测变量重要性

18.1 数值结果变量

18.2 分类结果变量

18.3 其他方法

18.4 计算

习题

第19章特征选择介绍

19.1 使用无信息预测变量的结果

19.2 减少预测变量个数的方法

19.3 绕封法

19.4 过滤法

19.5 选择偏差

19.6 案例分析：预测认知损伤

19.7 计算

习题

第20章影响模型表现的因素

20.1 第Ⅲ类错误

20.2 结果变量的测量误差

20.3 预测变量的测量误差

20.4 连续变量离散化

20.5 模型预测何时是可信的

20.6 大样本的影响

20.7 计算

习题

附录

附录A 各种模型的总结

附录B R语言介绍

附录C 值得关注的网站

参考文献

附录

应用预测建模精彩文摘

容易看出，当q=2时，闵可夫斯基距离即为欧式距离。当q=1时，闵可夫斯基距离等价于曼哈顿距离（或城市街区距离），它通常用于二元的预测变量样本。此外还存在许多其他的距离测度，如Tanimoto距离、Hamming距离和余弦距离等，这些距离在特定的科学背景下更适合于特定的预测变量。例如Tanimoto距离通常用于计算化学问题中，其中分子由一系列的二元指纹变量所描述（McCarren等2011）。

由于KNN方法在本质上依赖于样本点之间的距离，因此预测变量的标度会极大地影响距离的取值。当数据预测变量的标度相差很大时，具有最大标度的预测变量将会在整体的距离中占据很大的权重。因此，具有大标度的预测变量将对样本点间的距离做出最多的贡献。为了避免潜在的偏差，并使每个预测变量对距离的计算做出均等的贡献，我们建议在进行KNN建模前对所有预测变量进行中心化和标准化。

除了变量标度的问题之外，当观测的某些预测变量有缺失值时，距离的计算也会出现问题，因为此时将无法计算样本点间的距离。如果出现这种情况，那么分析人员有几种选择。首先，可以将这个样本点或这些变量从分析中移除。这可能是最不理想的一种选择；然而，当样本或预测变量很稀疏时，这也可能是现实的选择。

继续阅读

历史上的今天

8月

应用预测建模pdf

应用预测建模内容简介

应用预测建模目录

应用预测建模精彩文摘

历史上的今天

→→→→→→→→→→→→→→→→→→→→查找获取

海量点云数据处理理论与技术pdf

计算机应用基础 Windows XP+Office 2003 第2版pdf

数据可视化与数据挖掘基于Tableau和SPSS Modeler图形界面epub

个性化电脑打造pdf

具体数学计算机科学基础（第2版）pdf

计算复杂性现代方法pdf

编译原理（第2版）[Compilers:Principle,Techniques and Tools]pdf

编码隐匿在计算机软硬件背后的语言[Code:The Hidden Language of Computer Hardware and Software]pdf

计算机科学的基础pdf

数据科学实战pdf

发表评论取消回复

注册vip咨询

资源社区

应用预测建模 内容简介

应用预测建模 目录

应用预测建模 精彩文摘

历史上的今天

→→→→→→→→→→→→→→→→→→→→查找获取

发表评论 取消回复

注册vip咨询

应用预测建模内容简介

应用预测建模目录

应用预测建模精彩文摘

发表评论取消回复