应用预测建模pdf

图书网 2018年8月29日09:05:2763.2K
摘要

本书专注于预测建模的实际应用,介绍了从数据预处理到建模再到模型评估和选择的整个过程,以及背后的统计思想,涉及各种回归技术和分类技术。从解决实际问题延伸到模型拟合,以及随之出现的主题,如处理类不平衡、选择预测因子等在实践中经常出现的问题,作者意在为读者提供预测建模过程的指导,并结合开源软件R语言来求解实际问题,详细给出R代码和处理的步骤。R包AppliedPredictiveModeling包含了书中例题和习题使用的数据,以及用于重复书中每一章分析的R代码。

应用预测建模 内容简介

这是一本专注于预测建模的数据分析书,意在为实践者提供预测建模过程的指导,比如如何进行数据预处理、模型调优、预测变量重要性度量、变量选择等。读者可以从中学到许多建模方法以及提高对许多常用的、现代的有效模型的认识,如线性回归、非线性回归和分类模型,涉及树方法、支持向量机等。第10章和第17章分别研究混凝土混合物的抗压强度和作业调度两个案例。

作者重实际应用,轻数学理论,从实际数据出发,结合开源软件R语言来求解实际问题,详细给出R代码和处理的步骤。R包AppliedPredictiveModeling包含书中使用的数据,以及可以用于重复书中每一章分析的R代码,让读者能在一定精度范围内重复本书的结果,并自然地将书中的预测建模方法应用到自己的数据上。章后附有习题,方便读者巩固所学。

这本业界互相推荐的好书,适合所有数据分析人员阅读。

应用预测建模 目录

第1章 导论

1.1 预测与解释

1.2 预测模型的关键部分

1.3 专业术语

1.4 实例数据集和典型数据场景

1.5 概述

1.6 符号

第一部分 一般策略

第2章 预测建模过程简介

2.1 案例分析:预测燃油效能

2.2 主题

2.3 总结

第3章 数据预处理

3.1 案例分析:高内涵筛选中的细胞分组

3.2 单个预测变量数据变换

3.3 多个预测变量数据变换

3.4 处理缺失值

3.5 移除预测变量

3.6 增加预测变量

3.7 区间化预测变量

3.8 计算

习题

第4章 过度拟合与模型调优

4.1 过度拟合的问题

4.2 模型调优

4.3 数据分割

4.4 重抽样技术

4.5 案例分析:信用评分

4.6 选择调优参数值

4.7 数据划分建议

4.8 不同模型间的选择

4.9 计算

习题

第二部分 回归模型

第5章 衡量回归模型的效果

5.1 模型效果的定量度量

5.2 方差-偏差的权衡

5.3 计算

第6章 线性回归及其扩展

6.1 案例分析:定量构效关系建模

6.2 线性回归

6.3 偏最小二乘法

6.4 惩罚模型

6.5 计算

习题

第7章 非线性回归模型

7.1 神经网络

7.2 多元自适应回归样条

7.3 支持向量机

7.4 K近邻

7.5 计算

习题

第8章 回归树与基于规则的模型

8.1 简单回归树

8.2 回归模型树

8.3 基于规则的模型

8.4 装袋树

8.5 随机森林

8.6 助推法

8.7 Cubist

8.8 计算

习题

第9章 溶解度模型总结

第10章 案例研究:混凝土混合物的抗压强度

10.1 模型构建策略

10.2 模型性能

10.3 优化抗压强度

10.4 计算

第三部分 分类模型

第11章 分类模型的效果度量

11.1 类预测

11.2 评估预测类

11.3 评估类概率

11.4 计算

第12章 判别分析和其他线性分类模型

12.1 案例分析:预测是否成功申请经费

12.2 逻辑回归

12.3 线性判别分析

12.4 偏最小二乘判别分析

12.5 惩罚模型

12.6 最近收缩质心

12.7 计算

习题

第13章 非线性分类模型

13.1 非线性判别分析

13.2 神经网络

13.3 灵活判别分析

13.4 支持向量机

13.5 K近邻

13.6 朴素贝叶斯

13.7 计算

习题

第14章 分类树与基于规则的模型

14.1 基本的分类树

14.2 基于规则的模型

14.3 装袋决策树

14.4 随机森林

14.5 助推法

14.6 C5.0

14.7 比较两种分类预测变量编码方式

14.8 计算

习题

第15章 经费申请模型的总结

第16章 对严重类失衡的补救方法

16.1 案例分析:预测房车保险所有权

16.2 类失衡的影响

16.3 模型调优

16.4 选择截点

16.5 调整先验概率

16.6 不等案例权重

16.7 抽样方法

16.8 成本敏感度训练

16.9 计算

习题

第17章 案例研究:作业调度

17.1 数据切分和模型策略

17.2 结果

17.3 计算

第18章 衡量预测变量重要性

18.1 数值结果变量

18.2 分类结果变量

18.3 其他方法

18.4 计算

习题

第19章 特征选择介绍

19.1 使用无信息预测变量的结果

19.2 减少预测变量个数的方法

19.3 绕封法

19.4 过滤法

19.5 选择偏差

19.6 案例分析:预测认知损伤

19.7 计算

习题

第20章 影响模型表现的因素

20.1 第Ⅲ类错误

20.2 结果变量的测量误差

20.3 预测变量的测量误差

20.4 连续变量离散化

20.5 模型预测何时是可信的

20.6 大样本的影响

20.7 计算

习题

附录

附录A 各种模型的总结

附录B R语言介绍

附录C 值得关注的网站

参考文献

附录

应用预测建模 精彩文摘

容易看出,当q=2时,闵可夫斯基距离即为欧式距离。当q=1时,闵可夫斯基距离等价于曼哈顿距离(或城市街区距离),它通常用于二元的预测变量样本。此外还存在许多其他的距离测度,如Tanimoto距离、Hamming距离和余弦距离等,这些距离在特定的科学背景下更适合于特定的预测变量。例如Tanimoto距离通常用于计算化学问题中,其中分子由一系列的二元指纹变量所描述(McCarren等2011)。

由于KNN方法在本质上依赖于样本点之间的距离,因此预测变量的标度会极大地影响距离的取值。当数据预测变量的标度相差很大时,具有最大标度的预测变量将会在整体的距离中占据很大的权重。因此,具有大标度的预测变量将对样本点间的距离做出最多的贡献。为了避免潜在的偏差,并使每个预测变量对距离的计算做出均等的贡献,我们建议在进行KNN建模前对所有预测变量进行中心化和标准化。

除了变量标度的问题之外,当观测的某些预测变量有缺失值时,距离的计算也会出现问题,因为此时将无法计算样本点间的距离。如果出现这种情况,那么分析人员有几种选择。首先,可以将这个样本点或这些变量从分析中移除。这可能是最不理想的一种选择;然而,当样本或预测变量很稀疏时,这也可能是现实的选择。

图书网:应用预测建模pdf

继续阅读

→→→→→→→→→→→→→→→→→→→→查找获取

计算机理论

海量点云数据处理理论与技术pdf

海量点云数据处理理论与技术 作者:程效军,贾东峰,程小龙 海量点云数据处理理论与技术 出版社:同济大学出版社 海量点云数据处理理论与技术 内容简介 《海量点云数据处理理论与技术》共分8章。第1章绪论,...
计算机理论

个性化电脑打造pdf

选购密笈大公布 揭各种配件选购误区 发烧电脑个人玩 组建和配置HIPC系统 交易防骗必掌握 介绍硬件验货的技巧 故障排除深指导 从分析到排障逐步学 软硬件安装传授 全程图解软硬安装
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

评论:6   其中:访客  6   博主  0
    • xxxxx
      xxxxx 9

      很有帮助

      • tiandong_ansuan
        tiandong_ansuan 9

        好书,希望能下下来

        • we
          we 9

          goog好书

          • djfad
            djfad 9

            可以的

            • 燃野
              燃野 9

              咋下载啊

              • Merlin
                Merlin 0

                感谢分享,希望可以下载学习