Python机器学习pdf

图书网 2018年8月28日17:44:50
评论
2.4K

Python机器学习 内容简介

机器学习与预测分析正在改变企业和其他组织的运作方式,本书将带领读者进入预测分析的世界。全书共13章,除了简要介绍机器学习及Python在机器学习中的应用,还系统讲述了数据分类、数据预处理、模型优化、集成学习、回归、聚类、神经网络、深度学习等内容。本书将机器学习背后的基本理论与应用实践联系起来,通过这种方式让读者聚焦于如何正确地提出问题、解决问题。本书讲解了如何使用Python的核心元素以及强大的机器学习库,同时还展示了如何正确使用一系列统计模型。本书可作为学习数据科学的初学者及想进一步拓展数据科学领域认识的读者的参考书。同样,本书也适合计算机等相关专业的本科生、研究生阅读。

Python机器学习 目录

第1章 赋予计算机学习数据的能力

1.1 构建智能机器将数据转化为知识

1.2 机器学习的三种不同方法

1.2.1 通过监督学习对未来事件进行预测

1.2.2 通过强化学习解决交互式问题

1.2.3 通过无监督学习发现数据本身潜在的结构

1.2.4 基本术语及符号介绍

1.3 构建机器学习系统的蓝图

1.3.1 数据预处理

1.3.2 选择预测模型类型并进行训练

1.3.3 模型验证与使用未知数据进行预测

1.4 Python在机器学习中的应用

本章小结

第2章 机器学习分类算法

2.1 人造神经元——早期机器学习概览

2.2 使用Python实现感知器学习算法

2.3 自适应线性神经元及其学习的收敛性

2.3.1 通过梯度下降最小化代价函数

2.3.2 使用Python实现自适应线性神经元

2.3.3 大规模机器学习与随机梯度下降

本章小结

第3章 使用scikit-learn实现机器学习分类算法

3.1 分类算法的选择

3.2 初涉scikit-learn的使用

使用scikit-learn训练感知器

3.3 逻辑斯谛回归中的类别概率

3.3.1 初识逻辑斯谛回归与条件概率

3.3.2 通过逻辑斯谛回归模型的代价函数获得权重

3.3.3 使用scikit-learn训练逻辑斯谛回归模型

3.3.4 通过正则化解决过拟合问题

3.4 使用支持向量机最大化分类间隔

3.4.1 对分类间隔最大化的直观认识

3.4.2 使用松弛变量解决非线性可分问题

3.4.3 使用scikit-leam实现SVM

3.5 使用核SVM解决非线性问题

3.6 决策树

3.6.1 最大化信息增益——获知尽可能准确的结果

3.6.2 构建决策树

3.6.3 通过随机森林将弱分类器集成为强分类器

3.7 惰性学习算法——k-近邻算法

本章小结

第4章 数据预处理——构建好的训练数据集

4.1 缺失数据的处理

4.1.1 将存在缺失值的特征或样本删除

4.1.2 缺失数据填充

4.1.3 理解scikit-learn预估器的API

4.2 处理类别数据

4.2.1 有序特征的映射

4.2.2 类标的编码

4.2.3 标称特征上的独热编码

4.3 将数据集划分为训练数据集和测试数据集

4.4 将特征的值缩放到相同的区间

4.5 选择有意义的特征

4.5.1 使用L1正则化满足数据稀疏化

4.5.2 序列特征选择算法

4.6 通过随机森林判定特征的重要性

本章小结

第5章 通过降维压缩数据

5.1 无监督数据降维技术——主成分分析

5.1.1 总体方差与贡献方差

5.1.2 特征转换

5.1.3 使用scikit-learn进行主成分分析

5.2 通过线性判别分析压缩无监督数据

5.2.1 计算散布矩阵

5.2.2 在新特征子空间上选取线性判别算法

5.2.3 将样本映射到新的特征空间

5.2.4 使用scikit-learn进行LDA分析

5.3 使用核主成分分析进行非线性映射

5.3.1 核函数与核技巧

5.3.2 使用Python实现核主成分分析

5.3.3 映射新的数据点

5.3.4 scikit-learn中的核主成分分析

本章小结

第6章 模型评估与参数调优实战

6.1 基于流水线的工作流

6.1.1 加载威斯康星乳腺癌数据集

6.1.2 在流水线中集成数据转换及评估操作

6.2 使用k折交叉验证评估模型性能

6.2.1 holdout方法

6.2.2 k折交叉验证

6.3 通过学习及验证曲线来调试算法

6.3.1 使用学习曲线判定偏差和方差问题

6.3.2 通过验证曲线来判定过拟合与欠拟合

6.4 使用网格搜索调优机器学习模型

6.4.1 使用网络搜索调优超参

6.4.2 通过嵌套交叉验证选择算法

6.5 了解不同的性能评价指标

6.5.1 读取混淆矩阵

6.5.2 优化分类模型的准确率和召回率

6.5.3 绘制ROC曲线

6.5.4 多类别分类的评价标准

本章小结

第7章 集成学习——组合不同的模型

7.1 集成学习

7.2 实现一个简单的多数投票分类器

7.3 评估与调优集成分类器

7.4 bagging——通过bootstrap样本构建集成分类器

7.5 通过自适应boosting提高弱学习机的性能

本章小结

第8章 使用机器学习进行情感分析

8.1 获取IMDb电影评论数据集

8.2 词袋模型简介

8.2.1 将单词转换为特征向量

8.2.2 通过词频-逆文档频率计算单词关联度

8.2.3 清洗文本数据

8.2.4 标记文档

8.3 训练用于文档分类的逻辑斯谛回归模型

8.4 使用大数据——在线算法与外存学习

本章小结

第9章 在Web应用中嵌入机器学习模型

9.1 序列化通过scikit-learn拟合的模型

9.2 使用SQLite数据库存储数据

9.3 使用Flask开发Web应用

9.3.1 第一个Flask Web应用

9.3.2 表单验证及渲染

9.4 将电影分类器嵌入Web应用

9.5 在公共服务器上部署Web应用

本章小结

第10章 使用回归分析预测连续型目标变量

10.1 简单线性回归模型初探

10.2 波士顿房屋数据集

10.3 基于最小二乘法构建线性回归模型

10.3.1 通过梯度下降计算回归参数

10.3.2 使用scikit-learn估计回归模型的系数

10.4 使用RANSAC拟合高鲁棒性回归模型

10.5 线性回归模型性能的评估

10.6 回归中的正则化方法

10.7 线性回归模型的曲线化-多项式回归

10.7.1 房屋数据集中的非线性关系建模

10.7.2 使用随机森林处理非线性关系

本章小结

第11章 聚类分析——处理无类标数据

11.1 使用k-means算法对相似对象进行分组

11.1.1 k-means++

11.1.2 硬聚类与软聚类

11.1.3 使用肘方法确定簇的最佳数量

11.1.4 通过轮廓图定量分析聚类质量

11.2 层次聚类

11.2.1 基于距离矩阵进行层次聚类

11.2.2 树状图与热度图的关联

11.2.3 通过scikit-learn进行凝聚聚类

11.3 使用DBSCAN划分高密度区域

本章小结

第12章 使用人工神经网络识别图像

12.1 使用人工神经网络对复杂函数建模

12.1.1 单层神经网络回顾

12.1.2 多层神经网络架构简介

12.1.3 通过正向传播构造神经网络

12.2 手写数字的识别

12.2.1 获取MNIST数据集

12.2.2 实现一个多层感知器

12.3 人工神经网络的训练

12.3.1 计算逻辑斯谛代价函数

12.3.2 通过反向传播训练神经网络

12.4 建立对反向传播的直观认识

12.5 通过梯度检验调试神经网络

12.6 神经网络的收敛性

12.7 其他神经网络架构

12.7.1 卷积神经网络

12.7.2 循环神经网络

12.8 关于神经网络的实现

本章小结

第13章 使用Theano并行训练神经网络

13.1 使用Theano构建、编译并运行表达式

13.1.1 什么是Theano

13.1.2 初探Theano

13.1.3 配置Theano

13.1.4 使用数组结构

13.1.5 整理思路——线性回归示例

13.2 为前馈神经网络选择激励函数

13.2.1 逻辑斯谛函数概述

13.2.2 通过softmax函数评估多类别分类任务中的类别概率

13.2.3 通过双曲正切函数增大输出范围

13.3 使用Keras提高训练神经网络的效率

本章小结

附录

Python机器学习 精彩文摘

2.使用回归预测连续输出值

通过上一节的学习,我们知道了分类的任务就是将具有类别的、无序类标分配给各个新样本。另一类监督学习方法针对连续型输出变量进行预测,也就是所谓的回归分析(regression analysis)。在回归分析中,数据中会给出大量的自变量(解释变量)和相应的连续因变量(输出结果),通过尝试寻找这两种变量之间的关系,就能够预测输出变量。

例如,假定我们想预测学生SAT考试中数学科目的成绩。如果花费在学习上的时间和最终的考试成绩有关联,则可以将其作为训练数据来训练模型,以根据学习时间预测将来要参加考试的学生的成绩。

图书网:Python机器学习pdf

继续阅读

→→→→→→→→→→→→→→→→→→→→查找获取

程序设计

重构 改善既有代码的设计(中文版)pdf

《重构:改善既有代码的设计》(中文版)所提的这些重构准则将帮助你一次一小步地修改你的代码,这就减少了过程中的风险。很快你就会把这些重构准则和其名称加入自己的开发词典中,并且朗朗上口...
程序设计

数据结构 C语言版 第2版pdf

适读人群 :普通高校电子信息大类本科生学习、考研,同时也适合零售和培训。 采用“案例驱动”的编写模式。书中结合实际应用,将各章按照“案例引入——数据结构及其操作——案例分析与实现”...
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: