深度实践Spark机器学习pdf

图书网 2020年8月23日18:54:42
评论
2.1K
摘要

适读人群 :本书适合于初中级大数据、机器学习的技术人员。

深度实践Spark机器学习 作者:吴茂贵,郁明敏,朱凤元,张粤磊,杨本法

深度实践Spark机器学习 出版社:机械工业出版社

深度实践Spark机器学习 内容简介

本书系统讲解了Spark机器学习的技术、原理、组件、算法,以及构建Spark机器学习系统的方法、流程、标准和规范。此外,还介绍了Spark的深度学习框架TensorFlowOnSpark,以及如何借助它实现卷积神经网络和循环神经网络。

全书共14章,分为四个部分:

第一部分(1~7章)

主要讲解了Spark机器学习的技术、原理和核心组件,包括Spark ML、Spark ML Pipeline、Spark MLlib,以及如何构建一个Spark机器学习系统。

第二部分(8~12章)

主要以实例为主,讲解了Spark ML的各种机器学习算法,包括推荐模型、分类模型、聚类模型、回归模型,以及PySpark决策树模型和Spark R朴素贝叶斯模型。

第三部(第13章)

与之前的批量处理不同,本章以在线数据或流式数据为主,讲解了Spark的流式计算框架Spark Streaming。

第四部分(第14章)

介绍了Spark深度学习,主要包括TensorFlow的基础知识及它与Spark的整合框架TensorFlowOnSpark。

深度实践Spark机器学习 目录

前言

第1章 了解机器学习

1.1 机器学习的定义

1.2 大数据与机器学习

1.3 机器学习、人工智能及深度学习

1.4 机器学习的基本任务

1.5 如何选择合适算法

1.6 Spark在机器学习方面的优势

1.7 小结

第2章 构建Spark机器学习系统

2.1 机器学习系统架构

2.2 启动集群

2.3 加载数据

2.4 探索数据

2.5 数据预处理

2.6 构建模型

2.7 模型评估

2.8 组装

2.9 模型选择或调优

2.10 保存模型

2.11 小结

第3章 ML Pipeline原理与实战

3.1 Pipeline简介

3.2 DataFrame

3.3 Pipeline组件

3.4 Pipeline原理

3.5 Pipeline实例

3.6 小结

第4章 特征提取、转换和选择

4.1 特征提取

4.2 特征转换

4.3 特征选择

4.4 小结

第5章 模型选择和优化

5.1 模型选择

5.2 交叉验证

5.3 训练验证拆分法

5.4 自定义模型选择

5.5 小结

第6章 Spark MLlib基础

6.1 Spark MLlib简介

6.2 Spark MLlib架构

6.3 数据类型

6.4 基础统计

6.5 RDD、Dataframe和Dataset

6.6 小结

第7章 构建Spark ML推荐模型

7.1 推荐模型简介

7.2 数据加载

7.3 数据探索

7.4 训练模型

7.5 组装

7.6 评估模型

7.7 模型优化

7.8 小结

第8章 构建Spark ML分类模型

8.1 分类模型简介

8.2 数据加载

8.3 数据探索

8.4 数据预处理

8.5 组装

8.6 模型优化

8.7 小结

第9章 构建Spark ML回归模型

9.1 回归模型简介

9.2 数据加载

9.3 探索特征分布

9.4 数据预处理

9.5 组装

9.6 模型优化

9.7 小结

第10章 构建Spark ML聚类模型

10.1 K-means模型简介

10.2 数据加载

10.3 探索特征的相关性

10.4 数据预处理

10.5 组装

10.6 模型优化

10.7 小结

第11章 PySpark决策树模型

11.1 PySpark简介

11.2 决策树简介

11.3 数据加载

11.4 数据探索

11.5 数据预处理

11.6 创建决策树模型

11.7 训练模型进行预测

11.8 模型优化

11.9 脚本方式运行

11.10 小结

第12章 SparkR朴素贝叶斯模型

12.1 SparkR简介

12.2 获取数据

12.3 朴素贝叶斯分类器

12.4 小结

第13章 使用Spark Streaming构建在线学习模型

13.1 Spark Streaming简介

13.2 Dstream操作

13.3 Spark Streaming应用实例

13.4 Spark Streaming在线学习实例

13.5 小结

第14章 TensorFlowOnSpark详解

14.1 TensorFlow简介

14.2 TensorFlow实现卷积神经网络

14.3 TensorFlow实现循环神经网络

14.4 分布式TensorFlow

14.5 TensorFlowOnSpark架构

14.6 TensorFlowOnSpark安装

14.7 TensorFlowOnSpark实例

14.8 小结

附录A 线性代数

附录B 概率统计

附录C Scala基础

深度实践Spark机器学习 精彩文摘

大数据、人工智能是目前大家谈论比较多的话题,它们的应用也越来越广泛,与我们的生活关系也越来越密切,影响也越来越深远,其中很多已进入寻常百姓家,如无人机、网约车、自动导航、智能家电、电商推荐、人机对话机器人等。

大数据是人工智能的基础,而使大数据转变为知识或生产力,离不开机器学习(Machine Learning),可以说机器学习是人工智能的核心,是使机器具有类似人的智能的根本途径。

图书网:深度实践Spark机器学习pdf

继续阅读

→→→→→→→→→→→→→→→→→→→→查找获取

程序设计

重构 改善既有代码的设计(中文版)pdf

《重构:改善既有代码的设计》(中文版)所提的这些重构准则将帮助你一次一小步地修改你的代码,这就减少了过程中的风险。很快你就会把这些重构准则和其名称加入自己的开发词典中,并且朗朗上口...
程序设计

数据结构 C语言版 第2版pdf

适读人群 :普通高校电子信息大类本科生学习、考研,同时也适合零售和培训。 采用“案例驱动”的编写模式。书中结合实际应用,将各章按照“案例引入——数据结构及其操作——案例分析与实现”...
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: