全栈数据之门pdf

图书网 2021年1月10日22:00:341 1.4K
摘要

√ 执利器而守重镇——Python强大的领域在数据科学
√ 窥全貌而知路径——整合Linux|Python|SQL|Hadoop|Hive|Spark|数据挖掘|机器学习|深度学习
√ 知原理而致应用——全栈数据既指数据技术,也指业务数据,生产环境是最终的检验场。
√ 立平台而生数据——建设强大数据平台,是支撑产品也业务的必由之路。

全栈数据之门 作者:任柳江

全栈数据之门 出版社:电子工业出版社

全栈数据之门 内容简介

《全栈数据之门》以数据分析领域热门的Python语言为主要线索,介绍了数据分析库numpy、Pandas与机器学习库scikit-learn,使用了可视化环境Orange 3来理解算法的一些细节。对于机器学习,既有常用算法kNN与Kmeans的应用,决策树与随机森林的实战,还涉及常用特征工程与深度学习中的自动编程器。在大数据Hadoop与Hive环境的基础之上,使用Spark的ML/MLlib库集成了前面的各部分内容,让分布式机器学习更容易。大量的工具与技能实战的介绍将各部分融合成一个全栈的数据科学内容。

《全栈数据之门》不是从入门到精通地介绍某一种技术,可以把本书当成一本技术文集,内容定位于数据科学的全栈基础入门,全部内容来自当前业界实用的技能,有非常基础的,也有比较深入的,有些甚至需要深入领悟才能理解。

《全栈数据之门》适用于任何想在数据领域有所作为的人,包括学生、爱好者、在职人员与科研工作者。无论想从事数据分析、数据工程、数据挖掘或者机器学习,或许都能在书中找到一些之前没有接触过的内容。

全栈数据之门 目录

前言 自强不息,厚德载物 / XIX

0x1 Linux,自由之光 / 001

0x10 Linux,你是我的眼 / 001

0x11 Linux 基础,从零开始 / 003

01 Linux 之门 / 003

02 文件操作 / 004

03 权限管理 / 006

04 软件安装 / 008

05 实战经验 / 010

0x12 Sed 与Grep,文本处理 / 010

01 文本工具 / 010

02 grep 的使用 / 011

03 grep 家族 / 013

04 sed 的使用 / 014

05 综合案例 / 016

0x13 数据工程,必备Shell / 018

01 Shell 分析 / 018

02 文件探索 / 019

03 内容探索 / 020

04 交差并补 / 020

05 其他常用的命令 / 021

06 批量操作 / 022

07 结语 / 025

0x14 Shell 快捷键,Emacs 之门 / 025

01 提高效率 / 025

02 光标移动 / 026

03 文本编辑 / 027

04 命令搜索 / 028

05 Emacs 入门 / 029

06 Emacs 思维 / 031

0x15 缘起Linux,一入Mac 误终身 / 032

01 开源生万物 / 032

02 有钱就换Mac / 032

03 程序员需求 / 033

04 非程序员需求 / 034

05 一入Mac 误终身 / 035

0x16 大成就者,集群安装 / 036

01 离线安装 / 036

02 Host 与SSH 配置 / 037

03 sudo 与JDK 环境 / 039

04 准备Hadoop 包 / 040

05 开启HTTP 与配置源 / 041

06 安装ambari-server / 041

07 后续服务安装 / 042

08 结语 / 044

0x2 Python,道法自然 / 045

0x20 Python,灵犀一指 / 045

0x21 Python 基础,兴趣为王 / 047

01 第一语言 / 047

02 数据结构 / 047

03 文件读写 / 049

04 使用模块 / 050

05 函数式编程 / 052

06 一道面试题 / 053

07 兴趣驱动 / 055

0x22 喜新厌旧,2 迁移3 / 056

01 新旧交替 / 056

02 基础变化 / 057

03 编码问题 / 058

04 其他变化 / 058

05 2to3 脚本 / 060

06 PySpark 配置 / 061

07 喜新厌旧 / 062

0x23 Anaconda,IPython / 062

01 Anaconda / 062

02 安装与配置 / 063

03 pip 与源 / 064

04 IPython 与Jupyter / 065

05 结语 / 067

0x24 美不胜收,Python 工具 / 067

01 缘起 / 067

02 调试与开发 / 068

03 排版与格式化 / 070

04 辅助工具 / 072

05 实用推荐 / 074

0x25 numpy 基础,线性代数 / 075

01 numpy 的使用 / 075

02 索引与切片 / 076

03 变形与统计 / 078

04 矩阵运算 / 080

05 实用方法 / 083

06 结语 / 085

0x26 numpy 实战,PCA 降维 / 085

01 PCA 介绍 / 085

02 数据均值化 / 086

03 协方差矩阵 / 087

04 特征值与向量 / 088

05 数据映射降维 / 089

06 sklearn 实现 / 090

0x3 大数据,其大无外 / 093

0x30 太大数据,极生两仪 / 093

0x31 神象住世,Hadoop / 095

01 Hadoop / 095

02 HDFS / 096

03 角色与管理 / 097

04 文件操作 / 098

05 结语 / 100

0x32 分治之美,MapReduce / 100

01 map 与reduce 函数 / 100

02 分而治之 / 102

03 Hello,World / 103

04 Streaming 接口 / 105

0x33 Hive 基础,蜂巢与仓库 / 106

01 引言 / 106

02 Hive 接口 / 107

03 分区建表 / 108

04 分区机制 / 110

05 数据导入/ 导出 / 111

06 Hive-QL / 112

07 结语 / 114

0x34 Hive 深入,实战经验 / 115

01 排序与分布式 / 115

02 多表插入与mapjoin / 116

03 加载map-reduce 脚本 / 117

04 使用第三方UDF / 119

05 实战经验 / 120

06 生成唯一ID / 121

0x35 HBase 库,实时业务 / 122

01 理论基础 / 122

02 Shell 操作 / 123

03 关联Hive 表 / 126

04 数据导入 / 128

05 实用经验 / 130

0x36 SQL 与NoSQL,Sqoop 为媒 / 130

01 SQL 与NOSQL / 130

02 从MySQL 导入HDFS / 131

03 增量导入 / 134

04 映射到Hive / 135

05 导入Hive 表 / 136

06 从HDFS 导出到MySQL / 137

07 从Hive 导出到MySQL / 138

0x4 数据分析,见微知著 / 141

0x40 大数据分析,鲁班为祖师 / 141

0x41 SQL 技能,必备MySQL / 143

01 SQL 工具 / 143

02 基础操作 / 144

03 查询套路 / 145

04 join 查询 / 146

05 union 与exists / 149

06 实战经验 / 151

0x42 快刀awk,斩乱数据 / 152

01 快刀 / 152

02 一二三要点 / 152

03 一个示例 / 154

04 应用与统计 / 154

05 斩乱麻 / 156

0x43 Pandas,数据之框 / 157

01 数据为框 / 157

02 加载数据 / 158

03 行列索引 / 159

04 行列操作 / 161

05 合并聚合 / 163

06 迭代数据 / 164

07 结语 / 165

0x44 Zeppelin,一统江湖 / 166

01 心潮澎湃 / 166

02 基本使用 / 168

03 SQL 与可视化 / 169

04 安装Zeppelin / 172

05 配置Zeppelin / 173

06 数据安全 / 174

07 使用心得 / 176

0x45 数据分组,聚合窗口 / 177

01 MySQL 聚合 / 177

02 Spark 聚合 / 178

03 非聚合字段 / 179

04 Hive 实现 / 180

05 group_concat / 181

06 Hive 窗口函数 / 183

07 DataFrame 窗口 / 184

08 结语 / 185

0x46 全栈分析,六层内功 / 186

01 引言 / 186

02 MySQL 版本 / 186

03 awk 版本 / 187

04 Python 版本 / 188

05 Hive 版本 / 189

06 map-reduce 版本 / 190

07 Spark 版本 / 190

08 结语 / 191

0x5 机器学习,人类失控 / 193

0x50 机器学习,琅琊论断 / 193

0x51 酸酸甜甜,Orange / 195

01 可视化学习 / 195

02 数据探索 / 196

03 模型与评估 / 199

04 组件介绍 / 200

05 与Python 进行整合 / 202

06 结语 / 204

0x52 sklearn,机器学习 / 205

01 sklearn 介绍 / 205

02 数据预处理 / 206

03 建模与预测 / 207

04 模型评估 / 209

05 模型持久化 / 210

06 三个层次 / 210

0x53 特征转换,量纲伸缩 / 211

01 特征工程 / 211

02 独热编码 / 212

03 sklearn 示例 / 213

04 标准化与归一化 / 215

05 sklearn 与Spark 实现 / 216

06 结语 / 219

0x54 描述统计,基础指标 / 220

01 描述性统计 / 220

02 Pandas 实现 / 222

03 方差与协方差 / 223

04 Spark-RDD 实现 / 224

05 DataFrame 实现 / 226

06 Spark-SQL 实现 / 227

07 结语 / 227

0x55 模型评估,交叉验证 / 228

01 测试与训练 / 228

02 评价指标 / 229

03 交叉验证 / 231

04 验证数据 / 232

05 OOB 数据 / 233

0x56 文本特征,词袋模型 / 234

01 自然语言 / 234

02 中文分词 / 235

03 词袋模型 / 236

04 词频统计 / 237

05 TF-IDF / 238

06 结语 / 239

0x6 算法预测,占天卜地 / 241

0x60 命由己做,福自己求 / 241

0x61 近朱者赤,相亲kNN / 243

01 朴素的思想 / 243

02 算法介绍 / 243

03 分类与回归 / 244

04 k 与半径 / 245

05 优化计算 / 246

06 实例应用 / 247

0x62 物以类聚,Kmeans / 248

01 算法描述 / 248

02 建立模型 / 249

03 理解模型 / 251

04 距离与相似性 / 252

05 降维与可视化 / 253

06 无监督学习 / 255

0x63 很傻很天真,朴素贝叶斯 / 257

01 朴素思想 / 257

02 概率公式 / 257

03 三种实现 / 258

04 sklearn 示例 / 260

05 朴素却不傻 / 262

0x64 菩提之树,决策姻缘 / 263

01 缘起 / 263

02 Orange 演示 / 264

03 scikit-learn 模拟 / 266

04 熵与基尼指数 / 267

05 决策过程分析 / 268

06 Spark 模拟 / 270

07 结语 / 271

0x65 随机之美,随机森林 / 271

01 树与森林 / 271

02 处处随机 / 273

03 sklearn 示例 / 274

04 MLlib 示例 / 275

05 特点与应用 / 276

0x66 自编码器,深度之门 / 277

01 深度学习 / 277

02 特征学习 / 278

03 自动编码器 / 280

04 Keras 代码 / 282

05 抗噪编码器 / 283

0x7 Spark,唯快不破 / 285

0x70 人生苦短,快用Spark / 285

0x71 PySpark 之门,强者联盟 / 287

01 全栈框架 / 287

02 环境搭建 / 288

03 分布式部署 / 289

04 示例分析 / 290

05 两类算子 / 292

06 map 与reduce / 293

07 AMPLab 的野心 / 294

0x72 RDD 算子,计算之魂 / 295

01 算子之道 / 295

02 获取数据 / 296

03 过滤与排序 / 297

04 聚合数据 / 298

05 join 连接 / 299

06 union 与zip / 300

07 读写文件 / 301

08 结语 / 303

0x73 分布式SQL,蝶恋飞舞 / 304

01 SQL 工具 / 304

02 命令行CLI / 304

03 读Hive 数据 / 305

04 将结果写入Hive / 306

05 读写MySQL 数据 / 307

06 读写三种文件 / 308

0x74 DataFrame,三角之恋 / 310

01 DataFrame / 310

02 生成数据框 / 311

03 合并与join / 313

04 select 操作 / 314

05 SQL 操作 / 315

06 自定义UDF / 316

07 三角之恋 / 318

0x75 神器之父,Scala 入世 / 319

01 Spark 与Scala / 319

02 Scala REPL / 320

03 编译Scala / 321

04 sbt 编译 / 322

05 示例分析 / 323

06 编译提交 / 325

0x76 机器之心,ML 套路 / 326

01 城市套路深 / 326

02 算法与特征工程 / 327

03 管道工作流 / 328

04 OneHotEncoder 示例 / 329

05 ML 回归实战 / 331

06 特征处理与算法 / 332

07 拟合与评估 / 334

0x8 数据科学,全栈智慧 / 337

0x80 才高八斗,共分天下 / 337

0x81 自学数据,神蟒领舞 / 339

01 机器学习 / 339

02 语言领域 / 339

03 Python 数据生态 / 340

04 相关资料 / 341

05 书籍推荐 / 342

06 性感的职业 / 343

0x82 数据科学,七大技能 / 343

01 七大技能 / 343

02 SQL 与NoSQL 技能 / 344

03 Linux 工具集 / 344

04 Python 或者R 语言生态 / 345

05 Hadoop 与Spark 生态 / 345

06 概率、统计与线性代数 / 346

07 机器学习与深度学习 / 346

08 业务及杂项 / 347

09 结语 / 347

0x83 大无所大,生态框架 / 348

01 计算生态 / 348

02 离线计算 / 348

03 交互分析 / 349

04 实时处理 / 350

05 算法挖掘 / 351

06 发行版本 / 352

07 其他工具 / 353

0x84 集体智慧,失控哲学 / 354

01 数据是宝 / 354

02 一分为二 / 355

03 回归统一 / 356

04 聚少成多 / 356

05 你中有我 / 357

06 从小看大 / 358

07 大事化小 / 358

08 少即是多 / 359

0x85 一技之长,一生之用 / 359

01 一技之长 / 359

02 数据分析相关 / 360

03 Python 相关 / 360

04 Hadoop 相关 / 361

05 Spark 相关 / 361

06 模型相关 / 362

07 算法相关 / 362

08 一生之用 / 363

0x86 知识作谱,数据为栈 / 363

01 知识作谱 / 363

02 理论基础 / 363

03 Python/R 编程 / 364

04 分析与可视化 / 365

05 大数据 / 365

06 ETL 与特征工程 / 366

07 机器学习与深度学习 / 366

08 工具与库 / 367

09 全栈为用 / 367

图书网:全栈数据之门pdf

继续阅读

→→→→→→→→→→→→→→→→→→→→查找获取

匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

评论:1   其中:访客  1   博主  0
    • 文体
      文体 1

      瞅瞅