统计思维 程序员数学之概率统计pdf

图书网 2018年12月30日12:44:06
评论
2.7K1
摘要

大数据革命风起云涌。数据分析成为每个浪尖上的舞者的必杀技。而统计思维是数据分析和数据挖掘的根基。
每个程序员都应该具备统计思维,看到本书你已经比别人先行一步。这是一本极为独特的统计思维入门图书。
独特的编程视角。对于主要的概率统计概念,作者都给出了开源的代码示例,其新颖独特的讲解方法绝对可以让程序员对概率统计产生更深刻的认识。
幽默风趣的示例。你是否一直无法理解蒙提霍尔问题?庞加莱是怎样发现面包商的企图的?作者援引经典问题,帮你打开统计思维。
公共开源数据。拿来美国全国家庭成长调查(NSFG)与行为风险因素监测系统(BRFSS)中的数据,重用参考代码,立即让自己的代码跑起来。

统计思维 程序员数学之概率统计 内容简介

《图灵程序设计丛书·统计思维:程序员数学之概率统计》是一本以全新视角讲解概率统计的入门图书。抛开经典的数学分析,Downey手把手教你用编程理解统计学。概率、分布、假设检验、贝叶斯估计、相关性等,每个主题都充满趣味性,经编程解释后变得更为清晰易懂。

《图灵程序设计丛书·统计思维:程序员数学之概率统计》研究数据主要来源于美国全国家庭成长调查(NSFG)与行为风险因素监测系统(BRFSS),数据源及解决方案的相关代码全部开放,具体章节列出了大量学习和进阶资料,方便读者参考。

《图灵程序设计丛书·统计思维:程序员数学之概率统计》面向广大程序员和计算机专业的学生。

统计思维 程序员数学之概率统计 目录

前言

第1章 程序员的统计思维

1.1 第一个孩子出生晚吗

1.2 统计方法

1.3 全国家庭成长调查

1.4 表和记录

1.5 显著性

1.6 术语

第2章 描述性统计量

2.1 均值和平均值

2.2 方差

2.3 分布

2.4 直方图的表示

2.5 绘制直方图

2.6 表示概率质量函数

2.7 绘制概率质量函数

2.8 异常值

2.9 其他可视化方法

2.10 相对风险

2.11 条件概率

2.12 汇报结果

2.13 术语表

第3章 累积分布函数

3.1 选课人数之谜

3.2 PMF的不足

3.3 百分位数

3.4 累积分布函数

3.5 CDF的表示

3.6 回到调查数据

3.7 条件分布

3.8 随机数

3.9 汇总统计量小结

3.10 术语表

第4章 连续分布

4.1 指数分布

4.2 帕累托分布

4.3 正态分布

4.4 正态概率图

4.5 对数正态分布

4.6 为什么需要模型

4.7 生成随机数

4.8 术语

第5章 概率

5.1 概率法则

5.2 蒙提霍尔问题

5.3 庞加莱

5.4 其他概率法则

5.5 二项分布

5.6 连胜和手感

5.7 贝叶斯定理

5.8 术语

第6章 分布的运算

6.1 偏度

6.2 随机变量

6.3 概率密度函数

6.4 卷积

6.5 正态分布的性质

6.6 中心极限定理

6.7 分布函数之间的关系框架

6.8 术语表

第7章 假设检验

7.1 均值差异的检验

7.2 阈值的选择

7.3 效应的定义

7.4 解释统计检验结果

7.5 交叉验证

7.6 报道贝叶斯概率的结果

7.7 卡方检验

7.8 高效再抽样

7.9 功效

7.10 术语

第8章 估计

8.1 关于估计的游戏

8.2 方差估计

8.3 误差

8.4 指数分布

8.5 置信区间

8.6 贝叶斯估计

8.7 贝叶斯估计的实现

8.8 删失数据

8.9 火车头问题

8.10 术语

第9章 相关性

9.1 标准分数

9.2 协方差

9.3 相关性

9.4 用pyplot画散点图

9.5 斯皮尔曼秩相关

9.6 最小二乘拟合

9.7 拟合优度

9.8 相关性和因果关系

9.9 术语

作者及封面简介

索引

统计思维 程序员数学之概率统计 精彩文摘

如果能将数据与实际方法相结合,就可以在存在不确定性时解答问题并指导决策,这就是本书的主题。

举个例子。我的妻子在怀第一胎时,我听到了一个问题:第一胎是不是经常晚于预产期出生?下面所给出的案例研究就是由这个问题引出的。

如果用谷歌搜索这个问题,会看到大量的讨论。有人认为第一胎的生产日期确实经常晚于预产期,有人认为这是无稽之谈,还有人认为恰恰相反,第一胎常常会早产。

在很多此类讨论中,人们会提供数据来支持自己的观点。我发现很多论据是下面这样的。

“我有两个朋友最近都刚生了第一个孩子,她们都是超过预产期差不多两周才出现临产征兆或进行催产的。”

“我的第一个孩子是过了预产期两周才出生的,我觉得第二个孩子可能会早产两周!”

“我认为这种说法不对,因为我姐姐是头生子,而且是早产儿。我还有好些表兄妹也是这样。”

这些说法都是基于未公开的数据,通常来自个人经验,因此称为轶事证据(anecdotal evidence)。在闲聊时讲讲轶事当然无可厚非,所以我并不是要批评以上那几个人。

但是,我们可能需要更具说服力的证据以及更可靠的回答。如果按照这个标准进行衡量,轶事证据通常都靠不住,原因有如下几点。

观测值数量较小 如果第一胎的孕期的确偏长,这个时间差与正常的偏差相比可能很小。在这种情况下,我们可能需要比对大量的孕期数据,才能确定这种时间差确实存在。

选择数据时存在偏倚 人们之所以参与这个问题的讨论,有可能是因为自己的第一个孩子出生较晚。这样的话,这个选择数据的过程就会对结果产生影响。

确认数据时存在偏倚 赞同这种说法的人也许更可能提供例子进行佐证。持怀疑态度的人则更可能引用反例。

不精确 轶事通常都是个人经验,经常会记错、误传或者误解等。

那我们该如何更好地回答这个问题呢?

1.1 统计学方法

为了解决轶事证据的局限性,我们将使用以下统计学工具。

数据收集 我们将使用大型的全国性调查数据,这个调查专门设计用于对美国人口进行有效的统计推断。

描述性统计 得出统计量,对数据进行简要的汇总,并评估可视化数据的不同方法。

探索性数据分析 寻找各种模式、差异,以及其他能够解决我们感兴趣的问题的特征,同时还将检查数据的不一致性,发现局限性。

估计 使用样本数据来估计一般总体的统计特征。

假设检验 如果看到明显的效应,例如两个群组之间存在差异,将衡量该效应是否是偶然产生的。

谨慎执行上面的步骤,并避免各种错误,我们就可以获得合理性和准确性更高的结论。

图书网:统计思维 程序员数学之概率统计pdf

继续阅读

→→→→→→→→→→→→→→→→→→→→查找获取

程序设计

重构 改善既有代码的设计(中文版)pdf

《重构:改善既有代码的设计》(中文版)所提的这些重构准则将帮助你一次一小步地修改你的代码,这就减少了过程中的风险。很快你就会把这些重构准则和其名称加入自己的开发词典中,并且朗朗上口...
程序设计

数据结构 C语言版 第2版pdf

适读人群 :普通高校电子信息大类本科生学习、考研,同时也适合零售和培训。 采用“案例驱动”的编写模式。书中结合实际应用,将各章按照“案例引入——数据结构及其操作——案例分析与实现”...
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: