从零开始学统计pdf

图书网 2019年9月16日13:31:5262.4K3
摘要

想知道为什么不能赌博吗——学统计吧!
想知道为什么淘宝总能“猜透你的心”吗——学统计吧!
想知道怎样才能获得升职加薪的捷径吗——学统计吧!

从零开始学统计 内容简介

大数据时代,每个人都要懂一点统计学,我们缺的不是数据,而是正确分析数据的路径,从海量数据中撷取有用信息、产生新价值,甚至用以推估未知的事物,并且已经成为个人和企业的关键竞争力。这是一本关于统计轻知识的书,作者希望借助轻松幽默的语言来激发读者对统计学的学习热情。内容从描述性统计到推断性统计,通过将生活中有趣的事件一一展开,了解统计雪学中的核心知识点,最后是常见疑问的答疑汇编。本书偏重于对案例和图表的引用,不会过多关注于数学推导。

本书主要针对未曾学习过统计学或初学统计学并对此有兴趣的读者,以及希望通过学习相关知识补充数据分析技能的在职人员。

从零开始学统计 目录

第0章 入门阶段——带你迈入统计学的大门

0.1 我和统计学的从零开始

0.2 统计学的从零开始

第1章 你的数据从何而来

1.1 “不可能完成的任务”——普查

1.2 “四两拨千斤”——事半功倍的抽样调查

本章重点归纳

第2章 掌握指标学会数据分析如

2.1 被误解还是“被平均”

2.2 均值的好朋友——方差(标准差)

2.3 峰度&偏度——打造风度翩翩的数据分布

本章重点归纳

第3章 图表的世界

必备技能1——频数分布表

必备技能2——频数分布图

必备技能3——茎叶图

必备技能4——箱线图

必备技能5——散点图

本章重点归纳

第4章 当小“正太”遇上“大叔”——正态分布篇

4.1 小“正太”的基本情况

4.2 小“正太”的性格和优点——正态分布的定义和特征

4.3 小“正太”的可爱之处——正态分布的作用

本章知识点补充

第5章 当小“正太”遇上“大叔”——大数定律和中心极限篇

5.1 正态分布的“左膀”——大数定律

5.2 正态分布的“右臂”——中心极限定理

5.3 如何牵手“大叔”和“正太”

本章重点归纳

第6章 相关和因果切莫傻傻分不清楚

6.1 为了“不确定”的确定

6.2 上帝掷骰子

本章知识拓展

第7章 “小”亦可为,“大”而佐之

7.1 这个“小二”一点都不“二”

7.2 另辟蹊径的最大似然估计法

7.3 他山之石,或可攻玉

本章知识拓展

第8章 从先放牛奶or先放热茶说起

8.1 掀开假设检验的面纱

8.2 几种常用假设检验简介

8.3 手把手教你做检验

本章知识拓展

第9章 回归分析——科学研究的“万金油”

9.1 探寻“回归”的本质

9.2 释放“回归”的超能力

9.3 规避“回归”的误区(伪回归问题)

本章知识拓展

第10章 物以类聚,人以群分

10.1 分久必合——聚类分析

10.2 合久必分——判别分析

第11章 独辟蹊径,曲径通幽

从零开始学统计 精彩文摘

9.3 规避“回归”的误区(伪回归问题)

在回归分析中,如果稍有失误,就可能会陷入误区。

误区1:样本量过小——你的样本有代表性吗

在上一节的回归分析中,样本量是多少?在整个回归模型建立的过程中,笔者都未对此加以说明。事实上,笔者的这批数据是27个儿童身高和体重的样本,用27个儿童来代替整体并不可靠。随之而来的疑问就是:样本能代表总体吗?是的,无论是假设检验还是回归分析,我们都希望透过样本来发现总体规律。

我们知道,某些临床实验会采用小样本(或者对于一些罕见病来说,只能获得小样本),而这就增加了随机偏离的数据在统计中起到的作用,使得研究结果有偏,而这只是一种客观上的小样本。另一种则是有意无意地缩减样本。比如观察某类药物的摄取量对该疾病的治疗效果,如果选择观测时间为三个月,通过回归分析可能得到的是随着药物摄取量的增加,疾病治疗效果越为显著。如果不进行更长时间的监测,那么或许就无法发现当药物摄取量达到某一值后对疾病治疗已无明显作用,甚至继续增加药物摄取量将会导致其他不良症状,这时候,“小样本”就失效了。

为此,我们需要尽可能地获得大样本(一般N大于30),或者保证数据的正态性,这样才能得到真正有价值的结论。

误区2:未对回归分析的前提假设进行检验

虽然我们已经知道了回归分析的假设条件,但对于有些假设,如果不事先建立模型,是无法对它做出检验的,如随机误差项是否不存在自相关、随机误差项是否是同方差等。所以在完成了上文所说的主要检验后,还需要对模型的随机误差项做一系列检验,包括误差项的正态性检验——QQ图/PP图、误差项的异方差检验——White检验、误差项的自相关检验——DW/LM检验等。

同样,针对解释变量,我们也要对其是否具有完全共线性进行检验。共线性检验其实可以从相关系数T检验中事先获得一些信息。比如,在做多元回归分析时发现,如果将每个解释变量分别与被解释变量做一元回归,则回归系数都是显著有效的;而放在一起做多元回归时,却总有几个变量的T检验无法拒绝原假设,此时就意味着解释变量极有可能存在严重的共线性问题。

当完全共线性发生时,会对回归分析造成以下影响:

(1)完全共线性下参数估计量不存在。

(2)参数估计量的经济含义不合理。

(3)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外。

(4)模型的预测功能失效:变大的方差容易使区间预测的“区间”变大,使预测失去意义。

那么,可以通过什么方法进行检验和规避呢?常用的检验方法是通过VIF(方差膨胀因子)是否大于10来进行简单判断;如果需要规避修正的话,也有很多方法,比如可以选择用逐步回归、岭回归、主成分法提取变量等来代替普通的线性回归。

误区3:“伪回归”——真真假假分不清

“伪回归”中的“伪”指的是虚假相关关系。我们在衡量两组数据是否有相关关系的时候,无非就是将它们放在一起画一张散点图,计算相关系数,然后得出是否有线性相关关系。其实我们并没有告知软件这两组数据的定义。换句话说,如果我们将树木高度与中国GDP放在一起进行相关分析,那么也能得到一个很高的相关系数,但事实是,二者之间没有任何关系。

但在有些时候,“伪回归”的存在是由于思维的定式和逻辑的漏洞引起的,并非故意而为,所以“伪回归”不仅考量我们的科学道德,而且还考量我们的逻辑思维能力。

当然,并非避开了这三大误区我们就能大步向前了,在回归分析的过程中,还会出现诸多小误区,比如遗漏了重要的解释变量,从而造成回归结果的严重偏差。举例来说,当我们研究与疾病相关的影响因素时,性别、年龄这两个变量就不能遗漏。因为它们对于人体的各类疾病都存在大大小小的影响,一旦遗漏,就会造成其他解释变量的回归系数出现偏差。如果只是系数的数值大小偏差那么还可以挽回,但如果直接造成系数正负颠倒,就会成为致命的错误。

所以,“回归”这个武器用得好,能让分析工作事半功倍;一旦失误,就会成为伤人的利器。因此,我们在进行回归分析的过程中需认真加以识别、确认、检验、修正。

☆本章知识拓展

首先来明确一个基本前提,那就是回归分析与相关分析的联系和区别。

区别:

(1)相关分析中的两个变量的地位是相等的,而回归分析中的变量则需要分为解释变量和被解释变量。

(2)相关分析中的两个变量都是随机变量,而回归分析中只有被解释变量是随机变量。

(3)相关分析适用于判定相关程度和方向,而回归分析则可以进一步地进行模型预测和控制。

联系:

(1)相关分析是回归分析的基础和前提,没有相关则无法进行回归。而且对于线性模型来说,相关程度越高,回归效果越好。

(2)相关分析和回归分析的理论方法具有一致性,一般来说,相关系数和回归系数的方向一致,可以互相推算。

(3)回归分析是相关分析的继续和深化。

按照不同的划分规则,回归也可以分为几个类别。下面介绍几个典型的回归模型。

(1)Logistic回归:它是除线性回归外应用范围最广的。Logistic回归与线性回归不同,它要求被解释变量必须是分类变量,不可能是连续变量。分类变量既可以是二分类;也可以是多分类,多分类中既可以是有序,也可以是无序。Logistic回归有个近邻叫Probit回归,二者不仅函数模式十分接近,而且分析结果也类似。不过Probit回归的实际含义不如Logistic回归容易理解。

(2)cox回归:cox回归是回归家族里的一个另类,因为cox回归的被解释变量有些特殊:它的被解释变量必须同时有两个,一个代表状态,所以是分类变量;另一个代表时间,所以是连续变量。只有同时具有这两个变量,才能使用cox回归分析。cox回归主要用于生存资料的分析。

(3)主成分回归:主成分回归其实是将主成分分析与线性回归结合在一起。所谓的主成分分析就是把多个具有高度相关的变量所包含的信息用一个或两三个变量来表示,我们称这个变量为主成分。

(4)岭回归:又称脊回归,由于模型的解与正则化参数λ之间的图像类似于山脊,因此得名。岭回归作为修正变量完全共线性的方法,其思路为:既然线性模型在解释变量完全共线的时候估计值会不稳定,那么岭回归在最小二乘估计里加个k值,改变它的估计值,使估计结果变稳定。至于k值的确定,可以先选很多个k值,然后作出岭迹图,看看这个图在k取哪个值的时候较为稳定,选取该k值即可。

(5)偏最小二乘回归:该回归可以用于解决解释变量之间高度相关的问题,其优势是可以用于样本量很少的情形。它的原理其实跟主成分回归类似,即用被解释变量和解释变量的综合变量来进行分析,所以它也可以用于多个解释变量的回归。这么说来,偏最小二乘法集主成分分析、典型相关分析和多元线性回归分析三种分析方法的优点于一身,成为分析领域的“新贵”。

图书网:从零开始学统计pdf

继续阅读

→→→→→→→→→→→→→→→→→→→→查找获取

社会科学总论

流民问题与社会控制pdf

流民问题与社会控制 内容简介 《流民问题与社会控制》是广西人民出版社2001年出版的探讨有关流民问题与社会控制的一本书。流民问题并非当今中国社会的特产,自有“流民之母”——农民以来,特别在春秋战国时代...
社会科学总论

走出维稳年代 2008-2013中国社会思想交锋pdf

走出维稳年代 2008-2013中国社会思想交锋 内容简介 “胡溫十年”的後五年,在中國發生的震驚全國乃至世界的各類事件層出不窮,“盛世”的表像下面社會經濟危機趨於激烈。作者以時間為線索,條理清晰地梳...
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

评论:6   其中:访客  6   博主  0
    • 阿旭
      阿旭 9

      统计学没接触过,工作中到时有很多分析啥的,这个应该很有用。

      • hoya
        hoya 9

        谢谢分享

        • zz
          zz 9

          应该是本有意思的书

          • 笨小孩
            笨小孩 9

            工作中遇到了些问题需要用到统计学知识,想通过此书重新捡回来之前学过的统计知识。

            • wyxixi
              wyxixi 9

              这本书是从基础讲起来,之前看过一些,想具体了解下内容,写的很不错