读书笔记之小白统计学

本篇为读书笔记,内容为微信公众号:小白统计学:以通俗易懂的语言介绍并推广统计学,让即使完全不懂统计的小白也能够看懂。公众号简介:

公众号:stats_for_dummy。文章汇总https://mp.weixin.qq.com/s/fvyKnVZ1G6sBVFNBl2abAA

该公众平台不是以盈利为主,旨在推广医学统计学,让众多的统计小白能够真正了解统计学。下面是关于本平台的简单介绍:

(1)所有文章均为作者原创,可能有的文章的部分内容作者在其它地方也曾发表过,但都是作者自己的原创内容。如果摘录、引用等请注明出处,尊重作者版权。

(2)由于文章主要走的是通俗、浅显的路子,因此有的文章中的一些概念可能通俗有余,严谨不足。如果想了解对某些概念的严谨定义,请参考相应的统计学教材。

(3)本平台只是抛砖引玉,将作者多年对统计的理解以通俗的形式表达出来,面向对象主要是对统计感兴趣的各位同道,希望达到相互交流的目的。

这部分主要是一些统计学概念和一些观点的通俗介绍,如标准误到底是什么意思,P值如何理解,中心极限定理是在说什么,等等。

p值(p value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。p值表示一个事件发生的可能性,在假设检验中是对原假设的设定,我们希望这个p值比较小,说明原假设是个小概率事件。当小概率事件发生时,我们就有理由认为我们的原假设是有问题的,从而选择备择假设(原假设与备择假设为互斥事件)。p值只能用来拒绝原假设,而不能肯定原假设,即当p值比较大时,不能说明原假设是对的,只能说统计学上不能证明原假设是错的,这时同样没有证明原假设是对的,其依旧处于不能说明对,也不能证明错的状态。只有当拒绝原假设,即统计学上认为原假设是错的是,我们才能认为原假设的互斥事件——备择假设是对的。

假设检验的理解,来源自《女士品茶:20 世纪统计怎样变革了科学》,这本书还是不错的。

统计学中两类错误:第一类:去真、第二类:取伪。给定采样样品后,采用假设检验,设定拒绝域α\alpha的做法让两类错误无法同时降低,此消彼长。只有通过提供样品、试验次数或者提高实验准确性才能同时降低二者。

标准差是“样本原始数据的标准差”。标准误是“样本统计量的标准差”。标准差和标准误的区别,最实质的地方至少是两点:一是针对计算的对象不同,标准差是根据一次抽样的原始数据计算的,而标准误是根据多次抽样的样本统计量(可以是均值,也可以是率等)计算的。二是标准差只是一个描述性指标,只是描述原始数据的波动情况,而标准误是跟统计推断有关的指标,大多数的统计量计算都需要用到标准误。

举例:对于抽取的10个样本,每个样本容量为100,每个样本都有各自的标准差,每个样本也都可以计算一个均值,这样10个样本就可以计算出10个均值。将这10个均值作为原始数据,仍然可以计算出均值和标准差,这里作为统计量的均值的标准差就是标准误,它是用10个均值计算的,而标准差是用一次样本中的原始数据计算的。

如果真要严格定义,应该说标准误是“样本统计量的标准差”更加合适,而不是非要局限于均数或率等。而标准差是“样本原始数据的标准差”。

p值提供的信息不够丰富,只能说明得到该抽样统计量发生(以及更极端情况)的概率,例如,抽样20个样品,计算得到方差是5.5,p值为0.01,这意味着我随机抽样20个样品,从总体抽样1000次,那么发生样本方差大于等于5.5的概率为0.01,即大约10次。p值算是点估计在假设检验中体现,为了获得更丰富的信息,我们将区间估计的思想也用到假设检验中,就能得到置信区间

置信区间,就是用样本数据计算两个值,用这两个数确定一个区间,这个区间以一定的可信程度包含被估计的参数。根据上面的定义,可以将置信区间这个词拆成两个部分理解:置信和区间。先说区间,比较容易理解,就是一段数值范围,如果确认这个范围呢?它是根据样本数据计算的点估计和标准误来计算的,表现为(参数估计值±边际误差),所谓边际误差,就是考虑到了样本与总体是有一定差异的。由于现实中几乎所有抽样分布都会近似呈正态分布,因此边际误差通常都是用正态分位数的一个“z值标准误”来表示,也就是我们通常见到的“1.96标准误”(1.96是双边Z检验,单侧累积概率为0.975时的值)。再说置信,他表示“一定的可信程度”,例如95%的置信区间就是计算一个区间,我们有95%的信心认为这个区间包含了被估计的参数。

置信区间的前缀数字95%称为置信系数,我们习惯用95%,但不一定非要用这个。也可以用90%、99%等。一般来说,置信系数越大,所得的区间越宽,也就是越可信;置信系数越小,所得区间越窄,越不可信。

置信区间大小.webp

如果要说置信区间的理论意义,也是只存在于理论中。比如95%的置信区间,意思是:如果从一个总体中重复多次抽取不同的样本,对每一个样本都可以计算一个置信区间,那么理论上有95%的置信区间包含了总体参数。一个总体参数总是固定的,对于每次抽样计算的置信区间,要么包含这个参数,要么不包含这个参数,但总的来说,100次抽样样本中,大概会有95次包含了这个参数。

置信区间的宽窄反映了对参数估计的精确度,置信区间越窄,说明越精确,置信区间越宽,说明越不精确。一般来说,样本量越大,计算的置信区间越窄。因为样本量越大,标准误越小。当样本量跟总体一样多时,计算的置信区间就窄成了只有一个值了。这时就是最精确了。

我自己的笔记更好。概率统计随机过程之如何推导得到正态分布—正态分布的理解角度

  • 分类资料(数据):没有单位,可以是数字,也可以是其他类型,比如 是否、男女、实验组/对照组等
  • 计数数据:有单位,一般是有单位的频数,如天数、次数
  • 有些使用数值作为数据时,分类数据和计数数据是差不多的,不太需要严格区分
  • 计数资料一般是频数,通过数数得来的,而离散资料只是数值是离散的,并不一定通过计数得来的。
  • 离散数据并不一定都是整数,例如取值结果为0,0.5,1,1.5,{0,0.5,1,1.5,\dotsb}的数据也是离散数据。
  • 在一定区间内可以任意取值的数据叫连续数据,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。
  • 计数资料一般都是非负整数,当数据值比较大,且近似取值不会影响最终结果时,可以近似当成连续数据来处理。
  • 连续数据:没有正负、离散或整数的限制。

在线性回归中,我们的自变量一般都是数值型数据,如果分类数据也会对回归结果产生影响,那么如何将其引入回归方程中呢?就需要使用虚拟变量。说白了,虚拟变量就是将分类数据引入回归方程的一种方法

比如,人每天的基础代谢(BMR)和身高、体重、年龄以及性别有关,前面三项都好说,一般的多元线性回归都实用,现在需要将性别因素也考虑进去,性别是个分类变量,无法用具体数值表示,因此我们就是用虚拟变量表示。对于性别女,我们使用0表示,男用1表示,这样带入回归方程有: BMR=α0+α1×身高+α2×体重+α3×年龄+α4×性别性别={1,0, BMR=\alpha_0+\alpha_1×\text{身高}+\alpha_2×\text{体重}+\alpha_3×\text{年龄}+\alpha_4×\text{性别}\\ 性别=\begin{cases} 1,男\\ 0,女 \end{cases} 实际上,虚拟变量就是用0,1表示分类变量,得到一个包含离散变量的回归方程。一般用0表示属性或特征不存在,1表示属性或特征存在。

上面使用的虚拟变量指标是了两种可能,所以能用一个0,1虚拟变量表示,当分类变量的水平数大于两个,我们要用0,1,2……表示吗?答案是否定的。理由是:若我们用连续的数字表达分类变量,那么就隐藏地给这个变量添加了一个很强的假设:每个分类之间依顺序有完美的线性关系,因此,对于有mm个水平的分类变量,我们添加m1m-1个0-1虚拟变量来替代(一个例外是,如果回归方程无截距项,可引入mm个0-1虚拟变量)。之所以要少引入一个虚拟变量,是为了防止多重共线性,又叫虚拟变量陷阱。

此外,上面的例子,虚拟变量通过与其他变量相加融入回归方程中,还有通过相乘融入进去的例子。例如,查看一个家庭的总体教育支出YeY_e,除了受家庭收入水平X1X_1、孩子年龄X2X_2影响外,一个非常重要的因素就是有没有孩子,而有没有孩子是一个分类变量β\beta。我们需要通过乘法将其引入回归方程: Y3=α0+α1×X1+α2×β×X2β={1,有孩子0,无孩子 Y_3=\alpha_0+\alpha_1×X_1+\alpha_2×\beta×X_2\\ \beta=\begin{cases} 1,有孩子\\ 0,无孩子 \end{cases}

虚拟变量应用场景:

  1. 分段回归
  2. 稳定性检验。稳定行:利用不同样本的得到的回归方程系数没有显著性差异。
  3. 季节性波动调整

抽样误差的来源:

  1. 没有做到真正的随机
  2. 抽取的样本没有代表性

当存在系统性抽样错误,即使样本数量再大,可能得出结论也是错的。

这个说法其实是将中心极限定理和抽样的原始数据搞混了,而且没注意到样本均值也是个随机变量。中心极限定理说的是:不管原始数据的分布是什么样的(可能是正态,也可能偏态,还可能超级变态),如果从这个原始数据中多次抽样的话,对于每个样本计算出均值,如果每个样本中的例数大于30,这些计算出的样本均值的分布接近正态。而不是说:一个样本中的原始数据的个数大于30,这个原始数据的分布接近正态。

如果针对原始数据,无论如何都是要进行正态性检验的

几种简易的判断正态性的方法(统计专业人士请绕行):

  1. 根据均值和标准差。首先,分别计算均值和标准差,然后看一下数据中有百分之多少的人在均值±1个标准差、均值±2个标准差、均值±3个标准差之内。如果分别大概是68%、95%、99%左右,说明差不多是正态的。
  2. 计算四分位数间距和标准差,如果四分位数间距/标准差的值大约在1.35左右,可以认为满足正态分布。比如上面的10个数中,四分位数间距是1.9,标准差是1.3,1.9/1.3大约为1.4左右,比较接近1.35,可以认为是正态的。
  3. 通过几幅图来判断,最常用的图有箱式图、直方图、茎叶图、QQ图等。(再在有计算机辅助情形下最直观)

回归中的多变量、多因素、多重、多元有什么区别?

多变量线性回归或多重线性回归(multivariable or multiple linear regression)是一回事,多因素线性回归或多重线性回归则是有多个自变量。但它们都是只有1个因变量y=α0+α1x1++αnxn+ε y=\alpha_0+\alpha_1 x_1+\dotsb+\alpha_n x_n+\varepsilon 多元或多变量线性回归模型(multivariate linear regression model)是指多个因变量的回归模型。

读者注:数理统计有时候确实不那么区分。甚至线性回归默认自变量或因变量可以是一维乃至多维矢量。

  • 信度代表的是数据的可靠性程度和一致性程度,它能够反映数据的稳定性和集中程度。所谓“信”,意思是不会偏离太多、行为在可预想范围内。
  • 效度是指测量工具能够准确测量出事物真实情况的能力,它能够反映数据的准确性。所谓“效”,意味着效果、准确性,达到目的的程度。
信度效度.png

Figure 1: 信度效度.png

信度效度.png

如果用射击来类比:

右下图的弹孔是散布在整个靶图上的,有两个特点:1、点与点之间的距离很大,说明运动员的稳定性差;2、几乎没有弹孔落在靶心,说明运动员的准确性也差。说明该射击运动员既没有稳定性,也没有准确性。如果将每个弹孔看作一个数据信息(个案),那么该数据集合是既没有信度(稳定性)也没有效度(准确性)。

左下图的弹孔密集的落在一个狭小的区域内,但是偏离了靶心,说明该运动员的射击稳定性很好,但是准确性则不足。同样的,如果弹孔看作数据,那么该数据集合的特点是具有高信度,效度却很低。

右上图的弹孔是分散的,但是大部分的弹孔落在了靶心,说明运动员的稳定性不足,但是准确性还是不错的。形容数据集合的话,那么该数据集合是高效度和低信度的。

左上图的弹孔密集的落在了靶心,说明该运动员的稳定性和准确性都很好。用来形容数据集合则说明该数据集合是高信度和高效度的。

问卷的信度在于评价收集上来的数据是否真实可靠,也就是检查填写问卷的这些人是不是认真的填写了问卷,还是乱填的。大家可以想象一下,如果一个人胡乱的填写数据,那么有很大的可能他的答案与其它人的答案是南辕北辙的,差异很大,那么就会影响到整份问卷在的信度。因此,大家在收集问卷数据时,应该想各种办法让大家能够认证回答。

问卷的效度是用来研究题目的设置是否能够有效的测量问卷设计者当初设计的初衷,也就是说检验问卷题目的设计是否合理。如果题目是合理的,那么它就能够有效地测量出问卷设计者的设计目的和初衷。

信度的分析类型:信度分析的目的是检验受访者是否真实的回答了问卷的问题,收集上来的数据是否真实可靠。根据测量工具的不同,信度指标可以分成四类,如下图所示:

信度类型.jfif

  • 重测信度:是指用同样的测量工具,对同一组被测者隔一定时间重复测量,考察两次测量结果的相关程度,可以直接采用相关分析,得到的相关系数即为重测信度系数。重复信度能够检验时间差异带来的数据误差,该误差不是测量工具不直接有测量工具造成,而且测量的是同一组被测者,因此称为外在信度。
  • 复本信度是指让同一组被测者一次填写两份平行问卷,计算两份数据的相关系数,复本信度要求两份问卷除了在问题表述不同之外,其余方面要完全一致,实际操作比较困难。
  • 折半信度是指将一份问卷分成两部分,计算这两部分的相关系数,即折半信度系数,以此来衡量整份问卷的信度。
  • α系数又称克朗巴哈系数,是最常用的测量内部一致性信度的方法,计算出的克朗巴哈α系数是所有可能折半信度的均值,取值在0-1之间,系数越高一致性越好,说明数据的真实性越高。α系数是问卷数据真实性检验的最重要指标。

效度分析类型:效度是指测量工具能够准确测量出事物所要测量特性的程度,效度越高表示测量真实性越高,由于真实值往往未知,所以我们对于效度的评价也不可能永恒不变的,随着设定和对比的“真实值”变化,效度指标也会发生变化。也就是说,效度的指标的种类会有很多。效度分析可以分成以下三种内容:

效度类型.jfif

  • 内容效度:是一种定性的评价标准,主要通过经验判断进行,主要是通过专家和有经验的业内人士进行评价的方法。还可以对问卷在正式使用前进行小范围的使用,结合结果进行题项的修正以说明问卷的有效性。内容效度一般不需要使用SPSS进行数据分析,但是需要专家和权威老师的指导,前测修改过程,最后对问卷的内容效度进行说明。
  • 结构效度:是指测量题项与测量方向之间的对应关系,其测量方法是因子分析。因子分析的数据计算理论比较复杂。
  • 校标效度:人为指定确定的结果作为“准确标准”,考察其他待测结果与其是否一致。例如,考试卷中的选择题都会有准确答案,那么每题的正确率就是这个班级在该题上的效度。

作者认为:问卷的客观特征和行为问题不用做信效度评价。量表需要信度和效度分析。

作者所说的问卷的强调目的是为了获取(客观的、直接的信息),而量表是为了测量(主观的、隐藏的信息)。但是调查问卷的范围有些泛化,将一些量表例如人格分析、心理量表也当成了调查问卷,因此在遇到后需要仔细甄别。

拐点:从微积分的概念来讲,函数f的图像上改变凹性的点叫做函数f的拐点。也就是说,从上凹到下凹或者从下凹到上凹,这一个点就是拐点。

因此,在医学上拐点说的不是病例数的正负变化,而是病例的增长速度的正负变化(二阶导)。

传染病模型,一般病例数的增长都是呈S型曲线(logistic生长曲线),前面增长越来越快,过了中间拐点,后面增长越来越慢。

这部分主要是一些基础统计学方法的介绍,如t检验、方差分析、卡方检验、相关分析等方法的正确应用。

分类数据统计分析方法

Figure 2: 分类数据统计分析方法

分类数据统计分析方法

数值数据统计分析方法

Figure 3: 数值数据统计分析方法

数值数据统计分析方法

t检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30n < 30),总体标准差σσ未知的正态分布。

t检验前置要求:

  1. 已知一个总体均数;
  2. 可得到一个样本均数及该样本标准差;
  3. 样本来自正态或近似正态总体,t检验鲁棒性较强。

t分布的概率密度函数: p(t)=Γ(ν+12)νπΓ(ν2)(1+t2ν)(ν+1)2 p(t)=\frac{\Gamma (\frac{\nu+1}{2})}{\sqrt{\nu\pi}\Gamma(\frac{\nu}{2})}(1+\frac{t^2}{\nu})^{-(\nu+1)2} 其中,ν\nu表示t分布的自由度。对于从(近似)正态总体N(μ,σ2)N(\mu,\sigma^2)随机抽样的i.i.d样本X={X1,X2,,Xn}X=\{X_1,X_2,\dotsb,X_n\},其样本均值为Xˉ\bar{X},样本方差为S2S^2,统计量: XˉμS/nt(n1) \frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t(n-1) 服从自由度为n1n-1的t分布。

t检验主要用法:

  1. 单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。
  2. 双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。注意此时要求两个总体有方差齐性,方差不齐时则使用Welch检验。而根据两个样本是独立的还是配对的,又分为一是独立样本t检验(各实验处理组之间毫无相关存在,即为独立样本),该检验用于检验两组非相关样本被试所获得的数据的差异性;一是配对样本t检验,用于检验匹配而成的两组被试获得的数据或同组被试在不同条件下所获得的数据的差异性,这两种情况组成的样本即为相关样本。
  3. 检验同一统计量的两次测量值之间的差异是否为零。
  4. 回归系数的显著性检验。

作者提出的3重常见t检验使用错误:

  1. 不考虑数据的正态性,只要是两组比较就直接用t检验。
  2. 将t检验用于多组的两两比较,增加假阳性错误。
  3. 不考虑资料是否独立,采用独立资料的t检验分析非独立数据。

统计学中描述变异,一般是使用方差、标准差这类表述。而方差的分解来给我们带来很多有用信息。

首先,方差分析就是基于变易分解,将总体方差分解为组间方差和组内方差,分别体现不同自变量和随机性对结果的影响。一般由于数据量越大,累积的方差越大,因此还需要除以数据量,就是自由度。方差一般服从卡方分布,因此方差的比值服从F分布。如果组间变异远远大于组内变异,那么组间均方除以组内均方的值肯定很大,反之,这一值就会很小。但是,到底大到什么程度才认为有统计学意义呢,那就得根据F分布了。

此外,双总体t检验的公式实际上也是一种方差分析。以两组独立样本比较的公式为例,分子是什么?组间差异。分母又是什么?均数差值的标准误。两者的比值就是一种服从t分布的方差分析。

对于线性回归,首先因变量y的值各不相同,这就是变异,线性回归就是为了弄明白,为什么这些y值不一样。所以才要有自变量x,看看哪个自变量对y的变异解释的更多。很明显,哪个解释的多,哪个自变量就对y的影响大。所以,为什么线性回归的结果中会出现方差分析的字眼,因为它也在方差分解啊,把总的y的变异分解为模型所能解释的部分,以及不能解释的部分。

方差分析与实验设计是密切关联的。有一种实验设计方案,可能就有一种对应的方差分析。比如完全随机设计采用单因素方差分析,随机区组设计采用随机区组方差分析,析因设计采用析因设计的方差分析,交叉设计采用交叉设计的方差分析,嵌套设计采用嵌套设计的方差分析,裂区设计采用裂区设计的方差分析。

事后分析的两两分析一大作用就是控制假阳性,因为两两比较次数多了,容易产生假阳性的结果。

作者给出的各种两两比较方法总结:

如果各组例数相等,建议首选Tukey法;如果例数不等,建议首选Scheffe法(如果比较组数不多,如3组,Bonferroni法也可以作为首选);如果要分别比较每个试验组与对照组,建议采用Dunnett法;如果各组方差相差较大,建议采用Games-Hotwell法。

方差分析事后分析.jpg

Figure 4: 方差分析事后分析.jpg

方差分析事后分析.jpg

(1)缺乏对数据的正态性检验,组间比较都采用方差分析,而不考虑秩和检验。

(2)两两比较直接采用t检验,而不是专门的两两比较方法。

(3)采用方差分析处理重复测量资料,增加假阳性错误。

(4)实验设计考虑不周,误用其它设计的统计分析方法。

这部分主要是介绍实验设计、流行病学调查有关的一些内容,包括各种概念的介绍、如何实现随机分组、随机抽样等

这部分主要是关于样本量估算的一些介绍,重点是介绍样本量估算需要考虑哪些因素。

这部分主要是介绍了一些常见的各种回归方法,并不是很深入,侧重对各种方法的一些归类介绍,让大家明白有哪些回归方法。

这部分主要是一些与线性回归分析有关的概念、分析思路、技巧等的介绍,如混杂因素的理解、要不要做单因素分析、单因素和多因素结果不同时应该怎么办,等等。

这部分主要是一些与生存分析有关的内容,包括常见回归方法的介绍,一些常见问题的处理等。

这部分主要是一些与重复测量数据有关的方法和结果解读介绍。

这部分主要是本人对如何学习统计学、统计方法应用等的一些观点,未必正确,纯属个人观点。

作者认为统计学是大数据的基础之一。面对不断出现的新名词,打好统计学基础,再去尝试接触自己需要的方法,你会发现很多方法其实都是触类旁通的,就像你学好了易筋经,你会发现再练其它招式都是事半功倍。

读者注:我很认同这一点,算然有些老派,但是符合规律。

总结:少玩手机多读书、多琢磨,加以应用,在实践中学习。

这部分主要是本人根据课题标书、论文等撰写中的一些问题,将其总结,提出一些建议。