关于95%置信区间(平均数+-z个标准差)
关键词:95 置信区间 标准差 置信区间 标准差 标准差的置信区间
最近看了一篇文章,发现除了我们传统统计学上讲的95%置信区间,如果数据是正态分布的话,采用平均数正负1.96个标准差(这里,1.96是双尾概率为0.475的z值),还存在一些别的校正z值,比如下面这篇文章里面的1.39,这个我没太看懂,只是大体理解是,如果做置信区间线的话,两者没有任何重叠,说明两者显著差异,而且能够避免I型错误。朋友们共同探讨一下,这个1.39究竟是什么意思呢?
讨论结果:
就标准正态分布而言,Ф(1.96)-Ф(-1.96)=2Ф(1.96)-1=0.95。我没有查到Z分布表,但我估计Z分布的对应关系式就是Z(1.39)-Z(-1.39)=2Z(1.39)=0.95。
z分布表不就是标准正态分布表吗?我查了,z=1.96时,Ф(1.96)=0.975;但您说的Z分布Z(1.39)是什么意思呢?
1.96/1.39=sqrt(2),lz应该明白了吧^_^
您的意思是标准正态分布的1.96除以sqrt(2)校正的?但我还是不明白,为什么这么校正,有什么讲究吗?
首先原文没有错,可能不同国家的表述有差异。因为该文是研究两个独立样本均值的差异问题,注意红线的前提是“With equal known standard error”,因此两个样本之差的标准差为每个样本标准差的sqrt(2)倍。下面应该不难理解了。
如何理解 95% 置信区间?
实我不知道你们的关注点在哪里——是单纯地想了解统计学,还是有自己的哲学关切。如果是后者,我十分愿意谈一谈置信区间的哲学意蕴。它或许能为人们理解置信区间提供一个有趣的知识背景,或者满足一部分人的求知欲。当然,对科学哲学不感兴趣而只想在数学层面理解置信区间的人则完全没有必要阅读。
关于置信区间在数学层面上的解释,各个答案已经说得不错了,我想这里没有必要再介绍置信区间是什么了。我想介绍的是,我们为什么需要置信区间,以及它为什么通常是95%。由于时间和能力有限,涉及到的很多专业的问题我无法探讨,所以只想给出一个大家都看得懂的概要。
我们知道,置信区间不是一个孤立的概念,它是统计学理论(具体来说是内曼-皮尔逊统计推断理论)中的一环。而统计学理论往往是为科学服务的,这是因为现代科学注重数量层面,并且往往涉及个别和一般。所以我们的讨论落在科学哲学的层面也就不奇怪了。当然,这些讨论对于不被称为科学的统计应用也是有效的。我们会从看似不相关的科学哲学问题说起,最后讨论到置信区间。
说起科学,它想要做的工作很多,它可能包括提出对个别现象的解释,对未来的预测,等等。然而,更吸引人的是提出关于总体的理论,而解释和预测也往往依赖于普适理论。关于这种普适理论,我们首先想到的范例就是牛顿力学。然而,我们如何提出一个普适理论呢?
在这里我们发现,人类具有一个根深蒂固的局限性——我们不能一下子就如同上帝一样认识全体,而只能一个一个地观察个体。因此,认识总体似乎只能通过从个别到一般的方法,即归纳。然而,休谟告诉我们,从有限的经验观察中是无法得出关于总体的理论的。这很好理解:就算你看到10000只天鹅是白的,你也不能下定论说“天鹅都是白的”,因为第10001只就可能是黑的。如果从个别到一般是不行的,那么我们是否有办法绕开个别而直接得到一般——比如,通过神启等方式?波普会告诉你,这并不解决问题。发现的逻辑和验证的逻辑是不同的,就算你通过神启发现了总体的规律,可是面对怀疑时你还需要验证它的正确性,而这必然还要回到个别。
那么怎么办呢?波普说,我们无法通过有限的个例证实一个理论,但我们可以证伪它!比如,如果我们发现了1只黑天鹅,那么“天鹅都是白的”这个理论就被证伪了。这样,所有被接受的理论就不是证实无疑的理论,而是尚未被证伪的理论。而科学与非科学的界限,就在于是否具有可证伪性。
这就是波普的证伪主义。相信很多知乎用户都对此了解,我经常看到知乎用户在谈论科学问题时诉诸可证伪性。然而故事还没完呢——证伪真的像想象中那么简单吗?
证伪主义可能面临至少三个问题:
(1)科学理论往往不是孤立的,而是相互支持的。当科学理论建立在其他理论或假设的基础上时,我们不知道被证伪的是这个理论还是它所依靠的前提。
(2)它将一些我们通常认为是科学的东西排除在科学之外——比如达尔文的进化论就不具有可证伪性。
(3)统计推断往往不具有可证伪性。
涉及置信区间的,就是第三个问题。统计学也想得出关于总体的结论,而它作出推断的方式和我们之前所说的都有所不同。在统计学中,我们为了知道总体数据的某些特性,往往采用抽样的做法,用样本估计总体。这种估计,很难被证实,因为我们往往不掌握总体的数据;它也同样很难被证伪,因为统计推断是关于总体数据特征的推断,无法用任何一个单独的个体数据证伪。
我们可以想象这样一个例子:我用一定量的样本数据估计出全体知乎用户的平均年龄为28岁,那么——显然,你举出“刘一白是20岁”来证伪是无效的,因为我们这里谈论的是平均;如果你收集了一组样本,其平均年龄为35岁,是否能够证伪呢?也不行,因为我们谈论的是总体。仿佛,我们在这里完全没有办法确定关于总体均值的估计是否正确。
你可能会想到,假设为了验证关于总体均值的估计,我随机抽取了1000000组样本,其均值都与28有一些差距,这是否能够证明总体均值不是28呢?当然不能。我们仍然不能确定地说总体均值不是28,不过,我们可以说总体均值是28的可能性不大。你一定明白了,这里我们能够谈论的只能是可能性。所以在这类问题中,我们接受或拒绝一个理论,不是因为它被证明了是正确或错误的,而是因为它很可能正确或很可能错误。
“很可能”的界限在哪里?波普是不赞成以概率数字来表示正确或错误的可能性的,不过在科学的实践中我们往往需要明确的标尺,这还是要求助于数学。统计学家们想出了办法,他们往往(人为地)估计总体数据的分布情况,然后(人为地)构造统计量,最后将统计量同预先(人为地)设定的标准相对比,以此决定我们是否应该接受/拒绝一个统计推断。鉴于其中检验方法和标准都是十分“人为的”,所以不得不承认由此得出的结论是“方法论上的真理”。置信区间,便是这样的一种人为设定的接受/拒绝理论的标准。读到这里,你已经明白置信区间从何而来了。
那么置信区间为什么通常是95%呢?其实,这个数字并不是必然的,而是人为设定的。置信水平的设定是有影响的——如果我们对置信水平要求过高,我们可能会拒绝实际上是正确的理论(犯了I类错误);如果我们对置信水平要求过低,我们可能会接受错误的理论(犯了II类错误)。并没有一个万全之策能够让犯两种错误的可能性同时降低,我们必须做出选择。鉴于我们更加不喜欢犯II类错误,所以我们习惯于把置信水平设置在高水平。人们觉得95%是合适的,它的涵义是当总体呈正态分布时估计值落在总体均值左右两个标准差范围内的概率的近似值。详见https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule。关于置信区间的问题,我想说的就这些。
最后说些闲话。首先,如果没有意识到以上问题,我们很可能会像前期维特根斯坦那样简单地所认为科学就是所有真命题的总和。而以上讨论让我们认识到,即使是科学,也并不是具有坚实确定性的,它可能需要方法论的支持。所以,科学更像是一个游戏,我们制定规则然后玩它。其次,我想借用后期维特根斯坦的标准米比喻——有一件东西你不能说它是一米长,它就是巴黎的标准米。同样,你不能说科学方法论是真还是假,因为我们用方法论来衡量真假。最后,也不要为我们在某些问题上无法获得完全确定的真理而感到悲伤——我们毕竟不是上帝,或许我们的智慧只能做到这种程度吧:)。