Title Text:If all else fails, use “significant at a p>0.05 level” and hope no one notices.<
Origin:https://xkcd.com/1478/
https://www.explainxkcd.com/wiki/index.php/1478:_P-Values
如果這些都不行,試看看「取 P > 0.05 則結果顯著」然後希望沒人注意到。
这部漫画讲述了科学实验如何解释其数据的重要性。 P值是一种统计测量,其意义很难向非专家解释,并且经常被错误地理解(即使在这个维基中),表明结果可能偶然发生的可能性。非正式地,p值是指定统计模型下的概率,即数据的统计汇总(例如,两个比较组之间的样本均值差异)将等于或大于其观察值。
根据标准显着性水平,p值小于0.05的分析被认为是“统计学上显着的”。虽然.04和.06之间的差异可能看起来很小,但实际后果可能很重要。例如,科学期刊更有可能发布统计上显着的结果。在医学研究中,数十亿美元的销售额可能依赖于药物是否具有统计学上显着的益处。没有显示出正确意义的结果可能会破坏数月或数年的工作,并可能激发绝望的“鼓励”预期结果的尝试。
在进行比较时(例如,观看听各种类型的音乐是否会影响测试分数),正确设计的实验包括一个实验组(在进行测试时听音乐的人)和一个对照组(对象组)没有听音乐的测试),以及“音乐对考试成绩没有影响”的零假设。收集每组的测试分数,并进行一系列统计测试以产生p值。简而言之,如果实验刺激没有效果,则实验组和对照组之间的分数观察到的差异(或更大的差异)可能由于随机机会而发生。对于一个更激烈的例子,一个实验可以测试戴眼镜是否影响硬币翻转的结果 – 戴眼镜和不戴眼镜时硬币结果之间可能存在一些差异,并且p值基本上测试是否这种差异小到足以归因于随机机会,或者是否可以说戴眼镜实际上对结果有显着差异。
如果p值低,则认为零假设被拒绝,并且可以公平地说,在这种情况下,音乐确实对测试分数具有显着影响。否则,如果p值太高,则说数据不能拒绝零假设,这意味着它不一定是反证据,而是需要更多结果。实验的标准和普遍接受的p值<0.05,因此为什么漫画中低于该数字的所有值至少被标记为“显着”。
该图表将p值恰好为0.050标记为“哦废话。重做计算”,因为p值非常接近被认为是重要的,但事实并非如此。绝望的研究人员可能能够重做计算,以便将结果推至0.050以下。例如,问题通常可以有许多略微不同且同样合理的分析方法,因此通过任意选择一个,可以很容易地调整p值。如果在计算或数据集中发现错误,或者通过擦除某些不受欢迎的数据点,也可以实现这一点。虽然纠正错误通常是有效的,但只纠正导致不受欢迎结果的错误。也可以找到合理的理由来删除某些数据点,但是,仅对不受欢迎的数据点执行此操作是无效的。所有这些都有效地将抽样偏差引入报告中。
0.051和0.06之间的值被标记为“在重要边缘”。这说明了经常使用“创造性语言”来限定报告中的重要性,因为平坦的“不重要”结果可能看起来“糟糕”。这种使用的有效性当然是一个有争议的话题,争论的焦点在于是否应该将略大于显着性水平的p值视为几乎显着或平坦地归类为不显着。可能会质疑具有这样一个重要的绝对截止点的逻辑。
0.07和0.099之间的值继续使用限定语言的趋势,将结果称为“暗示性”或“相关性”。此类别还说明了采用调整显着性阈值的“技术”。适当的实验设计要求在实验之前设置显着性阈值,之后不允许进行更改以“获得更好的实验报告”,因为这将再次在结果中插入偏差。阈值的简单改变(例如从0.05到0.1)可以将实验结果从“不显着”改变为“显着”。尽管声明“在p <0.10水平上显着”在技术上是正确的,但在实际报告中使用它将是非常不赞成的。高于0.1的值通常被认为根本不重要,但漫画建议采用样本的一部分(子组)并分析该子组而不考虑样本的其余部分。出于科学合理的原因选择提前分析一个小组是一种良好的做法。例如,预防心脏病发作的药物可能比男性更有益于男性,因为男性更容易患心脏病。如果有可靠的科学理由,选择在进行实验后专注于一个小组也可能是有效的 – 有时研究人员从实验中学到新的东西。然而,危险在于通常可能仅仅由于偶然性而找到并挑选恰好具有更好p值的任意子组。一位研究人员报告的结果显示,对于没有科学依据的小组(这种药只会使黑头发的人受益,或者只有在星期三服用的人,等等)显然会“作弊”。即使该小组有合理的科学理由,怀疑论者也会怀疑研究人员可能已经考虑了许多可能的亚组(男性,老年人,胖人,久坐不动的人,糖尿病患者等)并且只报告了哪些亚组是统计上显着的结果。这是多重比较问题的一个例子,也是漫画882的主题。
如果结果通常不被认为是显着的,则标题文本建议作为倒数p <0.050的最后手段,使其p> 0.050。这使得语句在数学上是正确的,但可能会欺骗随意的读者,因为单个字符的改变可能会被忽视或被视为印刷错误(“没有人会声称他们的结果不重要,他们必须意味着p <0.050”) 。当然,表面上的陈述是无用的,因为它相当于说明结果“不重要”。