Title Text:If data fails the Teacher’s t test, you can just force it to take the test again until it passes.<
Origin:https://xkcd.com/1347/
https://www.explainxkcd.com/wiki/index.php/1347:_t_Distribution
学生的t分布是统计学中用于模拟小样本量的一类概率分布。 “学生”是William Gosset的化名,他是吉尼斯啤酒厂的一名员工,他发现了这一点。
学生的t分布类似于正常的对称钟形曲线分布,但具有“更胖的尾巴”;因此,漫画中显示的那个大致是正确的形状。 “老师的”t分布是由兰德尔组成的笑话(双关语)。
漫画是一个名为“学生”的剧本,创作者的笔名,而不是“老师”。这个想法是“教师”的分布会更复杂,并且当学生的分布不够复杂时,它将用于拟合数据。当然,实际上,如漫画中所示的那样复杂的分布将具有许多参数,并且在实践中可能会导致过度拟合和/或偏见。因此,漫画(和标题文本)可以被视为取笑更复杂总是更好的想法,或者可能是统计学家的工作是使用越来越多的复杂工具来强制数据产生“可发布的”结果,而不是使用最简单的适当工具,让芯片落在他们可能的地方。
Cueball试图将分布“适合”到纸上的数据。当统计学家试图将他/她的数据建模为来自某些潜在的概率分布时,这是通常的术语,并且漫画制作了具有“适合”的物理意义的双关语。在第二个小组中,Cueball决定学生的T分布不适合他的数据(数据未通过学生t检验),并决定取出更复杂的教师t分布(教师t-测试 – 哪个不允许数据继续失败)。请注意,“测试”是统计学家对数据的看法,看它是否适合某些分布,但它也是“检查”的另一个词。
学生t分布将小样本的平均值与“真实”人口平均值相关联,假设在许多情况下是无可非议的,即存在这样的“真实”值,并且样本是独立的且正态分布的方差相等。因此,除非Cueball论文中的数据包含许多以某种方式从根本上违反这些假设的小组,否则Cueball的数据无法伪造t分布。特别是,一个数字(对于一组的平均值)或一小组数字(对于几个数字的平均值)将永远不会形成一个很好的平滑曲线,但是一个普通的统计学家会认为这是正常的统计噪声甚至会随着时间的推移,不是因为喜欢复杂的,尖刻的曲线,例如所谓的“老师”分布。但是,当然,Cueball访问一个秘密,看起来更冷却的分布使他们比一般的统计学家更糟糕……或者它呢?
具有讽刺意味的是,教师的T分布显示了相等的方差,本身证明了学生T分布的适当性。
标题文字在“测试”一词上播放。句子的第一部分是指一个潜在的“教师t检验”,它将用于统计上下文来检验某些观察的重要性,而不是真正的“学生t检验”,用于确定是否两组数据的差异具有统计学意义。另一方面,句子的第二部分是指学生在考试之前接受考试(或考试)的可能性 – 或者是强迫学生一次又一次地参加考试直到他们通过考试的教师。由此产生的句子可能指的是统计谬误,或操纵观察或不当实验的(有意识或无意识)行为,以对虚假事实赋予统计意义。