Title Text:I didn’t even realize you could HAVE a data set made up entirely of outliers.<
Origin:https://xkcd.com/1781/
https://www.explainxkcd.com/wiki/index.php/1781:_Artifacts
古代神器
漫画展示了Cueball提供可能在研究中收集的数据。目前还不清楚它是什么类型的数据,但是图中突出显示了一个峰值,尽管这个峰值显然不大于数据中的噪声(并且远小于中心峰值)。 Cueball似乎在他的研究的未定义主题的统计或测量中都犯了某种错误,因此他的数据导致许多异常值。神器这个词是一个有两个含义的文字游戏。它既可以是考古文物(例如印第安纳琼斯中的圣杯和最后的十字军),也可能是实验中的错误,在那里你(通常是偶然)会用你的设备或意料之外的环境因素影响测量。这些称为错误工件。
印第安纳琼斯(经常幽默地)被认为是一位不好的考古学家。他经常摧毁他正在寻找文物的区域,尽管他们被发现在考古学上比文物本身更重要或更重要。他似乎没有做任何记录,带着周围的文物,没有任何想法的古老和脆弱的性质,并且大多数情况下最终完全失去了文物。
误差伪影的一个例子是测量两个带电金属球之间的力(库仑力),其中未接触的附近物体的电位影响测量,从而导致伪影。之前已经在xkcd中提到了伪像,如1453:fMRI,其中进入MRI机器引起了意想不到的影响,例如幽闭恐惧症的想法。
标题文本指的是整个数据集是“异常值”。在统计学中,异常值是一个远离其他观察的观察点。使一个完全由异常值组成的数据集的一种方法是在1/2 N维空间中具有N个点的数据集,其中除了一个之外的每个维度的每个点为零,对于其自身是唯一的。 1/2因为也会有-1点。[1]所有这些点彼此等距。
我们还可以推断,指责是因为数据点遍布整个地方;这种混沌数据的一个很好的例子可以在1725年看到:线性回归。