[1725] Linear Regression

Title Text:The 95% confidence interval suggests Rexthor’s dog could also be a cat, or possibly a teapot.<

Origin:https://xkcd.com/1725/

https://www.explainxkcd.com/wiki/index.php/1725:_Linear_Regression

線性回歸

95%的信心區間暗示龍索的狗也可能是貓,或者是茶壺。

https://xkcd.tw/1725

线性回归是一种建模多个变量之间关系的方法。在最简单的情况下,它可以用于两个变量,其中模型通过数据集的散点图确定“最佳拟合”线,以及通常表示为r2或R2的确定系数。当回归中只包含两个变量时,R2仅仅是两个变量之间相关性的平方。 R2是介于0和1之间的数字,表示一个变量可用于预测另一个变量的值。值1表示完全相关,而接近0的值表示变量之间的弱关系。

星座是含有星座的天空区域;星体是通过将天空中从地球上看到的恒星的明显位置联系起来而形成的模式。严格来说,兰德尔的“雷克萨斯”是一个星座,虽然“星座”被非正式地用来代替经验丰富的天文学家的“星座”。不同的文明已经认识到不同的星座(例如,现代的IAU列出了88个“官方”星座),并且可以通过连接各种点来创建自己的星座。

在这部漫画中,一组数据已经进行了线性回归,并对其应用了某种形式的统计分析,表明两者之间的相关性较低。数据点如此广泛分散(如漫画中所述),以类似星座的模式连接数据点比确定相关性是负还是正(更容易)(当然不看趋势线) )。因此,兰德尔建议我们应该对从这些数据得出的任何结论持怀疑态度。

漫画有点误导,因为图中的数据实际上具有0.02的R2,仅为Randall声称的三分之一。 R2为0.06的已发表研究的一个例子,其中图中的关联是显着的(如果不是强)可以在这里找到(图2有r = 0.25,对应于R2 = 0.06)。此外,很难在漫画图中看到关联,因为相对较少的点被绘制。在具有1000个观测值且R2 = 0.06的数据集中,两个变量之间的任何关联都将非常清楚。

连接这个“星座”中的星星的线条创造了一个人的粗略插图,伸出一只手抱着一只狗,这可能是电影生命美丽的参考,服务员在他的托盘上没有发现狗。 “Rexthor the Dog Bearer”这个名字可能是托尔的恶搞,托尔是一个挥舞着锤子的北欧神。通过用狗替换他的锤子并添加“Rex”(原型狗的名字,但也意味着国王在恐龙T-rex之王中),兰德尔可能已经创造了一个滑稽的,带有狗的版本的雷神。

统计中的95%置信区间是这样一个估计范围,预计它将在95%的时间内包含实际值(估计的总体参数)。置信区间是提供统计中估计误差评估的标准方法。在右侧面板上,得到的估计值似乎是一个绘图,因此95%置信区间将是一组图纸,预计在95%的样本中包含正确的图形。根据标题文本,此特定样本的间隔还包括猫和茶壶,因此我们只能做出非常模糊的陈述以保持95%的置信度。

茶壶可能是罗素茶壶的参考,也可能是射手座中的“茶壶”星座。或者只是因为“狗”实际上看起来更像是一个茶壶而不是一只狗,兰德尔注意到这一点并将其添加到标题文本中。在后一种情况下,两个第一个建议只是另一个例子,关于人类如何看待无法找到的模式,如1551年提到的pareidolia:冥王星。

Leave a Reply

Your email address will not be published. Required fields are marked *

Categories