Title Text:You can find a perfect correlation if you just control for the residual.
Origin:https://xkcd.com/2560/
https://www.explainxkcd.com/wiki/index.php/2560:_Confounding_Variables
干扰变量
http://xkcd.in/comic?lg=cn&id=2560
伦哈特小姐正在教授一门课程,该课程显然至少涵盖了统计学的概述。
在统计学中,混杂变量是与自变量相关的第三个变量,也与因变量有因果关系。一个例子是你看到晒伤率和冰淇淋消费之间存在相关性;混杂变量是温度:高温会导致人们在阳光下晒得更多,并且会吃更多的冰淇淋。
通过将数据集限制为具有相同混杂变量值的样本来控制混杂变量的一种方法。但是,如果您这样做太多,您选择的“相同值”可能会产生无法概括的结果。医学测试中常见的例子是使用同性别的受试者——结果可能只对那个性别有效,而不是对所有受试者有效。
通常还可能存在多个混杂变量。如果不将数据集缩小到没有用处,可能很难控制所有这些。因此,您必须选择要控制的变量,而这种选择会使您的结果产生偏差。
在最后一个面板中,Lenhart 小姐提出了中间的最佳位置,其中混杂变量和您的控制都会影响最终结果,从而使您“双重错误”。“双重错误”的结果会同时显示错误的相关性(控制变量不足)并且太窄而无用(控制变量太多),因此是“两全其美”。
最后她承认,无论你做什么,结果都会产生误导,所以统计数据毫无用处。这似乎是一个据称试图实际教授统计学的人的意外声明[需要引用],并期望她的学生继续这门课程。尽管她有可能不是单纯地教育这门学科,而是开设一门具有不同目的的课程,而恰巧本周以这个特别有针对性的批评结束。
在标题文本中,残差是指任何特定数据点与应该描述整体关系的图表之间的差异。所有残差的集合用于确定线与数据的拟合程度。如果您通过包含一个与预测结果和实际结果之间的差异完美匹配的变量来控制这一点,您将拥有一个完美拟合的模型:但是,几乎不可能(尤其是在社会和行为科学中)找到“最终变量”完美地提供了预测模型的所有“缺失部分”。