Title Text:Pythagorean means are nice and all, but throwing the median in the pot is really what turns this into random forest statistics: applying every function you can think of, and then gradually dropping the ones that make the result worse.
Origin:https://xkcd.com/2435/
https://www.explainxkcd.com/wiki/index.php/2435:_Geothmetic_Meandian
算何平均值
http://xkcd.in/comic?lg=cn&id=2435
有很多不同的方法来识别一系列值的“平均值”,最常见的未加权方法是中位数(如果存在奇数,则取值的有序列表的中心值,或者取一半的值-在两个偶数之间跨过两个半数的除法之间的距离)和算术平均值(将所有数字相加,除以数字数)。该几何平均值是不太知名的,但工作方式类似于算术平均值。n个正数的几何平均值是n这些数字乘积的根。如果序列中的所有数字都相同,则其算术平均值,几何平均值和中位数将相同,因为它们都将等于序列项的公共值。但是,如果序列不是恒定的,则算术平均值将大于几何平均值,并且中位数可能不同于这些平均值中的任何一个。
几何平均数,算术平均数和谐波平均数(未显示)统称为毕达哥拉斯平均数,是一种更大,更通用的均值公式的特定模式,可以任意扩展到均值定量化的各种其他细微差别(三次等)。 )。
原始样本中的异常值和内部偏差会导致将一组值简化为单个“平均值”,有时由于数据缺陷而过度偏差,您选择使用哪种方法可能会导致产生误导,夸大或误导的值抑制任何斑点的重要性。
在此描述中,三种命名的平均方法被嵌入到一个函数中,该函数产生三个值的序列-每个方法一个输出。作为一系列值,兰德尔(Randall)表示,这很适合自己接受比较“平均”法。不仅要缩小一次,而且要缩小到彼此非常接近的三个值的序列所需的次数。
可以证明GMDN(1,1,2,3,5)的xkcd值为2.089已得到验证:
算术平均值 | 几何平均数 | 中位数 | |
---|---|---|---|
F1 | 2.4 | 1.974350486 | 2个 |
F2 | 2.124783495 | 2.116192461 | 2个 |
F3 | 2.080325319 | 2.079536819 | 2.116192461 |
F4 | 2.0920182 | 2.091948605 | 2.080325319 |
F5 | 2.088097374 | 2.088090133 | 2.091948605 |
F6 | 2.089378704 | 2.089377914 | 2.088097374 |
F7 | 2.088951331 | 2.088951244 | 2.089377914 |
F8 | 2.089093496 | 2.089093487 | 2.088951331 |
F9 | 2.089046105 | 2.089046103 | 2.089093487 |
F10 | 2.089061898 | 2.089061898 | 2.089046105 |
由于F作用于向量以产生另外三个向量,因此漫画的GMDN函数在第二行中已正确定义,但是最后一行的GMDN显示为产生单个实数而不是向量,因此缺少最后一个运算返回单个组件的过程。该表中的每一行都显示了集合Fn(..),该集合Fn(..)由上一行计算的平均值,几何平均值和中位数组成,序列{1,1,2,3,5}为初始F0。尽管GMDN是不可微的,但由于中位数,这可以解释为有点类似于通过平均接近平衡的热方程。有趣的是,最大值在平均值和中位数之间交替(在表中以粗体突出显示),而最小值在几何平均值和中位数之间交替。
标题文字中的注释表明,这将为您省去进行“错误”分析的麻烦,因为它逐渐减少了受原始输入异常过度影响的任何“异常平均数”。这是一种没有任何值差异危险的方法,因为所有三种平均方法均位于覆盖输入值的区间内(其中两种将严格保持在该区间内)。
标题文本也可以巧妙地引用实际的数学定理,即,如果仅使用算术平均值和调和平均值执行此过程,则结果将收敛到几何平均值。兰德尔(Randall)提出,(非毕达哥拉斯)中值在收敛性上没有那么好的数学特性,实际上是他定义中的秘密。
在下面的示例中,不确定使用哪种方式的问题与算术和谐波方式特别相关。
* Cueball有一些美元,并希望购买欧元。假设银行将以$ 5的汇率将美元兑换为$ 6(约合0.83333€/ $或1.20000 $ /€)。 *梅根(Megan)有一些欧元,并希望购买美元。假设银行将以7美元的汇率将欧元兑换为6欧元(约合0.85714欧元/美元或1.16667欧元/欧元)。
CUEBALL和梅根决定完成自己之间的交流,以节省买卖价差的的汇率是成本上CUEBALL和梅根银行强加其作为服务做市商。
* Cueball提议平均5欧元:6美元和6欧元:7美元,以产生71欧元:84美元(约合0.84524欧元/美元或1.18310欧元/欧元)的比率来平分差额。 *梅根(Megan)提议通过平均6:5欧元和7:6欧元的比率来分摊差额,得出60:71欧元的比率(约0.84507欧元/美元或1.18333欧元/欧元)。
在一个方向(€/ $),Cueball使用算术平均值,但Megan在使用几何平均值,而在另一个方向($ /€),Megan使用算术平均值,但Cueball在使用几何平均值。这将创建两个比原始汇率更接近的新汇率,但新汇率彼此之间仍然有所不同。然后,Megan和Cueball可以重复此过程,并且费率将收敛到原始费率的几何平均值,即:
* sqrt((5/6)*(6/7))= sqrt(5/7)= 0.84515€/ $或 * sqrt((6/5)*(7/6))= sqrt(7/5)= 1.18322 $ /€。
确实存在一个算术几何均值,除使用算术和几何均数外,其定义与此相同,并且在微积分中有一定用途。在某些方面,它在哲学上也类似于截断后的均值(值范围的极值,例如最高和最低的10%,被视为不可接受且不计算在内)或Winsorized均值(而不是被忽略,而是将值重新调整为他们所选择的最低/最高价值,仍然有效地算作“边缘”条件),只能使用一种奇怪的稀释和折衷方法,而不是仅仅因为与大多数情况出乎意料的不同而被剔除或中和的方法其他数据。
由Randall选择的数字(1、1、2、3、5)的输入序列也是斐波那契数列的开端。之所以选择这个选项,是因为斐波那契数列还具有收敛性质:当序列的长度接近无穷大时,序列中两个相邻数字的比率接近黄金比率。