Title Text:According to my especially unsupervised K-means clustering algorithm, there are currently about 8 billion types of people in the world.
Origin:https://xkcd.com/2731/
https://www.explainxkcd.com/wiki/index.php/2731:_K-Means_Clustering
k-均值聚类
http://xkcd.in/comic?lg=cn&id=2731
Ponytail正在进行关于她研究小组对世界上不同类型的人进行分析的演讲。
一种常见的讽刺观察类别是使用短语“世界上有两种人……那些做A的人和那些做B的人”。在这里,B通常是A的对立面,尽管不总是如此。最自我指涉的版本是一个笑话:“世界上有两种人——那些把人分成两类的人和那些不分的人。”其他众所周知的版本包括:“世界上有三种人——那些会数数的人和那些不会数数的人”,“世界上有两种人——那些可以外推的人……”,以及“世界上有10种人——那些懂二进制的人和那些不懂的人。”
Ponytail使用了k均值聚类,其中k=3。这是一种对数据进行分类的方法。为了解释它的工作原理,想象一组具有不同身高和体重的人们,应该将其分为3个组(将k的值设为3)。做法之一是将数据绘制在散点图上,然后随机选择三个参考点,然后根据离参考点最近的人来将其分类为初始的3个组。在形成了3个组之后,找到每个组中每个项目的数据点的平均值;然后将这些平均数据点用作新的参考点,再次将所有数据分成3个新的组。重复此过程直到数据收敛为止;也就是说,在选择了新的参考点后,数据点不再改变组别。
k均值算法相当简单,因此很受欢迎,但它也有一个主要缺点:分析员必须确定要将数据分成多少组(或聚类)(也就是设置k等于多少)。如果k的值与数据的基本结构不匹配,可能会导致无法通过区分每个聚类的特性来解释分区(换句话说,它们的定性解释不清楚)。
如果Ponytail本身属于将k=3作为固定值使用的人群,这意味着无论如何都会得到三个数据聚类,那她对于存在三个聚类并不令人惊讶。然而,笑话是,虽然一个组的特征是“使用K=3”,这在逻辑上意味着不属于该组的所有数据都不使用k=3……但是对于其他两个组,则适用于两个组,这意味着其他两个组之间的区别是不清楚的。
通过使用k均值聚类时,只需将其改为使用k小于3和使用k大于3的三个组来划分其余的数据似乎没有问题……除了要计算那些根本没有预先确定k值的人!(理想情况下,也许可以找到最低的实用k值,使其尽可能地紧密集中在任何聚类焦点附近,这需要根据分析的细节具有各种竞争解决方案。)
在标题文本中,Ponytail(也可能是Randall)声称:“根据我的特别无监督的K均值聚类算法,世界上目前大约有80亿种类型的人。”
这似乎是Randall说每个人都是独特的,不能以有意义的方式将其分为组。人类口碑在2022年11月15日超过了80亿,在这部漫画发布之前的两个半月。
标题文本中使用了K均值算法的一个夸张变体。如果聚类数等于数据点数,那么每个点都将被分配到一个单独的集群中,而每个成员都是其自己组别的唯一成员。在这种情况下,无法对任何两个成员之间的相似之处进行有意义的评论。这是个幽默的点,因为这将使得聚类算法通常用于的目的无法实现,例如创建保险风险池或广告宣传的目标。在评估k或k-1个聚类对于描述数据更有用时,与聚类数或每个聚类的点数相关的权重可能会鼓励合并相同的聚类(对于完全重合的成员点)。一段接近相同的源数据对聚类的点的表达足够好,但Randall的无约束算法似乎缺乏这样的度量,并且停留在“完美”的初始假设上,即k小于或等于k。
有趣的是,通过包括整个人类群体,该算法应该对创建其输入数据免于偏见。然而,如果每个人都像Randall的算法所声称的那样是独一无二的,那么使得聚类收敛的唯一方法是将某些人类特征视为不重要而“舍弃”。这可能会遭到不同意该评估的人的反对。相比之下,在受监督的算法中,训练数据标有训练者寻求的特征。这些特征可能以一种在社会上不可接受的方式应用,并导致反映训练者偏见的AI行为。