[2731] K-Means Clustering

Title Text:According to my especially unsupervised K-means clustering algorithm, there are currently about 8 billion types of people in the world.

Origin:https://xkcd.com/2731/

https://www.explainxkcd.com/wiki/index.php/2731:_K-Means_Clustering

k-均值聚类

http://xkcd.in/comic?lg=cn&id=2731

Ponytail正在进行关于她研究小组对世界上不同类型的人进行分析的演讲。
一种常见的讽刺观察类别是使用短语“世界上有两种人……那些做A的人和那些做B的人”。在这里，B通常是A的对立面，尽管不总是如此。最自我指涉的版本是一个笑话：“世界上有两种人——那些把人分成两类的人和那些不分的人。”其他众所周知的版本包括：“世界上有三种人——那些会数数的人和那些不会数数的人”，“世界上有两种人——那些可以外推的人……”，以及“世界上有10种人——那些懂二进制的人和那些不懂的人。”
Ponytail使用了k均值聚类，其中k=3。这是一种对数据进行分类的方法。为了解释它的工作原理，想象一组具有不同身高和体重的人们，应该将其分为3个组（将k的值设为3）。做法之一是将数据绘制在散点图上，然后随机选择三个参考点，然后根据离参考点最近的人来将其分类为初始的3个组。在形成了3个组之后，找到每个组中每个项目的数据点的平均值；然后将这些平均数据点用作新的参考点，再次将所有数据分成3个新的组。重复此过程直到数据收敛为止；也就是说，在选择了新的参考点后，数据点不再改变组别。
k均值算法相当简单，因此很受欢迎，但它也有一个主要缺点：分析员必须确定要将数据分成多少组（或聚类）（也就是设置k等于多少）。如果k的值与数据的基本结构不匹配，可能会导致无法通过区分每个聚类的特性来解释分区（换句话说，它们的定性解释不清楚）。
如果Ponytail本身属于将k=3作为固定值使用的人群，这意味着无论如何都会得到三个数据聚类，那她对于存在三个聚类并不令人惊讶。然而，笑话是，虽然一个组的特征是“使用K=3”，这在逻辑上意味着不属于该组的所有数据都不使用k=3……但是对于其他两个组，则适用于两个组，这意味着其他两个组之间的区别是不清楚的。
通过使用k均值聚类时，只需将其改为使用k小于3和使用k大于3的三个组来划分其余的数据似乎没有问题……除了要计算那些根本没有预先确定k值的人！（理想情况下，也许可以找到最低的实用k值，使其尽可能地紧密集中在任何聚类焦点附近，这需要根据分析的细节具有各种竞争解决方案。）
在标题文本中，Ponytail（也可能是Randall）声称：“根据我的特别无监督的K均值聚类算法，世界上目前大约有80亿种类型的人。”
这似乎是Randall说每个人都是独特的，不能以有意义的方式将其分为组。人类口碑在2022年11月15日超过了80亿，在这部漫画发布之前的两个半月。
标题文本中使用了K均值算法的一个夸张变体。如果聚类数等于数据点数，那么每个点都将被分配到一个单独的集群中，而每个成员都是其自己组别的唯一成员。在这种情况下，无法对任何两个成员之间的相似之处进行有意义的评论。这是个幽默的点，因为这将使得聚类算法通常用于的目的无法实现，例如创建保险风险池或广告宣传的目标。在评估k或k-1个聚类对于描述数据更有用时，与聚类数或每个聚类的点数相关的权重可能会鼓励合并相同的聚类（对于完全重合的成员点）。一段接近相同的源数据对聚类的点的表达足够好，但Randall的无约束算法似乎缺乏这样的度量，并且停留在“完美”的初始假设上，即k小于或等于k。
有趣的是，通过包括整个人类群体，该算法应该对创建其输入数据免于偏见。然而，如果每个人都像Randall的算法所声称的那样是独一无二的，那么使得聚类收敛的唯一方法是将某些人类特征视为不重要而“舍弃”。这可能会遭到不同意该评估的人的反对。相比之下，在受监督的算法中，训练数据标有训练者寻求的特征。这些特征可能以一种在社会上不可接受的方式应用，并导致反映训练者偏见的AI行为。

Inspired Life!

k-均值聚类

More From Author

[2981] Slingshots

[2980] Lava Lakes

[2979] Sky Alarm

Leave a Reply Cancel reply

k-均值聚类

You May Also Like

More From Author

Leave a Reply Cancel reply