[2739] Data Quality

Title Text:[exclamation about how cute your cat is] -> [last 4 digits of your cat’s chip ID] -> [your cat’s full chip ID] -> [a drawing of your cat] -> [photo of your cat] -> [clone of your cat] -> [your actual cat] -> [my better cat]

Origin:https://xkcd.com/2739/

https://www.explainxkcd.com/wiki/index.php/2739:_Data_Quality

数据质量

说你的猫有多可爱的感叹] -> [你猫的芯片ID的最后4位] -> [你猫的完整芯片ID] -> [你猫的图画] -> [你猫的照片] -> [你猫的克隆] -> [你真正的猫] -> [我更好的猫]

注:哈希表别名散列表

http://xkcd.in/comic?lg=cn&id=2739

数字数据可以被压缩以提高传输和/或存储效率;一些压缩算法会舍弃一些信息以改善压缩,这被称为有损压缩,因为会丢失一些信息(在音频或视觉数据中,这可能对人类来说很难察觉,因此可以接受)。

这个漫画以线状图表格的形式展示了质量从非常有损到最无损的增加。这意味着,极端情况下,从几乎没有足够的信息以至于变得无意义的情况,到包含显著额外信息(最终使原始数据成为一个无关紧要的干扰因素)。其中一些额外信息可以减轻数据中另一种“丢失”的风险——数字数据以位的形式进行传输,数据丢失是指在数据传输过程中某些位丢失或改变的过程。然而,“更好的数据”的最高质量是使用了“质量”一词的另一种含义,更多指的是数据的总体优点,而不是具体精确地表示原始数据。

标题使用了你的猫作为信息丢失(或者在图表的后半部分,信息增加)范围的例子。这可能是对诺伯特·维纳的引用:“最好的描述猫的材料模型是另一只猫,或者最好是同一只猫。”丢失信息最多的是一句关于你的猫有多可爱的感叹,这是短暂的,显然对于提供关于你的猫的具体、可传递的信息来说没有太大意义。接下来的例子可能包括你的猫的芯片ID;推测你的猫已经被植入芯片,通过芯片ID的最后四位数(通常用作敏感信息中的识别符号而不显示完整数字)或整个芯片ID,提供了一种仍然没有提供信息但稍微改进了识别你的猫的方式。你的猫的画像和照片会比较好地描绘猫的形象,而一只与你的猫相似的猫咪(当然还有你真正的猫)会是获取关于你的猫的信息的最佳方式。然而,就像在实际漫画中一样,数据传输的最后、最无损(在这种情况下,增加最多)的形式与你的猫无关,而只是Randall的更好的猫。这似乎被Randall认为是猫数据的巅峰。

细节:

项目
说明

曾经在派对上见过描述它的数据的人

这是指口头二手获取信息时的不可靠和不准确性,因为人类在接收到的信息传递时天生就不善于保持准确性。这是电话游戏的基本前提。人们本能地思考总结接收到的信息,通常用自己的话来理解,而不是字面上听到或读到的内容。

布隆过滤器

布隆过滤器是一种概率数据结构,可以高效地判断一个元素是否可能属于数据集,但可以以100%的准确率说 “元素不在集合中”。如果使用布隆过滤器来表示一本书的内容,可以通过猜测来重新构建一切,但这是一种效率极低且可能不准确的方法。

哈希表

哈希表允许您快速查找数据。Randall可能指的是对整本书的内容进行哈希。对整本书进行哈希值计算意味着书和哈希值之间(很大概率上)存在唯一的关系,例如:”58b8893b172d00e9″。这意味着这本书的确切版本将产生这个确切的哈希值,尽管从哈希值中重建书的潜在内容实际上是不可能的。这是一种检查副本与原始副本是否相同的方法,但它本身是没有意义并且有可能是错误的。一本普通的书包含数百万位,而SHA-2哈希只有256位,因此从理论上讲,可能有很多(主要是无意义的,但不一定)“错误”的版本看起来是正确的。

JPEG、GIF、MPEG

这是被认为是“有损”的图像和视频格式。JPG(或“JPEG”)格式和MPEG系列格式通常使用一系列的数据压缩方法,通过有选择地模糊(因此丢失)图像(和音频,需要时)的细节来节省空间,从而在压缩中获得不成比例的收益;最适用于现实世界的图像(和电影),其中现实世界的“噪声”可以被一个更容易压缩的版本替代,而不会有太明显的变化。GIF压缩方式不同,即无论它被要求编码什么都可以被忠实地解码,但Randall可能认为其限制(它只能编写256种独特色调的图像,尽管这些色调可以来自整个65,536个“真彩”范围,还可以是透明的)是一种损失形式,因为从更复杂的格式(例如PNG,下面会提到)转换可能会丢失许多原始图像的微妙色调,并产生较差的图像。因此,GIF格式更适合绘制带有大片相同像素和大多数尖锐边缘的图表和其他计算机生成的图像(并利用可选的透明掩模),而JPEG压缩会产生明显的图像伪影。或者,他可能只是把它作为一个笑话/技术性问题加进来。

PNG、ZIP、TIFF、WAV

这是一系列使用无损压缩的格式。PNG和TIFF是适用于照片的图像格式,但没有(必要)通过减少准确性来辅助压缩。WAV是一种音频格式,也不会随意舍弃“不必要”的细节,不像更近代开发的MPEG音频第三层,它成为很多人的消费音频格式。

ZIP是一种通用的压缩算法(以及它所创建的格式),可用于存储任何其他数字文件。放入ZIP文件中的任何内容都可以精确解压缩为原始状态,尽管任何以某种方式已经压缩的文件(如本漫画中提到的任何图像格式,或其他ZIP文件)可能不会再压缩很多。

奇偶校验位进行错误检测

在数字“135”中,其各位数的和为9。因此,可以将数字“135”写成“1359”,稍微增加需要发送的数据量。但稍微有个好处是,如果数字被篡改,奇偶校验位可能能告诉您发生了错误(可能是奇偶校验位本身被错误写入)。但是,在这种方法中,无法检测到从“1359”到“1539”的更改,当提取奇偶校验位并用它来假设前三个数字确实“正确”时。

还有更可靠的方法来检测错误,例如CRC-32(现在被认为已过时)、MD5和更现代的SHA。这些值在哈希表部分中曾被提到。但是,在这里它们与数据一起发送,稍微增加了传输/存储的数据量(以确定其准确性),而不是替代数据并大大减少“必要”数据的量(但要求正确重构几乎是不可能的)。

通过奇偶校验位进行错误修复

通过额外的错误检测,有办法立即恢复原始数据,并带有附加的数据。一种方法是“重叠”多个错误检测奇偶位,以便通过所有奇偶位和假设数据

You May Also Like

More From Author

Leave a Reply

Your email address will not be published. Required fields are marked *