Title Text:To avoid errors like this, we render all text and pipe it through OCR before processing, fixing a handful of irregular bugs by burying them beneath a smooth, uniform layer of bugs.
Origin:https://xkcd.com/2109/
https://www.explainxkcd.com/wiki/index.php/2109:_Invisible_Formatting
为了避免这些错误,我们在处理之前进行光学字符识别(OCR),将这些不寻常的错误埋在均匀,统一的漏洞层底部就解决了。
https://xkcd.in/comic?lg=cn&id=2109
在各种文字处理程序中,通过单击并拖动或双击突出显示文本,很容易突出显示应用标记时没有可见效果的字符(即斜体或粗体),例如空格或结尾段落段落。由于在大多数字体中,单词空间在粗体,斜体和常规字体之间看起来相同,这对最终用户如何读取文档没有影响,但理论上可能在某些情况下导致问题,尤其是在计算机可能会出现问题以不同或不正确的方式解析大胆的空格。如果文本光标没有清楚地指示当用户将鼠标悬停在其上时空格是粗体或斜体,则此问题更加复杂。兰德尔担心这一点。
在图示的情况下,Randall似乎没有通过双击选择单词,因为光标被描绘在单词的末尾而不是单词的顶部;相反,他点击并拖动鼠标光标来选择它。空间角色是一个相对较薄的角色,这使得很难避免和注意,但即便如此,大多数人都不会担心,如果他们选择它并且往往不打扰修理。 Randall稍后使用相同的单击并拖动方法删除粗体,但这次省略了空格,保留了该字符的粗体格式。因为它是一个空白字符,所以没有简单的方法可以告诉它仍然是粗体 – 即使它在粗体字体中略长,也可能很难注意到。这是漫画突出的情况,没有双关语意图。
通常,如果要通过双击突出显示单词,则单词和后面的空格都会突出显示,因此,如果Randall使用此方法突出显示,则可以避免此问题,因为空间将自动包含在内时间,因此也应该对空格字符进行删除标记。
虽然兰德尔可能会考虑由他的隐形格式引起的计算机相关问题,但他的大胆空间也有可能导致其他与计算机无关的问题。由于兰德尔加上“不是”这个词,但后来改变了主意,这表明他认为写作不是措辞太强。凭借一个看不见的大胆空间,无论文件的目的是什么,都可以注意到Randall的大胆空间,并认为“not”这个词最初是用粗体加粗的。根据具体情况,粗体“不”可能足以将文本的语气从礼貌和正式变为不屑一顾(例如“我们相信你不适合这个职位。”vs“我们认为你不适合这个职位。“)
在标题文本中,Randall通过OCR运行文本来表示他是“ixes”,这可以将物理副本或图像转换为文本。虽然这会“修复”不可见的格式(因为OCR无法检测到它),但这通常会破坏更多的格式化,并增加文本的不准确性。通过这种方式,没有人可以分辨出他引入了哪些错误以及OCR引入了哪些错误,他明白表示这种错误更好。
正如标题文本所说,Randall控制他发布的所有信息非常重要。现实世界的例子是政府出于政治原因改变报告的影响。大胆的空间可以揭示这种类型的篡改。另一个例子是一个随意而简短的一句话回复,例如:浪漫的兴趣,一个小时需要制定一个尽可能自然的声音。
在其他情况下,隐藏的大胆空间可能是后期编辑的问题等。请参阅下面的“琐事”部分。兰德尔在计算机编程方面的背景也可以使他更加关注这些类型的技术问题,因此将其作为他担心隐形格式化的原因。