Title Text:Spellcheck has been great, but whoever figures out how to get grammar check to work is guaranteed a Nobel.
Origin:https://xkcd.com/2298/
https://www.explainxkcd.com/wiki/index.php/2298:_Coronavirus_Genome
冠状病毒基因组
http://xkcd.in/comic?lg=cn&id=2298
此漫画处于另一漫画系列漫画相关的2020流感大流行的的冠状 SARS-CoV的-2 ,这将导致COVID-19。
它也是新系列的第一个,随后是2299年的下一个漫画:冠状病毒基因组2。
梅根(Megan)是一位研究SARS-CoV-2病毒的遗传学家。她正在分析该病毒的基因组,其遗传物质由RNA组成。基因组序列可以表示为核苷酸碱基的列表(鸟嘌呤,腺嘌呤,胞嘧啶,胸腺嘧啶和尿嘧啶 -通常缩写为G,A,C,T和U)。
显示的核苷酸序列与公共数据库中的6个SARS-CoV-2序列100%匹配,这些序列均来自美国东海岸。该序列来自病毒基因组的核苷酸26202-26280,与未知的开放阅读框/基因ORF3a重叠。匹配序列之一是[1]。但是,SARS-CoV-2是一种RNA病毒,因此其遗传物质(不包含任何DNA)将不包含胸腺嘧啶(T),而将使用尿嘧啶(U)。序列已更改,类似于更熟悉的DNA编码。
Cueball对梅根和她的同事实际上使用Microsoft Notepad(一个简单的文本编辑器)查看基因组而不是使用更现代的技术感到惊讶。她解释说,更好的研究机构使用Microsoft Word(一种更高级的编辑器)来允许其他格式(例如粗体和斜体),并幽默地称其为“ 表观遗传学”。“在现实世界中,表观遗传学是对变化的研究,这些变化不是由核苷酸的变化引起的,而是由引起基因表达和激活模式变化(有时下降了几代)的DNA或染色体的化学修饰引起的。类似于通过更改其格式而不是内容来更改文本的含义;例如,可以将内容移到括号或脚注中以使其不再强调,也可以将其以粗体显示或放大以吸引注意力并强调要点。文本可以包裹在HTML标签或类似的标记中以更改其格式,核苷酸可以被甲基化以防止转录,而组蛋白还可以修饰缠绕DNA的区域,以促进或抑制基因表达。在DNA复制过程中,通常还会复制这些修饰。
当梅根使用拼写检查通过将先前的基因组添加到拼写检查并进行比较来检测基因组中的突变时,真正的突破口来了。总体而言,梅根使用荒谬和幽默的粗略方法来分析一个主要的遗传项目。SARS-CoV-2的基因组大约有30,000个碱基对,超过了最长的词任何自然语言的数量都增加了两个数量级(文学中使用过的最长单词-即不是单纯为了构成一个长单词或化学式而孤立地构建的-接近200个字母),并且可能超过任何可用的拼写检查程序。此外,如果单个字母有误,则拼写检查程序会在整个单词下划线,而不仅仅是字母本身。因此,它将不能突出显示各个突变的碱基对。使用diff工具可能会更好地服务于Megan ,但大多数科学家通常使用旨在查看,注释和编辑DNA序列的商业软件(例如:Snapgene,Geneious,DNAstrider,ApE)。
标题文字提到语法检查,并声称凡发现如何使用该语法比较基因组材料的人均应获得诺贝尔奖。拼写检查类似于将序列与以前已知的序列进行比较,这种活动是当今生物信息学的基础。语法检查将类似于对所有序列通常如何协作和相互作用以在生物体中创建可能的可行功能具有某种意义,这是我们目前无法做到的,除非以非常有限的方式,而且只有少数几种简单的情况。对于一般的语法检查程序来说,它也可能是一个刻薄的评论,它通常严格遵循语法规则,而不是实际应用,特别是在英语中(语法规则很多并且经常相互矛盾);它’