人类染色体的首个端到端DNA序列–“基因组学研究的新纪元”
图像描绘了DNA序列的拼图碎片。
美国国立卫生研究院(NIH)的一部分的美国国家人类基因组研究所(NHGRI)的研究人员已经产生了人类染色体的第一个端对端DNA序列。该结果于今天(2020年7月14日)发表在《自然》(Nature)杂志上,表明现在有可能生成一个精确的,逐个碱基的人类染色体序列,这将使研究人员能够生成人类基因组的完整序列。
NHGRI主任医学博士Eric Green说:“这项成就开启了基因组学研究的新纪元。”“能够生成真正完整的染色体和基因组序列的能力是一项技术专长,将有助于我们全面了解基因组功能,并为医学护理中基因组信息的使用提供信息。”
经过近二十年的改进,人类基因组的参考序列是有史以来最准确,最完整的脊椎动物基因组序列。但是,存在数百个未知的缺口或缺失的DNA序列。
这些缺口通常包含重复的DNA片段,这些片段很难测序。然而,这些重复部分包括可能与人类健康和疾病有关的基因和其他功能元件。
由于人类基因组非常长,由大约60亿个碱基组成,因此DNA测序仪无法一次读取所有碱基。相反,研究人员将基因组切成较小的片段,然后分析每个片段,一次产生数百个碱基的序列。然后必须将这些较短的DNA序列放在一起。
国家人类基因组研究所(NHGRI)的资深作者亚当·菲利普(Adam Phillippy)博士将这个问题与解决难题相提并论。
“想象一下,必须重建一个拼图游戏。如果您使用的是较小的作品,则每个作品都包含较少的上下文来弄清它的来源,特别是在拼图的某些部分中,没有任何独特的线索,例如蓝天,”他说。“对人类基因组测序也是如此。到目前为止,这些碎片还太小,无法将基因组难题中最难的部分放在一起。”
在加利福尼亚大学圣克鲁斯分校的24条人类染色体(包括X和Y染色体)中,研究作者Phillippy和Karen Miga博士选择首先完成X染色体序列,因为该序列与多种疾病相关包括血友病,慢性肉芽肿病和杜兴氏肌营养不良症。
人类有两套染色体,每一对父母都有一套。例如,生物学上的女性人类继承了两条X染色体,一条来自其母亲,一条来自其父亲。但是,这两个X染色体并不相同,它们的DNA序列将包含许多差异。
在这项研究中,研究人员没有对正常人类细胞的X染色体进行测序。相反,他们使用一种特殊的细胞类型-具有两个相同的X染色体。这样的细胞比仅具有X染色体单拷贝的雄性细胞提供更多的DNA进行测序。它还可以避免分析典型雌性细胞的两个X染色体时遇到的序列差异。
作者及其同事利用了可以对DNA的长片段进行测序的新技术。他们没有准备和分析DNA的小片段,而是使用了一种使DNA分子保持完整的方法。然后用两种不同的仪器分析这些大的DNA分子。它们每个都产生很长的DNA序列-以前的仪器无法完成。
在以这种方式分析了人类X染色体后,Phillippy和他的团队使用了他们新开发的计算机程序来组装生成序列的许多片段。Miga的研究小组致力于缩小X染色体上最大的剩余序列缺口,这是在染色体中间部分(着丝粒)发现的大约300万个重复DNA碱基。
没有“黄金标准”可供研究人员严格评估组装这种高度重复的DNA序列的准确性。为了帮助确认所生成序列的有效性,Miga和她的合作者执行了几个验证步骤。
“我们以前从未在基因组中真正看到过这些序列,也没有很多工具来检验我们所做的预测是否正确。这就是为什么重要的一点是,要让基因组学领域的专家参与进来,并确保最终产品是高质量的。” Miga说。
这项工作是端粒到端粒(T2T)联盟更广泛的计划的一部分,该联盟由NHGRI资助了一部分。该联盟旨在产生人类基因组的完整参考序列。
T2T联盟正在继续努力处理剩余的人类染色体,以期在2020年产生完整的人类基因组序列。
“我们还不知道在新发现的序列中会发现什么。这是发现的令人兴奋的未知数。这是完整的基因组序列的时代,我们全心全意地拥抱它。
潜在的挑战仍然存在。例如,染色体1和9的重复DNA片段比X染色体上遇到的片段大得多。
米加说:“我们知道基因组中这些以前未知的位点在个体之间非常不同,但是重要的是开始弄清楚这些差异如何导致人类生物学和疾病的发展。”Phillippy和Miga都同意增强测序方法将继续为人类遗传学和基因组学创造新的机会。
参考:Karen H. Miga,Sergey Koren,Arang Rhie,Mitchell R. Vollger,Ariel Gershman,Andrey Bzikadze,Shelise Brooks,Edmund Howe,David Porubsky,Glennis A. Logsdon撰写的“完整的人类X染色体的端粒组装” ,瓦莱丽·施耐德(Valerie A. F.汉森,艾米·B·威尔弗特,弗朗索瓦·蒂博·尼森,安东尼·D·史密特,乔恩·马修·贝尔顿,西达斯·塞瓦拉伊,梅根·丹尼斯,丹妮拉·C·索托,鲁塔·萨哈斯拉布德,古尔汉·卡亚,乔什·Quick,尼古拉斯·J·罗曼,纳丁·福尔摩斯(Nadine Holmes),马修·罗斯(Matthew Loose),乌尔瓦希·苏蒂(Urvashi Surti),罗莎·安娜·里斯奎斯(Rosa ana Risques),蒂娜·A·格雷夫斯·林赛,罗伯特·富尔顿,艾拉·霍尔,本尼迪克特·帕滕,凯斯汀·豪,温斯顿·廷普,爱丽丝·扬,詹姆斯·C·穆利金,帕维尔·A·佩夫兹纳,珍妮弗Gerton,Beth A.Sullivan,Evan E.Eichler和Adam M.Phillippy,2020年7月14日,《自然》。
10.1038 / s41586-020-2547-7