被誉为生命科学“登月计划”的人类基因组测序再次取得重大进展:国际科学团队端粒到端粒联盟(T2T)发表了第一个完整的、无间隙的人类基因组序列,首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异。这是对标准人类参考基因组,即2013年发布的参考基因组序列(GRCh38)的“重大升级”。当地时间31日,《科学》杂志连发6篇论文报告这一成就。
2001年2月12日,由6国科学家共同参与的国际人类基因组计划首次公布人类基因组图谱及初步分析结果;2003年4月15日,公布了人类基因组序列草图。然而由于技术限制,当初的人类基因组计划留下了大约8%的“空白”间隙。这部分很难被测序,由高度重复、复杂的DNA块组成,其中包含功能基因以及位于染色体中间和末端的着丝粒和端粒。
新的无间隙版本被称为T2T-CHM13,由30.55亿个碱基对和19969个蛋白质编码基因组成。增加了近2亿个碱基对的新DNA序列,包括99个可能编码蛋白质的基因和其中近2000个需要进一步研究的候选基因。这些候选基因大多数是失活的,但其中115个仍然可能表达。团队还在人类基因组中发现了大约200万个额外的变异,其中622个出现在与医学相关的基因中。此外,新序列还纠正了GRCh38中的数千个结构错误。
具体而言,新序列填补的空白包括人类5条染色体的整个短臂,并覆盖了基因组中一些最复杂的区域。其中包括在重要的染色体结构中及其周围发现的高度重复的DNA序列,如染色体末端的端粒和在细胞分裂过程中协调复制染色体分离的着丝粒。新序列还揭示了以前未被发现的节段重复,即在基因组中复制的长DNA片段,已知其在进化和疾病中发挥重要作用。
新序列还在识别和解释遗传变异方面具有重要改进,并揭示了关于着丝粒周围区域的前所未见的细节。这一区域内的变异性可能为人类祖先如何进化提供新证据。
研究人员称,这一完整的、无间隙的序列对于了解人类基因组变异的全谱和了解某些疾病的遗传贡献至关重要。
研究人员表示,下一阶段的研究将对不同人的基因组进行测序,以充分掌握人类基因的多样性、作用以及我们与近亲、其它灵长类动物的关系。
【总编辑圈点】
基因组的某些区域,其实是一遍又一遍的重复,这些重复区域包括细胞分裂中一些极其关键的部分,也包括可能帮助物种适应的新基因。在过去,所有这些重复使得科学家无法以正确的顺序“组装碎片”——就像高难度的、几乎每一块都相同的拼图,而人们不知道其中哪一块该放在哪,就在基因组图谱上留下了巨大空白。现在的最新成果不再有任何隐藏或未知的部分,或者也可以说,一个全新的基因宝库正在全人类面前徐徐打开。