广泛使用的人类基因组参考文献缺少3亿个DNA

资讯 2020-11-13 21:26:53

在过去的17年中,全球大多数科学家一直在使用核酸序列或基因组,DNA信息的集合,主要是从单个个体作为一种“基线”参考和人类物种表征来比较遗传变异。一群人。被称为GRCh38参考基因组,它定期更新来自其他个体的DNA序列,但在一项新的分析中,约翰霍普金斯大学的科学家们现在说,910名非洲人后裔的集体基因组有很大一块 - 大约3亿比特 - - 基础参考基因组中缺失的遗传物质。“人类的DNA比我们原先想象的要多得多,”约翰霍普金斯大学彭博生物医学工程,计算机科学和生物统计学杰出教授Steven Salzberg博士说。

了解人群中基因组的变异对于研究设计至关重要,以揭示为什么某些人或群体可能或多或少地易患常见的健康状况,例如心脏病,癌症和糖尿病,萨尔茨伯格说,科学家需要建立更多参考基因组更接近地反映不同的种群。“整个世界都依赖于基本上是一个单一的参考基因组,当一个特定的DNA分析与参考文献不匹配而你扔掉那些不匹配的序列时,那些丢弃的比特实际上可能会得到你的答案和线索。寻求,“萨尔茨伯格说。雷切尔谢尔曼,报告的第一作者和博士。约翰斯·霍普金斯大学的计算机科学专业的学生说:“如果你是一名寻找与特定人群中更为普遍的病症相关的基因组变异的科学家,你需要将基因组与更能代表该人群的参考基因组进行比较。 “。

具体而言,世界参考基因组由少数匿名志愿者的核酸序列组装而成。其他研究人员后来确定,70%的参考基因组来自一个半欧洲和半非洲的个体,其余来自欧洲和中国血统的多个人,萨尔茨伯格说。“这些结果强调了对来自不同背景和祖先的人群进行研究以创建人类基因组全面和包容性图片的重要性,”国家心脏病肺病科主任James P. Kiley博士说。 ,肺和血液研究所(NHLBI),支持该研究。“更全面的人类基因组图片可能会让我们更好地了解不同人群的疾病风险变化。”许多研究人员在寻找参考基因组与他们正在研究的个体的基因组之间的微小差异 - 有时只是DNA中化学碱基对的单一变化。这些小变化称为单核苷酸多态性或SNP。然而,Salzberg的团队专注于基因组中更大的变异。“SNP与确定个体的血统非常相关,但它们并不能很好地确定可能导致常见病症和疾病的遗传变异,”Salzberg说。“一些情况可能是由于基因组较大部分的变异。”

在两年的时间里,Salzberg和Sherman分析了910人的​​DNA序列,寻找至少1000个碱基对的DNA片段,这些片段与参考基因组不对齐或匹配。“在这些DNA序列中,使一个人独特,”谢尔曼说。他们组装了这些序列,寻找重叠和冗余,筛选出短于1,000个碱基对的序列,以及可能与细菌相关的DNA,这种细菌在所有人类中都有发现。然后,他们将所有910个个体的组装序列与标准参考基因组进行比较,以找出萨尔茨伯格所称的“你可能拥有的DNA块,而不是我的DNA块”。

总之,他们发现3亿个碱基对的DNA - 大约是整个人类基因组估计大小的10% - 参考基因组没有考虑到这一点。他们发现的最大的独特DNA长度为152,000碱基对,但大多数块长约1,000-5,000碱基对。这些DNA序列中的一小部分可能与编码蛋白质或其他细胞功能的基因重叠,但Salzberg说,它们没有绘制每个序列的功能。他们也未能找到与哮喘相关的序列。但萨尔茨伯格并没有被吓倒:“在你调查景观之前,你无法弄清楚什么是有用的。”

版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。