神经网络填补了染色体空间分析的数据空白

新闻2019-11-08 11:38:25
导读卡内基梅隆大学的计算生物学家已经证明,用于填补低质量图像或视频中缺失像素的计算方法还可以帮助科学家提供有关细胞中DNA的组织方式的缺

卡内基梅隆大学的计算生物学家已经证明,用于填补低质量图像或视频中缺失像素的计算方法还可以帮助科学家提供有关细胞中DNA的组织方式的缺失信息。

CMU计算学副教授马剑说,填写这些缺失的信息将使人们能够更容易地研究染色体的3D结构,尤其是可能在疾病形成和决定细胞功能中起关键作用的子小室。生物系。

在《自然通讯》杂志今天发表的研究论文中,CMU博士Ma和Kyle Xiong表示。匹兹堡大学CMU学生,联合博士学位。计算生物学计划报告说,他们成功地将机器学习方法应用于9个细胞系。这使他们第一次能够研究跨这些线与子隔间相关的空间组织的差异。

以前,只能在单一细胞类型的成淋巴细胞样细胞(一种称为GM12878的细胞系)中揭示亚区室,该细胞系已使用Hi-C技术进行了详尽的穷举测序,该技术可测量基因组所有区域之间的空间相互作用。

熊说:“我们现在对染色体中DNA的线性组成了解很多,但是在人类细胞的核中,DNA不是线性的。” “细胞核中的染色体被折叠并包装成3-D形状。这种3-D结构对于理解发育和疾病中的细胞功能至关重要。” 子隔间特别受关注,因为它们反映了具有高交互性的染色体区域的空间隔离。

马云说,科学家们渴望了解更多关于子隔间并置及其如何影响细胞功能的知识。但是直到现在,研究人员只有在覆盖率非常高的Hi-C数据集时才可以计算子隔室的模式,也就是说,DNA的序列非常详细,可以捕获更多的相互作用。除GM12878以外,其他细胞系的数据集中都缺少该详细程度。

熊与Ma一起工作,使用了一种称为降噪自动编码器的人工神经网络来帮助填补不完整的Hi-C数据集中的空白。在计算机视觉应用中,自动编码器可以通过学习通常一起找到哪种类型的像素并做出最佳猜测来提供缺失的像素。熊将自动编码器改编为高通量基因组学,使用GM12878的数据集对其进行训练,以识别出来自不同染色体的DNA对的哪些序列通常可能在细胞核的 3-D空间中相互作用。

Ma和Xiong称之为SNIPER的这种计算方法被证明可以成功地识别8个细胞系中的小室,这些细胞系仅基于部分Hi-C数据进行染色体间的相互作用。他们还将SNIPER作为控件应用于GM12878数据。但熊先生指出,目前尚不知道该工具可用于所有其他细胞类型的广泛性。他和马先生正在继续改进该方法,因此可以在多种细胞条件下甚至在不同的生物体中使用。

Ma说:“我们需要了解小室模式如何参与细胞的基本功能,以及突变如何影响这些3-D结构。” “到目前为止,在我们已经能够研究的几种细胞系中,我们看到某些亚区室在细胞类型之间是一致的,而其他亚区室则各不相同。还有很多事情需要学习。”

免责声明:本文由用户上传,如有侵权请联系删除!