新的DNA测序和特殊的k-mer

医学2020-11-09 19:42:50
导读 DNA测序技术是由Frederick Sanger于1977年发明的。它花了更长的时间才有可能测序一个完整的基因组。这是因为我们需要一个合适的数学模型

DNA测序技术是由Frederick Sanger于1977年发明的。它花了更长的时间才有可能测序一个完整的基因组。这是因为我们需要一个合适的数学模型和巨大的计算能力来组装数以百万计或数十亿计的小读入到一个更大的完整基因组。今天的计算能力和软件是21世纪初需要多年工作和今天只需几个小时工作的主要区别。你选择的算法是装配技术的“圣杯”。这些算法包含了数学模型中最著名的变量之一k-mer。

k-mer及其数学模型的起源来自1735年的瑞士数学家莱昂哈德·欧拉,他被称为数学函数之父。一位荷兰数学家Nicolaas de Bruijn利用欧拉的想法,从一个给定的字母表中找到了一个循环序列的字母,在这个循环序列中,某一长度的所有可能的单词都作为一串连续的字符出现一次。

de Bruijn的算法被分子生物学家采用,许多年后他们面临着同样的问题:如何组装DNA序列。因此,世界各地的科学家现在都使用德布鲁因图和变量k。

k-mers在DNA序列组装中的应用

简单地说,从头基因组组装包括连接连续的小DNA读取和以更大的序列结束。要生成一个de Bruijn图(见下图),每个读边的核苷酸必须与另一个读边重叠(等等)。最终的目标是创建一个连续的顶点,这个顶点(可能)会产生大的DNA片段。

你必须将你的阅读片段分解成k-mers,这是一个特定数量的核苷酸重叠。k-mer允许您从许多小的序列中生成唯一的序列。每一个独特的k-mer序列都被识别,额外的副本被消除。k-mers的这一方面允许您克服下一代测序的一个缺点——获得代表不同频率的基因组区域(即,从一个区域获得大量的小读取)。使用k-mers可以消除由于序列覆盖不均匀而重复多次的序列。然而,请记住,低k-mer的大小会增加核苷酸重叠的机会,而较大的值会减少它们。

当您使用大型读库(即与较小的(100-200个基点)相结合。软件程序可以使用k值和k-mers来组装短读。然后,可以将这些数据合并并由较大的数据进行验证,最终得到更精确的连续数据。

你知道的越多,你就能在DNA组装中得到更多

在组装方法中应用De Bruijn图形并选择最合适的k-mer大小之前,需要考虑一些特定的技巧。通过利用这些,你可以产生更好的结果。

首先,可能也是最重要的,是在程序集中使用许多不同的k-mers。然后你应该评估你的结果并选择最好的一个。永远不要忘记,几乎没有且只有一个正确的程序集。

在使用k-mer之前,应该小心处理错误读取。如果不小心删除错误,结果可能会造成不必要的凸起,使程序集复杂化。增加在序列修剪期间使用的错误率的阈值。你可能会失去一些序列,但那些留下的将是最好的。

你应该小心地处理DNA重复。例如,Illumina测序产生了大量的数据。首先,尝试组装一小部分读取,然后使用它们来识别差异。可重复的短读可能对组装过程产生负面影响。

知道你的数据。如果您不知道预期基因组的大小、测序覆盖率和读取次数,那么您更倾向于选择最好的k值来组装您的基因组。你可以去拜访k-mer咨询公司,比如莫纳什大学的天鹅绒顾问公司(velvet advisor),从中得到一些建议,看看哪种价值更适合你。

使用不同长度的k-mers和调整连续序列也有助于研究人员发现突变率,扩大其使用。当然,操纵De Bruijn图以获得装配利益并不是万能药。有很多事情要考虑,而不是一个简单的功能组装一个活的有机体的基因组。这只是对历史的介绍,以及生物学家如何更有效地利用它。

免责声明:本文由用户上传,如有侵权请联系删除!