用于基因组的数据处理方法和装置制造方法

文档序号:6538744阅读:158来源:国知局
用于基因组的数据处理方法和装置制造方法
【专利摘要】本发明公开了一种用于基因组的数据处理方法和装置。该用于基因组的数据处理方法包括:将目标基因组的信息与参考基因组的信息进行第一比对,得到第一比对结果;从第一比对结果中获取未比对上的基因组片段的信息;将未比对上的基因组片段的信息与参考基因组的信息进行第二比对,得到第二比对结果;以及从第二比对结果中获取目标基因组的特异序列的信息。通过本发明,解决了相关技术中难以得到精确的特异序列的问题。
【专利说明】用于基因组的数据处理方法和装置【技术领域】
[0001]本发明涉及数据处理领域,具体而言,涉及一种用于基因组的数据处理方法和装置。
【背景技术】
[0002]比较基因组分析方向包括:一,通过寻找物种之间基因组的相似的基因序列,研究物种之间可能具有的相似的基因功能和机制;二,通过寻找物种之间基因组宽广区域的的相似和特异序列,研究物种的进化历史和物种在进化过程中产生的基因组变异事件等。
[0003]目前,在相关技术中,在寻找物种之间基因组的特异序列时,只是将待研究物种的基因组蛋白序列同进化关系上的近缘物种的基因组蛋白序列进行比对,以得到物种间蛋白序列的比对信息,并将物种间蛋白序列的比对信息进行聚类,从而获得物种之间基因组的特异序列。由于基因组除了包括蛋白序列之外,还包括其他元件的序列,因而难以得到精确的特异序列。
[0004]另外,由于基因组的信息量较大,因此上述技术方案中基因组蛋白序列的比对需要消耗大量的时间和内存。
[0005]针对相关技术中难以得到精确的特异序列的问题,目前尚未提出有效的解决方案。

【发明内容】

[0006]本发明的主要目的在于提供一种用于基因组的数据处理方法和装置,以解决相关技术中难以得到精确的特异序列的问题。
[0007]为了实现上述目的,根据本发明的一个方面,提供了一种用于基因组的数据处理方法。该方法包括:将目标基因组的信息与参考基因组的信息进行第一比对,得到第一比对结果;从第一比对结果中获取未比对上的基因组片段的信息;将未比对上的基因组片段的信息与参考基因组的信息进行第二比对,得到第二比对结果;以及从第二比对结果中获取目标基因组的特异序列的信息。
[0008]进一步地,将未 比对上的基因组片段的信息与参考基因组的信息进行第二比对,得到第二比对结果包括:检测未比对上的基因组片段的信息中是否存在重复的序列信息;如果检测出未比对上的基因组片段的信息中存在重复的序列信息,则将重复的序列信息进行标注,得到标注过的信息;从未比对上的基因片段的信息中滤除标注过的信息,得到过滤后的信息;以及将过滤后的信息与参考基因组的信息进行比对,得到第二比对结果。
[0009]进一步地,第一比对结果包括多个同源基因组片段,其中,多个同源基因组片段为多个比对上的基因组片段,从第一比对结果中获取未比对上的基因组片段的信息包括:从第一比对结果中滤除多个同源基因组片段,得到多个未比对上的基因组子片段;根据多个未比对上的基因组子片段在目标基因组中的位置关系进行排序,得到多个未比对上的基因组子片段的序列;将序列中任意两个位置相邻且具有重叠部分的基因组子片段进行合并,得到包括多个合并的未比对上的基因组子片段的序列;以及连接包括多个合并的未比对上的基因组子片段的序列中的全部基因组子片段,得到未比对上的基因组片段的信息。
[0010]进一步地,第二比对结果包括多个同源基因组碎片,从第二比对结果中获取目标基因组的特异序列的信息包括:提取多个同源基因组碎片;根据多个同源基因组碎片在目标基因组中的位置关系进行排序,得到多个同源基因组碎片的序列;检测序列中任意两个位置相邻的同源基因组碎片是否存在重叠部分;如果检测出序列中任意两个位置相邻的同源基因组碎片存在重叠部分,则合并重叠部分,得到多个合并后的同源基因组碎片;以及从第二比对结果中滤除包括多个合并后的同源基因组碎片的信息,得到目标基因组的特异序列的信息。
[0011]进一步地,在提取多个同源基因组碎片之前,数据处理方法还包括:判断多个基因组碎片的长度是否大于等于预设长度;如果判断出多个基因组碎片的长度大于等于预设长度,则判断多个基因组碎片的相似度是否大于等于预设相似度;如果判断出多个基因组碎片的相似度大于等于预设相似度,则判断多个基因组碎片的比对率是否大于等于预设比对率;以及如果判断出多个基因组碎片的比对率大于等于预设比对率,则将多个基因组碎片的信息作为多个同源基因组碎片的信息。
[0012]为了实现上述目的,根据本发明的另一方面,提供了一种用于基因组的数据处理装置。该装置包括:第一比对单元,用于将目标基因组的信息与参考基因组的信息进行第一比对,得到第一比对结果;第一获取单元,用于从第一比对结果中获取未比对上的基因组片段的信息;第二比对单元,用于将未比对上的基因组片段的信息与参考基因组的信息进行第二比对,得到第二比对结果;以及第二获取单元,用于从第二比对结果中获取目标基因组的特异序列的信息。
[0013]进一步地,第二比对单元包括:第一检测模块,用于检测未比对上的基因组片段的信息中是否存在重复的序列信息;标注模块,用于如果检测出未比对上的基因组片段的信息中存在重复的序列信息,则将重复的序列信息进行标注,得到标注过的信息;第一过滤模块,用于从未比对上的基因片段的信息中滤除标注过的信息,得到过滤后的信息;以及比对模块,用于将过滤后的信息与参考基因组的信息进行比对,得到第二比对结果。
[0014]进一步地,第一比对结果包括多个同源基因组片段,其中,多个同源基因组片段为多个比对上的基因组片段,第一获取单元包括:第二过滤模块,用于从第一比对结果中滤除多个同源基因组片段,得到多个未比对上的基因组子片段;第一排序模块,用于根据多个未比对上的基因组子片段在目标基因组中的位置关系进行排序,得到多个未比对上的基因组子片段的序列;第一合并模块,用于将序列中任意两个位置相邻且具有重叠部分的基因组子片段进行合并,得到包括多个合并的未比对上的基因组子片段的序列;以及连接模块,用于连接包括多个合并的未比对上的基因组子片段的序列中的全部基因组子片段,得到未比对上的基因组片段的信息。
[0015]进一步地,第二比对结果包括多个同源基因组碎片,第二获取单元包括:提取模块,用于提取多个同源基因组碎片;第二排序模块,用于根据多个同源基因组碎片在目标基因组中的位置关系进行排序,得到多个同源基因组碎片的序列;第二检测模块,用于检测序列中任意两个位置相邻的同源基因组碎片是否存在重叠部分;第二合并模块,用于如果检测出序列中任意两个位置相邻的同源基因组碎片存在重叠部分,则合并重叠部分,得到多个合并后的同源基因组碎片;以及第三过滤模块,用于从第二比对结果中滤除包括多个合并后的同源基因组碎片的信息,得到目标基因组的特异序列的信息。
[0016]进一步地,该数据处理装置还包括:第一判断模块,用于在提取多个同源基因组碎片之前,判断多个基因组碎片的长度是否大于等于预设长度;第二判断模块,用于如果判断出多个基因组碎片的长度大于等于预设长度,则判断多个基因组碎片的相似度是否大于等于预设相似度;第三判断模块,用于如果判断出多个基因组碎片的相似度大于等于预设相似度,则判断多个基因组碎片的比对率是否大于等于预设比对率;以及确定模块,用于如果判断出多个基因组碎片的比对率大于等于预设比对率,则将多个基因组碎片的信息确认为多个同源基因组碎片的信息。
[0017]通过本发明,采用将目标基因组的信息与参考基因组的信息进行第一比对,得到第一比对结果;从第一比对结果中获取未比对上的基因组片段的信息;将未比对上的基因组片段的信息与参考基因组的信息进行第二比对,得到第二比对结果;以及从第二比对结果中获取目标基因组的特异序列的信息,解决了相关技术中难以得到精确的特异序列的问题,进而达到了提高特异序列的精确度的效果。
【专利附图】

【附图说明】
[0018]构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0019]图1是根据本发明实施例的用于基因组的数据处理装置的示意图;
[0020]图2是根据本发明实施例的优选地用于基因组的数据处理装置的示意图;
[0021]图3是根据本发明实施例的用于基因组的数据处理方法的流程图;以及
[0022]图4是根据本发明实施例的优选地用于基因组的数据处理方法的流程图。
【具体实施方式】
[0023]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0024]为了使本领域的技术人员更好的理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护范围。
[0025]需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
[0026]根据本发明的实施例,提供了一种用于基因组的数据处理装置,该用于基因组的数据处理装置用于获取精确的特异序列的信息,为准确的基因分析创造条件。
[0027]图1是根据本发明实施例的用于基因组的数据处理装置的示意图。
[0028]如图1所示,该装置包括:第一比对单元10、第一获取单元20、第二比对单元30和第二获取单元40。
[0029]第一比对单元10用于将目标基因组的信息与参考基因组的信息进行第一比对,得到第一比对结果。
[0030]具体地,可以通过MUMmer软件中的nucmer工具,将目标基因组同一个参考基因组进行第一比对,得到两个基因组之间的第一比对结果。需要说明的是,在全基因组范围的第一比对中,可以替换nucmer工具。
[0031]其中,目标基因组和参考基因组可以来自于不同的物种,并且目标基因组可以为待研究的物种的基因组,而参考基因组可以为基因信息已知的物种的基因组。例如,在分析柳树的基因组时,柳树的基因组可以作为目标基因组,并且如果要分析柳树与杨树之间的基因功能关系,可以将杨树的基因组作为参考基因组,而如果要分析柳树与槐树之间的基因功能关系,可以将槐树的基因组作为参考基因组。第一比对可以为初步比对,相应的第一比对结果可以为初步比对结果。需要说明的是,待研究的物种可以包括植物、动物和微生物
坐寸ο
[0032]优选地,在第一比对中,可以将目标基因组与参考基因组分别分割为N个基因区,将目标基因组的N个基因区可以与参考基因组的N个基因区同时进行比对。这样,可以节约比对时间,提高比对效率。
[0033]可选地,该数据处理装置还可以包括:第三获取单元和第四获取单元。其中,第三获取单元用于在将目标基因组的信息与参考基因组的信息进行第一比对,得到第一比对结果之前,第四获取单元用于获取目标基因组的信息,以及获取参考基因组的信息。
[0034]第一获取单元20用于从第一比对结果中获取未比对上的基因组片段的信息。
[0035]其中,第一比对结果可以包括比对上的基因组片段的信息和未比对上的基因组片段的信息。比对上的基因组片段又可以称为同源基因组片段。
[0036]具体地,第一获取单元20可以通过如下两种方法获取未比对上的基因组片段的
信息:
[0037]方法一,从第一比对结果中提取未比对上的基因组片段的信息。
[0038]其中,未比对上的基因组片段的信息可以包括:与参考基因组的相似度小于第一预设相似度的基因组片段的信息,例如,该预设值可以为98% ;基因组片段小于第一预设长度的基因组片段的信息,例如,第一预设长度可以为40bp,并且如果第一预设长度为一个长度簇,则该长度簇可以为90bp ;比对率小于第一预设比对率的基因组片段的信息。比对率可以是目标基因组的基因组片段中待比对的序列占参考基因组中待比对的序列的比例。
[0039]方法二,将第一比对结果中的同源基因组片段的信息过滤掉,得到剩余的基因组片段的信息,其中,把剩余的基因组片段的信息作为未比对上的基因组片段的信息。
[0040]其中,可以通过bedtools工具将同源基因组片段的信息过滤掉。这样,通过滤除掉同源基因组片段的信息,可以节省对计算机内存的消耗。
[0041]第二比对单元30用于将未比对上的基因组片段的信息与参考基因组的信息进行第二比对,得到第二比对结果。
[0042]第二比对结果可以包括多个同源基因组碎片和特异序列。其中,同源基因组碎片为比对上的基因组碎片;特异序列为未比对上的序列,其可以包括基因序列和其他元件序列。[0043]具体地,可以通过blastn软件对未比对上的基因组片段的信息进行与参考基因组的信息进行比对,得到第二比对结果。其中,该次比对为精细比对,相应的第二比对结果为精细比对结果。这样,可以将第一比对中比对出的同源基因组碎片找出,并过滤掉,从而可以获取精确的特异序列。这是因为,在第二比对中,同源基因组碎片的长度可以为第二预设长度,并且第二预设长度可以大于第一预设长度,例如,第二预设长度可以为IOObp ;且同源基因组碎片的相似度可以为第二预设相似度;且第二比对的比对率可以为第二预设比对率,例如,第二预设比对率可以为90。
[0044]优选地,在第二比对中,可以将未比对上的基因组与参考基因组分别分割为N个基因组区,将未比对上的基因组片段的N个基因区可以与参考基因组的N个基因区同时进行比对。这样,可以节约比对时间,提高比对效率。
[0045]第二获取单元40用于从第二比对结果中获取目标基因组的特异序列的信息。
[0046]从第二比对结果中获取目标基因组的特异序列的信息的方法与从第一比对结果中获取未比对上的基因组片段的信息的方法类似,在此不再赘述。
[0047]通过本发明实施例,由于对目标基因组的信息与参考基因组的信息先后进行第一比对和第二比对两次比对,并且每次比对采用不同的比对软件和不等的预设长度、预设相似度、预设比对率等比对数据,因而达到了提高特异序列的精确度的效果。另外,通过MUMmer软件和blastn软件的配合,可以分析特异序列在基因结构层级的差异性。
[0048]图2是根据本发明实施例的优选地用于基因组的数据处理装置的示意图。
[0049]如图2所示,该实施例可以作为图1所示实施例的优选实施方式,该实施例的用于基因组的数据处理装置包括第一实施例的第一比对单元10、第一获取单元20、第二比对单元30和第二获取单元40,其中,第二比对单元30包括第一检测模块301、标注模块302、第一过滤模块303和比对模块304。
[0050]第一比对单元10、第一获取单元20和第二获取单元40的作用与第一实施例中的相同,在此不再赘述。
[0051]第一检测模块301用于检测未比对上的基因组片段的信息中是否存在重复的序列信息。
[0052]优选地,当待研究的物种为植物时,检测未比对上的基因组片段的信息中是否存在重复的序列信息意义,这是因为植物的基因组中存在大量的重复的序列,而当待研究的物种为动物时,可以不检测未比对上的基因片段的信息中是否存在重复的序列信息,这是因为动物的基因组中存在少量的重复的序列。
[0053]标注模块302用于如果检测出未比对上的基因组片段的信息中存在重复的序列信息,则将重复的序列信息进行标注,得到标注过的信息。
[0054]具体地,可以通过i^peatmasker软件标注出重复的序列信息,并且可以用区别于碱基符号的其他字符或者数字等对重复的序列信息进行标注。这样,可以防止标注过的信息与碱基序列信息相混淆。
[0055]第一过滤模块303用于从未比对上的基因片段的信息中滤除标注过的信息,得到过滤后的信息。
[0056]需要说明的是,可以不对标注过的信息进行过滤,而是在与参考基因组的信息相对比时,跳过标注过的信息。[0057]比对模块304用于将过滤后的信息与参考基因组的信息进行比对,得到第二比对结果。
[0058]通过本发明实施例,在与参考基因组的信息进行比对时,采用检测出重复的序列信息,并将其滤除或者在比对中被跳过的方式,可以减少待比对的基因组序列的数量,从而可以提高比对效率,并且滤除标注过的信息可以减少基因组对计算机内存的消耗。
[0059]可选地,在本发明实施例中,第一比对结果可以包括多个同源基因组片段,其中,多个同源基因组片段为多个比对上的基因组片段,第一获取单元可以包括:第二过滤模块、第一排序模块、第一合并模块和连接模块。
[0060]第二过滤模块用于从第一比对结果中滤除多个同源基因组片段,得到多个未比对上的基因组子片段。
[0061]需要说明的是,上述从从第一比对结果中滤除多个同源基因组片段,得到多个未比对上的基因组子片段的步骤可以用提取多个未比对上的基因组子片段的步骤替换。
[0062]第一排序模块用于根据多个未比对上的基因组子片段在目标基因组中的位置关系进行排序,得到多个未比对上的基因组子片段的序列。
[0063]第一合并模块用于将序列中任意两个位置相邻且具有重叠部分的基因组子片段进行合并,得到包括多个合并的未比对上的基因组子片段的序列。
[0064]具体地,可以通过bedtools工具将这些具有重叠部分的基因组子片段进行合并。
[0065]优选地,在此之前,可以首先检测序列中任意两个位置相邻的基因组子片段是否具有重叠部分,如果检测出序列中任意两个位置相邻的基因组子片段具有重叠部分,则将序列中任意两个位置相邻且具有重叠部分的基因组子片段进行合并,得到包括多个合并的未比对上的基因组子片段的序列。如果检测出序列中任意两个位置相邻的基因组子片段不具有重叠部分,则跳过将序列中任意两个位置相邻且具有重叠部分的基因组子片段进行合并,得到包括多个合并的未比对上的基因组子片段的序列的步骤。其中,重叠可以是两个基因组子片段的部分发生了重叠,或者可以是两个基因组子片段的全部发生了重叠,或者可以是一个基因组子片段的全部与另一个基因组子片段的部分发生了重叠。
[0066]通过将多个未比对上的基因组子片段中重复部分进行合并,可以减少第二比对中对相同的基因组片段的重复比对,从而可以减少比对时的时间消耗,并且将重复部分进行合并还可以减少对计算机内存的消耗。
[0067]连接模块用于连接包括多个合并的未比对上的基因组子片段的序列中的全部基因组子片段,得到未比对上的基因组片段的信息。
[0068]例如,在滤除第一比对结果中的多个同源基因组片段之后,可以得到4个未比对上的基因组子片段,其分别为第一子片段、第二子片段、第三子片段和第四子片段,其中,第一子片段、第二子片段、第三子片段和第四子片段按照基因组中的位置关系从左到右依次排列为一个序列,并且该序列中的第三子片段的尾部和第四子片段的首部发生重叠,这样可以将该重叠的部分进行合并,且第三子片段和第四子片段合并为一个新的基因组子片段一第五子片段,从而可以得到由第一子片段、第二子片段和第五子片段组成的新序列,将该新序列中的第一子片段、第二子片段和第五子片段依次连接得到的基因组片段的信息即为未比对上的基因组片段的信息。
[0069]可选地,第二比对结果可以包括多个同源基因组碎片,第二获取单元可以包括:提取模块、第二排序模块、第二检测模块、第二合并模块和第三过滤模块。
[0070]提取模块用于提取多个同源基因组碎片。第二排序模块用于根据多个同源基因组碎片在目标基因组中的位置关系进行排序,得到多个同源基因组碎片的序列,具体地,可以通过bedtools中的sort工具对多个同源基因组碎片进行排序。第二检测模块用于检测序列中任意两个位置相邻的同源基因组碎片是否存在重叠部分。第二合并模块用于如果检测出序列中任意两个位置相邻的同源基因组碎片存在重叠部分,则合并重叠部分,得到多个合并后的同源基因组碎片。第三过滤模块用于从第二比对结果中滤除包括多个合并后的同源基因组碎片的信息,得到目标基因组的特异序列的信息,其中,此处被滤除的信息除了包括多个合并后的同源基因组碎片的信息,还包括不存在重叠部分的同源基因组碎片的信息。其中,滤除同源基因组碎片步骤可以用翻转同源基因组碎片步骤替换,具体地,可以通过complement工具对同源基因组碎片进行翻转。
[0071]需要说明的是,从第二获取单元的功能可以用第一获取单元的功能替换,在此不再赘述。
[0072]优选地,该数据处理装置还可以包括:第一判断模块、第二判断模块、第三判断模块和确定模块。第一判断模块用于在提取多个同源基因组碎片之前,判断多个基因碎片的长度是否大于等于预设长度。其中,预设长度与第二预设长度相同。第二判断模块用于如果判断出多个基因组碎片的长度大于等于预设长度,则判断多个基因组碎片的相似度是否大于等于预设相似度。其中,预设相似度与第二预设相似度相同。第三判断模块用于如果判断出多个基因组碎片的相似度大于等于预设相似度,则判断多个基因组碎片的比对率是否大于等于预设比对率。其中,预设比对率与第二预设比对率相同。确定模块用于如果判断出多个基因组碎片的比对率大于等于预设比对率,则将多个基因组碎片的信息作为多个同源基因组碎片的信息。
[0073]根据本发明的实施例,提供了一种用于基因组的数据处理方法,该用于基因组的数据处理方法用于获取精确的特异序列的信息,为准确的基因分析创造条件。该用于基因组的数据处理方法可以运行在计算机处理设备上。需要说明的是,本发明实施例所提供的用于基因组的数据处理方法可以通过本发明实施例的用于基因组的数据处理装置来执行,本发明实施例的用于基因组的数据处理装置也可以用于执行本发明实施例的用于基因组的数据处理方法。
[0074]图3是根据本发明实施例的用于基因组的数据处理方法的流程图。
[0075]如图3所示,该方法包括如下的步骤S302至步骤S308:
[0076]步骤S302,将目标基因组的信息与参考基因组的信息进行第一比对,得到第一比对结果。
[0077]具体地,可以通过MUMmer软件中的nucmer工具,将目标基因组同一个参考基因组进行进行第一比对,得到两个基因组之间的第一比对结果。需要说明的是,在全基因组范围的第一比对中,可以替换nucmer工具。
[0078]其中,目标基因组和参考基因组可以来自于不同的物种,并且目标基因组可以为待研究的物种的基因组,而参考基因组可以为基因信息已知的物种的基因组。例如,在分析柳树的基因组时,柳树的基因组可以作为目标基因组,并且如果要分析柳树与杨树之间的基因功能关系,可以将杨树的基因组作为参考基因组,而如果要分析柳树与槐树之间的基因功能关系,可以将槐树的基因组作为参考基因组。第一比对可以为初步比对,相应的第一比对结果可以为初步比对结果。需要说明的是,待研究的物种可以包括植物、动物和微生物
坐寸O
[0079]优选地,在第一比对中,可以将目标基因组与参考基因组分别分割为N个基因组区,将目标基因组的N个基因组区可以与参考基因组的N个基因组区同时进行比对。这样,可以节约比对时间,提高比对效率。
[0080]可选地,在将目标基因组的信息与参考基因组的信息进行第一比对,得到第一比对结果之前,该数据处理方法还可以包括:获取目标基因组的信息,以及获取参考基因组的信息。
[0081]步骤S304,从第一比对结果中获取未比对上的基因组片段的信息。
[0082]其中,第一比对结果可以包括比对上的基因组片段的信息和未比对上的基因组片段的信息。比对上的基因组片段又可以称为同源基因组片段。
[0083]具体地,可以通过如下两种方法获取未比对上的基因组片段的信息:
[0084]方法一,从第一比对结果中提取未比对上的基因组片段的信息。
[0085]其中,未比对上的基因组片段的信息可以包括:与参考基因组的相似度小于第一预设相似度的基因组片段的信息,例如,该预设值可以为98% ;基因组片段小于第一预设长度的基因组片段的信息,例如,第一预设长度可以为40bp,并且如果第一预设长度为一个长度簇,则该长度簇可以为90bp ;比对率小于第一预设比对率的基因组片段的信息。比对率可以是目标基因组的基因组片段中待比对的序列占参考基因组中待比对的序列的比例。
[0086]方法二,将第一比对结果中的同源基因组片段的信息过滤掉,得到剩余的基因组片段的信息,其中,把剩余的基因组片段的信息作为未比对上的基因组片段的信息。
[0087]其中,可以通过MUMmer软件中的nucmer工具将同源基因组片段的信息过滤掉。这样,通过滤除掉同源基因组片段的信息,可以节省对计算机内存的消耗。
[0088]步骤S306,将未比对上的基因组片段的信息与参考基因组的信息进行第二比对,得到第二比对结果。
[0089]第二比对结果可以包括多个同源基因组碎片和特异序列。其中,同源基因组碎片为比对上的基因组碎片;特异序列为未比对上的序列,其可以包括基因序列和其他元件序列。
[0090]具体地,可以通过blastn软件对未比对上的基因片段的信息进行与参考基因组的信息进行比对,得到第二比对结果。其中,该次比对为精细比对,相应的第二比对结果为精细比对结果。这样,可以将第一比对中比对出的同源基因组碎片找出,并过滤掉,从而可以获取精确的特异序列。这是因为,在第二比对中,同源基因组碎片的长度可以为第二预设长度,并且第二预设长度可以大于第一预设长度,例如,第二预设长度可以为IOObp ;且同源基因组碎片的相似度可以为第二预设相似度;且第二比对的比对率可以为第二预设比对率,例如,第二预设比对率可以为90。
[0091]优选地,在第二比对中,可以将未比对上的基因组片段与参考基因组分别分割为N个基因组区,将未比对上的基因组片段的N个基因组区可以与参考基因组的N个基因组区同时进行比对。这样,可以节约比对时间,提高比对效率。
[0092]步骤S308,从第二比对结果中获取目标基因组的特异序列的信息。[0093]从第二比对结果中获取目标基因组的特异序列的信息的方法与从第一比对结果中获取未比对上的基因组片段的信息的方法类似,在此不再赘述。
[0094]通过本发明实施例,由于对目标基因组的信息与参考基因组的信息先后进行第一比对和第二比对两次比对,并且每次比对采用不同的比对软件和不等的预设长度、预设相似度、预设比对率等比对数据,因而达到了提高特异序列的精确度的效果。另外,通过MUMmer软件和blastn软件的配合,可以分析特异序列在基因结构层级的差异性。
[0095]图4是根据本发明实施例的优选地用于基因组的数据处理方法的流程图。
[0096]如图4所示,该用于基因组的数据处理方法包括如下的步骤S402至步骤S414,该实施例可以作为图3所示实施例的优选实施方式。
[0097]步骤S402至步骤S404,分别同图3所示实施例的步骤S302至步骤S304,在此不
再赘述。
[0098]步骤S406,检测未比对上的基因组片段的信息中是否存在重复的序列信息。
[0099]优选地,当待研究的物种为植物时,检测未比对上的基因组片段的信息中是否存在重复的序列信息意义,这是因为植物的基因组中存在大量的重复的序列,而当待研究的物种为动物时,可以不检测未比对上的基因组片段的信息中是否存在重复的序列信息,这是因为动物的基因组中存在少量的重复的序列。
[0100]步骤S408,如果检测出未比对上的基因组片段的信息中存在重复的序列信息,则将重复的序列信息进行标注,得到标注过的信息。
[0101]具体地,可以通过i^peatmasker软件标注出重复的序列信息,并且可以用区别于碱基符号的其他字符或者数字等对重复的序列信息进行标注。这样,可以防止标注过的信息与碱基序列信息相混淆
[0102]步骤S410,从未比对上的基因组片段的信息中滤除标注过的信息,得到过滤后的信息。
[0103]需要说明的是,可以不对标注过的信息进行过滤,而是在与参考基因组的信息相对比时,跳过标注过的信息。
[0104]步骤S412,将过滤后的信息与参考基因组的信息进行比对,得到第二比对结果。
[0105]步骤S414,同图3所示实施例的步骤S308,在此不再赘述。
[0106]通过本发明实施例,在与参考基因组的信息进行比对时,采用检测出重复的序列信息,并将其滤除或者跳过的方式,可以减少待比对的基因组序列的数量,从而可以提高比对效率,并且滤除标注过的信息可以减少基因组对计算机内存的消耗。
[0107]可选地,在本发明实施例中,第一比对结果可以包括多个同源基因组片段,其中,多个同源基因组片段为多个比对上的基因组片段,从第一比对结果中获取未比对上的基因组片段的信息可以包括如下步骤:
[0108]首先,从第一比对结果中滤除多个同源基因组片段,得到多个未比对上的基因子片段。
[0109]需要说明的是,上述从从第一比对结果中滤除多个同源基因组片段,得到多个未比对上的基因组子片段的步骤可以用提取多个未比对上的基因组子片段的步骤替换。
[0110]接着,根据多个未比对上的基因组子片段在目标基因组中的位置关系进行排序,得到多个未比对上的基因组子片段的序列。[0111]然后,将序列中任意两个位置相邻且具有重叠部分的基因组子片段进行合并,得到包括多个合并的未比对上的基因组子片段的序列。
[0112]具体地,可以通过bedtools工具将这些具有重叠部分的基因组子片段进行合并。
[0113]优选地,在此之前,可以首先检测序列中任意两个位置相邻的基因组子片段是否具有重叠部分,如果检测出序列中任意两个位置相邻的基因组子片段具有重叠部分,则将序列中任意两个位置相邻且具有重叠部分的基因组子片段进行合并,得到包括多个合并的未比对上的基因组子片段的序列。如果检测出序列中任意两个位置相邻的基因组子片段不具有重叠部分,则跳过将序列中任意两个位置相邻且具有重叠部分的基因组子片段进行合并,得到包括多个合并的未比对上的基因组子片段的序列的步骤。其中,重叠可以是两个基因组子片段的部分发生了重叠,或者可以是两个基因组子片段的全部发生了重叠,或者可以是一个基因组子片段的全部与另一个基因组子片段的部分发生了重叠。
[0114]通过将多个未比对上的基因组子片段中重复部分进行合并,可以减少第二比对中对相同的基因组片段的重复比对,从而可以减少比对时的时间消耗,并且将重复部分进行合并还可以减少对计算机内存的消耗。
[0115]最后,连接包括多个合并的未比对上的基因组子片段的序列中的全部基因子片段,得到未比对上的基因组子片段的信息。
[0116]例如,在滤除第一比对结果中的多个同源基因组片段之后,可以得到4个未比对上的基因组子片段,其分别为第一子片段、第二子片段、第三子片段和第四子片段,其中,第一子片段、第二子片段、第三子片段和第四子片段按照基因组中的位置关系从左到右依次排列为一个序列,并且该序列中的第三子片段的尾部和第四子片段的首部发生重叠,这样可以将该重叠的部分进行合并,且第三子片段和第四子片段合并为一个新基因组子片段一第五子片段,从而可以得到由第一子片段、第二子片段和第五子片段组成的新序列,将该新序列中的第一子片段、第二子片段和第五子片段依次连接得到的基因组子片段的信息即为未比对上的基因组子片段的信息。
[0117]可选地,第二比对结果可以包括多个同源基因组碎片,从第二比对结果中获取目标基因组的特异序列的信息可以包括如下步骤:
[0118]首先,提取多个同源基因组碎片。其次,根据多个同源基因组碎片在目标基因组中的位置关系进行排序,得到多个同源基因组碎片的序列,具体地,可以通过bedtools中的sort工具对多个同源基因组碎片进行排序。再次,检测序列中任意两个位置相邻的同源基因组碎片是否存在重叠部分。然后,如果检测出序列中任意两个位置相邻的同源基因组碎片存在重叠部分,则合并重叠部分,得到多个合并后的同源基因组碎片。最后,从第二比对结果中滤除包括多个合并后的同源基因组碎片的信息,得到目标基因组的特异序列的信息,其中,此处被滤除的信息除了包括多个合并后的同源基因组碎片的信息,还包括不存在重叠部分的同源基因组碎片的信息。其中,滤除同源基因碎片步骤可以用翻转同源基因组碎片步骤替换,具体地,可以通过complement工具对同源基因组碎片进行翻转。
[0119]需要说明的是,从第二比对结果中获取目标基因组的特异序列的信息的步骤可以用与从第一比对结果中获取未比对上的基因片段的信息的步骤替换,在此不再赘述。
[0120]优选地,在提取多个同源基因组碎片之前,该数据处理方法还可以包括:首先,判断多个基因组碎片的长度是否大于等于预设长度。其中,预设长度与第二预设长度相同。接着,如果判断出多个基因组碎片的长度大于等于预设长度,则判断多个基因组碎片的相似度是否大于等于预设相似度。其中,预设相似度与第二预设相似度相同。然后,如果判断出多个基因组碎片的相似度大于等于预设相似度,则判断多个基因组碎片的比对率是否大于等于预设比对率。其中,预设比对率与第二预设比对率相同。最后,如果判断出多个基因组碎片的比对率大于等于预设比对率,则将多个基因碎片的信息作为多个同源基因组碎片的信息。
[0121]从以上的描述中,可以看出,本发明通过长序列比对软件和短序列比对软件的并用,得到精确的物种间所有类型的特异序列(并不局限于蛋白序列),并且达到了减少基因组比对时的时间和内存的效果,这可以为后续物种的多样化分析提供了条件。
[0122]需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0123]显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0124]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种用于基因组的数据处理方法,其特征在于,包括: 将目标基因组的信息与参考基因组的信息进行第一比对,得到第一比对结果; 从所述第一比对结果中获取未比对上的基因组片段的信息; 将所述未比对上的基因组片段的信息与所述参考基因组的信息进行第二比对,得到第二比对结果;以及 从所述第二比对结果中获取所述目标基因组的特异序列的信息。
2.根据权利要求1所述的数据处理方法,其特征在于,将所述未比对上的基因组片段的信息与所述参考基因组的信息进行第二比对,得到第二比对结果包括: 检测所述未比对上的基因组片段的信息中是否存在重复的序列信息; 如果检测出所述未比对上的基因组片段的信息中存在重复的序列信息,则将所述重复的序列信息进行标注,得到标注过的信息; 从所述未比对上的基因片段的信息中滤除所述标注过的信息,得到过滤后的信息;以及 将所述过滤后的信息与所述参考基因组的信息进行比对,得到所述第二比对结果。
3.根据权利要求1所述的数据处理方法,其特征在于,所述第一比对结果包括多个同源基因组片段,其中,所述多个同源基因组片段为多个比对上的基因组片段,从所述第一比对结果中获取未比对上的基因组片段的信息包括: 从所述第一比对结果中滤除所述多个同源基因组片段,得到多个未比对上的基因组子片段; 根据所述多个未比对上的基因组子片段在所述目标基因组中的位置关系进行排序,得到多个未比对上的基因组子片段的序列; 将所述序列中任意两个位置相邻且具有重叠部分的基因组子片段进行合并,得到包括多个合并的未比对上的基因组子片段的序列;以及 连接所述包括多个合并的未比对上的基因组子片段的序列中的全部基因组子片段,得到所述未比对上的基因组片段的信息。
4.根据权利要求1所述的数据处理方法,其特征在于,所述第二比对结果包括多个同源基因组碎片,从所述第二比对结果中获取所述目标基因组的特异序列的信息包括: 提取所述多个同源基因组碎片; 根据所述多个同源基因组碎片在所述目标基因组中的位置关系进行排序,得到所述多个同源基因组碎片的序列; 检测所述序列中任意两个位置相邻的同源基因组碎片是否存在重叠部分; 如果检测出所述序列中任意两个位置相邻的同源基因组碎片存在重叠部分,则合并所述重叠部分,得到多个合并后的同源基因组碎片;以及 从所述第二比对结果中滤除包括多个合并后的同源基因组碎片的信息,得到所述目标基因组的特异序列的信息。
5.根据权利要求4所述的数据处理方法,其特征在于,在提取所述多个同源基因组碎片之前,所述数据处 理方法还包括: 判断多个基因组碎片的长度是否大于等于预设长度; 如果判断出所述多个基因组碎片的长度大于等于预设长度,则判断所述多个基因组碎片的相似度是否大于等于预设相似度; 如果判断出所述多个基因组碎片的相似度大于等于预设相似度,则判断所述多个基因组碎片的比对率是否大于等于预设比对率;以及 如果判断出所述多个基因组碎片的比对率大于等于预设比对率,则将所述多个基因组碎片的信息作为所述多个同源基因组碎片的信息。
6.一种用于基因组的数据处理装置,其特征在于,包括: 第一比对单元,用于将目标基因组的信息与参考基因组的信息进行第一比对,得到第一比对结果; 第一获取单元,用于从所述第一比对结果中获取未比对上的基因组片段的信息;第二比对单元,用于将所述未比对上的基因组片段的信息与所述参考基因组的信息进行第二比对,得到第二比对结果;以及 第二获取单元,用于从所述第二比对结果中获取所述目标基因组的特异序列的信息。
7.根据权利要求6所述的数据处理装置,其特征在于,所述第二比对单元包括: 第一检测模块,用于检测所述未比对上的基因组片段的信息中是否存在重复的序列信息; 标注模块,用于如果检测出所述未比对上的基因组片段的信息中存在重复的序列信息,则将所述重复的序列信息进行标注,得到标注过的信息; 第一过滤模块,用于从所述 未比对上的基因片段的信息中滤除所述标注过的信息,得到过滤后的信息;以及 比对模块,用于将所述过滤后的信息与所述参考基因组的信息进行比对,得到所述第二比对结果。
8.根据权利要求6所述的数据处理装置,其特征在于,所述第一比对结果包括多个同源基因组片段,其中,所述多个同源基因组片段为多个比对上的基因组片段,所述第一获取单元包括: 第二过滤模块,用于从所述第一比对结果中滤除所述多个同源基因组片段,得到多个未比对上的基因组子片段; 第一排序模块,用于根据所述多个未比对上的基因组子片段在所述目标基因组中的位置关系进行排序,得到多个未比对上的基因组子片段的序列; 第一合并模块,用于将所述序列中任意两个位置相邻且具有重叠部分的基因组子片段进行合并,得到包括多个合并的未比对上的基因组子片段的序列;以及 连接模块,用于连接所述包括多个合并的未比对上的基因组子片段的序列中的全部基因组子片段,得到所述未比对上的基因组片段的信息。
9.根据权利要求6所述的数据处理装置,其特征在于,所述第二比对结果包括多个同源基因组碎片,所述第二获取单元包括: 提取模块,用于提取所述多个同源基因组碎片; 第二排序模块,用于根据所述多个同源基因组碎片在所述目标基因组中的位置关系进行排序,得到所述多个同源基因组碎片的序列; 第二检测模块,用于检测所述序列中任意两个位置相邻的同源基因组碎片是否存在重叠部分;第二合并模块,用于如果检测出所述序列中任意两个位置相邻的同源基因组碎片存在重叠部分,则合并所述重叠部分,得到多个合并后的同源基因组碎片;以及 第三过滤模块,用于从所述第二比对结果中滤除包括多个合并后的同源基因组碎片的信息,得到所述目标基因组的特异序列的信息。
10.根据权利要求9所述的数据处理装置,其特征在于,还包括: 第一判断模块,用于在提取所述多个同源基因组碎片之前,判断多个基因组碎片的长度是否大于等于预设长度; 第二判断模块,用于如果判断出所述多个基因组碎片的长度大于等于预设长度,则判断所述多个基因组碎片的相似度是否大于等于预设相似度; 第三判断模块,用于如果判断出所述多个基因组碎片的相似度大于等于预设相似度,则判断所述多个基因组碎片的比对率是否大于等于预设比对率;以及 确定模块,用于如果判断出所述多个基因组碎片的比对率大于等于预设比对率,则将所述多个基因组碎 片的信息确认为所述多个同源基因组碎片的信息。
【文档编号】G06F19/10GK103810402SQ201410064832
【公开日】2014年5月21日 申请日期:2014年2月25日 优先权日:2014年2月25日
【发明者】江文恺, 占伟 申请人:北京诺禾致源生物信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1