一种基因组的组装方法及装置与流程

文档序号:16848191发布日期:2019-02-12 22:30阅读:846来源:国知局
一种基因组的组装方法及装置与流程

本发明实施例涉及基因工程技术领域,具体涉及一种基因组的组装方法及装置。



背景技术:

随着基因技术的发展,基因组的组装显得尤为重要。

现有的基因组装方法通常采用如下三种软件:lachesis,salsa和3d-dna。lachesis是hi-c辅助基因组组装的开篇的软件,相对来说通用性较强,且能组装到染色体水平,但是,受基因组组装水平影响较大,尤其针对目前的三代测序组装基因组,在划分染色体群组上容易出现染色体的融合,组装准确性差;此软件也缺少对序列的纠错功能,以及全基因组bin热图评估组装准确性功能,尤其对植物基因组组装的组装效果较差。salsa是一个针对三代组装的基因组进行hi-c辅助基因组组装,仅提升scaffold指标,不能获得染色体水平的组装。3d-dna软件具备对基因组进行先纠错再组装的功能,但参数复杂,无全基因组考虑,仅为单条序列考虑,容易产生过度纠错;而且并不能划分成真实数目的染色体,存在大量的染色体融合结果;再次,对于植物及真菌基因组的应用效果较差,此软件通用性一般。

因此,如何避免上述缺陷,提高基因组组装通用性和准确性,成为亟须解决的问题。



技术实现要素:

针对现有技术存在的问题,本发明实施例提供一种基因组的组装方法及装置。

第一方面,本发明实施例提供一种基因组的组装方法,所述方法包括:

获取纠错后的基因信息,所述基因信息包括基因组和比对信息;

根据所述基因组和所述比对信息进行基因组组装;

若判断获知组装结果未达到预设条件,对所述组装结果进行分区域聚类处理,并将处理结果进行重新组装。

第二方面,本发明实施例提供一种基因组的组装装置,所述装置包括:

获取单元,用于获取纠错后的基因信息,所述基因信息包括基因组和比对信息;

组装单元,用于根据所述基因组和所述比对信息进行基因组组装;

重组装单元,用于若判断获知组装结果未达到预设条件,对所述组装结果进行分区域聚类处理,并将处理结果进行重新组装。

第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,

所述处理器和所述存储器通过所述总线完成相互间的通信;

所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:

获取纠错后的基因信息,所述基因信息包括基因组和比对信息;

根据所述基因组和所述比对信息进行基因组组装;

若判断获知组装结果未达到预设条件,对所述组装结果进行分区域聚类处理,并将处理结果进行重新组装。

第四方面,本发明实施例提供一种非暂态计算机可读存储介质,包括:

所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:

获取纠错后的基因信息,所述基因信息包括基因组和比对信息;

根据所述基因组和所述比对信息进行基因组组装;

若判断获知组装结果未达到预设条件,对所述组装结果进行分区域聚类处理,并将处理结果进行重新组装。

本发明实施例提供的基因组的组装方法及装置,通过将未达到预设条件的组装结果进行分区域聚类处理,并将处理结果进行重新组装,能够提高基因组组装通用性和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例基因组的组装方法及流程示意图;

图2为本发明实施例scaffold/contig的hi-c测序read分布热图;

图3为本发明实施例染色体水平基因组组装热图;

图4为本发明实施例单染色体分区域组装热图;

图5为本发明实施例单染色体分块组装后再组装结果热图;

图6为本发明实施例高杂合二倍体基因组单染色体二倍体组装热图;

图7为本发明实施例区块移动调图;

图8为本发明实施例区块反转调图;

图9为本发明实施例端粒调整法调图;

图10为本发明实施例基因组的组装装置结构示意图;

图11为本发明实施例提供的电子设备实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例数据处理方法流程示意图,如图1所示,本发明实施例提供的一种数据处理方法,包括以下步骤:

s101:获取纠错后的基因信息,所述基因信息包括基因组和比对信息。

具体的,装置获取纠错后的基因信息,所述基因信息包括基因组和比对信息。装置可以理解为执行本方法的设备等,不作具体限定。具体可以如下:将scaffold和/或contig水平的基因组切割成bin水平的基因组;将scaffold和/或contig水平的hi-c比对信息文件转换为bin水平的比对文件;根据bin水平的基因组和所述比对文件进行初始基因组组装;识别不能组装到原始scaffold和/或contig序列相应位置的bin;并在所述bin附近的hi-c测序read覆盖最低的点打断序列,以获取所述基因信息。可以进一步通过hi-c的read在原始scaffold/contig序列上的分布热图进一步确认序列断点及准确性。图2为本发明实施例scaffold/contig的hi-c测序read分布热图,mq代表read比对序列的质量值,分为高质量和低质量的read比对结果。热图明显分为两块区域,其中分界点在1,200kb左右,精确鉴定点为1,168,000bp,可见两者基本是吻合的,如图2所示,整条序列被分成了两个区块,两个块之间分隔明显,说明无hi-c的read跨越两个块,因而根据hi-c的基本原理,组装准确的基因组hi-c应该分布均匀,无明显块产生,因而,判断此条序列组装存在错误,断点为在两个块连接点附近,因而通过将序列在断点打断,完成对序列的纠错。

s102:根据所述基因组和所述比对信息进行基因组组装。

具体的,装置根据所述基因组和所述比对信息进行基因组组装。具体可以如下:利用bin水平的基因组和所述比对文件进行染色体群组的划分;对划分后的bin水平的基因组还原至原始纠错后基因组,并获得原始纠错后基因组各序列对应的染色体群组;对划分到每个染色体群组的纠错后的基因组序列进行染色体群组内的排序和定向,以完成染色体水平的基因组组装。图3为本发明实施例染色体水平基因组组装热图,如图3所示,可以看到每一条染色体分组明显,不存在染色体融合,且染色体内信号连续性较好,组装效果较好。

该方法还可以包括:统计纠错后的基因组序列的酶切位点个数分布,采用酶切位点个数的n80和n95作为划分染色体参数循环的范围;将最长染色体与最短染色体差异最小所对应的参数作为目标染色体划分参数。对n80说明如下:对所有序列的酶切位点个数按照从长到短排列,然后对各序列长度依次累加直到大于80%的全部序列长度时所对应的序列的酶切位点个数,称为n80。n95不再赘述。

进一步地,该方法还包括:通过计算n93和n96对应的酶切位点个数作为染色体组内排序和定向的参数循环范围,通过对序列的定向打分,确定目标排序参数和目标定向参数。n93和n96可参照上述n80的说明,不再赘述。可以通过已有的技术获取到定向打分,需要说明的是:可以将较高的定向打分分数对应的定向参数作为目标定向参数,由于排序参数和定向参数之间存在正比例的对应关系,通过目标定向参数也能够确定目标排序参数。

s103:若判断获知组装结果未达到预设条件,对所述组装结果进行分区域聚类处理,并将处理结果进行重新组装。

具体的,装置若判断获知组装结果未达到预设条件,对所述组装结果进行分区域聚类处理,并将处理结果进行重新组装。组装结果是否达到预设条件的判断方法为本领域成熟技术,不再赘述。对所述组装结果进行分区域聚类处理,并将处理结果进行重新组装,可以具体如下:对每条染色体进行分区域聚类;对划分到每一区域的序列分别进行排序和定向;使用四碱基限制性内切酶构建的hi-c文库产生的测序数据进行染色体群组内序列的排序和定向,以完成所述重新组装。图4为本发明实施例单染色体分区域组装热图,如图4所示,可以看到明显划分为5个块,每一块内部组装基本没有问题的,块之间通过后续的识别可以进一步组装获得准确的染色体序列,可以借助lachesis软件将一条染色体进一步划分成指定数目的群组(一般设置为5组),然后对每一群组进行排序和定向,即获得了单染色体每块区域的组装结果。图5为本发明实施例单染色体分块组装后再组装结果热图,如图5所示,可以看到以每一块区域为单位,进一步组装后,单染色体信号主要集中在对角线附近,已经无错误了,单染色体组装结果已经非常准确,以每块区域为单位,可以进一步借助lachesis组装,获得整条染色体的组装结果。可以通过热图观察组装结果,如果组装结果不理想,可以使用迭代方法,即通过自动判断组装结果中错误,然后打断,然后再进一步组装,直到无明显组装错误为止。

图6为本发明实施例高杂合二倍体基因组单染色体二倍体组装热图,如图6所示,热图中明显分为两个区块,且两个区块之间存在交互,表现在存在一个反对角线,说明两个区块分别对应两套单体型基因组,具体分界点为两个区块的分界点,在迭代后获取到理想的组装结果之后,一条染色体可以组装为两条区分明显的单体型组装,然后进行人工分割。

图7为本发明实施例区块移动调图,如图7所示,此区域可以看到明显划分为3个区块,最上面的区块与最下面区块明显存在交互信号,所以要将上面区块移动到一个区块后面,这样信号就集中在对角线上,为正确组装方式,按照指定大小的长度(bin)分割染色体,并计算获得了任意两个bin之间的信号值(hi-c测序read的支持的连接数目),因而即可获得一个矩阵m(其中mi,j表示染色体上第i个bin与第j个bin的信号值),然后利用此矩阵信息使用ggplot2绘制热图;绘制完成后进行热图调整,包含人工移动法和染色体末端端粒调整法。人工移动法在依据的原理就是主要依据交互信号集中在同一条染色体的对角线附近,如果染色体存在远离对角线的的某一区域之间存在较强的信号,且在其中一条染色体内部此区域呈现一种独立状态,即此区域信号与本染色体其他区域无明显交互信号,则需要将此区域利用cgap(集成本方法的软件)调图软件移动到其有交互信号的区域。

图8为本发明实施例区块反转调图,如图8所示,如果某一区块下边缘与该区块上边缘有交互新号,区块上边缘与下边缘有交互新号,则此区域为反向调整区域,可以通过cgap所带的调图软件进行反转操作。

图9为本发明实施例端粒调整法调图,如图9所示,染色体末端调整法是基于植物细胞核内染色体末端存在聚集而产生的交互现象,表现在互作热图中各条染色体末端之间均存在强的交互现象,因此染色体之间强的交互必然发生在染色体的末端,如果发生在组装染色体的中间应该考虑通过使用cgap自带的调图软件进行反转或者移动操作使染色体之间的强的交互信号位于染色体末端,获得组装准确的染色体结果。

下面对本方法的具体应用作简要说明:

实施例1:cgap软件应用于蔷薇科高杂合植物基因组hi-c组装

主要组装步骤包括如下操作:

1、利用bwa和hic-pro完成对hi-c数据的比对与质控,仅保留有效的hi-c数据,最终获得主要比对文件allvalidpairs.sam和all.validpairs。

2、将contig水平的基因组切割成固定长度为50kb的一段一段序列(即切割成bin=50000的序列),然后将比对文件转换到切割后的基因组文件对应的坐标,使用cgap的纠错模块进行组装,并输出与原始结果不一致的坐标。同时结合read分布图,将与图不一致的鉴定的错误点去除,最终剩余了108个断点,然后使用cgap的自带打断脚本broken_scaffold_according_to_position.pl将序列打断,完成纠错过程。同时利用cgap自带工具04.convert_sam_for_new_corrected_genomev2.pl将比对信息文件转换到纠错后基因组对应的比对信息文件。

3、使用cgap的染色体聚类分组模块,将纠错后基因组按照bin=100,000打断,进行染色体的聚类,划分成了7条染色体。

4、使用cgap的染色体排序和定向模块,对聚类后的每条染色体进行排序和定向,使用最低酶切位点个数为20~28个,软件运行完毕,选择排序和定向产生结果中打分最大的一个参数,排序参数为25,定向参数为20。

5、使用cgap的单染色体局部层次迭代组装模块,对单条染色体进一步划分成5组,然后分别对每组以单条序列为单位进行排序和定向,获得megascaffold。然后使用cgap的错误鉴定模块,对megascaffold错误进行鉴定,并打断然后进一步组装,可以实现将之前的5条megascaffold纠错后的序列整合为一条完整的染色体,获得单条染色体完整的组装结果;此步组装完成后热图,可以看到明显分成两条染色体,即将二倍体的两套单体型基因组全部进行了划分和组装。

6、结合组装热图进行人工调整。结合我们之前的调图软件,进行人工调整。调整的规则为染色体末端为端粒所在区域,各条染色体之间在此区域存在较强的染色体交互,据此可以将一些方向和位置区域进行调整。

本发明实施例提供的基因组的组装方法,通过将未达到预设条件的组装结果进行分区域聚类处理,并将处理结果进行重新组装,能够提高基因组组装通用性和准确性。

在上述实施例的基础上,所述获取纠错后的基因信息,包括:

将scaffold和/或contig水平的基因组切割成bin水平的基因组。

具体的,装置将scaffold和/或contig水平的基因组切割成bin水平的基因组。可参照上述实施例,不再赘述。

将scaffold和/或contig水平的hi-c比对信息文件转换为bin水平的比对文件。

具体的,装置将scaffold和/或contig水平的hi-c比对信息文件转换为bin水平的比对文件。可参照上述实施例,不再赘述。

根据bin水平的基因组和所述比对文件进行初始基因组组装。

具体的,装置根据bin水平的基因组和所述比对文件进行初始基因组组装。可参照上述实施例,不再赘述。

识别不能组装到原始scaffold和/或contig序列相应位置的bin;并在所述bin附近的hi-c测序read覆盖最低的点打断序列,以获取所述基因信息。

具体的,装置识别不能组装到原始scaffold和/或contig序列相应位置的bin;并在所述bin附近的hi-c测序read覆盖最低的点打断序列,以获取所述基因信息。可参照上述实施例,不再赘述。

本发明实施例提供的基因组的组装方法,通过在bin附近的hi-c测序read覆盖最低的点打断序列,以获取基因信息,能够合理、有效地获取到纠错后的基因信息。

在上述实施例的基础上,所述根据所述基因组和所述比对信息进行基因组组装,包括:

利用bin水平的基因组和所述比对文件进行染色体群组的划分。

具体的,装置利用bin水平的基因组和所述比对文件进行染色体群组的划分。可参照上述实施例,不再赘述。

对划分后的bin水平的基因组还原至原始纠错后基因组,并获得原始纠错后基因组各序列对应的染色体群组。

具体的,装置对划分后的bin水平的基因组还原至原始纠错后基因组,并获得原始纠错后基因组各序列对应的染色体群组。可参照上述实施例,不再赘述。

对划分到每个染色体群组的纠错后的基因组序列进行染色体群组内的排序和定向,以完成染色体水平的基因组组装。

具体的,装置对划分到每个染色体群组的纠错后的基因组序列进行染色体群组内的排序和定向,以完成染色体水平的基因组组装。可参照上述实施例,不再赘述。

本发明实施例提供的基因组的组装方法,通过对划分到每个染色体群组的纠错后的基因组序列进行染色体群组内的排序和定向,能够准确地对染色体水平的基因组进行组装。

在上述实施例的基础上,所述对划分到每个染色体群组的纠错后的基因组序列进行染色体群组内的排序和定向的步骤之后,所述方法还包括:

统计纠错后的基因组序列的酶切位点个数分布,采用酶切位点个数的n80和n95作为划分染色体参数循环的范围。

具体的,装置统计纠错后的基因组序列的酶切位点个数分布,采用酶切位点个数的n80和n95作为划分染色体参数循环的范围。可参照上述实施例,不再赘述。

将最长染色体与最短染色体差异最小所对应的参数作为目标染色体划分参数。

具体的,装置将最长染色体与最短染色体差异最小所对应的参数作为目标染色体划分参数。可参照上述实施例,不再赘述。

本发明实施例提供的基因组的组装方法,能够合理地确定目标染色体划分参数。

在上述实施例的基础上,所述方法还包括:

通过计算n93和n96对应的酶切位点个数作为染色体组内排序和定向的参数循环范围。

具体的,装置通过计算n93和n96对应的酶切位点个数作为染色体组内排序和定向的参数循环范围。可参照上述实施例,不再赘述。

通过对序列的定向打分,确定目标排序参数和目标定向参数。

具体的,装置通过对序列的定向打分,确定目标排序参数和目标定向参数。可参照上述实施例,不再赘述。

本发明实施例提供的基因组的组装方法,能够合理地确定目标排序参数和目标定向参数。

在上述实施例的基础上,所述对所述组装结果进行分区域聚类处理,并将处理结果进行重新组装,包括:

对每条染色体进行分区域聚类。

具体的,装置对每条染色体进行分区域聚类。可参照上述实施例,不再赘述。

对划分到每一区域的序列分别进行排序和定向。

具体的,装置对划分到每一区域的序列分别进行排序和定向。可参照上述实施例,不再赘述。

使用四碱基限制性内切酶构建的hi-c文库产生的测序数据进行染色体群组内序列的排序和定向,以完成所述重新组装。

具体的,装置使用四碱基限制性内切酶构建的hi-c文库产生的测序数据进行染色体群组内序列的排序和定向,以完成所述重新组装。可参照上述实施例,不再赘述。

本发明实施例提供的基因组的组装方法,通过使用四碱基限制性内切酶构建的hi-c文库产生的测序数据进行染色体群组内序列的排序和定向,进一步能够提高基因组组装通用性和准确性。

图10为本发明实施例基因组的组装装置结构示意图,如图10所示,本发明实施例提供了一种基因组的组装装置,包括获取单元1001、组装单元1002和重组装单元1003,其中:

获取单元1001用于获取纠错后的基因信息,所述基因信息包括基因组和比对信息;组装单元1002用于根据所述基因组和所述比对信息进行基因组组装;重组装单元1003用于若判断获知组装结果未达到预设条件,对所述组装结果进行分区域聚类处理,并将处理结果进行重新组装。

具体的,获取单元1001用于获取纠错后的基因信息,所述基因信息包括基因组和比对信息;组装单元1002用于根据所述基因组和所述比对信息进行基因组组装;重组装单元1003用于若判断获知组装结果未达到预设条件,对所述组装结果进行分区域聚类处理,并将处理结果进行重新组装。

本发明实施例提供的基因组的组装装置,通过将未达到预设条件的组装结果进行分区域聚类处理,并将处理结果进行重新组装,能够提高基因组组装通用性和准确性。

本发明实施例提供的基因组的组装装置具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。

图11为本发明实施例提供的电子设备实体结构示意图,如图11所示,所述电子设备包括:处理器(processor)1101、存储器(memory)1102和总线1103;

其中,所述处理器1101、存储器1102通过总线1103完成相互间的通信;

所述处理器1101用于调用所述存储器1102中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取纠错后的基因信息,所述基因信息包括基因组和比对信息;根据所述基因组和所述比对信息进行基因组组装;若判断获知组装结果未达到预设条件,对所述组装结果进行分区域聚类处理,并将处理结果进行重新组装。

本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取纠错后的基因信息,所述基因信息包括基因组和比对信息;根据所述基因组和所述比对信息进行基因组组装;若判断获知组装结果未达到预设条件,对所述组装结果进行分区域聚类处理,并将处理结果进行重新组装。

本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取纠错后的基因信息,所述基因信息包括基因组和比对信息;根据所述基因组和所述比对信息进行基因组组装;若判断获知组装结果未达到预设条件,对所述组装结果进行分区域聚类处理,并将处理结果进行重新组装。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的电子设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1