染色体的检测方法和装置制造方法

文档序号:6539020阅读:152来源:国知局
染色体的检测方法和装置制造方法
【专利摘要】本发明公开了一种染色体的检测方法和装置。其中,染色体的检测方法包括:接收步骤:接收参考序列和多个测序序列;分割步骤:以n1碱基为步长将每个测序序列均分割为定长为n2碱基的多个测序子序列,并以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列;比较步骤:将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列;以及确定步骤:根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称。通过本发明,解决了现有技术中染色体检测的速度较慢的问题,进而达到了减少时间开支、提高检测速度的效果。
【专利说明】染色体的检测方法和装置
【技术领域】
[0001]本发明涉及基因工程领域,具体而言,涉及一种染色体的检测方法和装置。
【背景技术】
[0002]对于母体外周血浆中存在的胎儿游离DNA,目前最为通用的检测方法是基于第二代高通量测序技术,首先对孕妇取少量外周血液,提取外周血中的游离DNA,然后一般是多样本混合建库,单端50碱基序列长度测序,将测序数据根据不同的样本标记(barcode)进行数据分离到每个样本,再将每个样本数据质控后通过第三方的短序列比对软件(如soapAligner或bwa)和人的参考基因组进行比对,得出测序数据在目标染色体的覆盖深度,也就是染色体剂量(chromosome dosage),然后通过染色体剂量判断样本是阳性样本还是阴性样本。
[0003]由于基于第二代高通量测序技术的得到测序数据量是非常巨大的,对于上述检测胎儿染色体倍型异常的技术来说,每个样本需要测量约300M碱基的数据量。在样本数越来越多的情况下,对该检测技术的生物信息分析方法的速度要求就会日益明显。但是现有的检测方式中,原始的测序数据产出后需依次经过样本分离,数据比对和数据比对结果分析统计才能得到检测结果,其中,不仅每一个步骤需要采用相对独立的软件进行处理,并且每一个步骤还需要读取上一个步骤的输出结果作为输入,这些反复的输入输出耗费了大量额外时间,并极大的消耗系统的1/0 (输入输出)性能和磁盘空间。同时,对于数据比对确定染色体,需要通过复杂的计算方式进行,系统的处理速度非常慢,进一步导致检测周期较长、效率低下。
[0004]针对相关技术中染色体检测的速度较慢的问题,目前尚未提出有效的解决方案。

【发明内容】

[0005]本发明的主要目的在于提供一种染色体的检测方法和装置,以解决现有技术中染色体检测的速度较慢的问题。
[0006]为了实现上述目的,根据本发明的一个方面,提供了 一种染色体的检测方法。
[0007]根据本发明的染色体的检测方法包括:接收步骤:接收参考序列和多个测序序列;分割步骤:以nl碱基为步长将每个测序序列均分割为定长为n2碱基的多个测序子序列,并以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列,其中,nl、n2和n3均为正整数,并且nl ( n3 ;比较步骤:将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列,其中,目标测序序列的多个测序子序列均包含在参考序列的多个参考子序列中;以及确定步骤:根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称,其中,参考序列和参考序列的每个参考子序列均具有对应的染色体名称。
[0008]进一步地,多个测序序列为来自多个待检测样本的测序序列,并且每个测序序列均具有样本标识,检测方法还包括:以多进程方式执行分割步骤、比较步骤和确定步骤。[0009]进一步地,目标测序序列的数量为多个,在将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列之后,并且在根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称之前,检测方法还包括:查找与每个目标测序序列Ci的每个测序子序列Cu具有相同碱基的参考子序列,其中,i依次取I至imax,j依次取jmax,Ifflax为目标测序序列的数量;Jfflax为目标测序序列Ci的测序子序列的数量;确定与测序子序列Cu具有相同碱基的参考子序列的染色体名称为测序子序列Cu的染色体名称;判断多个目标测序序列中的第一测序序列Ci,的每个测序子序列Ci, ^的染色体名称是否均相同,其中,i' e (I, Ifflax);以及在判断出多个目标测序序列中的第一测序序列Ci,的每个测序子序列Ci, d勺染色体名称不均相同的情况下,从多个目标测序序列中过滤掉第一测序序列Ci,。
[0010]进一步地,通过以下方式确定目标测序序列对应的染色体名称:查找与第二测序序列Ci,,的任一测序子序列Ci, , j,具有相同碱基的参考子序列,其中,第二测序序列Ci,,为过滤掉第一测序序列Ci,的任一目标测序序列,i',e(l,imax),j' e (l,j' _),?Τ _为第二测序序列Ci,,的测序子序列的数量,并且i' f #if ;以及确定与测序子序列Ci, , j,具有相同碱基的参考子序列的染色体名称为第二测序序列Ci,,的染色体名称。
[0011]进一步地,在以n3喊基为步长将参考序列分割为定长为n2喊基的多个参考子序列之后,检测方法还包括:将参考序列的多个参考子序列存储至共享内存中,其中,将每个测序序列的多个测序子序列与共享内存中的参考序列的多个参考子序列相比较,确定出目标测序序列,并根据目标测序序列的多个测序子序列与共享内存中的参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称。
[0012]进一步地,在以n3喊基为步长将参考序列分割为定长为n2喊基的多个参考子序列之后,检测方法还包括:删除参考序列的多个参考子序列中的重复子序列和/或第一子序列,其中,第一子序列为包括N碱基的子序列,其中,将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列包括:将每个测序序列的多个测序子序列与参考序列的目标参`考子序列相比较,确定出目标测序序列,其中,目标参考子序列为删除重复子序列和/或第一子序列后的多个参考子序列。
[0013]根据本发明的另一方面,提供了一种染色体的检测装置,该检测装置主要用于执行本发明上述内容所提供的任一种染色体的检测方法。
[0014]根据本发明的另一方面,提供了一种染色体的检测装置,包括:接收单元,用于接收参考序列和多个测序序列;分割单元,用于以nl碱基为步长将每个测序序列均分割为定长为n2喊基的多个测序子序列,并以n3喊基为步长将参考序列分割为定长为n2喊基的多个参考子序列,其中,nl、n2和n3均为正整数,并且nl <n3 ;比较单元,用于将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列,其中,目标测序序列的多个测序子序列均包含在参考序列的多个参考子序列中;以及第一确定单元,用于根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称,其中,参考序列和参考序列的每个参考子序列均具有对应的染色体名称。
[0015]进一步地,多个测序序列为来自多个待检测样本的测序序列,并且每个测序序列均具有样本标识,分割单元、比较单元和第一确定单元的数量均为多个。[0016]进一步地,目标测序序列的数量为多个,检测装置还包括:查找单元,用于查找与每个目标测序序列Ci的每个测序子序列Cu具有相同碱基的参考子序列,其中,i依次取I至imax,j依次取jmax,Ifflax为目标测序序列的数量;jmax为目标测序序列Ci的测序子序列的数量;第二确定单元,用于确定与测序子序列Cu具有相同碱基的参考子序列的染色体名称为测序子序列Cu的染色体名称;判断单元,用于判断多个目标测序序列中的第一测序序列Ci,的每个测序子序列Ci, d勺染色体名称是否均相同,其中,i' e (I, Ifflax);以及过滤单元,用于在判断出多个目标测序序列中的第一测序序列Ci,的每个测序子序列Ci, j的染色体名称不均相同的情况下,从多个目标测序序列中过滤掉第一测序序列Ci,。
[0017]进一步地,第一确定单元包括:查找模块,用于查找与第二测序序列Ci,,的任一测序子序列Ci,, J,具有相同碱基的参考子序列,其中,第二测序序列Ci,,为过滤掉第一测序序列Ci,的任一目标测序序列,i',e (I, Ifflax), e(l,j' max),j' max为第二测序序列Ci,,的测序子序列的数量,并且i' ';以及确定模块,用于确定与测序子序列Ci,,」,具有相同碱基的参考子序列的染色体名称为第二测序序列Ci,,的染色体名称。
[0018]进一步地,检测装置还包括:存储单元,用于将参考序列的多个参考子序列存储至共享内存中,其中,比较单元用于将每个测序序列的多个测序子序列与共享内存中的参考序列的多个参考子序列相比较,确定出目标测序序列,第一确定单元用于根据目标测序序列的多个测序子序列与共孚内存中的参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称。
[0019]进一步地,检测装置还包括:删除单元,用于删除参考序列的多个参考子序列中的重复子序列和/或第一子序列,其中,第一子序列为包括N碱基的子序列,其中,比较单元用于将每个测序序列的多个测序子序列与参考序列的目标参考子序列相比较,确定出目标测序序列,其中,目标参考子序列为删除重复子序列和/或第一子序列后的多个参考子序列。
[0020]本发明采用接收步骤:接收参考序列和多个测序序列;分割步骤:以nl碱基为步长将每个测序序列均分割为定长为n2碱基的多个测序子序列,并以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列,其中,nl、n2和n3均为正整数,并且nl < n3 ;比较步骤:将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列,其中,目标测序序列的多个测序子序列均包含在参考序列的多个参考子序列中;以及确定步骤:根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称,其中,参考序列和参考序列的每个参考子序列均具有对应的染色体名称。通过对测序序列和参考序列进行分割,进而利用分割后的测序子序列和参考子序列进行对比检测,相对现有技术中需要对冗长的序列进行对比检测的方式而言,减少了序列对比时间,实现了提高序列比对速度,进而实现了提高染色体的检测速度,解决了现有技术中染色体检测的速度较慢的问题,进而达到了减少时间开支、提高检测速度的效果。
【专利附图】

【附图说明】
[0021]构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0022]图1是根据本发明实施例的染色体的检测方法的流程图;以及[0023]图2是根据本发明实施例的染色体的检测装置的示意图。
【具体实施方式】
[0024]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0025]本发明实施例提供了一种染色体的检测方法,以下对本发明实施例所提供的染色体的检测方法做具体介绍:
[0026]图1是根据本发明实施例的染色体的检测方法的流程图,如图1所示,该检测方法主要包括如下步骤S102至步骤S108:
[0027]S102 (接收步骤):接收参考序列和多个测序序列,其中,参考序列为人的参考基因组序列,测序序列为待检测样本的基因组序列,一般为单端50碱基序列长度。
[0028]S104 (分割步骤):以nl碱基为步长将每个测序序列均分割为定长为n2碱基的多个测序子序列,并以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列,其中,nl、n2和n3均为正整数,并且nl ( n3,优选地,在分割前,可以先舍头去尾将每个测序序列两端各切割掉一个喊基,成为长度为48喊基的序列。由于测序序列头尾两端的喊基的质量较低,所以,将其切除后有利于提高测序序列的质量。
[0029]S106 (比较步骤):将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列,其中,目标测序序列的多个测序子序列均包含在参考序列的多个参考子序列中,即,通过将每个测序序列的多个测序子序列与参考序列的多个参考子序列进行对比,确定出目标测序序列,对于任一测序序列,如果这个测序序列的多个测序子序列,在参考序列的多个参考子序列中均能够找到对应相同的参考子序列的话,则确定这个测序序列为目标测序序列。
[0030]S108 (确定步骤):根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称,其中,参考序列和参考序列的每个参考子序列均具有对应的染色体名称。
[0031]本发明实施例所提供的染色体的检测方法,通过对测序序列和参考序列进行分害I],进而利用分割后的测序子序列和参考子序列进行对比检测,相对现有技术中需要对冗长的序列进行对比检测的方式而言,减少了序列对比时间,实现了提高序列比对速度,进而实现了提高染色体的检测速度,解决了现有技术中染色体检测的速度较慢的问题,进而达到了减少时间开支、提高检测速度的效果。
[0032]其中,nl可以等于1,η2等于16,S卩,以固定步长为I碱基对测序序列进行分割,从而将48碱基长度的测序序列分割为33个16碱基长度的测序子序列。对于参考碱基,可以同样以固定步长为I碱基进行分割,也可以采用大于I碱基的步长进行分割。
[0033]优选地,多个测序序列为来自多个待检测样本的测序序列,并且每个测序序列均具有样本标识,本发明实施例的检测方法还包括:以多进程方式执行分割步骤、比较步骤和确定步骤,即,对多个测序序列同时进行分割、比较和确定,从而更快地确定出测序序列对应的染色体名称,达到进一步提高检测速度的效果。
[0034]进一步地,在确定出目标测序序列和目标测序序列对应的染色体名称之后,本发明实施例的检测方法还包括如下步骤Sll至S14:[0035]Sll:统计每个染色体对应的目标测序序列的数量,即,统计有多少个目标测序序列的染色体名称是I号染色体,有多少个目标测序序列的染色体名称是2号染色体,……,有多少个目标测序序列的染色体名称是23号染色体。
[0036]S12:根据每个染色体对应的目标测序序列的数量计算每个染色体的剂量,主要是均一化每个染色体对应的目标测序序列的数量,得到每个染色体的剂量,具体地,可以按照
公式
【权利要求】
1.一种染色体的检测方法,其特征在于,包括: 接收步骤:接收参考序列和多个测序序列; 分割步骤:以nl碱基为步长将每个所述测序序列均分割为定长为n2碱基的多个测序子序列,并以n3喊基为步长将所述参考序列分割为定长为n2喊基的多个参考子序列,其中,nl、n2和n3均为正整数,并且nl ( n3 ; 比较步骤:将每个所述测序序列的多个测序子序列与所述参考序列的多个参考子序列相比较,确定出目标测序序列,其中,所述目标测序序列的多个测序子序列均包含在所述参考序列的多个参考子序列中;以及 确定步骤:根据所述目标测序序列的多个测序子序列与所述参考序列的多个参考子序列的对应关系,确定出所述目标测序序列对应的染色体名称,其中,所述参考序列和所述参考序列的每个参考子序列均具有对应的染色体名称。
2.根据权利要求1所述的检测方法,其特征在于,多个所述测序序列为来自多个待检测样本的测序序列,并且每个所述测序序列均具有样本标识,所述检测方法还包括:以多进程方式执行所述分割步骤、所述比较步骤和所述确定步骤。
3.根据权利要求1所述的检测方法,其特征在于,所述目标测序序列的数量为多个,在将每个所述测序序列的多个测序子序列与所述参考序列的多个参考子序列相比较,确定出目标测序序列之后,并且在根据所述目标测序序列的多个测序子序列与所述参考序列的多个参考子序列的对应关系,确定出所述目标测序序列对应的染色体名称之前,所述检测方法还包括: 查找与每个目标测序序列Ci的每个测序子序列Cu具有相同碱基的参考子序列,其中,i依次取I至imax,j依次取jmax,ifflax为所述目标测序序列的数量;jmax为所述目标测序序列Ci的测序子序列的数量;` 确定与所述测序子序列Cu具有相同碱基的参考子序列的染色体名称为所述测序子序列Cu的染色体名称; 判断多个所述目标测序序列中的第一测序序列Ci,的每个测序子序列Ci, ^的染色体名称是否均相同,其中,i' e (I, Ifflax);以及 在判断出多个所述目标测序序列中的所述第一测序序列Ci,的每个测序子序列Ci, d勺染色体名称不均相同的情况下,从多个所述目标测序序列中过滤掉所述第一测序序列Ci,。
4.根据权利要求3所述的检测方法,其特征在于,通过以下方式确定所述目标测序序列对应的染色体名称: 查找与第二测序序列Ci,,的任一测序子序列Ci, , J,具有相同碱基的参考子序列,其中,第二测序序列Ci,,为过滤掉所述第一测序序列Ci,的任一所述目标测序序列,i' ' e(l,imax),j' e(l,j' max),j' max为所述第二测序序列CiU的测序子序列的数量,并且i' ’ ^ V ;以及 确定与所述测序子序列Ci, , j,具有相同碱基的参考子序列的染色体名称为所述第二测序序列Ci,,的染色体名称。
5.根据权利要求1所述的检测方法,其特征在于,在以n3碱基为步长将所述参考序列分割为定长为n2碱基的多个参考子序列之后,所述检测方法还包括: 将所述参考序列的多个参考子序列存储至共享内存中,其中,将每个所述测序序列的多个测序子序列与所述共享内存中的所述参考序列的多个参考子序列相比较,确定出所述目标测序序列,并根据所述目标测序序列的多个测序子序列与所述共享内存中的所述参考序列的多个参考子序列的对应关系,确定出所述目标测序序列对应的染色体名称。
6.根据权利要求1所述的检测方法,其特征在于,在以n3碱基为步长将所述参考序列分割为定长为n2碱基的多个参考子序列之后,所述检测方法还包括: 删除所述参考序列的多个参考子序列中的重复子序列和/或第一子序列,其中,所述第一子序列为包括N碱基的子序列, 其中,将每个所述测序序列的多个测序子序列与所述参考序列的多个参考子序列相比较,确定出所述目标测序序列包括:将每个所述测序序列的多个测序子序列与所述参考序列的目标参考子序列相比较,确定出所述目标测序序列,其中,所述目标参考子序列为删除所述重复子序列和/或所述第一子序列后的多个所述参考子序列。
7.一种染色体的检测装置,其特征在于,包括: 接收单元,用于接收参考序列和多个测序序列; 分割单元,用于以nl碱基为步长将每个所述测序序列均分割为定长为n2碱基的多个测序子序列,并以n3喊基为步长将所述参考序列分割为定长为n2喊基的多个参考子序列,其中,nl、n2和n3均为正整数,并且nl≤n3 ; 比较单元,用于将每个所述测序序列的多个测序子序列与所述参考序列的多个参考子序列相比较,确定出目标测序序列,其中,所述目标测序序列的多个测序子序列均包含在所述参考序列的多个参考子序列中;以及 第一确定单元,用于根据所述目标测序序列的多个测序子序列与所述参考序列的多个参考子序列的对应关系,确定出所述目标测序序列对应的染色体名称,其中,所述参考序列和所述参考序列的每个参考子序列均具有对应的染色体名称。
8.根据权利要求7所述的检测装置,其特征在于,多个所述测序序列为来自多个待检测样本的测序序列,并且每个所述测序序列均具有样本标识,所述分割单元、所述比较单元和所述第一确定单元的数量均为多个。
9.根据权利要求7所述的检测装置,其特征在于,所述目标测序序列的数量为多个,所述检测装置还包括: 查找单元,用于查找与每个目标测序序列Ci的每个测序子序列Cu具有相同碱基的参考子序列,其中,i依次取I至imax,j依次取jmax,Ifflax为所述目标测序序列的数量;jmax为所述目标测序序列Ci的测序子序列的数量; 第二确定单元,用于确定与所述测序子序列Cu具有相同碱基的参考子序列的染色体名称为所述测序子序列Cu的染色体名称; 判断单元,用于判断多个所述目标测序序列中的第一测序序列Ci,的每个测序子序列Ci, d勺染色体名称是否均相同,其中,i' e (I, Ifflax);以及 过滤单元,用于在判断出多个所述目标测序序列中的所述第一测序序列Ci,的每个测序子序列Ci, J的染色体名称不均 相同的情况下,从多个所述目标测序序列中过滤掉所述第一测序序列Ci,。
10.根据权利要求9所述的检测装置,其特征在于,所述第一确定单元包括:查找模块,用于查找与第二测序序列Ci,,的任一测序子序列Ci, , J,具有相同碱基的参考子序列,其中,第二测序序列Ci,,为过滤掉所述第一测序序列Ci,的任一所述目标测序序列,i',e (I, Ifflax), j- e (I, j- max),j' max为所述第二测序序列C彳的测序子序列的数量,并且i' ';以及 确定模块,用于确定与所述测序子序列Ci, , j,具有相同碱基的参考子序列的染色体名称为所述第二测序序列Ci,,的染色体名称。
11.根据权利要求7所述的检测装置,其特征在于,所述检测装置还包括: 存储单元,用于将所述参考序列的多个参考子序列存储至共享内存中, 其中,所述比较单元用于将每个所述测序序列的多个测序子序列与所述共享内存中的所述参考序列的多个参考子序列相比较,确定出所述目标测序序列,所述第一确定单元用于根据所述目标测序序列的多个测序子序列与所述共享内存中的所述参考序列的多个参考子序列的对应关系,确定出所述目标测序序列对应的染色体名称。
12.根据权利要求7所述的检测装置,其特征在于,所述检测装置还包括: 删除单元,用于删除所述参考序列的多个参考子序列中的重复子序列和/或第一子序列,其中,所述第一子序列为包括N碱基的子序列, 其中,所述比较单元用于将每个所述测序序列的多个测序子序列与所述参考序列的目标参考子序列相比较,确定出所述目标测序序列,其中,所述目标参考子序列为删除所述重复子序列和/或所述第一子序列后的多个所述参考子序列。
【文档编号】G06F19/18GK103824001SQ201410069562
【公开日】2014年5月28日 申请日期:2014年2月27日 优先权日:2014年2月27日
【发明者】阮航, 潘凯, 王海龙, 李瑞强 申请人:北京诺禾致源生物信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1