碱基序列比对系统及方法
【专利摘要】本发明公开一种碱基序列比对系统及方法。根据本发明的一个实施例的碱基序列比对系统,包括:片段序列生成单元,用于由短片段生成多个片段(fragment)序列;筛选单元,用于构成只包含生成的所述多个片段序列当中与参考序列相匹配的片段序列的候选片段序列集合;映射个数计算单元,将所述参考序列划分为多个区间,并计算所述多个区间各自的所述候选片段序列的总映射个数;比对单元,选择计算出的所述总映射个数为基准个数以上的区间,并对选择的区间执行针对所述短片段的全局比对(global?alignment)。
【专利说明】碱基序列比对系统及方法
【技术领域】
[0001]本发明的实施例涉及一种用于分析基因组的碱基序列的技术。
【背景技术】
[0002]用于生产高容量短序列的第二代测序方式(NGS:Next Generation Sequencing)因其低廉的成本和迅速生成数据的能力而正在迅速地替代传统的桑格(Sanger)测序方式。并且,开发出了多种聚焦于准确度的NGS序列重组程序。然而,近来随着第二代测序技术的发展,制作片段序列的费用降低为过去的一半以下,随之可用数据的量增加,因此需要开发一种能够在短时间内准确地处理高容量短序列的技术。
[0003]序列重组的第一个步骤为通过碱基序列比对(alignment)算法而将短片段映射(mapping)于参考序列的正确位置上。其中的问题在于即使是同种个体,也可能因多种遗传性变异而导致基因组序列上的差异。而且,测序过程中的误差也可能导致碱基序列上的差异。因此,碱基序列比对算法必须有效考虑这种差异和变异而提高映射准确度。
[0004]总而言之,为了对基因组信息进行分析,需要尽量多而准确的所有基因组信息数据。而且,为了达到这一目的,首先是要开发出具有很高的准确度和较大处理量的碱基序列比对算法。然而,现有技术中的方法在满足这些需求条件方面存在局限性。
【发明内容】
[0005]本发明实施例的目的在于提供一种可在确保映射准确度的同时通过改善映射时的复杂度而提高处理速度的碱基序列比对方案。
[0006]为了解决如上所述的技术问题,根据本发明一个实施例的碱基序列比对系统包括:片段序列生成单元,用于由短片段生成多个片段(fragment)序列;筛选单元,用于构成只包含所生成的所述多个片段序列当中与参考序列相匹配的片段序列的候选片段序列集合;映射个数计算单元,将所述参考序列划分为多个区间,并计算所述多个区间各自的所述候选片段序列的总映射个数;比对单元,选择计算出的所述总映射个数为基准个数以上的区间,并对所选择的区间执行针对所述短片段的全局比对(global alignment)。
[0007]另外,为了解决如上所述的技术问题,根据本发明一个实施例的碱基序列比对方法包括如下步骤:在片段序列生成单元中,由短片段生成多个片段(fragment)序列;在筛选单元中,构成只包含所生成的所述多个片段序列当中与参考序列相匹配的片段序列的候选片段序列集合;在映射个数计算单元中,将所述参考序列划分为多个区间,并按所述多个区间分别计算所述候选片段序列的总映射个数;在比对单元中,选择计算出的所述总映射个数为基准个数以上的区间,并对所选择的区间执行针对所述短片段的全局比对(globalalignment)。
[0008]根据本发明的实施例,由于在进行短片段的比对时不再只是考虑短片段的特定区域,而是通过考虑整个短片段而选择种子序列(片段序列),因此与只考虑短片段的一部分的算法相比,可以提高准确度。[0009]而且,限制各片段序列在参考序列内的重复数,而对于超过该重复数的种子序列则使种子序列的长度扩增,从而具有可提高映射准确度的同时还可以加快速度的效果。
[0010]并且,通过将参考序列划分为多个区域之后在其中选择短片段被映射的可能性较高的特定区域,并只在对应区域内执行全局比对(Global Alignment),从而可以大幅度减少全局比对时间。
[0011]而且,省去寻找由短片段导出的片段序列的映射位置与组合的复杂过程,代之以直接对构成组合的可能性较高的片段序列执行全局比对,从而可以进一步提高全局比对速度,并通过存储全局比对位置而避免在对应位置周围重复执行全局比对,从而可以减少不必要的全局比对次数。
【专利附图】
【附图说明】
[0012]图1为用于说明根据本发明一个实施例的碱基序列比对方法100的图。
[0013]图2为用于举例说明根据本发明一个实施例的碱基序列比对方法100的步骤108中的最小误差估计值(MEB) e计算过程的图。
[0014]图3为用于说明根据本发明一个实施例的碱基序列比对方法100的步骤112中的片段序列生成过程的图。
[0015]图4为用于举例说明根据本发明一个实施例的参考序列内的映射对象区间选择过程的图。
[0016]图5为用于说明根据本发明一个实施例的用于减少全局比对过程中不必要的全局比对次数的方法的示例图。
[0017]图6为示出根据本发明一个实施例的碱基序列比对系统600的模块图。
[0018]符号说明:
[0019]600:碱基序列比对系统602:片段序列生成单元
[0020]604:筛选单元606:映射个数计算单元
[0021]608:比对单元610:片段序列扩增单元
【具体实施方式】
[0022]以下,参照【专利附图】
【附图说明】本发明的【具体实施方式】。然而这仅仅是示例,本发明并不局限于此。
[0023]在对本发明进行说明时,如果遇到对有关本发明的公知技术的具体说明有可能不必要地干扰本发明的主旨的情况,则省略其详细说明。并且,后述的术语均为考虑本发明中的功能而进行定义的,其可能因使用者、运用人员的意图或习惯等而有所不同。因此,要以整个说明书的内容为基础对其进行定义。
[0024]本发明的技术思想由权利要求书确定,以下的实施例只是为了将本发明的技术思想有效地传递给本发明所属【技术领域】中具有普通知识的人员而采用的一种手段。
[0025]在对本发明的实施例进行具体说明之前,首先对本发明中使用的术语进行如下说明。
[0026]首先,“短片段(read)序列”(或者简称“短片段”)是指基因组测序仪(genomesequencer)中输出的长度较短的碱基序列数据。短片段的长度因基因组测序仪的种类而不同,通常构成为35?500bp(base pair)范围的多种长度,在DNA碱基的情况下,通常用字母A、C、G、T表示。
[0027]“参考序列(reference sequence)"指可对利用所述短片段形成整个碱基序列提供参考的碱基序列。在碱基序列分析中,通过将基因组测序仪所输出的大量短片段参照参考序列进行映射而完成整个碱基序列。在本发明中,所述参考序列既可以是碱基序列分析时预先设定的序列(例如人类的整个碱基序列等),或者也可以将基因组测序仪中产生的碱基序列使用为参考序列。
[0028]“碱基(base)”为构成参考序列及短片段的最小单位。如前所述,构成DNA的碱基可由A、C、G、T等四个字母表示的碱基构成,将这些分别称为碱基。换言之,对于DNA而言,可用四种碱基表示,短片段也是如此。
[0029]“片段序列(fragment sequence)”(或者种子序列(seed))指为了短片段的映射而比较短片段与参考序列时作为单位的序列(Sequence)。理论上讲,为了将短片段映射于参考序列,需要把整个短片段从参考序列的最前端部分开始依次比较并计算短片段的映射位置。然而由于这种方法在映射一个短片段时消耗过多的时间并要求过高的计算能力,因此实际上要先把短片段的一部分所构成的片,即片段序列映射于参考序列而找出整个短片段的映射候选位置,然后将整个短片段映射于对应候选位置(Global Alignment)。
[0030]图1为用于说明根据本发明一个实施例的碱基序列比对方法100的图。在本发明的实施例中,碱基序列比对方法100指通过将基因组测序仪(genomesequencer)中输出的短片段与参考序列进行比较而确定短片段在所述参考序列中的映射(或比对)位置的一系列过程。
[0031]首先,如果从基因组测序仪(genome sequencer)接收到短片段(步骤102),则尝试整个短片段与所述参考序列之间的精确匹配(exact matching)(步骤104)。进行所述尝试的结果,如果针对整个短片段的精确匹配成功,则不执行后续的比对步骤而判断为比对成功(步骤106)。将人类的碱基序列作为对象进行实验的结果显示,如果将基因组测序仪中输出的100万个短片段精确匹配于人类的碱基序列,则在总共200万次的比对中(正向序列100万次,反向互补(reverse complement)方向序列100万次)出现231,564次的精确匹配。因此执行所述步骤104的结果可以减少约11.6%的比对工作量。
[0032]然而,如果与之相反,即在所述步骤106中判断为对应短片段并不精确匹配的情况下,则是计算用于表示将对应短片段比对到所述参考序列时可能出现的误差的次数的最小误差估计值(MEB:Minimum Error Bound) e (步骤 108)。
[0033]图2为用于举例说明所述步骤108中的最小误差估计值(MEB)e计算过程的图。如图所示,首先将初始最小误差估计值设定为O (e=0),并从短片段的第一个碱基向右逐个移动的同时尝试精确匹配。此时,假定从所述短片段的特定碱基(图中的左侧第一个箭头)开始无法再实现匹配,则这种情况说明从短片段的匹配起始位置到当前位置之间的区间中的某处出现了误差。因此,在这种情况下将最小误差估计值增加I (e=l)之后在下一个位置上重新开始精确匹配。如果在以后又遇到判断为无法精确匹配的情况,则是说明从重新开始精确匹配的位置到当前位置之间的区间某处又出现了误差,因此又将最小误差估计值增加I (e=2)之后在下一个位置上重新开始精确匹配。通过这样的过程,到达短片段末尾时的最小误差估计值(图中为e=3)将成为可能在对应短片段中出现的误差的个数。其中,之所以将所述e的值作为最小误差估计值,是因为并没有对短片段中可能出现误差的所有误差数量进行分析,而是通过如果在特定部分中出现误差便从该部分以后起重新进行精确匹配的方式而只对对象序列的某一位置(position)进行了检查。即,所述e值可以作为在对应短片段中可能出现的误差的最小值,而在对象序列的其他位置上可能出现更多的误差。
[0034]若通过上述过程计算出了短片段的最小误差估计值,则判断计算出的最小误差估计值是否超过预先设定的最大误差允许值(maxError)(步骤110),判断结果如果超过,则判断为对应短片段的比对失败并终止比对。在前述的将人类的碱基序列作为对象的实验中,将最大误差允许值(maxEiror)设定为3而计算剩余短片段的最小误差估计值的结果显示,共有844,891次实验的短片段超过所述最大误差允许值。即,执行所述步骤108的结果,能减少约42.2%的比对工作量。
[0035]相反地,如果在所述步骤110中判断的结果,计算出的最小误差估计值为所述最大误差允许值以下,则将通过如下过程执行对应短片段的比对。
[0036]首先,由所述短片段生成多个片段(fragment)序列(步骤112),并组成只包含所生成的所述多个片段序列中的与所述参考序列相匹配的片段序列的候选片段序列集合(步骤114)。然后,将所述参考序列划分为多个区间,并按所述多个区间分别计算所述候选片段序列的总映射个数(步骤116),且根据所述计算的结果而选择总映射个数为基准个数以上的区间,并对选择的区间执行针对所述短片段的全局比对(global alignment)(步骤118)。此时,如果进行所述全局比对的结果为短片段的误差个数超过预先设定的最大误差允许值CmaxError ),则判断为比对失败,否则判断为比对成功(步骤120 )。
[0037]以下便详细说明所述步骤112至步骤118的具体过程。
[0038]由短片段生成多个片段序列(步骤112)
[0039]本步骤是为了正式执行短片段的比对而由短片段生成多个小片即片段序列的步骤。在本步骤中,从所述短片段的第一个碱基向最后一个碱基每移动设定的间距(shiftsize),便按照设定大小(fragment size)读取短片段的值,从而生成所述片段序列。
[0040]图3为用于说明所述步骤112中的片段序列生成过程的图。在图中表示的是短片段的长度为75bp (碱基对,base pair)、短片段的最大误差允许值为3bp、片段序列的大小(fragment size)为15bp、移动间距(shift size)为4bp的情形的实施例。即,从短片段的第一个碱基开始向右侧依次移动4bp的过程中生成片段序列。然而,图示的实施例仅仅是示例性的,诸如所述移动间距、片段序列大小等为可通过考虑短片段长度、短片段的最大误差允许值等而适当地确定。换言之,本发明的权利范围并不局限于特定片段序列的长度及移动间距。
[0041]生成的片段序列的筛选及扩增(步骤114)
[0042]如果通过上述过程生成了片段序列,接着便通过筛选过程除去生成的片段序列当中不与参考序列相匹配的片段序列,从而构成候选片段序列集合(sub-candidate)。S卩,尝试生成的片段序列与所述参考序列之间的精确匹配(exact matching),然后用不一致的碱基数为预先设定的允许值以下的片段序列(候选片段序列)构成所述候选片段序列集合。此时,如果所述允许值为0,则所述候选片段序列集合中将只包含与所述参考序列精确匹配的片段序列。
[0043]例如假定图3所示实施例中在所述短片段的第15个、第34个、第61个位置上出现了误差(在图中用虚线表示)。在这种情况下,包含所述误差的片段序列(图中用灰色表示)将不能与参考序列精确匹配,而只有不受误差影响的17-31、37-51、41-55、45-59等四个片段序列能够与参考序列精确匹配。因此在这种情况下,所述候选片段序列集合中只包含所述四个片段序列。
[0044]另外,参考序列(例如人类的基因组)通常包含多个重复序列(repeat sequence)。由于这种重复序列分布于参考序列的多个位置上,且重复包含相同的碱基序列,因此对于一些片段序列而言,当与参考序列进行映射时,将在过多的位置上发生精确匹配。如果这种重复序列导致在一些片段序列中发生过多数量的映射,则会对整个比对算法的复杂度和准确度造成不利影响,因此在这种情况下有必要利用适当的方法来减少映射位置的重复次数。
[0045]为此,本步骤中还可以包括如下步骤:当候选片段序列在所述参考序列中的映射重复数超过预先设定值(例如50个)时,扩增对应片段序列的大小,直到所述映射重复数达到所述设定值以下。
[0046]具体而言,在本步骤中分别计算生成的所述候选片段序列在所述参考序列中的映射位置的个数,并选择计算出的映射重复数(对应的片段序列在参考序列中的映射位置的个数)超过设定值的片段序列,然后扩增选择的片段序列的大小,直到在所述参考序列中的映射重复数成为所述设定值以下。此时,可通过在所述选择的片段序列的起始端或末端上增加对应于相应位置的所述短片段上的碱基而执行所述扩增。
[0047]对此举例说明如下。假定由短片段生成了如下片段序列。
[0048]短片段:ATTGC CTCAGT
[0049]片段序列:T T G C (短片段中的划线部分)
[0050]如果对所述片段序列进行映射的结果,参考序列中的映射重复数超过基准值50而达到65个,则按照如下方式将所述片段序列的长度依次扩增lbp,直到所述映射重复数减少到基准值以下。
[0051]T T G C (映射位置65个)
[0052]TTGCC (映射位置54个)
[0053]TTGCCT (映射位置 27 个)
[0054]在上述示例中,由于参考短片段而增加两个碱基的情况下映射重复数减少为设定值以下,因此最终片段序列将成为相比于初始生成值扩增2bp的T TG C C T。另外,与前述的另一示例相同,所述设定值也是可以根据参考序列、短片段、片段序列的特性等而适当选定的值,本发明的权利范围并不局限于特定的重复数设定值。
[0055]在将人类的碱基序列作为对象的一个实验中,从100万个短片段中以15bp的片段序列长度、4bp的位移间隔生成片段序列之后将生成的片段序列映射于参考序列的情况下,如果以50作为基准值,则显示在共15,547,856个片段序列中约有77%的片段序列具有50个以下的映射。即,实验结果表明,如果基准值取50,则有77%的片段序列可直接使用,而剩余的23%的片段序列需要按照上述方法扩增片段序列。
[0056]计算参考序列的各区间映射个数(步骤116)
[0057]当通过上述过程构成候选片段序列集合(sub-candidate)之后,原则上可以利用这些候选片段序列集合在所述参考序列中的映射位置而将短片段映射于参考序列。然而,由于在这种情况下需要考虑候选片段序列的各映射位置的所有组合,因此用于短片段映射的计算的复杂度将很高。例如,当包含于候选片段序列集合的候选片段序列为4个、而各候选片段序列在参考序列中的映射位置的个数分别为3、6、24、49时,要对21,168 (=3X6X24X49)个组合全部进行检查。本发明中为了降低这种计算的复杂度,将参考序列划分为多个区间,并只对其中映射可能性较高的区间执行全局比对。
[0058]S卩,在本发明中首先把参考序列划分为具有相同大小的多个区间,然后对划分的各区间分别计算以下值。
[0059]A:映射于对应区间的候选片段序列的总个数(映射个数)
[0060]B:映射于对应区间的所述候选片段序列的总映射长度
[0061]例如,在图3所示的实施例中,如果17-31的片段序列被映射于所划分的第一个区间,则对应区间的(A,B)值将是(1,15)(其中,I为映射于对应区间的候选片段序列总数,15为被映射的候选片段序列的总映射长度)。通过相同的方式,如果37-51的片段序列被映射于第二个区间,则对应区间的(A,B)值将是(1,15)。然后当41-55的片段序列再次映射于所述第二个区间时,对应区间的(A,B)值将被更新为(2,19),其理由如下。
[0062]第一个值2:映射于对应区间的候选片段序列的总数
[0063]第二个值19:考虑了起先映射的37-51及随后映射的41_55的重叠区间的总映射长度
[0064]映身寸对象IX间的诛.择以及全局比对(Global Alignment)(步骤118)
[0065]如果通过如上所述的过程而计算出各区间的映射个数及映射长度,则把其中映射个数为设定基准个数以上的区间选择为映射对象区间。并且,当所述的映射个数为基准个数以上的区间为多个的情况下,可将所述总映射个数为基准个数以上的区间当中所述总映射长度为设定基准长度以上的区间选择为映射对象区间。此时,所述基准个数至少为2个,这是因为映射的基本单位是片段序列,所以只映射到一个片段序列的区间上有短片段被映射的可能性很低。对所述基准长度的详细内容将在后面叙述。
[0066]图4为用于举例说明根据本发明一个实施例的映射对象区间选择过程的图。如图所示,参考序列被划分为区间I至区间4的四个区间,假定各区间的映射个数及映射长度的计算结果如下。
[0067]区间1=(1,15)
[0068]区间2=(0,0)
[0069]区间3= (2,23)
[0070]区间4= (2,27)
[0071]此时,如果将所述基准个数设定为2、将所述基准长度设定为22,则满足所述基准个数和基准长度的区间为区间3和区间4,因此在本步骤中将会把对应于所述区间3和4的区间选择为映射对象区间。此时,如果满足所述基准个数和基准长度的区间为多个,则对应的所有区间都将成为映射对象区间,且将在包含于映射对象区间的多个区间的每一个中执行全局比对。在这种情况下,为了提高比对速度,可将包含于映射对象区间中的各区间的映射个数或映射长度进行比较,并从映射个数较多或映射长度较大的区间开始依次执行全局比对。这是因为映射个数较多或映射长度较大时短片段在对应区间内得到映射的可能性较高。例如,在上述实施例中区间3和区间4的映射个数均为2,然而区间4的映射长度值大于区间3,因此在这种情况下可从区间4开始进行全局比对。
[0072]如此选择映射对象区间之后,接着便将候选片段序列(sub-candidate)当中被映射于对应映射对象区间的候选片段序列选定为最终候选片段序列(candidate),并在选定的最终候选片段序列各自的映射位置上执行针对短片段的全局比对,从而完成对短片段的比对。
[0073]例如,假定在图4所示实施例中被映射于区间4的候选片段序列为37-51、41_55、45-59等三个,则上述三个候选片段序列将成为最终候选对象,并将在这些最终候选对象在对应区间内的映射位置上执行短片段的全局比对。
[0074]另外,在对所述最终候选片段序列执行全局比对时,为了减少全局比对所需时间,存储执行过一次全局比对的参考序列中的位置,并防止以后在附近的位置上重复执行多次全局比对。具体而言,在本步骤中先把所述映射对象区间划分为多个小区间,并且如果有执行过全局比对的小区间,便留下记录。当以后对相应小区间进行全局比对时,将利用上述记录信息而判断在对应小区间内是否已执行全局比对,并只在判断出未曾执行全局比对的情况下执行全局比对。
[0075]如果对此举例说明便如图5所示。如图所示,映射对象区间被分为5个小区间,假定在上述三个最终候选对象中37-51、41-55被映射于第二个小区间,而45-59被映射于第四个小区间,则在这种情况下,如果在第二个小区间内对37-51片段序列执行全局比对,则无论结果如何都不会对属于同一小区间的41-55执行全局比对,且在相反的情况下也如此。因此在图示的实施例中,全局比对只会针对37-51/45-59或41-55/45-59的组合执行。即使如本发明所述地不在整个参考序列中执行全局比对而只在映射对象区间内执行全局比对,也要将相当多的时间用于全局比对,因此通过这种过程可以减少全局比对所需时间。
[0076]计算基准长度
[0077]在上述实施例中,可通过如下方式计算基准长度。
[0078]当假定f表示片段序列的大小、s表示为了生成片段序列而在短片段内移动的间距、L表示短片段的长度、e表示短片段中允许的最大误差个数、H表示基准长度时,短片段中不受误差影响的区域的长度T可用如下数学式求出。
[0079]T=L - f Xe-S
[0080]此时,由于L和e为实行本发明时预先确定的值,因此由f和s的值决定T。即,算法的性能差异取决于f和s的值如何变化。
[0081]首先,在确定H的值时考虑以下两个条件。其中,必须条件为必须要满足,而附加条件只在可能的情况下予以考虑。
[0082]必须条件:由于映射的基本单位为片段序列,因此无论基准长度多小,至少要具有能够包含重叠的两个以上片段序列的大小。例如图2所示,在f=15、s=4的情况下,由于重叠的两个片段序列的最小长度为15+4=19,因此H值至少应为19。而且,由于要将所述H值设定为至少包含两个片段序列,因此要比f+s更大或相等。如后所述,f值至少应为15,因此将s值假定为其最小值I的情况下,H值至少为16 (=15+1)。
[0083]附加条件:在理想情况下,通过设定H=T并寻找映射了 T以上的序列的区间,便可以找到对应于给定误差的所有映射。然而如前所述,在参考序列本身包含许多重复的情况下,可能遇到需要扩增片段序列长度的情形。因此,考虑到这一点,在确定H值时使用比T略小的T - s可能有利于映射率。如果假定H=T,则H=L-f.e-S,如果假定其中的e取最小值I (由于e=0的情况为与参考序列精确匹配的情形,因此将在前述步骤104中映射完毕),则有H=L-f-s。该值将是基准长度的最大值。如果假定L=75bp、f=15bp、s=l,H的最大值便成为 75-15-1=59。
[0084]综上,所述H值应该满足如下范围。
[0085]f+s ≤ H ≤L - (f+s)
[0086]然后,在满足以下两个条件的值当中选择较大值作为f值。必须条件仍然要必须满足,而附加条件只在可能的情况下考虑。
[0087]必须条件:f应该取15以上,这是由于如果片段长度为14以下,则参考序列中的映射位置的个数将急剧增加。
[0088]如下的表1表示根据片段序列长度的人类基因组中的片段序列平均出现频率。
[0089][表 I]
[0090]
【权利要求】
1.一种碱基序列比对系统,包括: 片段序列生成单元,用于由短片段生成多个片段序列; 筛选单元,用于构成只包含所生成的所述多个片段序列当中与参考序列相匹配的片段序列的候选片段序列集合; 映射个数计算单元,将所述参考序列划分为多个区间,并计算所述多个区间各自的所述候选片段序列的总映射个数; 比对单元,选择计算出的所述总映射个数为基准个数以上的区间,并对所选择的区间执行针对所述短片段的全局比对。
2.如权利要求1所述的碱基序列比对系统,其特征在于,从所述短片段的第一个碱基开始每移动设定的间距,所述片段序列生成单元便读取与设定大小一样大的所述短片段的值,从而生成所述片段序列。
3.如权利要求1所述的碱基序列比对系统,其特征在于,与所述参考序列相匹配的片段序列为与所述参考序列进行精确匹配的结果不一致的碱基数为设定个数以下的片段序列。
4.如权利要求1所述的碱基序列比对系统,其特征在于,还包括片段序列扩增单元,用于计算所述候选片段序列各自在所述参考序列中的映射重复数,并选择计算出的所述映射重复数超过设定值的片段序列,且将所选择的片段序列的大小扩增,直到所述候选片段序列在所述参考序列中的映射位置个数达到所述设定值以下。
5.如权利要求4所述的碱基序列比对系统,其特征在于,所述片段序列扩增单元用于在所述选择的片段序列的起始端或末端上增加对应于相应位置的所述短片段上的碱基。
6.如权利要求1所述的`碱基序列比对系统,其特征在于,所述比对单元选择所述候选片段序列当中映射于所述选择的区间的候选片段序列,并在所选择的各候选片段序列的在所述参考序列内的映射位置上执行针对所述短片段的全局比对。
7.如权利要求6所述的碱基序列比对系统,其特征在于,所述比对单元将所述选择的区间划分为多个小区间,并判断待执行所述全局比对的所述参考序列中的位置所属的小区间内是否已执行全局比对,且进行所述判断的结果,只在尚未执行全局比对的情况下执行所述全局比对。
8.如权利要求1所述的碱基序列比对系统,其特征在于,所述映射个数计算单元在计算所述总映射个数的同时计算所述多个区间各自的所述候选片段序列的总映射长度,而所述比对单元在所述总映射个数为基准个数以上的区间当中选择所述总映射长度为设定基准长度以上的区间,并对选择的区间执行针对所述短片段的全局比对。
9.如权利要求8所述的碱基序列比对系统,其特征在于,在所述选择的区间为多个的情况下,所述比对单元根据多个区间各自的总映射个数或总映射长度而依次对所述短片段执行全局比对。
10.如权利要求8所述的碱基序列比对系统,其特征在于,所述基准个数至少为2个。
11.如权利要求8所述的碱基序列比对系统,其特征在于,所述基准长度为利用如下两个数学式计算的值当中较大的值:
H=L - fXe - 2s,以及
H=f+s,其中,H为基准长度,L为短片段的长度,f为片段序列的长度,e为短片段的最大误差个数,s为各片段序列的移动间距。
12.如权利要求11所述的碱基序列比对系统,其特征在于,所述基准长度满足如下数学式:
f+s ^ H ^ L- (f+s)。
13.如权利要求8所述的碱基序列比对系统,其特征在于,所述基准长度为16~59。
14.一种碱基序列比对方法,包括如下步骤: 在片段序列生成单元中,由短片段生成多个片段序列; 在筛选单元中,构成只包含所生成的所述多个片段序列当中与参考序列相匹配的片段序列的候选片段序列集合; 在映射个数计算单元中,将所述参考序列划分为多个区间,并按所述多个区间分别计算所述候选片段序列的总映射个数; 在比对单元中,选择计算出的所述总映射个数为基准个数以上的区间,并对所选择的区间执行针对所述短片段的全局比对, 其中,与所述参考序列相匹配的片段序列为与所述参考序列进行精确匹配的结果不一致的碱基数为设定个数以下的片段序列。
15.如权利要求14所述的碱基序列比对方法,其特征在于,在生成所述片段序列的步骤中,从所述短片段的第一个碱基开始每移动设定的间距,便读取与设定大小一样大的所述短片段的值,从而生成所述片段序列。``
16.如权利要求14所述的碱基序列比对方法,其特征在于,构成所述候选片段序列集合的步骤中包括如下步骤: 在片段序列扩增单元中,分别计算生成的所述候选片段序列在所述参考序列中的映射重复数; 在所述片段序列扩增单元中,选择计算出的所述映射重复数超过设定值的片段序列; 在所述片段序列扩增单元中,扩增所选择的片段序列的大小,直到所述候选片段序列在所述参考序列中的映射重复数成为所述设定值以下, 其中,在扩增所述选择的片段序列的大小的步骤中,在所述选择的片段序列的起始端或末端上增加对应于相应位置的所述短片段上的碱基。
17.如权利要求14所述的碱基序列比对方法,其特征在于,在执行所述全局比对的步骤中,选择所述候选片段序列当中映射于所述选择的区间的候选片段序列,并在选择的各候选片段序列在所述参考序列中的映射位置上执行针对所述短片段的全局比对,而且,执行所述全局比对的步骤中还包括如下步骤: 将所述选择的区间划分为多个小区间;判断待执行所述全局比对的所述参考序列中的位置所属的小区间内是否已执行全局比对, 并且,进行所述判断的结果,只在尚未执行全局比对的情况下执行所述全局比对。
18.如权利要求14所述的碱基序列比对方法,其特征在于,计算所述总映射个数的步骤还包括按所述多个区间分别计算所述候选片段序列的总映射长度的步骤,而在执行所述全局比对的步骤中,在所述总映射个数为基准个数以上的区间当中选择所述总映射长度为设定基准长度以上的区间,并对所选择的区间执行针对所述短片段的全局比对。
19.如权利要求18所述的碱基序列比对方法,其特征在于,在执行所述全局比对的步骤中,当所述选择的区间为多个时,根据各区间的总映射个数或总映射长度依次执行针对所述短片段的全局比对。
20.如权利要求18所述的碱基序列比对方法,其特征在于,所述基准长度为16~59。
【文档编号】G06F19/22GK103793627SQ201310368714
【公开日】2014年5月14日 申请日期:2013年8月22日 优先权日:2012年10月29日
【发明者】朴旻胥 申请人:三星Sds株式会社