碱基序列对准系统及方法

文档序号:6546177阅读:500来源:国知局
碱基序列对准系统及方法
【专利摘要】本发明公开一种碱基序列对准系统及方法。根据本发明的一个实施例的碱基序列对准系统包括:精确匹配模块,用于执行输入的短片段(read)与参考序列(reference sequence)的精确匹配(exact matching);二次匹配模块,当所述短片段无法精确匹配于所述参考序列时,通过考虑所述短片段与所述参考序列之间的错配(mismatch)而将所述短片段映射于所述参考序列;全局对准模块,当所述短片段无法通过所述二次匹配模块而得到映射时,执行所述短片段与所述参考序列的全局对准(global alignment)。
【专利说明】碱基序列对准系统及方法

【技术领域】
[0001] 本发明的实施例涉及一种用于分析基因组的碱基序列的技术。

【背景技术】
[0002] 用于生产大容量的短序列的下一代测序(NGS :Next Generation Sequencing)因 其低廉的费用和快速数据生产方式而正在迅速地取代传统的桑格(Sanger)测序方式。并 且,着重于准确率而开发出多种多样的NGS序列对准程序。
[0003] 序列重组的第一个步骤为通过碱基序列对准(alignment)算法将短片段(read) 映射(mapping)到参考序列的准确的位置。为此,普通的现有碱基序列对准算法首先将从 短片段中选取的预定长度的种子(seed)映射到参考序列,然后在映射的位置上对其余短 片段进行全局对准(Global Alignment)。
[0004] 对于这种现有技术中的序列对准算法而言,需要在利用种子获得的参考序列内的 所有候选位置上执行全局对准。然而全局对准的复杂度为〇 (N2),其执行时间很长,因此如 果按照现有技术,则突出的问题在于碱基序列对准时间随着候选位置的增加而按照几何级 数增长。


【发明内容】

[0005] 本发明的实施例的目的在于提供一种用于在利用从测序仪输入的短片段进行序 列对准时有效地减少需要很长的执行时间和很强的处理能力的全局对准的执行次数的技 术方案。
[0006] 根据本发明的一个实施例的一种碱基序列对准系统,包括:精确匹配模块,用 于执行输入的短片段(read)对于参考序列(reference sequence)的精确匹配(exact matching);二次匹配模块,当所述短片段无法精确匹配到所述参考序列时,通过考虑所述 短片段与所述参考序列之间的错配(mismatch)而将所述短片段映射到所述参考序列;全 局对准模块,当通过所述二次匹配模块无法映射所述短片段时,执行所述短片段对于所述 参考序列的全局对准(global alignment)。
[0007] 所述碱基序列对准系统还可以包括:种子生成模块,当所述短片段无法精确匹配 到所述参考序列时,从所述短片段生成多个种子(seed)。
[0008] 所述种子生成模块可从所述短片段的整个区间生成所述多个种子。
[0009] 所述种子生成模块从所述短片段的第一个碱基(base)开始移动设定的间距并读 取与设定的大小一样大的所述短片段的值,从而可以生成所述多个种子。
[0010] 所述种子生成模块可将所述多个种子生成为使生成的种子具有15bp?30bp的长 度。
[0011] 所述二次匹配模块可计算生成的各个种子在所述参考序列上的映射位置,并可以 通过考虑在所述各个种子的映射位置上将所述短片段精确匹配到参考序列时发生的错配 而确定所述短片段在所述参考序列上的映射位置。
[0012] 所述二次匹配模块可将所述各个种子的映射位置当中的所述错配的数量最少的 位置确定为所述短片段的映射位置。
[0013] 所述二次匹配模块可将所述各个种子的映射位置当中的所述错配的质量分数之 和最小的位置确定为所述短片段的映射位置。
[0014] 所述二次匹配模块可将所述各个种子的映射位置当中的所述错配的数量为设定 值以下的同时错配的质量分数之和最小的位置确定为所述短片段的映射位置。
[0015] 所述全局对准模块可在所述各个种子的映射位置上执行所述短片段对于所述参 考序列的全局对准。
[0016] 所述全局对准模块可从所述各个种子的映射位置当中的所述错配的质量分数之 和最小的映射位置开始依次执行所述全局对准。
[0017] 所述全局对准模块可从所述各个种子的映射位置当中的所述错配的数量与间隙 (gap)的数量之和为设定值以下的同时所述错配的数量与间隙的数量之和最小的映射位置 开始依次执行所述全局对准。
[0018] 所述全局对准模块可从所述各个种子的映射位置当中的所述错配的数量与间隙 的数量之和为设定值以下的同时所述错配以及所述间隙的质量分数之和最小的映射位置 开始依次执行所述全局对准。
[0019] 另外,根据本发明的一个实施例的一种碱基序列对准方法,包括如下步骤:精确匹 配步骤,由精确匹配模块执行输入的短片段对于参考序列的精确匹配;二次匹配步骤,当所 述短片段无法精确匹配到所述参考序列时,由二次匹配模块通过考虑所述短片段与所述参 考序列之间的错配而将所述短片段映射到所述参考序列;全局对准步骤,当通过所述二次 匹配步骤无法映射所述短片段时,由全局对准模块执行所述短片段对于所述参考序列的全 局对准。
[0020] 所述的碱基序列对准方法在执行所述二次匹配步骤之前还可以包括如下步骤:种 子生成步骤,当所述短片段无法精确匹配到所述参考序列时,从所述短片段生成多个种子。
[0021] 在所述种子生成步骤中,可从所述短片段的整个区间生成所述多个种子。
[0022] 在所述种子生成步骤中,可从所述短片段的第一个碱基开始移动设定的间距并读 取与设定的大小一样大的所述短片段的值,从而生成所述多个种子。
[0023] 在所述种子生成步骤中,可将所述多个种子生成为使生成的种子具有15bp? 30bp的长度。
[0024] 所述二次匹配步骤还可以包括如下步骤:计算生成的各个种子在所述参考序列上 的映射位置;通过考虑在所述各个种子的映射位置上将所述短片段精确匹配到参考序列时 发生的错配而确定所述短片段在所述参考序列上的映射位置。
[0025] 在确定所述映射位置的步骤中,可将所述各个种子的映射位置当中的所述错配的 数量最少的位置确定为所述短片段的映射位置。
[0026] 在确定所述映射位置的步骤中,可将所述各个种子的映射位置当中的所述错配的 质量分数之和最小的位置确定为所述短片段的映射位置。
[0027] 在确定所述映射位置的步骤中,可将所述各个种子的映射位置当中所述错配的数 量为设定值以下的同时错配的质量得分之和最小的位置确定为所述短片段的映射位置。
[0028] 在所述全局对准步骤中,可在所述各个种子的映射位置上执行所述短片段对于所 述参考序列的全局对准。
[0029] 在所述全局对准步骤中,可从所述各个种子的映射位置当中的所述错配的质量分 数之和最小的映射位置开始依次执行所述全局对准。
[0030] 在所述全局对准步骤中,可从所述各个种子的映射位置当中的所述错配的数量与 间隙的数量之和为设定值以下的同时所述错配的数量与间隙的数量之和最小的映射位置 开始依次执行所述全局对准。
[0031] 在所述全局对准步骤中,可从所述各个种子的映射位置当中的所述错配的数量与 间隙的数量之和为设定值以下的同时所述错配以及所述间隙的质量分数之和最小的映射 位置开始依次执行所述全局对准。
[0032] 根据本发明的实施例,经过如下的步骤化的过程:首先尝试对由测序仪生成的 整个短片段的精确匹配,并对没有精确匹配的短片段执行仅考虑错配(mismatch)的二 次匹配,并只对所述二次匹配中也没有被映射的短片段进行选择性的全局对准,即,执行 同时考虑错配和间隙(gap)的对准。此时,由于所述二次匹配基本上是精确匹配(exact matching)过程,因此处理速度明显快于具有0(N 2)的复杂度的全局对准。即,根据本发明 的实施例,可在执行全局对准之前通过精确匹配和二次匹配过程而事先筛选出与参考序列 完全一致的短片段以及只存在一些错配的短片段,从而与简单地直接将短片段全局对准于 参考序列的现有技术相比,可以有效地减少碱基序列对准时间。
[0033] 而且,根据本发明的实施例,在进行所述二次匹配时通过考虑错配的质量得分而 确定短片段的映射位置,从而具有可以减少喊基序列对准时间的同时能够维持喊基序列对 准准确率的优点。

【专利附图】

【附图说明】
[0034] 图1为用于说明根据本发明的一个实施例的碱基序列对准方法100的图。
[0035] 图2为用于举例表示在根据本发明的一个实施例的碱基序列对准方法100中计算 mEB (误差数量最小值)的过程的图。
[0036] 图3至图5为用于举例表示根据本发明的实施例的种子生成过程的图。
[0037] 图6为用于举例说明根据本发明的一个实施例而将短片段精确匹配到参考序列 时的错配(mismatch)的图。
[0038] 图7为用于举例说明根据本发明的一个实施例的二次匹配过程的图。
[0039] 图8为用于说明根据本发明的一个实施例的碱基序列对准系统800的模块图。
[0040] 符号说明:
[0041] 800:碱基序列对准系统 802:精确匹配模块
[0042] 804 :种子生成模块 806 :二次匹配模块
[0043] 808 :全局对准模块

【具体实施方式】
[0044] 以下,参照附图对本发明的【具体实施方式】进行说明。然而这仅仅是示例,本发明并 不局限于此。
[0045] 在对本发明进行说明时,如果认为对有关本发明的公知技术的具体说明有可能对 本发明的主旨造成不必要的混乱,则省略其详细说明。另外,后述的术语为考虑到在本发明 中的功能而定义的术语,其可能因使用者、运用者的意图或惯例等而不同。因此,要以整个 说明书的内容为基础而对其进行定义。
[0046] 本发明的技术思想由权利要求书确定,以下的实施例只是用于向本发明所属技术 领域中具有普通知识的人员有效地说明本发明的技术思想的一种手段。
[0047] 在对本发明的实施例进行详细说明之前,先对本发明中使用的术语进行如下说 明。首先,"短片段(read) "是指由基因组测序仪(genome sequencer)输出的长度较短的碱 基序列数据。短片段的长度通常根据测序仪的类型而大致构成为35?500bp(base pair, 碱基对),通常对于DNA碱基而言是用字母A、C、G、T来表示。
[0048] "参考序列(reference sequence) "是指从所述短片段生成整个碱基序列时作为 参照的碱基序列。在碱基序列分析中,通过参照参考序列对基因组测序仪中输出的大量短 片段进行映射,来完成整个碱基序列。在本发明中,所述参考序列可以是在碱基序列分析时 所预先设定的序列(例如,人类的整个碱基序列等),或者将基因组测序仪中制作出的碱基 序列使用为参考序列。
[0049] "碱基(base) "为构成参考序列和短片段的最小单位。如前所述,对于DNA碱基而 言可以由A、C、G、T这四种字母构成,将这些分别称为碱基。S卩,对于DNA碱基而言,通过四 个碱基来表达,这对于短片段也一样。只是对于参考序列而言,由于多种多样的原因(测序 错误、样本错误等),可能会出现无法确定应该用A、C、G或T中的哪种碱基来表示特定位置 的碱基的情形,对于这种无法明确的碱基通常是用N等另外的文字进行标记。
[0050] "种子(seed) "是指为了短片段的映射而将短片段与参考序列进行比较时成为单 位的序列。理论上,为了将短片段映射到参考序列,需要将整个短片段从参考序列的起始部 分开始依次比较下去并计算短片段的映射位置。然而对于这种方法而言,映射一个短片段 需要很长的时间和很强的计算能力,因此实际上,首先将作为由短片段的一部分构成的种 子映射到参考序列,从而找出整个短片段的映射候选位置,并将整个短片段映射到对应的 候选位置(Global Alignment,全局对准)。
[0051] 图1为用于说明根据本发明的一个实施例的碱基序列对准方法100的图。在本发 明的实施例中,碱基序列对准方法100是指通过将基因组测序仪输出的短片段与参考序列 进行比较来确定短片段在所述参考序列上的映射(或对准)位置的一系列过程。如图所示, 根据本发明的一个实施例的碱基序列对准方法100大体上分为包括如下三个步骤:对整个 短片段的精确匹配步骤;对没有得到精确匹配的短片段进行二次匹配的步骤;对没有得到 二次匹配的其余短片段进行全局对准的步骤。
[0052] 首先,如果由基因组测序仪输入短片段(步骤102),则尝试整个短片段与所述参 考序列的精确匹配(exact matching)(步骤104)。如果执行所述步骤104的结果针对整 个短片段的精确匹配成功,则不再执行后续的对准步骤,并判断为对准成功(步骤106)。 将人类的碱基序列作为对象而进行实验的结果显示,将基因组测序仪输出的100万个短片 段精确匹配到人类的碱基序列时在一共为200万次的对准(正向序列100万次,反向互补 (reverse complement)方向序列100万次)中发生了 231,564次的精确匹配。因此,执行 所述步骤104的结果大致可以减少11. 6%的对准量。
[0053] 然而,如果在所述步骤106中判断为对应短片段没有得到精确匹配,换言之,参 考序列中不存在与短片段完全一致的区域,则接着从短片段中生成多个种子(步骤108), 并考虑所述种子在参考序列的映射位置上的所述短片段与所述参考序列之间的错配 (mismatch)而尝试将所述短片段映射到所述参考序列的二次匹配(步骤110)。如果所述步 骤110的二次匹配结果存在至少一个满足二次匹配条件的映射位置,则将其中之一选为所 述短片段的映射位置(步骤112)。即,在此情况下二次匹配成功。但如果在所述步骤112 中不存在满足所述二次匹配条件的映射位置,则最后,在所述种子在所述参考序列中的映 射位置上执行所述短片段对所述参考序列的全局对准(步骤114)。此时,在进行所述全局 对准的结果,如果短片段的错误数量超过已设定的最大错误数量允许值(maxError)则判 断为对准失败,否则判断为对准成功(步骤116)。
[0054] 另外,虽然没有图示,然而如果在所述步骤106的判断结果是短片段没有精确匹 配到参考序列,则在执行针对短片段的二次匹配之前,还可根据实施例而包括估计将相关 短片段对准到所述参考序列时可能出现的错误数量的步骤。
[0055] 在本发明的实施例中,所述错误数量的估计可以通过计算将所述短片段对准至所 述参考序列时可能出现的错误数量最小值(mEB :minimum Error Bound)而实现。图2为用 于举例表示所述mEB计算过程的图。首先,如图2的(a)所示,将初始mEB设定为0,并从 短片段的第一个碱基开始朝短片段的末端方向每次移动一个碱基来尝试精确匹配。此时, 如图2的(b)所示,假定从短片段的特定碱基(图中以箭头表示的部分)处开始无法再进 行精确匹配。这种情况表示从短片段的匹配起始位置到当前位置之间的区间某处发生了错 误。因此,在此情况下将mEB增加1并从下一个位置开始新的精确匹配(图中表示为(C))。 以后如果在特定位置上再次判断为无法精确匹配,则说明重新开始精确匹配的位置到当前 位置之间的区间某处又发生了错误,因此将mEB再增加1并从下一个位置开始新的精确匹 配(图中表示为(d))。经过这种过程而到达短片段的末尾(S卩,图中以(e)表示的情形) 时的mEB成为对应短片段中可能存在的错误数量的最小值。
[0056] 如果经过如上所述的过程而计算出短片段的mEB,接着便判断计算出的mEB是否 超过已设定的最大错误数量允许值(MaxError),并在超过的情况下判断为针对相关短片段 的对准失败并终止对准。在前述的以人类碱基序列为对象的实验中,将最大错误数量允许 值取为3,并计算剩余短片段的mEB的结果显示,共有相当于844, 891次的短片段超过所述 最大错误数量允许值。即,执行所述mEB计算步骤的结果,可以减少大约42. 2%的对准量。 但如果所述判断的结果mEB为所述最大错误数量允许值以下,则依次执行前述步骤108以 后的步骤。
[0057] 以下详细说明所述步骤108至步骤116的具体过程。
[0058] 从短片段牛成多个种子
[0059] 本步骤是为了正式执行短片段的对准而从短片段中生成作为多个小的片段的种 子的步骤。在本步骤中,考虑所述短片段的一部分或全部而生成多个种子。
[0060] 图3至图5为用于举例说明这种通过考虑短片段的整个区间而生成种子的方法的 图。只是,在本发明中说明的种子生成方法仅仅是示例,本发明并不局限于特定的种子生成 过程。例如,可通过将整个短片段或者其一部分特定区间分割为多个片段亦或是将分割的 片段进行组合而生成种子。在此情况下,生成的种子可相互连续连接,然而并非一定要如 此,也可以组合短片段内相互分离的片段来构成种子。而且,从一个短片段生成的种子不一 定非要具有相同的长度,从一个短片段内也可生成具有多种长度的种子。简而言之,在本发 明的实施例中,从短片段生成种子的方法并不特别受限,可不受限制地采用从短片段的一 部分或整个短片段中提取种子的多种算法。
[0061] 首先,图3为用于举例表示根据本发明的一个实施例的种子生成过程的图。如图 所示,在本实施例中可通过将整个短片段分割为与设定的大小一样大的片段而生成种子。 即,分割为预定长度的所述片段分别可以成为本发明的种子。在图中图示了将短片段分为 6个片段的实施例,然而片段的数量以及每个片段的长度并不特别受限,其可以通过考虑参 考序列的类型、短片段的长度、或者短片段的最大错误数量允许值等而适当地进行调整。并 且,在图中只图示了将短片段分割为没有相互重叠部分(overlap)的示例,然而也可以将 短片段分割为分割的各片段中存在一部分重叠的部分。
[0062] 图4为用于举例表示根据本发明的另一实施例的种子生成过程的图。如图所示, 在本实施例中,可以在将整个短片段分割为与设定大小一样大的片段之后,通过将分割的 所述短片段的片段中的两个以上的片段进行组合而生成所述种子。例如,如图所示,在将短 片段分割为4个片段(片段1?4)之后,将其两两组合的情况下可以生成总共6个种子。 与前述的实施例相同,分割的片段的数量、各片段的长度、以及组合的片段数量等并不特别 受限,其可以通过考虑参考序列的类型、短片段的长度、或者短片段的最大错误数量允许值 等而适当地调节。
[0063] 图5为用于举例表示根据本发明的又一实施例的种子生成过程的图。在本实施 例中,从所述短片段的第一个碱基(base)开始移动设定的间距并读取与设定大小一样 大的所述短片段的值,从而生成所述种子。在图示的实施例中,表示了短片段的长度为 75bp(base pair,碱基对)、短片段的最大错误数量允许值为3bp、种子的大小(fragment size)为15bp、移动间距(shift size)为4bp的情况下的实施例。即,从短片段的第一个 碱基开始以4bp为单位向右移动并生成种子。只是图示的实施例仅仅是示例性的,例如可 通过考虑短片段的长度、短片段的最大错误数量允许值等而适当地确定所述移动间距、种 子大小等。换言之,本发明的权利范围并不局限于特定的种子大小和移动间距。
[0064] 另外,虽然在本发明的实施例中种子的长度并不特别受限,然而可以优选将所述 种子的长度设定为所述短片段长度的20%?30%。通常,种子的长度越短,对应种子在参 考序列上的映射数增加,而种子的长度越长,对应种子在参考序列上的映射数越少。通常 情况下,在考虑由基因组测序仪生成的短片段的长度时,如果种子的长度为短片段长度的 20%以下,则种子在参考序列上的映射数过多,因此出现后续的全局对准过程中全局对准 次数不必要地增加的问题。相反,如果所述种子的长度为短片段长度的30%以上,则种子在 参考序列上的映射数过少,从而使映射的准确率下降。因此在本发明中考虑到短片段的长 度而将种子的长度构成为所述短片段长度的20%?30%,从而在确保映射的质量的同时 使映射时可发生的复杂度最小化。
[0065] 并且,如果所述参考序列为人类的碱基序列,则可以将所述种子生成为具有 15bp?30bp的长度。如前所述,通常情况下种子的长度越短对应种子在参考序列上的映射 数越多,而种子的长度越长对应种子在参考序列上的映射数越少。尤其,对于人类的碱基序 列而言,在种子的长度为14以下的情况下参考序列内的映射位置的数量急剧增加。如下的 表1表示基于种子长度的人类基因组内的种子平均出现频率。
[0066] [表 1]
[0067]

【权利要求】
1. 一种碱基序列对准系统,包括: 精确匹配模块,用于执行输入的短片段对于参考序列的精确匹配; 二次匹配模块,当所述短片段无法精确匹配到所述参考序列时,通过考虑所述短片段 与所述参考序列之间的错配而将所述短片段映射到所述参考序列; 全局对准模块,当通过所述二次匹配模块无法映射所述短片段时,执行所述短片段对 于所述参考序列的全局对准。
2. 如权利要求1所述的碱基序列对准系统,其中,还包括: 种子生成模块,当所述短片段无法精确匹配到所述参考序列时,从所述短片段中生成 多个种子。
3. 如权利要求2所述的碱基序列对准系统,其中,所述种子生成模块从所述短片段的 整个区间生成所述多个种子。
4. 如权利要求2所述的碱基序列对准系统,其中,所述种子生成模块从所述短片段的 第一个碱基开始移动设定的间距并读取与设定的大小一样大的所述短片段的值,从而生成 所述多个种子。
5. 如权利要求2所述的碱基序列对准系统,其中,所述种子生成模块将所述多个种子 生成为使生成的种子具有15bp?30bp的长度。
6. 如权利要求2所述的碱基序列对准系统,其中,所述二次匹配模块计算生成的各个 种子在所述参考序列上的映射位置,并通过考虑在所述各个种子的映射位置上将所述短片 段精确匹配到参考序列时发生的错配而确定所述短片段在所述参考序列上的映射位置。
7. 如权利要求6所述的碱基序列对准系统,其中,所述二次匹配模块将所述各个种子 的映射位置当中的所述错配的数量最少的位置确定为所述短片段的映射位置。
8. 如权利要求6所述的碱基序列对准系统,其中,所述二次匹配模块将所述各个种子 的映射位置当中的所述错配的质量分数之和最小的位置确定为所述短片段的映射位置。
9. 如权利要求6所述的碱基序列对准系统,其中,所述二次匹配模块将所述各个种子 的映射位置当中的所述错配的数量为设定值以下的同时错配的质量分数之和最小的位置 确定为所述短片段的映射位置。
10. 如权利要求6所述的碱基序列对准系统,其中,所述全局对准模块在所述各个种子 的映射位置上执行所述短片段对于所述参考序列的全局对准。
11. 如权利要求10所述的碱基序列对准系统,其中,所述全局对准模块从所述各个种 子的映射位置当中的所述错配的质量分数之和最小的映射位置开始依次执行所述全局对 准。
12. 如权利要求10所述的碱基序列对准系统,其中,所述全局对准模块从所述各个种 子的映射位置当中的所述错配的数量与间隙的数量之和为设定值以下的同时所述错配的 数量与间隙的数量之和最小的映射位置开始依次执行所述全局对准。
13. 如权利要求10所述的碱基序列对准系统,其中,所述全局对准模块从所述各个种 子的映射位置当中所述错配的数量与间隙的数量之和为设定值以下的同时所述错配以及 所述间隙的质量得分之和最小的映射位置开始依次执行所述全局对准。
14. 一种碱基序列对准方法,包括如下步骤: 精确匹配步骤,由精确匹配模块执行输入的短片段对于参考序列的精确匹配; 二次匹配步骤,当所述短片段无法精确匹配到所述参考序列时,由二次匹配模块通过 考虑所述短片段与所述参考序列之间的错配而将所述短片段映射到所述参考序列; 全局对准步骤,当通过所述二次匹配步骤无法映射所述短片段时,由全局对准模块执 行所述短片段对于所述参考序列的全局对准。
15. 如权利要求14所述的碱基序列对准方法,其中,在执行所述二次匹配步骤之前,还 包括如下步骤: 种子生成步骤,当所述短片段无法精确匹配到所述参考序列时,从所述短片段中生成 多个种子。
16. 如权利要求15所述的碱基序列对准方法,其中,在所述种子生成步骤中,从所述短 片段的整个区间中生成所述多个种子。
17. 如权利要求15所述的碱基序列对准方法,在所述种子生成步骤中,从所述短片段 的第一个碱基开始移动设定的间距并读取与设定的大小一样大的所述短片段的值,从而生 成所述多个种子。
18. 如权利要求15所述的碱基序列对准方法,其中,在所述种子生成步骤中,将所述多 个种子生成为使生成的种子具有15bp?30bp的长度。
19. 如权利要求15所述的碱基序列对准方法,其中,所述二次匹配步骤还包括如下步 骤: 计算生成的各个种子在所述参考序列上的映射位置; 通过考虑在所述各个种子的映射位置上将所述短片段精确匹配到参考序列时发生的 错配而确定所述短片段在所述参考序列上的映射位置。
20. 如权利要求19所述的碱基序列对准方法,其中,在确定所述映射位置的步骤中,将 所述各个种子的映射位置当中的所述错配的数量最少的位置确定为所述短片段的映射位 置。
21. 如权利要求19所述的碱基序列对准方法,其中,在确定所述映射位置的步骤中,将 所述各个种子的映射位置当中的所述错配的质量分数之和最小的位置确定为所述短片段 的映射位置。
22. 如权利要求19所述的碱基序列对准方法,其中,在确定所述映射位置的步骤中,将 所述各个种子的映射位置当中的所述错配的数量为设定值以下的同时错配的质量分数之 和最小的位置确定为所述短片段的映射位置。
23. 如权利要求19所述的碱基序列对准方法,其中,在所述全局对准步骤中,在所述各 个种子的映射位置上执行所述短片段对于所述参考序列的全局对准。
24. 如权利要求23所述的碱基序列对准方法,其中,在所述全局对准步骤中,从所述各 个种子的映射位置当中的所述错配的质量分数之和最小的映射位置开始依次执行所述全 局对准。
25. 如权利要求23所述的碱基序列对准方法,其中,在所述全局对准步骤中,从所述各 个种子的映射位置当中的所述错配的数量与间隙的数量之和为设定值以下的同时所述错 配的数量与间隙的数量之和最小的映射位置开始依次执行所述全局对准。
26. 如权利要求23所述的碱基序列对准方法,其中,在所述全局对准步骤中,从所述各 个种子的映射位置当中的所述错配的数量与间隙的数量之和为设定值以下的同时所述错 配以及所述间隙的质量分数之和最小的映射位置开始依次执行所述全局对准。
【文档编号】G06F19/18GK104424398SQ201410196155
【公开日】2015年3月18日 申请日期:2014年5月9日 优先权日:2013年9月3日
【发明者】朴旻壻 申请人:三星Sds株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1