考虑整个短片段的碱基序列比对系统及方法

文档序号:6508783阅读:305来源:国知局
考虑整个短片段的碱基序列比对系统及方法
【专利摘要】本发明公开一种考虑整个短片段的碱基序列比对系统及方法。根据本发明一个实施例的碱基序列比对系统包括:片段序列生成单元,用于从短片段序列的整个区间生成一个以上的片段(fragment)序列;比对单元,利用生成的所述片段序列而执行针对所述短片段序列的全局比对(global?alignment)。
【专利说明】考虑整个短片段的碱基序列比对系统及方法
【技术领域】
[0001]本发明的实施例涉及一种用于分析基因组的碱基序列的技术。
【背景技术】
[0002]用于生产高容量短序列的第二代测序方式(NGS:Next Generation Sequencing)因其低廉的成本和迅速生成数据的能力而正在迅速地替代传统的桑格(Sanger)测序方式。并且,开发出了多种聚焦于准确度的NGS序列重组程序。然而,近来随着第二代测序技术的发展,制作片段序列的费用降低为过去的一半以下,随之可用数据的量增加,因此需要开发一种能够在短时间内准确地处理高容量短序列的技术。
[0003]序列重组的第一个步骤为通过碱基序列比对(alignment)算法而将短片段映射(mapping)于参考序列的正确位置上。其中的问题在于即使是同种个体,也可能因多种遗传性变异而导致基因组序列上的差异。而且,测序过程中的误差也可能导致碱基序列上的差异。因此,碱基序列比对算法必须有效考虑这种差异和变异而提高映射准确度。
[0004]总而言之,为了对基因组信息进行分析,需要尽量多而准确的所有基因组信息数据。而且,为了达到这一目的,首先是要开发出具有很高的准确度和较大处理量的碱基序列比对算法。然而,现有技术中的方法在满足这些需求条件方面存在局限性。

【发明内容】

[0005]本发明实施例的目的在于提供一种可在确保映射准确度的同时通过改善映射时的复杂度而提高处理速度的碱基序列比对方案。
[0006]为了解决如上所述的技术问题,根据本发明一个实施例的碱基序列比对(alignment)系统包括:片段序列生成单元,用于从短片段序列的整个区间生成一个以上的片段(fragment)序列;比对单元,利用生成的所述片段序列而执行针对所述短片段序列的全局比对(global alignment)ο
[0007]另外,为了解决如上所述的技术问题,根据本发明一个实施例的用于将短片段(read)序列比对于参考序列的方法包括如下步骤:在片段序列生成单元中,从所述短片段序列的整个区间生成一个以上的片段(fragment)序列;在比对单元中,利用生成的所述片段序列而执行针对所述短片段序列的全局比对(global alignment)。
[0008]根据本发明的实施例,由于在进行短片段序列的比对时不再只是考虑短片段的特定区域,而是通过考虑整个短片段而选择种子序列(片段序列),因此与只考虑短片段的一部分的算法相比时,可以提高准确度。
【专利附图】

【附图说明】
[0009]图1为用于说明根据本发明一个实施例的碱基序列比对方法的图。
[0010]图2为用于举例表示根据本发明一个实施例的碱基序列比对方法中估计短片段序列的误差个数的过程的图。[0011]图3为用于举例表示根据本发明一个实施例的片段序列生成过程的图。
[0012]图4为用于举例表示根据本发明另一实施例的片段序列生成过程的图。
[0013]图5为用于举例表示根据本发明又一实施例的片段序列生成过程的图。
[0014]图6为根据本发明一个实施例的碱基序列比对系统的模块图。
[0015]符号说明:
[0016]600:碱基序列比对系统602:片段序列生成单元
[0017]604:比对单元606:筛选单元
[0018]608:误差个数估计单元
【具体实施方式】
[0019]以下,参照【专利附图】

【附图说明】本发明的【具体实施方式】。然而这仅仅是示例,本发明并不局限于此。
[0020]在对本发明进行说明时,如果遇到对有关本发明的公知技术的具体说明有可能不必要的干扰本发明的主旨的情况,则省略其详细说明。并且,后述的术语均为考虑本发明中的功能而进行定义的,其可能因使用者、运用人员的意图或习惯等而有所不同。因此,要以整个说明书的内容为基础对其进行定义。
[0021]本发明的技术思想由权利要求书确定,以下的实施例只是为了将本发明的技术思想有效地传递给本发明所属【技术领域】中具有普通知识的人员而采用的一种手段。
[0022]在对本发明的实施例进行具体说明之前,首先对本发明中使用的术语进行如下说明。
[0023]首先,“短片段序列(read sequence)"(或者简称为“短片段(read)”)是指基因组测序仪(genome sequencer)中输出的短碱基序列数据。短片段序列的长度因基因组测序仪的种类而不同,通常构成为35~500bp (base pair)范围的多种长度,在DNA碱基的情况下,通常用字母A、C、G、T表示。
[0024]“参考序列(reference sequence)"指可对利用所述短片段序列形成整个碱基序列提供参考的碱基序列。在碱基序列分析中,通过将基因组测序仪所输出的大量短片段参照参考序列进行映射而完成整个碱基序列。在本发明中,所述参考序列既可以是碱基序列分析时预先设定的序列(例如人类的整个碱基序列等),或者也可以将基因组测序仪中产生的碱基序列使用为参考序列。
[0025]“碱基(base)”为构成参考序列及短片段的最小单位。如前所述,构成DNA的碱基可由A、C、G、T等四个字母表示,将这些分别称为碱基。即,对于DNA而言,可用四种碱基表不,短片段序列也是如此。
[0026]“种子序列(seed)”是指为了短片段序列的映射而作为将短片段序列与参考序列进行比较时的单位的序列。从理论上讲,为了将短片段映射于参考序列,需要把整个短片段从参考序列的最前端部分开始依次比较的同时计算短片段的映射位置。然而由于这种方法在映射一个短片段时消耗过多的时间并要求过高的计算能力,因此实际上要先把作为短片段的一部分所构成的片,即种子序列映射于参考序列而找出整个短片段序列的候选位置,然后将整个短片段序列映射于对应候选位置(Global Alignment)。
[0027]“片段序列”是指作为用于构成所述种子序列的候选对象的所述短片段的片段。即,在本发明的实施例中是从短片段中提取一个以上的片段序列,并从提取的片段序列中只收集与参考序列相匹配的片段序列来构成种子序列集合。此时,将包含于所述种子序列集合中的片段序列称为种子序列。
[0028]图1为用于说明根据本发明一个实施例的碱基序列比对方法100的图。在本发明的实施例中,碱基序列比对方法100指通过将基因组测序仪(genome sequencer)中输出的短片段序列与参考序列进行比较而确定短片段序列在所述参考序列中的映射(或比对)位置的一系列过程。
[0029]首先,如果从基因组测序仪(genome sequencer)接收到短片段序列(步骤102),则尝试整个短片段序列与所述参考序列之间的精确匹配(exact matching)(步骤104)。执行所述步骤104的结果,如果针对整个短片段的精确匹配成功,则不执行后续的比对步骤而判断为比对成功(步骤106)。将人类的碱基序列作为对象进行实验的结果显示,如果将基因组测序仪中输出的100万个短片段序列精确匹配于人类的碱基序列,则在总共200万次的比对中(正向序列100万次,反向互补(reverse complement)方向序列100万次)出现231,564次的精确匹配。因此,执行所述步骤104的结果约可以减少11.6%的比对工作量。
[0030]然而,如果与之相反,即在所述步骤106中判断为对应短片段序列并不精确匹配的情况下,则是估计将对应短片段序列比对于所述参考序列时可能出现的误差个数(步骤108)。
[0031]图2为用于举例表示所述步骤108中的误差个数估计过程的图。如图2的(I)所示,首先将初始估计误差个数设定为0,并从短片段序列的第一个碱基向短片段的末端方向以一个碱基为单位逐个移动的同时尝试精确匹配。此时,如图2的(2)所示,假定从短片段序列的特定碱基(图中以第二个T标记的部分)开始无法再实现精确匹配,则这种情况说明从短片段序列的匹配起始位置到当前位置之间的区间中的某处出现了误差。因此,在这种情况下将估计误差个数增加I之后在下一个位置上重新开始精确匹配(在图中标记为
(3))。如果以后在特定位置上又遇到判断为无法精确匹配的情况,则是说明从重新开始精确匹配的位置到当前位置之间的区间某处又出现了误差,因此又将估计误差个数增加I之后在下一个位置上重新开始精确匹配(在图中标记为(4))。通过这样的过程,到达短片段末尾时的估计误差个数将成为可能存在于对应短片段中的误差个数。
[0032]若通过上述过程计算出了短片段序列的估计误差个数,则判断计算出的估计误差个数是否超过预先设定的最大误差允许值(maxError)(步骤110),判断结果如果超过,则判断为对应短片段序列的比对失败并终止比对。在前述的将人类的碱基序列作为对象的实验中,将最大误差允许值(maxEiror)设定为3而计算剩余短片段的估计误差个数的结果显示,共有844,891次实验的短片段超过所述最大误差允许值。即,执行所述步骤108的结果,约能减少42.2%的比对工作量。
[0033]相反地,如果在所述步骤110中判断的结果,估计误差个数为所述最大误差允许值以下,则将通过如下过程执行对应短片段序列的比对。
[0034]首先,由所述短片段序列生成一个以上的片段(fragment)序列(步骤112),并组成只包含生成的所述一个以上的片段序列当中与所述参考序列相匹配的片段序列的片段序列集合,即种子序列集合(步骤114)。然后,利用包含于所述种子序列集合中的片段序列即种子序列来执行针对所述短片段序列的全局比对(global alignment)(步骤116)。此时,如果进行所述全局比对的结果,短片段的误差个数超过预先设定的最大误差允许值(maxError),则判断为比对失败,否则判断为比对成功(步骤118)。
[0035]以下便详细说明所述步骤112及步骤114的具体过程。
[0036]由短片段序列生成片段序列(步骤112)
[0037]本步骤是为了正式执行短片段序列的比对而由短片段序列生成一个以上的小片即片段序列的步骤。在本步骤中,通过考虑短片段序列的整个区间而生成一个以上的片段序列,而不是仅仅考虑所述短片段序列的一部分。
[0038]图3至图5为用于举例说明如上所述的考虑短片段序列的整个区间的片段序列生成方法的图。然而,本发明中说明的片段序列生成方法仅仅是示例性的,本发明并不局限于特定片段序列生成过程。换言之,并非仅仅考虑提取的短片段序列的一部分来生成片段序列而是通过考虑整个短片段序列来生成片段序列的算法均属于本发明的权利范围。
[0039]首先,图3为用于举例表示根据本发明一个实施例的片段序列生成过程的图。如图所示,在本实施例中可通过将整个短片段序列划分为设定大小的片而生成片段序列。即,被划分为预定长度的所述片即可成为本发明中的片段序列。在图中是示出了将短片段序列划分为6个片的实施例,然而片的个数及各片的长度却并不特别受限,对此可通过恰当地考虑参考序列的种类、短片段序列的长度、或短片段的最大误差允许值等而进行调整。并且,在图中只以短片段序列被划分为彼此之间没有重叠部分(overlap)的情形为例进行了图示,然而也可以将短片段序列划分为各片之间存在一些重叠部分。
[0040]图4为用于举例表示根据本发明另一实施例的片段序列生成过程的图。如图所示,在本实施例中可通过将整个短片段序列划分为设定大小的片之后将被划分的所述短片段序列的各片中的两个以上的片进行组合而生成所述片段序列。例如,如果如图所示地将短片段序列划分为4个片(片I?片4)之后进行两两组合,则可以一共生成6个片段序列。与前述实施例相同,划分的片个数、各片的长度、组合的片数等并不特别受限,对此可通过恰当地考虑参考序列的种类、短片段序列的长度、或短片段的最大误差允许值等而进行调難
iF.0
[0041]图5为用于举例表示根据本发明又一实施例的片段序列生成过程的图。对于本实施例而言,从所述短片段序列的第一个碱基(base)开始每移动设定间距,便读取设定大小的所述短片段序列的值,从而生成所述片段序列。图中的实施例是短片段序列的长度为75bp (base pair)、短片段的最大误差允许值为3bp、片段序列的大小(fragment size)为15bp、移动间距(shift size)为4bp的情况下的实施例。即,从短片段序列的第一个碱基开始每次向右移动4bp而生成片段序列。然而,图示的实施例只是示例性的,例如所述移动间距、片段序列的大小等可通过考虑短片段序列的长度、短片段的最大误差允许值等而恰当地确定。换言之,本发明的权利范围并不局限于特定的片段序列大小及移动间距。
[0042]另外,如前所述,在本发明的实施例中片段序列的长度并不特别受限,然而可以优选将所述片段序列的长度设定为所述短片段序列长度的20%?30%。通常,片段序列的长度越短,对应片段序列在参考序列上的映射数越大;片段序列的长度越长,对应片段序列在参考序列上的映射数越小。通常而言,当考虑基因组测序仪中生产的短片段序列的长度时,如果使片段序列的长度为短片段序列长度的20%以下,则会使片段序列在参考序列上的映射数增加过多,因此会导致以后的全局比对过程中全局比对次数不必要地增加的问题。相反地,如果所述片段序列的长度为短片段序列长度的30%以上,则会使片段序列在参考序列上的映射数过少,于是将导致映射的准确度下降。因此,在本发明中对短片段序列的长度予以考虑而将片段序列的长度设定为所述短片段序列长度的20%~30%,从而可以保证映射质量的同时使映射过程中可能存在的复杂性最小化。
[0043]而且,如果所述参考序列为人类的碱基序列,则可将所述片段序列生成为具有15bp至30bp的长度。如前所述,通常为片段序列的长度越短,对应片段序列在参考序列上的映射数越大,而片段序列的长度越长,对应片段序列在参考序列上的映射数越小。尤其对人类的碱基序列而言,片段序列的长度为14以下的情况下,片段序列在参考序列中的映射位置个数将急剧增加。如下的表1表示基于片段序列长度的人类基因组内的片段序列平均出现频率。
[0044][表 I]
[0045]
【权利要求】
1.一种碱基序列比对系统,包括: 片段序列生成单元,用于从短片段序列的整个区间生成一个以上的片段序列; 比对单元,利用生成的所述片段序列而执行所述短片段序列对参考序列的全局比对。
2.如权利要求1所述的碱基序列比对系统,其中,所述片段序列生成单元从所述短片段序列的第一个碱基开始每移动设定间距便读取设定大小的所述短片段序列的值,从而生成所述片段序列。
3.如权利要求1所述的碱基序列比对系统,其中,所述片段序列生成单元通过将所述短片段序列划分为设定大小的多个片而生成所述片段序列。
4.如权利要求3所述的碱基序列比对系统,其中,所述片段序列生成单元通过将被划分的所述短片段序列的各片中的两个以上的片进行组合而生成所述片段序列。
5.如权利要求1所述的碱基序列比对系统,其中,所述片段序列生成单元将所述片段序列生成为所述片段序列的长度是所述短片段序列长度的20%~30%。
6.如权利要求1所述的碱基序列比对系统,其中,所述片段序列生成单元将所述片段序列生成为使所述片段序列具有15bp~30bp的长度。
7.如权利要求1所述的碱基序列比对系统,其中,所述碱基序列比对系统还包括用于构成只包含生成的所述一个以上的片段序列当中与参考序列相匹配的片段序列的种子序列集合的筛选单元,且所 述比对单元利用包含于生成的所述种子序列集合中的片段序列而执行针对所述短片段序列的全局比对。
8.如权利要求7所述的碱基序列比对系统,其中,与所述参考序列相匹配的片段序列是与所述参考序列进行精确匹配的结果不一致的碱基数为设定个数以下的片段序列。
9.如权利要求1所述的碱基序列比对系统,其中,所述碱基序列比对系统还包括用于计算将所述短片段序列比对于所述参考序列时的估计误差个数的误差个数估计单元,且所述片段序列生成单元在所述估计误差个数为设定的最大误差允许值以下的情况下由所述短片段序列的整个区间生成一个以上的片段序列。
10.如权利要求9所述的碱基序列比对系统,其中,所述误差个数估计单元从所述短片段序列的第一个碱基开始以一个碱基为单位逐个移动而将所述短片段序列精确匹配于所述参考序列,且遇到在所述短片段序列的特定位置上无法实现精确匹配的情况时,从对应位置的下一个碱基开始以一个碱基为单位逐个移动而重新执行精确匹配,并在到达所述短片段序列的最后一个碱基时,将判断为无法精确匹配的位置的个数设定为所述短片段序列的估计误差个数。
11.一种碱基序列比对方法,用于将短片段序列比对于参考序列,包括如下步骤: 在片段序列生成单元中,从所述短片段序列的整个区间生成一个以上的片段序列; 在比对单元中,利用生成的所述片段序列而执行所述短片段序列对参考序列的全局比对。
12.如权利要求11所述的碱基序列比对方法,其中,在生成所述片段序列的步骤中,从所述短片段序列的第一个碱基开始每移动设定间距便读取设定大小的所述短片段序列的值,从而生成所述片段序列。
13.如权利要求11所述的碱基序列比对方法,其中,在生成所述片段序列的步骤中,通过将所述短片段序列划分为设定大小的多个片而生成所述片段序列。
14.如权利要求13所述的碱基序列比对方法,其中,在生成所述片段序列的步骤中,通过将被划分的所述短片段序列的各片中的两个以上的片进行组合而生成所述片段序列。
15.如权利要求11所述的碱基序列比对方法,其中,在生成所述片段序列的步骤中,将所述片段序列生成为所述片段序列的长度是所述短片段序列长度的20%~30%。
16.如权利要求11所述的碱基序列比对方法,其中,在生成所述片段序列的步骤中,将所述片段序列生成为使所述片段序列具有15bp~30bp的长度。
17.如权利要求11所述的碱基序列比对方法,其中,所述碱基序列比对方法还包括在执行生成所述片段序列的步骤之后构成只包含生成的所述一个以上的片段序列当中与参考序列相匹配的片段序列的种子序列集合的步骤,且在执行所述全局比对的步骤中,利用包含于构成的所述种子序列集合中的片段序列而执行针对所述短片段序列的全局比对。
18.如权利要求17所述的碱基序列比对方法,其中,与所述参考序列相匹配的片段序列是与所述参考序列进行精确匹配的结果不一致的碱基数为设定个数以下的片段序列。
19.如权利要求11所述的碱基序列比对方法,其中,在执行生成所述片段序列的步骤之前,还包括在误差个数估计单元中计算将所述短片段序列比对于所述参考序列时的估计误差个数的步骤,且在生成所述片段序列的步骤中,在所述估计误差个数为设定的最大误差允许值以下的情况下,由所述短片段序列的整个区间生成一个以上的片段序列。
20.如权利要求19所述的碱基序列比对方法,其中,在计算所述估计误差个数的步骤中,从所述短片段序列的第一个碱基开始以一个碱基为单位逐个移动而将所述短片段序列精确匹配于所述参考序列,且遇到在所述短片段序列的特定位置上无法实现精确匹配的情况时,从对应位置的下一个碱基开始以一个碱基为单位逐个移动而重新执行精确匹配,并在到达所述短片段序列的最后一个碱基时,将判断为无法精确匹配的位置的个数设定为所述短片段序列的估计误差个数。
【文档编号】G06F19/22GK103793628SQ201310373446
【公开日】2014年5月14日 申请日期:2013年8月23日 优先权日:2012年10月29日
【发明者】朴旻胥 申请人:三星Sds株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1