用于下一代测序的序列重组方法及装置制造方法

文档序号:511360阅读:299来源:国知局
用于下一代测序的序列重组方法及装置制造方法
【专利摘要】本发明涉及一种用于下一代测序(NGS)的序列重组方法及装置。在本发明的一优选实施例中是将序列长度为n的短序列六等分之后只将前3个片段利用为种子,并检索以参考序列为基础生成的哈希表而检索映射候选位置。
【专利说明】用于下一代测序的序列重组方法及装置
【技术领域】
[0001]本发明涉及一种用于完成生物个体的整个遗传序列的测序领域,具体而言涉及一种为用于NGS(Next Generation Sequencing,下一代测序)而重组短序列的标引和检索技术。
【背景技术】
[0002]DNA碱 基序列信息的解读即基因组测序(genome sequencing)的核心为掌握个人差异以及民族特性,或者是探明与基因异常有关的疾患中包含染色体异常在内的先天性原因以及寻找糖尿病、高血压之类复合疾病的基因缺陷。
[0003]并且,序列数据(Sequencing Data)可将基因表达、基因多样性、遗传性变异、遗传性疾病原因及其相互作用等信息广泛地应用于分子诊断及治疗领域,因此非常重要。
[0004]在遗传研究中传统使用的用于生产长序列的桑格(Sanger)测序方法正在被实验过程中所需的时间或费用及其应用性方面优良的用于生产短序列的NGS(Next GenerationSequencing,下一代测序)技术迅速地取代。而且还开发出着眼于准确率的多种NGS序列重组程序。
[0005]近来由于NGS费用相比以往的HGP降低为1/1,520, 000左右,因此可以使用为短序列的数据的量增加。作为用于处理大量数据的方法已开发出S0AP2之类的方法,然而对于S0AP2而言,存在着针对特定长度时虽能表现出较快的速度却无法保证品质的问题。因此,对于保证短小的大容量短序列的品质的同时又能快速处理的方案的需求正在高涨。

【发明内容】

[0006]技术问题
[0007]本发明用于解决以上技术问题,其目的在于提供一种在保证从序列中获取的短小的短序列的品质的同时进行重组而生成一个完整的碱基序列的标引技术方法和搜索技术方法。
[0008]技术方案
[0009]作为本发明的一种优选实施例,用于下一代测序(NGS)的序列重组方法包括如下步骤:将序列长度为η的短序列六等分;针对参考序列以η/6大小的子序列(sub-string)单位生成哈希值而构成哈希表;在将所述短序列六等分的片段中,将位于所述短序列的前部的3个片段分别利用为种子;计算所述3个种子的哈希值;从所述哈希表中检索与所述3个种子的哈希值一致的哈希值而检索映射候选位置。
[0010]作为本发明的另一种优选实施例,包括:分割部,将序列长度为η的短序列六等分;种子生成部,将六等分所述短序列的片段当中位于所述短序列前部的3个片段分别使用为种子;哈希值生成部,计算所述3个种子的哈希值;哈希表生成部,针对参考序列以η/6大小的子序列(sub-string)单位生成哈希值而构成哈希表;检索部,从所述哈希表中检索与所述3个种子的哈希值一致的哈希值而检索映射候选位置。[0011]有益效果
[0012]本发明在将从序列中获得的短小的短序列进行重组而制作一个碱基序列时,具有保证品质的同时改善速度的效果。
[0013]通过本发明所公开的用于下一代测序(NGS)的序列重组方法及装置,可以缩短从验血到完成整个基因组序列的时间,且在诊断疾病时能够快速地分析基因组,从而可以缩短解明遗传性疾病原因的时间。
【专利附图】

【附图说明】
[0014]图1表示重组序列数据而完成基因组序列的流程图。
[0015]图2表示基因组分析方案的一般构成图。
[0016]图3表不现有的MAQ的标引方法的一实施例。
[0017]图4表示在本发明的一优选实施例中以基因组参考序列为基础而生成哈希表的示例。
[0018]图5为本发明的一优选实施例,其表示用于下一代测序的序列重组方法。
[0019]图6为本发明的一优选实施例,其表示用于下一代测序的序列重组装置的构成图。
[0020]最优实施方式
[0021]用于下一代测序(NGS)的序列重组装置包括:分割部,将序列长度为η的短序列六等分;种子生成部,将六等分所述短序列的片段当中位于所述短序列前部的3个片段分别使用为种子;哈希值生成部,计算所述3个种子的哈希值;哈希表生成部,针对参考序列以η/6大小的子序列(sub-string)单位生成哈希值而构成哈希表;检索部,从所述哈希表中检索与所述3个种子的哈希值一致的哈希值而检索映射候选位置。
【具体实施方式】
[0022]以下,参照附图详细说明本发明的实施例。需要注意的是在附图中同一构成要素虽然可能出现于其他图中,然而已尽量用同一附图标记及符号进行了表示。
[0023]下面在对本发明进行说明时,如果认为对相关公知功能或构成部分的具体说明可能使本发明的主旨不清楚,则省略其详细说明。
[0024]而且,为了进一步忠实于本发明,需要提醒在不脱离本发明主旨的范围内可存在本领域技术人员层次的变更或变形。
[0025]图1表示重组序列数据而完成基因组序列的流程图。
[0026]制作关于基因组参考序列的索引(SllO)。为了制作索弓丨,在本发明的优选实施例中,针对基因组参考序列以η/6大小的子序列(sub-string)单位生成哈希值而构成哈希表。在此,η表示输入的序列数据100的长度。针对基因组参考序列以η/6大小的子序列(sub-string)单位生成哈希值的例将参考图4。
[0027]在本发明的一种优选实施例中,序列数据100表示作为IOObp长度以内的A、G、C、
T所构成的字符串的序列集合。
[0028]然后,将序列数据100六等分之后将六等分的片段当中位于序列数据100的前部的3个片段利用为种子,并针对3个种子(Seed)生成哈希值。如果生成了种子的哈希值,则在哈希表内检索匹配的哈希值而检索候选映射的位置(SllO)。生成哈希值的方法以及生成哈希表的实施例将参考图4。
[0029]如果检索出候选映射的位置,便将序列数据100与参考序列的对应位置排列为没有空隙(gap)并测定相似度(S120)。针对检索到的所有候选映射的位置执行此项作业之后将相似度最高的位置选择为最优位置(S130)。然后寻找成对的两个序列的序列对,并执行错误检查以及位置校正而完成基因组序列(S140、S150)。
[0030]图2表示基因组分析方案的一般构成图。
[0031]基因组分析方案是所有生物/医疗信息学(Bio/Medical informatics)的所有研究以及执行中所必要的过程,被应用于得知生物个体的整个遗传序列的测序领域、分析遗传性变异(Variation)之间的关系的领域、解明遗传性疾病原因的遗传序列的医疗领域、解明生命现象原因的遗传序列的医疗领域、以及解明特定化学物质起反应的蛋白质和遗传序列的医疗领域。 [0032]在本发明的一种优选实施例中,在相当于基因组分析方案的前处理过程的映射步骤(210)和配对步骤(220)中将现有的MAQ的标引(indexing)方法改善而利用。
[0033]现有的MAQ(Mapping and Assembly with Quality,高品质映射与配位)为不仅可以利用基因组分析仪(Genome Analyzer)而且还可以处理SOLiD短序列的工具(Tools),其以短序列单位执行了映射。而且,在映射时使用6个种子,并将2个种子配对而执行了映射。
[0034]图3表不现有的MAQ的标引方法的一实施例。
[0035]参考图3,如果现有的MAQ中允许k个失配(Mismatch),则MAQ将各短序列分为k个以上的短片段(fragment)。例如,如果对于长度为28的短序列允许2个失配,则分为4 Ok = 2)个短片段之后将种子两两组合而生成组合种子(Combination Seed),并以此为基础而对每一个短片段生成6个哈希值来制作哈希表。依次扫描参考序列而哪怕只是从6个种子中发现一个就将计算准确的排列分数而确定是否映射。
[0036]然而在本发明中可以利用MAQ而以种子单位执行映射,并且可以将使用的种子个数减少为3个,从而与现有的MAQ方法相比至少可以缩短50%以上的时间。
[0037]在现有的MAQ中为了种子的组合而使用规格化图案,并使用6个非连续(Non-continuous)种子,从而造成速度缓慢。然而作为本发明中公开的一种实施例,其使用3个种子,且各种子被独立使用,从而可以实现并行处理(Parallel Processing),且速度得到提闻。
[0038]图4表不在本发明的一优选实施例中以基因组参考序列为基础生成哈希表的不例。
[0039]当输入序列长度为η的短序列时,可如图4所示地生成基因组参考序列的哈希表。使长度为η/6的窗口(window) 410从参考序列的起始位置开始以一个序列为单位朝右侧方向移动而生成由ACGACG、CGACGT、GACGTC…之类的子序列(sub-string)构成的种子序列字段420。然后生成关于各子序列的哈希值字段430,并生成包含记录有各种子序列的起始位置的起始位置字段440的哈希表。
[0040]在本发明的一种优选实施例中,哈希值生成为对应于种子序列字段420内的各子序列的一个值。生成哈希值的方法是将碱基序列A、C、G、T分别置换成2比特(bit)的二进制数00、01、10、11而变换。例如,CGACGT被变换为二进制数011000011011的哈希值。[0041 ] 对于CGACGT子序列而言,哈希表内的哈希值字段为011000011011,而起始位置字段中生成 82 (411)、88 (412)...(450)。
[0042]图5为本发明的一优选实施例,其表示用于下一代测序(NextGenerationSequencing, NGS)的序列重组方法。
[0043]将序列长度为η的短序列510六等分。将六等分的片段中的前三个片段利用为种子(520)。在本发明的一种优选实施例中,之所以只将位于短序列510的前部的3个片段利用为种子,是因为短序列是在一个序列内越往后走准确率越低,而越是处于前方的碱基序列准确率就越高。
[0044]针对如此生成的3个种子分别存储起始位置(偏移(Offset)) (530)。在本发明的一优选实施例中,种子的起始位置是以短序列510的起始位置为基准而设定,且第一个种子(种子I)的位置被存储为0,第二个种子(种子2)的位置被存储为n/6,而第三个种子(种子3)的位置被存储为2n/6。
[0045]另外,针对生成的3个种子生成哈希值。然后,在如图4的一实施例所示的哈希表内,在0(1)的检索时 间之内寻找具有与各种子相同的序列的映射候选位置。
[0046]如果利用本发明的一优选实施例中揭示的以上方式执行检索,则由于只对3个种子执行检索,因此与现有的方式相比可以使检索时间缩短到一半以下。
[0047]如果检索到映射候选位置,则在各映射候选位置上利用史密斯-沃特曼(Smith-Waterman)算法而将输入的整个短序列与参考序列的对应位置进行排列而测定相似度。在检索到的所有映射候选位置上测定相似度之后,将相似度最高的位置分配为最优位置而进行配置。
[0048]图6为本发明的一优选实施例,其表示用于下一代测序的序列重组装置的构成图。
[0049]用于下一代测序(NGS)的序列重组装置600包括分割部610、种子生成部620、哈希值生成部630、哈希表生成部640、以及检索部。
[0050]分割部610将序列长度为η的短序列六等分。在本发明的一优选实施例中,在将短序列六等分的情况下可以确保品质的同时支持最优的速度。
[0051]对于将短序列五等分的情形与六等分的情形进行如下比较。
[0052](I)将短序列五等分的情形
[0053]在短序列的长度最大为IOObp的情况下,每一个种子所需的存储空间为10字节(bytes);
[0054]种子序列:0字节(逆变换为哈希值);
[0055]哈希值:5字节(4~20 个=2~ (8*5)个);
[0056]起始位置:5字节;
[0057]染色体#:1字节(23个〈2~8);
[0058]偏移(Offset):4 字节(2 亿 4 千万 <2~ (8*4));
[0059]哈希表大小:10TB;
[0060]10 字节 *4~20 = 10*(2~30)*2~10 = 10GB*2~10 = IOTB ;
[0061]当把短序列五等分时,如上所述,需要IOTB以用于哈希表。[0062](2)将短序列六等分的情形
[0063]在短序列的长度最大为IOObp的情况下,每一个种子所需的存储空间为9字节(bytes);
[0064]种子序列:0字节(逆变换为哈希值);
[0065]哈希值:4字节(4'15 个=2' (8*4)个);
[0066]起始位置:5字节;
[0067]染色体#:1字节(23个〈2~8);
[0068]偏移(offset):4 字节(2 亿 4 千万 <2~ (8*4));
[0069]哈希表大小:9Gbytes ;
[0070]9bytes*4~15 = 9*(2~30) = 9GB ;
[0071]当把短序列六等分时,如上所述,需要9GB以用于哈希表。
[0072]检索部从哈希表中检索与3个种子的哈希值一致的哈希值而检索映射候选位置。哈希表包含由n/6大小的子序列构成的种子序列字段、记录有分别对应于各子序列的哈希值的哈希值字段、以及记录有子序列的起始位置的起始位置字段。
[0073]本发明还可以 通过计算机可读记录介质中的计算机可读代码实现。计算机可读记录介质中包括用于存储可被计算机系统读取的数据的所有类型的记录装置。
[0074]计算机可读记录介质的例中有ROM、RAM、⑶-ROM、磁带、软盘、光数据存储装置等。并且,计算机可读记录介质可分散于通过网络连接的计算机系统中,从而可以用分散方式存储并执行计算机可读代码。
[0075]以上已在附图和说明书中公开了最优实施例。在此虽然使用了特定的术语,然而这仅仅是为了说明本发明而使用的,而不是要用来限定含义或者限制权利要求书中记载的本发明的范围。
[0076]因此,只要是本【技术领域】中具有普通知识的人员就会明白可以由此获得多种变形例及其他等价实施例。所以本发明的真正的技术保护范围应当是由权利要求书的技术思想来确定。
【权利要求】
1.一种用于下一代测序的序列重组方法,其特征在于,包括如下步骤: 将序列长度为η的短序列六等分; 针对参考序列以η/6大小的子序列单位生成哈希值而构成哈希表; 在将所述短序列六等分的片段中,将位于所述短序列的前部的3个片段分别利用为种子; 计算所述3个种子的哈希值; 从所述哈希表中检索与所述3个种子的哈希值一致的哈希值而检索映射候选位置。
2.如权利要求1所述的用于下一代测序的序列重组方法,其特征在于,所述3个种子的起始位置是以所述短序列的起始位置为基准而设定,且第一个种子的位置为O,第二个种子的位置为η/6,而第三个种子的位置为2η/6。
3.如权利要求1所述的用于下一代测序的序列重组方法,其特征在于,所述哈希值是将碱基序列A、G、C、T分别置换成二进制数00、01、10、11而生成的值。
4.如权利要求1所述的用于下一代测序的序列重组方法,其特征在于,在进行所述检索的步骤中,针对所述3个种子每一个的检索时间为O (I)以内。
5.如权利要求1所述的用于下一代测序的序列重组方法,其特征在于,在进行所述检索的步骤中,对所述3个种子可同时并行检索。
6.如权利要求1所述的用于下一代测序的序列重组方法,其特征在于,所述哈希表包括: 种子序列字段,由η/6大小的所述子序列构成; 哈希值字段,记录有分别对应于所述子序列的哈希值; 起始位置字段,记录有所述子序列的起始位置。
7.如权利要求1所述的用于下一代测序的序列重组方法,其特征在于,还包括如下步骤: 在各映射候选位置上将输入的整个短序列与参考序列的对应位置进行排列而测定相似度。
8.一种用于下一代测序的序列重组装置,其特征在于,包括: 分割部,将序列长度为η的短序列六等分; 种子生成部,将六等分所述短序列的片段当中位于所述短序列前部的3个片段分别使用为种子; 哈希值生成部,计算所述3个种子的哈希值; 哈希表生成部,针对参考序列以η/6大小的子序列单位生成哈希值而构成哈希表; 检索部,从所述哈希表中检索与所述3个种子的哈希值一致的哈希值而检索映射候选位置。
9.如权利要求8所述的用于下一代测序的序列重组装置,其特征在于,所述3个种子的起始位置是以所述短序列的起始位置为基准而设定,且第一个种子的位置为O,第二个种子的位置为η/6,而第三个种子的位置为2η/6。
10.如权利要求8所述的用于下一代测序的序列重组装置,其特征在于,所述哈希值是将碱基序列A、G、C、T分别置换成二进制数00、01、10、11而生成的值。
11.如权利要求8所述的用于下一代测序的序列重组装置,其特征在于,在进行所述检索时,针对所述3个种子每一个的检索时间为0(1)以内。
12.如权利要求8所述的用于下一代测序的序列重组装置,其特征在于,在进行所述检索时,对所述3个种子可同时并行检索。
13.如权利要求8所述的用于下一代测序的序列重组装置,其特征在于,所述哈希表包括: 种子序列字段,由n/6大小的所述子序列构成; 哈希值字段,记录有分别对应于所述子序列的哈希值; 起始位置字段,记录有所述子序列的起始位置。
14.如权利要求8所述的用于下一代测序的序列重组装置,其特征在于,还在各映射候选位置上将输入的整个短序列与参考序列的对应位置进行排列而测定相似度。
【文档编号】C12Q1/68GK103946396SQ201280053889
【公开日】2014年7月23日 申请日期:2012年9月11日 优先权日:2011年10月31日
【发明者】朴旻胥, 金判奎 申请人:三星Sds株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1