数据解析装置及其方法

文档序号:9221664阅读:519来源:国知局
数据解析装置及其方法
【技术领域】
[0001]本发明涉及一种DNA序列的数据解析装置,尤其涉及一种从大规模并行型DNA序列装置得到的DNA序列数据的解析技术。
【背景技术】
[0002]对于癌、生活习惯病或遗传病等,作为所谓的个别化医疗,需要选择适于患者个人的治疗方法,或为了进行恢复后的预测而调查患者个人的遗传性背景。因此,进行染色体组或转录物组(转写产物)等的DNA (deoxyribonucleic acid,脱氧核糖核酸)序列解析。在此时所使用的DNA序列装置中,只能得到被片段化的较短的DNA序列。因此,与较长的参照染色体组序列相比,需要调查得到的片段序列是染色体组的哪个部分,并且进行用于调查这里所包含的单核苷酸变异(SNP,Single Nucleotide Polymorphism)或插入/缺失等变异的数据处理。一般,将这样的数据处理称为匹配处理。
[0003]在所谓的被称为下一代型DNA测序器的大规模并行型DNA测序器中,在I次的测量中能够得到数亿个以上的较短的100碱基程度的较长的片段序列(前导)。此外,人的情况下,参照染色体组序列的长度约为3千兆碱基(30亿碱基)。在匹配处理中,将这些前导序列与参照染色体组序列一个一个进行比较来确定对应的位置,确定这里包含的变异。这些需要非常大的计算成本,因此开发并利用专用的高效的算法。代表性的方法是将参照染色体组序列通过 Burrows-Wheeler 变换(BWT, Burrows-Wheeler Transformat1n)(非专利文献I)进行数据库化,将前导序列内的较短碱基序列作为检索关键词进行检索,在匹配的区域的前后考虑序列错误或变异的可能性而进行比对(非专利文献2)。
[0004]一般,在下一代型DNA测序器中产生I %程度的读取错误,此外,在较大的染色体组区域中,分散存在多个类似的序列。因此,在每一个前导的匹配结果中存在产生错误的可能性。例如,对于某前导序列,在参照染色体组序列内没有完全一致的区域,但假设少数序列错误时,有时能够发现多处对应的染色体组区域。该情况下,选择哪个区域存在任意性,且该判断依赖匹配处理的探索方法。因此,为了准确地进行变异解析,在后续的处理,即下游的处理中,进行比较多个前导的匹配结果而采用多数决定的再匹配处理(非专利文献3)。因此,在进行所有染色体组解析的情况下,通常,对能够覆盖染色体组整体数十倍的序列量(数十千兆碱基以上)进行排序。此外,在匹配目的地存在任意性时可能产生依存于匹配处理的偏差,因此比较多个种类的匹配工具的结果,还要确认没有产生这样的偏差。另夕卜,作为与以上的技术关联的专利文献,例如有专利文献I。
[0005]现有技术文献
[0006]专利文献
[0007]专利文献1:日本特开2003 - 330934号公报
[0008]非专利文献
[0009]非专利文献1:M.Burrows and D.Wheeler:A block-sorting lossless datacompress1n algorithm.Technical Report 124,Digital Equipment Corporat1n, 1994.
[0010]非专利文献2:Li H.and Durbin R.(2009) Fast and accurate short readalignment with Burrows-WheeIer Transform.B1informatics, 25:1754-60.
[0011]非专利文献3:McKenna A,Hanna M,Banks Ej Sivachenko A,CibulskisKj Kernytsky A, Garimella Kj Altshuler Dj Gabriel S,Daly Mj DePristo MA(2010).TheGenome Analysis Toolkit:a MapReduce framework for analyzing next-generat1n DNAsequencing data.Genome Res.20:1297-303.
[0012]非专利文献4:Mantaci,S.,Restivo,A.;Sc1rtino, M: “An extens1n ofthe Burrows Wheeler transform to k words.,,Data Compress1n Conference, 2005.Proceedings.DCC 2005.
[0013]非专利文献5:Markus J.Bauer, Anthony J.Coxj Gi ovannaRosone: “Light-weight BWT Construct1n for Very Large StringCollect1ns, ^ Combinatorial Pattern Matching, Lecture Notes in ComputerScienceVolume 6661,2011,pp 219-231
[0014]非专利文献6:Paolo Ferraginaj Travis Gagiej G1vanniManzin1: “Light-weight Data Indexing and Compress1n in ExternalMemory, ^Algorithmicaj July 2012,Volume 63,Issue 3,pp 707-730.
[0015]非专利文献7:Kimura Kj Suzuki Y,Sugano S,Koike A: “Computat1n of rankand select funct1ns on hierarchical binary string and its applicat1n togenome mapping problems for short-read DNA sequences,,,J Comput B1l.2009Nov ;16(11):1601-13.
[0016]非专利文献8:Ge Nong ;Sen Zhang ;Wai Hong Chan ;,"Linear Suffix ArrayConstruct1n by Almost Pure Induced-Sortingj〃Data Compress1n Conference, 2009.DCC ^09.,vol.,n0.,pp.193-202,16-18March 2009

【发明内容】

[0017]发明要解决的课题
[0018]在上述的下游处理中,为了得到较高的精度需要较大的计算成本,因此不能一并处理从DNA测序器得到的所有前导。因此,利用采用了高效的算法的匹配处理的结果,在要关注的基因区域选择出认为区域引起的可能性较高的前导序列,而对这些进行下游解析。
[0019]此外,在另一方面,已知的有:将通过前导长度较长(500碱基程度以上)、前导数量较少的(100个程度)的毛细管型DNA测序器进行多次解析而得到的前导序列数据数据库化,将染色体组内所关注的基因区域的序列作为查询进行同源性检索,对得到的前导序列进行多重比对而进行细菌的识别的方法(专利文献I)。然而,将人染色体组通过下一代型DNA测序器进行解析时的数据量巨大,达到几十千兆碱基以上,因此在实际运用所能承受的计算时间内不能进行同源性检索。
[0020]在进行人的所有染色体组解析的情况下,前导序列数据量多得总序列量达到几十千兆碱基,因此尽管采用高效的算法,匹配处理的计算成本也较大,从而存在降低该计算成本的问题。
[0021]此外,通过序列错误的处理方法在匹配目的地中存在任意性的情况下,在匹配处理中使用探索方法从其中选择匹配目的地表示产生依存于匹配处理的偏差。存在如下的问题:提供一种避免这样的探索方法的判断,无论哪个匹配目的地都能够等价使用的中立的处理方法。
[0022]当前,人的参照染色体组序列除了人白血球抗原(Human LeukocyteAntigen:HLA)区域等特殊的区域外,只有一种。但是,如果准备多种参照染色体组序列,则能够从中选择适于患者所属的人种群的序列而进行更精密的变异解析。对所有前导序列和参照染色体组序列的组合进行匹配处理,因此变更参照染色体组表示重新进行所有的匹配处理。因此,存在如下的问题:分别独立处理所有前导序列和参照染色体组序列,能够抑制变换其组合来进行解析时的计算成本的增加。
[0023]本发明的目的是提供一种至少解决一个上述课题,而能够降低匹配处理的计算成本或能够进行中立的处理的数据解析装置及其方法。
[0024]用于解决问题的手段
[0025]为了实现上述目的,在本发明的具备处理部和存储部的数据解析装置中,存储部存储将染色体组序列数据数据库化后的染色体组序列数据库和将前导序列数据数据库化后的前导序列数据库,处理部根据特定的解析对象的染色体组区域的序列来选择检索用碱基序列即关键序列;求出位于如导序列数据库中的关键序列的株度;提取包含位于如导序列数据库中的关键序列的前导序列数据,比较提取出的前导序列数据与染色体组区域的序列来进行数据解析。
[0026]此外,为了实现上述目的,在本发明的数据解析装置的处理部的数据解析方法中,使用将染色体组序列数据以能够检索的形式数据库化后的染色体组序列数据库和将前导序列数据以能够检索的形式数据库化后的前导序列数据库;根据特定的解析对象的染色体组区域的序列来选择检索用碱基序列即关键序列;求出位于前导序列数据库中的关键序列的深度;提取包含位于前导序列数据库中的关键序列的前导序列数据,比较提取出的前导序列数据与染色体组区域的序列来进行数据解析。
[0027]发明效果
[0028]根据本发明的解析装置及其方法,能够抑制计算成本。此外,不会发生依存于处理方法的偏差,而能够进行中立的处理。
【附图说明】
[0029]图1是表示实施例1的用于进行变异解析的处理顺序的流程图。
[0030]图2是用于说明实施例1的通过序列比较来判定有无变异的方法的说明图。
[0031]图3是表示实施例1的根据MLU和深度来推定有无变异的方法的流程图。
[0032]图4是对实施例1的由长度不一的多个前导序列构成的数据定义被一般化的Burrows-Wheeler 变换(BWT)的说明图。
[0033]图5 是表不实施例1 的使用 SLCP (sorted list of cyclic permutat1ns,循环序列分类表)来计算字符串w的深度D(w)的方法的说明图。
[0034]图6是说明实施例1的利用BWT时所使用的辅助函数的说明图。
[0035]图7是实施例1的计算针对检索关键序列的深度的流程图。
[0036]图8是表不实施例1的将包含关键序列的所有如导序列根据位于关键序列的左方的碱基进行分类来求出相应的前导序列的数量的方法的流程图。
[0037]图9是表示实施例1的BWT的计算方法的流程图。
[0038]图10是表示实施例1的从旧字符串向新字符串的转记方法的说明图。
[0039]图11是表示实施例1的染色体组序列DB和前导序列DB的结构的说明图。
[0040]图12是表示实施例1的染色体组坐标X处的MLU值L (x)的计算方法的流程图。
[0041]图13是表示实施例2的从所关注的基因区域中,根据MLU和深度来
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1