一种对核酸序列信息进行匹配的系统和方法

文档序号:6374065阅读:351来源:国知局
专利名称:一种对核酸序列信息进行匹配的系统和方法
技术领域
本发明涉及信息处理领域,更具体地说,涉及一种对核酸序列信息进行匹配的系统和方法。
背景技术
美国科学家于1985年提出人类基因组计划,经过美国、英国、法兰西共和国、德意志联邦共和国、日本和中国科学家的共同努力,于2000年完成了人类基因组“工作框架图”。并于2001年公布了人类基因组图谱及初步分析结果。其研究内容还包括创建计算机分析管理系统(也即通过计算机分析系统对测序的结果进行处理,得到核酸序列信息),检验相关的伦理、法律及社会问题。在人类基因组图谱公布后,国内外开始积极投入到各个生物种族的基因图谱绘制的工作中。利用核酸序列信息与已有的基因组图谱(参考序列)进行比较,通过转录物组学和蛋白质组学等相关技术对基因表达谱、基因突变等进行匹配分析, 可获得与疾病相关基因的信息。通过核酸序列信息与基因组图谱进行匹配、分析,并揭秘患病的根源,已成为生化医疗领域高度关注的问题,全球的基因测序技术也因此发展的如火如荼,但要准确快速的从浩瀚的测序结果数据中得到基因信息,却成了当前基因测序技术发展的瓶颈。对核酸序列信息进行匹配的系统是利用计算机对测序所得的核酸序列片段在已知的参考序列上进行匹配,也即一一比对,根据匹配的结果进行后续的分析。对核酸序列信息进行匹配的方法是基于对核酸序列信息进行匹配的系统对核酸序列信息进行匹配的过程。现有技术中,一种对核酸序列信息进行匹配的方法,所述方法包括步骤:A、根据允许错配的个数n,将每条核酸序列片段分成至少n+1条参与匹配的短片段,得短片段的数据库;B、根据参与匹配的短片段的长度建立并存储参考序列索引,得数据库;C、把每条核酸序列片段分段建立的短片段分别单独在数据库中进行匹配,得匹配结果。因为参考序列索引是等长的,根据概率的原理,存在完全相同的多个参考序列索引。该技术方案中,每条参与匹配的短片段依次与参考序列索引进行匹配,短片段需要与所有的参考序列索引分别进行匹配(短片段需要分别与多个相同的参考序列索引进行匹配),这将大大降低信息处理的速度。并且参考序列和核酸序列均需要进行分段处理,这将进一步增加了信息处理的工作量,从而进一步降低了信息处理的速度。另外,参考序列建立的参考序列索引和核酸序列分段建立的短片段,将产生大量的信息,这将增加信息处理装置的存储空间。因此需要一种新的对核酸序列信息进行匹配的系统和方法,能够实现核酸序列与参考序列快速匹配。

发明内容
本发明的目的在于提供一种对核酸序列信息进行匹配的系统和方法,旨在解决现有技术核酸序列信息与参考序列进行匹配时,速度慢的问题。
为了实现发明目的,一种对核酸序列信息进行匹配的系统包括数据库、参考序列变化单元、标记单元和匹配单元。所述数据库,用于存储参考序列;所述参考序列变换单元,用于对数据库中的参考序列进行BWT变换,得匹配参考序列;所述标记单元,用于对数据库中的匹配参考序列进行间隔标记;所述匹配单元,用于将核酸序列片段依次与数据库中的匹配参考序列进行一致性匹配,得匹配核酸序列。一致性匹配包括允许错配和不允许错配的情况。在允许N个错配的情况下,核酸序列片段至多有N个碱基与数据库中的匹配参考序列不一致称为一致性匹配;在不允许错配的情况下,核酸序列片段与数据库中的匹配参考序列完全一致称为一致性匹配。N为正整数。其中,所述参考序列变换单元包括参考序列矩阵模块和BWT矩阵模块。所述参考序列矩阵模块,用于对在数据库中的参考序列末端或前端加上标识符,并将该参考序列循环移动,得参考序列矩阵;所述BWT矩阵模块,用于将参考序列矩阵按照字典顺序排序,得BffT参考序列矩阵。所述参考序列变换单元还可包括匹配参考序列模块,所述匹配参考序列模块,用于获取BWT参考序列矩阵第一列与最后一列,得匹配参考序列,并储存在数据库 中。其中,所述标记单元,用于对数据库中的匹配参考序列按照等差数列进行间隔标记。进一步的,所述标记单元,还用于在每个等差数列间隔中再利用等差数列对数据库中的匹配参考序列进行进一步标记。上述任一技术方案中,所述匹配单元,用于将核酸序列片段反向互补形成反向互补核酸序列片段,并将反向互补核酸序列片段与数据库中的匹配参考序列进行一致性匹配,得匹配核酸序列。其中,所述匹配单元,利用回溯法依次在反向互补核酸序列片段不能匹配的位置之前的位置上进行碱基替换,并从替换位置开始继续在数据库中进行匹配。上述任一技术方案中,所述对核酸序列信息进行匹配的系统还包括信息接收单元;所述信息接收单元,用于通过USB接口或光盘驱动接口或INTERNET获取核酸序列片段和参考序列。为了更好的实现本发明,本发明还包括一种对核酸序列信息进行匹配的方法。所述方法包括步骤A、对数据库中的参考序列进行BWT变换,得匹配参考序列,并将匹配参考序列存储在数据库中;B、对将数据库中的匹配参考序列进行间隔标记;C、将核酸序列片段依次分别与数据库中的匹配参考序列进行一致性匹配,得匹配核酸序列。其中,数据库中存储有参考序列,步骤A和步骤B分别数据库中的参考序列进行变换。一致性匹配包括允许错配和不允许错配的情况。在允许N个错配的情况下,核酸序列片段至多有N个碱基与数据库中的匹配参考序列不一致称为一致性匹配;在不允许错配的情况下,核酸序列片段与数据库中的匹配参考序列完全一致称为一致性匹配。N为正整数。其中,所述步骤A包括:Al、对数据库中的参考序列末端或前端加上标识符,并将该参考序列经过循环移动,得参考序列矩阵;A2、将参考序列矩阵按照字典顺序排序,得BffT参考序列矩阵,并存储在数据库中。在步骤A2之后还可包括步骤A3、获取BWT参考序列矩阵第一列与最后一列,得匹配参考序列,并存储在数据库中。其中,所述步骤B中,对数据库中的匹配参考序列按照等差数列进行间隔标记。其中,所述步骤B中,在每个等差数列间隔中再利用等差数列对数据库中的匹配参考序列进行进一步标记。上述任一技术方案中,所述步骤C为,将核酸序列片段反向互补形成反向互补核酸序列片段,然后将反向互补核酸序列片段与数据库中的匹配参考序列中进行一致性匹配,得匹配核酸序列。其中,所述步骤C中,在允许错配的情况下,利用回溯法依次在反向互补核酸序列片段不能匹配的位置之前的位置上进行碱基替换,并从替换位置继续在数据库上进行匹配。由上可知,本发明通过核酸序列片段无需分段,直接与在数据库中进行匹配,同 时,核酸序列片段无需与所有相同的匹配参考序列一一匹配,只需与所有相同的序列进行一次匹配即可,从而从整体上提高了信息处理的速度;另外,数据库中的参考序列无需建立参考序列索引,且数据库中的匹配参考序列无需一一标记,从而大大降低了对系统的存储空间的要求。


图I是本发明一个实施例中对核酸序列信息进行匹配的系统的结构示意图。图2是本发明另一个实施例中对核酸序列信息进行匹配的系统的结构示意图。图3是本发明一个实施例中参考序列变换单元的结构示意图。图4是本发明另一个实施例中参考序列变换单元的结构示意图。图5是本发明一个实施例中核酸序列片段进行匹配的方法流程图。图6是本发明另一个实施例中对核酸序列信息进行匹配的系统的结构示意图。图7是本发明一个实施例中对参考序列进行变换的方法流程图。图8是本发明一个实施例中对核酸序列片段进行匹配的方法流程图。
图9是本发明一个实施例中对核酸序列片段进行匹配的示意图。
图10是本发明一个实施例中对核酸序列片段进行匹配的示意图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。为了说明本发明的技术方案的方便,以下实施例中的核酸序列片段和参考序列都只给出了较短碱基序列,其并不代表真正意义上的核酸序列片段和参考序列片段。一般核酸序列片段长度在20bp或以上,参考序列长度在2000bp或以上,当然这只是一般的情况,也存在核酸序列片段长度在20bp以下,参考序列长度在2000bp以下的情况。本发明所述核酸序列片段一般可通过对某物种测序得到,也可通过人工合成得至IJ,也即人工序列。所述参考序列为已知的核酸序列,其用于作为匹配的模板,核酸序列片段与参考序列进行匹配,根据匹配的情况可得到测序是否准确等信息。需要说明的是,本发明中的核酸序列片段无特殊限制,可包括由A、G、C、T或A、G、C、U等碱基组成的序列片段,如ATTACGTTA、UUCCUCAAGGU 等。本发明提出第一实施例,如图I所示,对核酸序列信息进行匹配的系统包括数据库、参考序列变换单元、标记单元和匹配单元。以下将详细说明。( I)数据库I,用于存储参考序列。所述数据库中存储的参考序列可为存储在系统内部或者是存储在系统以外的参考序列。所述参考序列为碱基序列,也即核酸序列信息。该参考序列与核酸序列片段为同一物种的核酸序列信息,比如,核酸序列片段是对草履虫的核酸进行测序得到的,则对应的参考序列就为草履虫的核酸序列信息,也可以是人工序列所得的参考序列和核酸序列片段。对参考序列和核酸序列片段无特别限制,其中,参考序列为已知碱基序列。(2)参考序列变换单元2,用于对数据库中的参考序列进行BWT变换,得匹配参考序列。 所述的BWT变换是Mike Burrows依据David Wheeler提出的变换思想,完善并成功应用于实际数据压缩的变换方法,该变换是目前无损压缩领域的研究热点。BWT是一种以数据块为操作对象的可逆的数据变换方法。所述的参考序列变化单元,对数据库中的参考序列进行BWT变换后,得到的匹配参考序列,数据库中自动存储匹配参考序列。(3)标记单元3,用于对数据库中的匹配参考序列进行间隔标记。所述对数据库中的匹配参考序列进行间隔标记的方式不限,可以采用等差数列,或者其他数列进行有规律的间隔标记。该标记采用的数据类型可以根据需要来选择,比如Int、Byte等数据类型。(4)匹配单元4,用于将核酸序列片段依次与数据库中的匹配参考序列进行一致性匹配,得匹配核酸序列。一致性匹配包括允许错配和不允许错配的情况。在允许N个错配的情况下,核酸序列片段至多有N个碱基与数据库中的匹配参考序列不一致称为一致性匹配;在不允许错配的情况下,核酸序列片段与数据库中的匹配参考序列完全一致称为一致性匹配。N为正整数。所述核酸序列片段为存储在系统内部的核酸序列片段,或者存储在该系统以外的存储器上。将整条核酸序列片段直接与数据库中的匹配参考序列进行一致性匹配或者将整条核酸序列片段首尾同时与数据库中的匹配参考序列进行一致性匹配。所述的一致性匹配是指在允许有N个错配的情况下,整条核酸序列片段有至多N个不能与匹配参考序列匹配上,则认为该整条核酸序列片段匹配上,得到一条匹配核酸序列片段,否则,认为该核酸序列片段不能匹配上,舍弃该核酸序列片段。其他所有的核酸序列片段均按照此种方式在数据库中进行一致性匹配,然后得到匹配核酸序列。该匹配核酸序列可以以可读形式输出,也可以存储在系统中。当匹配核酸序列输出时,其输出的信息可包括每条核酸序列片段与参考序列对应的起始位置和终止位置,每条核酸序列片段错配的位置和错配的个数等信息。本实施例中,本实施例中所述的对核酸序列信息进行匹配的系统可包括计算机和计算机上的对核酸序列信息进行匹配的程序。在对核酸序列信息进行匹配时,首先参考序列变换单元对数据库中的参考序列进行BWT变换,然后标记单元对数据库中经过BWT变换的参考序列进行间隔标记,最后匹配单元将核酸序列片段依次在数据库中进行一致性匹配。本实施例的技术方案中,通过整体核酸序列片段直接在数据库中进行一致性匹配,并且对于相同的匹配参考序列只匹配一次,从而提高了匹配的效率。同时,存储在数据库中的参考序列无需进行分段建立参考序列索引(假设参考序列索引长为K,则相邻两个参考序列索引中,前一个参考序列索引的后K-I个碱基和后一个参考序列索引前K-I个碱基完全相同),并且进行间隔标记,相对与现有技术,大大减少了存储空间。基于第一实施例,本发明提出第二实施例,本发明的一种对核酸序列信息进行匹配的系统包括计算机和其上的对核酸序列信息进行匹配的程序,所述的计算机上还可包括对测序仪进行控制的程序。以下给出具体的说明,如图2所示。计算机与多台测序仪连接,该计算机接收测序仪所测得的测序数据,并对测序数据进行处理,得到核酸序列片段。其中,所述核酸序列片段可以市场上销售的任意的测序仪测序所得到的测序数据经过处理得到的核酸序列片段。优选的,所述核酸序列片段可以是通过对Pstar系列测序仪、MiSeq系列测序仪、GS Junior/Senior测序仪和SOLID测序仪测序产生的测序数据进行处理得到的核酸序列片段。更优选的,所述核酸序列片段可以通过对Pstar系列测序仪测序产生的测序数据进行处理得到的核酸序列片段。所述计算机为任意市场上销售的具有信息处理功能 和数据存储功能的信息处理装置。需要说明的是,本发明的计算机中的核酸序列片段可以为接收测序仪的测序数据,然后经过处理得到的核酸序列片段,也可以是计算机中直接存储或者计算机直接从外界接收的核酸序列片段,对核酸序列片段的来源无特殊限制。下面将对上述实施例中的参考序列变换单元做进一步的详细说明,如图3所示,所述参考序列变换单元包括参考序列矩阵模块、BffT矩阵模块,以下将对各模块做详细说明。(I)参考序列矩阵模块21,用于对数据库中的参考序列末端或前端添加标识符,并将该参考序列经过循环移动,得参考序列矩阵。为了使参考序列矩阵模块的工作原理更容易理解,以下给出一示例。参考序列一般都较长,长度一般在几千到几亿之间,甚至更长。以下给出的示例仅仅是为了帮助理解,并不是真正意义上的参考序列。假设该参考序列为ACCACCTG,首先在参考序列的前端或末端添加标记符,标记符的符号无特殊限制,只是为了区分参考序列的首尾端,本示例中在末端加上$标记符,可得到ACCACCTG$ ;然后再将参考序列循环移动,得到参考序列矩阵,具体结果如下表所示。表I
权利要求
1.一种对核酸序列信息进行匹配的系统,其特征在于,所述系统包括数据库、参考序列变换单元、标记单元和匹配单元; 所述数据库,用于存储参考序列; 所述参考序列变换单元,用于对数据库中的参考序列进行BWT变换,得匹配参考序列; 所述标记单元,用于对数据库中的匹配参考序列进行间隔标记; 所述匹配单元,用于将核酸序列片段依次与数据库中的匹配参考序列进行一致性匹配,得匹配核酸序列。
2.根据权利要求I所述的对核酸序列信息进行匹配的系统,其特征在于,所述参考序列变换单元包括参考序列矩阵模块和BWT矩阵模块; 所述参考序列矩阵模块,用于对数据库中的参考序列末端或前端添加标识符,并将该参考序列循环移动,得参考序列矩阵; 所述BWT矩阵模块,用于将参考序列矩阵按照字典顺序排序,得BWT参考序列矩阵。
3.根据权利要求2所述的对核酸序列信息进行匹配的系统,其特征在于,所述参考序列变换单元还可包括匹配参考序列模块,用于获取BWT参考序列矩阵第一列与最后一列,得匹配参考序列,并储存在数据库中。
4.根据权利要求I所述的对核酸序列信息进行匹配的系统,其特征在于,所述标记单元,用于对数据库中的匹配参考序列按照等差数列进行间隔标记。
5.根据权利要求4所述的对核酸序列信息进行匹配的系统,其特征在于,所述标记单元,还用于在每个等差数列间隔中再利用等差数列对数据库中的匹配参考序列进行进一步T 己 O
6.根据权利要求I至5中任一项所述的对核酸序列信息进行匹配的系统,其特征在于,所述匹配单元,用于将核酸序列片段反向互补形成反向互补核酸序列片段,并将反向互补核酸序列片段与数据库中的匹配参考序列进行一致性匹配,得匹配核酸序列。
7.根据权利要求6所述的对核酸序列信息进行匹配的系统,其特征在于,所述匹配单元,利用回溯法依次在反向互补核酸序列片段不能匹配的位置之前的位置上进行碱基替换,并从替换位置开始继续在数据库中进行匹配。
8.根据权利要求I至5中任一项所述的对核酸序列信息进行匹配的系统,其特征在于,所述系统还包括信息接收单元;所述信息接收单元,用于通过USB接口或光盘驱动接口或INTERNET获取核酸序列片段和参考序列。
9.一种基于权利要求I所述的对核酸序列信息进行匹配的系统的对核酸序列信息进行匹配的方法,其特征在于,所述方法包括以下步骤 A、对数据库中的参考序列进行BWT变换,得匹配参考序列,并将匹配参考序列存储在数据库中; B、对数据库中的匹配参考序列进行间隔标记; C、将核酸序列片段依次分别与数据库中的匹配参考序列进行一致性匹配,得匹配核酸序列。
10.根据权利要求9所述的对核酸序列信息进行匹配的方法,其特征在于,所述步骤A包括 Al、将数据库中的参考序列末端或前端加上标识符,并将该参考序列循环移动,得参考序列矩阵; A2、将参考序列矩阵按照字典顺序排序,得BWT参考序列矩阵并存储在数据库中。
11.根据权利要求10所述的对核酸序列信息进行匹配的方法,所述步骤A2之后还包括 A3、获取BWT参考序列矩阵第一列与最后一列,并存储在数据库中。
12.根据权利要求9所述的对核酸序列信息进行匹配的方法,其特征在于,所述步骤B为,对数据库中的匹配参考序列按照等差数列进行间隔标记。
13.根据权利要求12所述的对核酸序列信息进行匹配的方法,其特征在于,所述步骤B中,在每个等差数列间隔中再利用等差数列对数据库中的匹配参考序列进行进一步标记。
14.根据权利要求9至13中任一项所述的对核酸序列信息进行匹配的方法,其特征在于,所述步骤C为,将核酸序列片段反向互补形成反向互补核酸序列片段,然后将反向互补核酸序列片段与数据库中的匹配参考序列中进行一致性匹配,得匹配核酸序列。
15.根据权利要求14所述的对核酸序列信息进行匹配的方法,其特征在于,所述步骤C中,在允许错配的情况下,利用回溯法依次在反向互补核酸序列片段不能匹配的位置之前的位置上进行碱基替换,并从替换位置继续在数据库上进行一致性匹配。
全文摘要
本发明涉及信息处理领域,提供了一种对核酸序列信息进行匹配的系统。所述系统包括数据库、参考序列变化单元、标记单元和匹配单元。所述数据库,用于存储参考序列;所述参考序列变换单元,用于对数据库中的参考序列进行BWT变换,得匹配参考序列;所述标记单元,用于对数据库中的匹配参考序列进行间隔标记;所述匹配单元,用于将核酸序列片段依次与数据库中的匹配参考序列进行一致性匹配,得匹配核酸序列。本发明还提供了一种对核酸序列信息进行匹配的方法。本发明的对核酸序列信息进行匹配的系统和方法能实现核酸序列信息与参考序列的快速匹配。
文档编号G06F19/22GK102841988SQ20121026363
公开日2012年12月26日 申请日期2012年7月28日 优先权日2012年7月28日
发明者盛司潼 申请人:盛司潼
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1