一种对基因序列片段进行拼接的系统和方法

文档序号:6375229阅读:698来源:国知局
专利名称:一种对基因序列片段进行拼接的系统和方法
技术领域
本发明涉及生物信息处理领域,更具体地说,涉及ー种对基因序列片段进行拼接的系统和方法。
背景技术
对基因序列片段进行拼接是将小的序列片段进行比对合并成大的DNA序列或者RNA序列。这些序列片段是由A、G、C、T或者A、G、C、U组成,序列片段的长度表示其含有的A、G、C、T或者A、G、C、U的个数。含有A、G、C、T的序列片段经过拼接得到大的序列片段,大的序列片段再经过拼接或比对得到DNA序列;同样,含有A、G、C、U的序列片段经过拼接得到大的序列片段,大的序列片段再经过拼接或比对得到RNA序列。序列片段拼接就好比 一本书的多个副本通过粉碎机之后得到许多碎片,然后试图通过许多碎片拼凑出一本书的过程。结果拼凑书的过程中可能会出现很多重复的段落,并且段落中有拼凑错的地方。序列片段拼接过程中同样也存在错误,这就需要识别错误并校正错误。现有的ー种对基因序列片段进行拼接的方法。所述方法包括如下步骤步骤A、计算机储存DNA序列片段信息,其来自多个DNA序列片段;步骤B、用一个锚定序列检索序列片段信息,该锚定序列的长度为n,ー个序列片段至少被两个锚定序列检索;步骤C、根据所述的锚定序列对序列片段进行分组;步骤D、合并在ー组的序列片段,用来获得更长的序列片段;步骤E、利用来自ー个序列片段的至少两个锚定序列产生至少两个一致的序列。由于测序过程中或者测序信号识别过程中仪器、操作等会使序列片段存在错误,最終使得测序得到的DNA序列片段过短,同时该错误会导致通过拼接得到序列片段过短,也即该技术方案虽然能够实现序列片段的比对和拼接,但无法准确识别并去除错误信息,最終使得拼接后的序列不准确且冗余过多,降低了拼接后的序列用于后续分析的价值。因此需要ー种新的对序列片段进行拼接的系统和方法,能够提高序列片段拼接的准确度。

发明内容
本发明的目的在于提供ー种对基因序列片段进行拼接的系统和方法,g在解决现有技木通过拼接所得的序列过短,且无法准确识别并去除错误信息而导致拼接后的序列不准确且冗余过多的问题。为了实现发明目的,本发明提供了ー种对基因序列片段进行拼接的系统包括数据库、过滤単元、拼接单元和处理单元。其中,所述数据库用于存储基因序列片段;所述过滤単元用于对数据库中的基因序列片段中的短序列片段进行过滤,得长序列片段;所述拼接単元用于对长序列片段进行分段和拼接处理,得序列拼接图;所述处理単元用于对序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息;所述处理単元中记录的信息包括对序列拼接图进行去除处理后的图的信息和图中被去除的信息。
其中,所述过滤単元用于滤除长度小于L的基因序列片段;所述L >5,L为整数。其中,所述拼接単元包括分段模块、节点模块、拼接模块。所述分段模块用于将长序列片段转换成长度为K的锚定序列,所述K为正整数;所述节点模块用于根据锚定序列建立节点;每个锚定序列建立一个节点;所述拼接模块用于将节点连接成序列拼接图。其中,所述拼接模块用于连接节点,并对节点进行合并形成合并节点,捜索、连接合并节点形成序列拼接图。其中,所述姆个节点包括正向节点和/或反向节点;姆个节点的长度在3 20之间。其中,所述处理単元包括图处理模块、内图处理模块和记录模块。所述图处理模块用于对碱基个数小于M的序列拼接图进行去除处理;所述内图处理模块用于对去除处理后的序列拼接图中的环路中的一条路和分支进行去除处理;所述记录模块用于记录环路或环路中被去除的一条路和去除的分支中长度大于R的分支的序列信息;所述M > 6,R > 6,且M和R均为整数。 其中,所述系统还包括显示单元,用于显示处理单元得到的序列信息;所述序列信息包括拼接序列片段、每个拼接序列片段对应的长序列片段和每个长序列片段出现的次数。其中,所述系统还包括输入单元,用于接收输入指令;所述输入指令包括长序列片段的最小长度、长序列片段的分段长度和序列拼接图中的最少碱基个数。为了更好地实现本发明的目的,本发明还提供了ー种对基因序列片段进行拼接的方法,包括步骤:A、对基因序列片段中的短序列片段进行滤除,得长序列片段;B、对长序列片段进行分段和拼接处理,得序列拼接图;C、对所述序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息;所述步骤C中记录得到的序列信息,包括对图进行去除处理后的序列拼接图的信息和序列拼接图中去除的信息。其中,所述步骤A中,滤除长度小于L的基因序列片段,得长度大于等于L的长序列片段;所述L >5,L为整数。其中,所述步骤B包括BI、将长序列片段转换成长度为K的锚定序列,所述K为正整数;B2、根据锚定序列建立节点;每个锚定序列建立一个节点;B3、将节点连接成序列拼接图。其中,所述步骤C包括Cl、去除碱基个数小于M的序列拼接图;C2、对去除处理后剰余的序列拼接图中的环路中的一条路和分支进行去除处理;C3、记录环路或环路中被去除的一条路和去除的分支中长度大于R的分支的序列信息;所述M彡6,R彡6,且M和R均为整数。其中,所述步骤C之后还包括步骤D、显示序列信息;所述序列信息包括拼接序列片段、每个拼接序列片段对应的长序列片段和每个长序列片段出现的次数。所述步骤A之前还包括步骤A0、获取并存储序基因列片段,并确定长序列片段的最小长度、长序列片段的分段长度和序列拼接图中的最少碱基个数。由上可知,本发明通过对短序列片段进行过滤,提高了參与序列拼接的基因序列片段的准确性,同时,对拼接后的序列拼接图的干扰因素进行去除处理并记录,不仅減少了冗余,也避免了信息的丢失。整体上实现了基因序列片段拼接的准确度。


图I是本发明一个实施例中对基因序列片段进行拼接的系统结构示意图。图2是本发明另ー个实施例中拼接单元的结构示意图。图3是本发明一个实施例中序列拼接图和结果显示示意图。图4是本发明一个实施例中锚定序列建立的示意图。图5是本发明另ー个实施例中序列拼接图的示意图。图6是本发明另ー个实施例中节点合并处理的序列拼接图的示意图。图7是本发明另ー个实施例中序列拼接图。 图8是本发明一个实施例中对基因序列片段进行拼接的方法流程图。具体实现方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一歩详细说明。本发明提出第一实施例。所述ー种对基因序列片段进行拼接的系统包括数据库、过滤单元、拼接单元和处理单元。如附图I所示(I)数据库I用于存储基因序列片段。(2)过滤单元2用于对数据库I中的基因序列片段中的短序列片段进行过滤,得长序列片段。(3)拼接单元3用于对长序列片段进行分段和拼接处理,得序列拼接图。(4)处理单元4用于对序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息。其中所述处理単元4中记录的信息包括但不限于对序列拼接图进行去除处理后的图的信息和图中被去除的信息。本实施例中的数据库I中存储的基因序列片段可以是人造基因序列片段或者是通过基因测序仪测序得到的基因序列片段。所述基因序列片段可以是DNA片段或RNA片段。在数据库中,DNA片段用含有A、G、C、T的一系列字符表示,RNA片段用含有A、G、C、U的一些列字符表示。本系统对DNA片段和对RNA片段的处理方式无任何区別。所述过滤単元2对数据库I中的基因序列片段中的短序列片段进行过滤,经过过滤后,可得到相对较长的长序列片段。过滤单元2可以根据需要设定需要滤除的短序列片段的长度来进行过滤,也可以根据默认的短序列片段长度来进行过滤。上述过滤单元2所滤除的基因序列片段的长度根据测序的基因序列片段的目标长度来决定或者根据人造基因序列片段的长度来决定。例如,测序的希望得到的基因序列片段的长度至少为12,则滤除长度小于12的基因序列片段,得到长度大于等于12的长序列片段;或者为了拼接的序列的多祥性,选择滤除小于8的基因序列片段,得到大于等于8的长序列片段。所述的基因序列片段的长度是指基因序列片段所含的碱基的个数。例如GTTGACTTTAA,则该基因序列片段的长度为U。本过滤单元2滤除的短序列片段的长度根据数据库I中的基因序列片段的长度来決定。优选的,过滤单元用于滤除长度小于L的基因序列片段,L > 5,L为整数。所述拼接単元3对数据库I中滤除后得到的长序列片段进行分段,然后对分段后的片段进行拼接,得到序列拼接图,如图3中的3-1所示。分段的长度根据实际情况来进行选择,当选择的分段的长度较长时,拼接得到的序列拼接图的分支和环路相对较少,但是拼接得到的每个序列拼接图所含的碱基个数也相对少;反之,当选择的分段的长度较短时,拼接所得到的序列拼接图的分支和环路较多,但是拼接得到的每个序列拼接图所含的碱基个数较多。选择分段长度要适中,一般将分段的长度选择在5-20之间。
所述处理単元4用于对序列拼接图中的干扰因素进行去除处理并记录相关信息。该干扰因素包括所含碱基个数少的序列拼接图、序列拼接图中的环路中的一条路、分支等。例如当序列拼接图中所含的碱基个数较少时,将该序列拼接图去除;当序列拼接图中的分支的长度小于6时,去除该分支;当存在环路时,对环路中的一条路进行去除处理。对于去除的信息,本实施例中还可对其进行选择性记录,从而保证了后续所得数据的完整性也减少了信息的冗余。例如当因为基因突变引起的某个位点上的序列信息不同,在拼接时,序列拼接图中会存在环路,对去除的该环路中的一条路进行记载,从而保证了后续分析时数据的完整性,例如对序列拼接度中长度小于5的进行去除,过短的分支是由错误的碱基引起的,对该去除的分支并不记录,既減少了信息的冗余,又保证了信息的准确性。为了更好的阐述处理单元4的处理过程,对处理单元4的处理结果给出一示例,如图3中的3-1所示,首先对序列拼接图中的干扰因素进行去除,由于Graph32含有的碱基个数很少,所以将Graph32去除,过滤后得到Graph31 ;再对Graph31进行干扰因素处理,Graph31存在分支,其中一条分支为AATTCC,另一条分支为AAGC,AAGC过短,去除短的一条分支,留下较长的分支;另外,Graph31中存在环路,环路中的一条路为GAC,另一条为G,为了保证序列足够长,去除较短的一条路G,并记载该去除的一条路的位置;最終,得到如图3中的3-2。图3中, 处理单元4对序列拼接图进行处理时,去除了较短的分支,测序得到的基因序列片段中如果有错误信息出现,拼接得到的分支会非常短,通过对分支的去除,从而保证了结果的准确性,同时无冗余存在。本技术方案中所述的长序列片段的最小长度、长序列片段的分段长度和序列拼接图中的最少碱基个数等都可以是默认设置的,也可以是通过手动设置得到的。本实施例的技术方案,通过对基因序列片段中短序列片段进行过滤,保证了后续參与拼接的基因序列片段的准确性,从而为得到准确的序列信息提供了前提保障;另外,处理单元对序列拼接图中的干扰因素进行去除处理,从而去除了序列信息的冗余信息,并对去除的信息进行记录,保证了拼接所得信息的完整性。整体上实现了拼接的序列信息的准确性。基于第一实施例,本发明提出第二实施例,如图2所示,拼接单元包括分段模块31、节点模块32和拼接模块33。(I)分段模块31用于将长序列片段转换成长度为K的锚定序列,所述K为正整数。(2)节点模块32用于根据锚定序列建立节点;每个锚定序列建立ー个节点。(3)拼接模块33用于将节点连接成序列拼接图。本实施例中,分段模块31将长序列片段转换为长度为K的锚定序列,对K无特殊限制,只要K满足正整数即可。当K较小时,通过拼接単元得到的序列拼接图的碱基个数更多,分支和环路也相应的更多,处理速度相对较慢,但最終得到的拼接的序列片段相对较长;当K较大时,通过拼接単元得到的序列拼接图的碱基个数相对较少,分支和环路也相对较少,处理时速度更快,但最终得到的拼接的序列片段较短。以下给出ー示例,如图4所示。图4-1中,基因序列片段分别被分成长度为9的锚定序列,图4-2中,基因序列片段被分成长度为4的锚定序列。节点模块32根据锚定序列建立节点,如图5所示,与图4-1对应的锚定序列建立的节点分别为ACCTTTAGT、CCTTTAGTG、CTTTAGTGC、......;与图4_2对应的锚定序列建立的节点分别为 ACCT、CCTT, CTTT......。拼接模块33对节点进行连接成序列拼接图,如图5所示。将基因序列片段分成长度为9的锚定序列,通过节点模块32建立节点和拼接模块33捜索、连接节点,得到图5-1 ;将基因序列片段分成长度为4的锚定序列,通过节点模块32建立节点和拼接模块33捜索、连接节点,得到图5-2。通过对图5-1和图5-2的观察可以知道,图5-1得到序列拼接图Graphl和Graph2,这两个图的结构都非常简单,没有出现分支;而图5-2得到的序列拼接图比较复杂,存在分支和环路。也即当锚定序列较短时,通过拼接単元得到的序列拼接图的碱基个数更多,分支和环路也相应的更多,处理速度相对较慢,但最終得到的拼接的序列片段较长;当锚定序列较长时,通过拼接単元得到的序列拼接图的碱基个数相对较少,分支和环路也相对较少,处理时速度更快,但最终得到的拼接的序列片段较短。本技术方案的拼接模块还可以用于连接节点,并对节点进行合并,形成合并节点,捜索、连接合并节点形成序列拼接图。以下给出ー示例,拼接模块对图5中5-2进行处理,得 到图6所示的結果。对节点进行合并形成的合并节点有ACCT、TTA、CCG、A、GTG、CCG、GATG、AGTG。如果有不同图的合并节点,可按照图5对应的实施例的技术方案对合并节点进行搜索、连接合并节点,从而形成序列拼接图。应用本技术方案对机电进行拼接形成序列拼接图,得到的序列拼接图更加简単,处理单元4在对序列拼接图进行处理时,速度更快、记录更方便。上述任一技术方案,处理单元包括图处理模块、内图处理模块和记录模块。所述图处理模块用于对碱基个数小于M的序列拼接图进行去除处理。所述内图处理模块用于对去除处理后的序列拼接图中的环路中的一条路和分支进行去除处理。所述记录模块用于记录环路或环路中被去除的一条路和去除的分支中长度大于R的分支的序列信息。本技术方案的处理结果可參见图3。其中,M和R均无特殊限制,优选的,M彡6,R彡6,且M和R均为整数。因为一般情况下,如果基因序列片段来自基因测序,序列拼接图所含的碱基个数一般至少大于等于ー个基因序列片段的长,如果出现图所含的碱基个数比几个基因序列片段的总长小,则用于拼接成该序列拼接图的基因序列片段中必然由错误,因为在测序前,DNA或者RNA有多条,这些DNA或者RNA片段被打断,再经过扩增而后测序,测序得到的基因序列片段一般都能连接成一个大的序列拼接图。本技术方案中,对序列拼接图进行去除处理减少了冗余,同时,使得最終得到的序列拼接图中的信息更准确。本技术方案中,内图处理模块对环路及其分支进行去除处理进一步减少了冗余,同时,记录模块对去除的信息进行记录,保证了后续分析信息的完整性,因为出现环路的原因可能是基因突变引起的。另外,过短的分支和过小的序列拼接图都是测序中的误差或者错误引起的,所以本技术方案可不做记录,可以减少信息的冗余与不准确。基于上述任一技术方案,本发明提出第三实施例。上述的每个节点可包括正向节点和/或反向节点。其中每个节点的长度无特殊限制,正如第二实施例中所述,根据需要选择基因序列片段的分段长度,经过节点模块处理得到对应长度的节点。优选的节点长度在3^20之间,如4、5、12、18等等。图3中的序列拼接图是基因序列片段经过分段得到的长度为3的锚定序列,长度为3的锚定序列经过前后位置及碱基信息记录的处理,得到长度为3的节点,该这些节点通过搜索、连接,形成序列拼接图。本实施例中,图3、图5和图6均是建立的正向节点,在此不再赘述。下面以建立正向节点和反向节点为例,如图7所示。拼接模块将建立的正向节点和反向节点进行捜索、连接或者节点合并等操作,得到如图7所示的序列拼接图。该节点中,当正向节点或者反向节点不能够拼接时,就停止连接。该技术方案使得节点的拼接更准确,当ー个方向上的节点出现错误时,就使得序列拼接图不在继续扩大,从而保证了所拼接出来的序列拼接图的准确性。上述任一技术方案中,所述的对基因序列片段进行拼接的系统还可包括显示单元,用于显示处理单元得到的序列信息;所述显示的序列信息无特殊限定。所述显示的序列信息可包括拼接序列片段、每个拼接序列片段对应的长序列片段和每个长序列片段出现的次数,如图3中3-2所示。当然,所显示的序列信息也可只包括长序列片段。其中,图3中3-2所示的只是示意图,实际上拼接出来的拼接序列多达几千甚至上万条,每条拼接序列的长度可达上万或者更长,长序列片段出现的次数也可达几十次甚至上百次。由于篇幅的问题,所以只给出如图3中3-2的示意图。
所述系统还包括输入单元,用于接收输入指令;所述输入指令包括长序列片段的最小长度、长序列片段的分段长度和序列拼接图中的最少碱基个数。例如输入8,4,8 ;也即所得长序列片段的最小长度为8,基因序列片段中小于8基因序列片段的通过过滤単元被滤除,得到长序列片段;长序列片段分分成长为4的锚定序列或其他形式的序列;经过处理单元拼接得到的序列拼接图在去除干扰因素时,将含有碱基个数小于8的序列拼接图去除。当然,也可包括设定去除的分支的长度,例如通过输入单元输入的分支长度为6,也即从分支的起始位置开始,碱基组成的序列所含碱基个数小于6的被去除,并不记录,大于等于6的被去除后记录。本发明的ー种对基因序列片段进行拼接的方法,包括以下步骤(I)对数据库中的基因序列片段中的短序列片段进行滤除,得长序列片段;(2)对长序列片段进行分段和拼接处理,得序列拼接图;(3)对所述序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息;所述步骤(3)中记录得到的序列信息,包括对图进行去除处理后的序列拼接图的信息和序列拼接图中去除的信息。本技术方案中通过对基因序列片段中短序列片段进行过滤,保证了后续參与拼接的基因序列片段的准确性,从而为得到准确的序列信息提供了前提保障;另外,对序列拼接图中的干扰因素进行去除处理,从而去除了序列信息的冗余信息,并对去除的信息进行记录,保证了拼接所得信息的完整性。整体上实现了拼接的序列信息的准确性。接下来将对每个步骤进行详细说明,所述的去除的信息可以不完全记录,通过设定分支满足一定长度的进行记录,去除的序列拼接图满足一定碱基个数的进行记录,该技术方案可以减少冗余;也可以将去除的信息全部进行记录,这样可以保证信息的完整性。所述滤除的短序列片段长度无特殊限制;优选的,滤除长度小于L的基因序列片段,得长度大于等于L的长序列片段;所述L > 5,L为整数。所滤除的基因序列片段的长度根据测序的基因序列片段的目标长度来决定或者根据人造基因序列片段的长度来決定。例如,测序的基因序列片段的长度为12及其以上,则过滤去长度小于12的基因序列片段,得到大于等于12的长序列片段;或者为了拼接的序列的多祥性,选择滤除小于8的基因序列片段,得到大于等于8的长序列片段。所述的基因序列片段的长度是指基因序列片段所含的碱基的个数。例如GTTGACTTTAA,则该基因序列片段的长度为11。所述步骤(2)包括(21)将长序列片段转换成长度为K的锚定序列,所述K为正整数;(22)根据锚定序列建立节点;每个锚定序列建立一个节点;(23)将节点连接成序列拼接图。其中,所述锚定序列长度无特殊限制,但是为了提高拼接的精度,所述K优选为K > 3 ;因为每个长序列片段被分段成锚定序列后,会建立节点,不同节点之间会根据相似度进行拼接(也即相连接的两个节点中,前一个节点的除了第一位之后的其他碱基均与后ー个节点的除了最后ー个相吻合,例如,前ー个节点为TCCGAT,后一个节点序列为CCGATN,所述的N为A、T、C、G中的任意ー个),如果锚定序列过短,建立的节点过小,则出现的分支就非常多,且连接非常短(比如锚定序列长为2,建立的节点只有16种,AA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TT,所以导致连接的序列非常短,且非常不准确),这势必会导致拼接的不准确,因为当序列足够 长的时候,能够吻合的就非常少,从而分支就少,另外拼接出的拼接序列也会足够长,从而増加准确性。所述步骤(3)包括(31)去除碱基个数小于M的序列拼接图;(32)对去除处理后剰余的序列拼接图中的环路中的一条路和分支进行去除处理;(33)记录环路或环路中被去除的一条路和去除的分支中长度大于R的分支的序列信息。其中,M和R均无特殊限制,优选的,M彡6,R彡6,且M和R均为整数。因为一般情况下,如果基因序列片段来自基因测序,序列拼接图所含的碱基个数一般至少大于等于ー个基因序列片段的长,如果出现图所含的碱基个数比几个基因序列片段的总长小,则用于拼接成该序列拼接图的基因序列片段中必然由错误,因为在测序前,DNA或者RNA有多条,这些DNA或者RNA片段被打断,再经过扩增而后测序,测序得到的基因序列片段一般都能连接成一个大的序列拼接图。本技术方案中,对序列拼接图进行去除处理減少了冗余,同时,使得最終得到的序列拼接图中的信息更准确。另外,对环路及其分支进行去除处理进一步减少了冗余,同时,记录模块对去除的信息进行记录,保证了后续分析信息的完整性,因为出现环路的原因可能是基因突变引起的。另外,过短的分支和过小的序列拼接图都是测序中的误差或者错误引起的,所以本技术方案可不做记录,可以减少信息的冗余与不准确。本技术方案中,姆个节点可包括正向节点和/或反向节点。其中姆个节点的长度无特殊限制,根据需要选择基因序列片段的分段长度,经过节点模块处理得到对应长度的节点。优选的节点长度在:Γ20之间,如4、5、12、18等等。图3中的序列拼接图是基因序列片段经过分段得到的长度为3的锚定序列,长度为3的锚定序列经过前后位置及碱基信息记录的处理,得到长度为3的节点,该这些节点通过搜索、连接,形成序列拼接图。在此处不再对节点的建立做进ー步的详述,可以參见图3、图5、图6和图7。以下将给出一具体的实施例,如图8所示,首先过滤基因序列片段,经过过滤后的长序列片段分别为AGCAGTAAGCCA、AGTAACTCCGAC、AGCCATGCCGACTAA。再对该长序列片段进行分段,得到长度为5的锚定序列,见图8 ;根据锚定序列建立长度为5的节点,根据节点的吻合情况,将节点进行连接成序列拼接图;进一步的将节点进行合并、捜索、拼接得到由合并节点组成的序列拼接图。最后对序列拼接图进行去除处理,对去除处理后的序列拼接图在进行环路和分支的去除处理,并记录拼接序列、去除的分支和环路。其中,记录的序列信息可以为拼接序列片段、每个拼接序列片段对应的长序列片段和每个长序列片段出现的次数等。为了增强由该方法所得结果的可见性,本方法在步骤(3)之后还可包括步骤(4)显示序列信息。其显示的结果可參见图3中3-2。当然,显示序列信息不仅仅包括拼接序列片段、每个拼接序列片段对应的长序列片段和每个长序列片段出现的次数,还可包括去除的序列拼接图和分支等的序列信息。可以根据显示的序列信息,做后续的分析,比如等位基因的分析、测序的准确性等信息的分析。本技术方案中,在步骤(I)之前还可包括步骤(O)获取并存储序基因列片段,并确定长序列片段的最小长度、长序列片段的分段长度和序列拼接图中的最少碱基个数。比如通过网络接ロ、USB接ロ等方式获取基因序列片段,并将基因序列片段存储在数据库中,用于后续的处理使用;然后,确定长序列片段的最小长度、长序列片段的分段长度和序列拼接图中的最少碱基个数,比如确定的结果为20,6,21,则表示过滤去基因序列片段中长度小于20的短序列片段,得长度大于等于20的长序列片段,根据长序列片段建立长度为6的锚定序列,进行拼接后,对小于21的序列拼接图进行去除处理。确定长序列片段的最小长度可以根据基因序列的大部分长度是多少来确定,另外可參考是否需要拼接序列的准确度高,当需要的准确度高,确定长序列片段的最小长度大,反之则小。对于确定长序列片段的分段长度也可參考參考是否需要拼接序列的准确度高,当需要的准确度高,分段的长度大(锚定序列长),反之则小。
应当说明的是,本发明典型的应用但不限于对核酸序列片段的拼接,在其他类似的信息处理领域中也可以应用本发明所阐述的方法。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
权利要求
1.ー种对基因序列片段进行拼接的系统,其特征在于,所述系统包括数据库、过滤单元、拼接单元和处理单元; 所述数据库用于存储基因序列片段; 所述过滤単元用于对数据库中的基因序列片段中的短序列片段进行过滤,得长序列片段; 所述拼接単元用于对长序列片段进行分段和拼接处理,得序列拼接图; 所述处理単元用于对序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息; 所述处理単元中记录的信息包括对序列拼接图进行去除处理后的图的信息和图中被去除的信息。
2.根据权利要求I所述的系统,其特征在于,所述过滤単元用于滤除长度小于L的基因序列片段;所述L >5,L为整数。
3.根据权利要求I所述的系统,其特征在于,所述拼接単元包括分段模块、节点模块、拼接模块; 所述分段模块用于将长序列片段转换成长度为K的锚定序列,所述K为正整数; 所述节点模块用于根据锚定序列建立节点;每个锚定序列建立一个节点; 所述拼接模块用于将节点连接成序列拼接图。
4.根据权利要求3所述的系统,其特征在于,所述拼接模块用于连接节点,并对节点进行合并形成合并节点,捜索、连接合并节点形成序列拼接图。
5.根据权利要求3所述的系统,其特征在于,所述姆个节点包括正向节点和/或反向节点;每个节点的长度在3 20之间。
6.根据权利要求I所述的系统,其特征在于,所述处理単元包括图处理模块、内图处理模块和记录模块; 所述图处理模块用于对碱基个数小于M的序列拼接图进行去除处理; 所述内图处理模块用于对去除处理后的序列拼接图中的环路中的一条路和分支进行去除处理; 所述记录模块用于记录环路或环路中被去除的一条路和去除的分支中长度大于R的分支的序列信息; 所述M彡6,R彡6,且M和R均为整数。
7.根据权利要求I至6中任一项所述的系统,其特征在于,所述系统还包括显示单元,用于显示处理单元得到的序列信息;所述序列信息包括拼接序列片段、每个拼接序列片段对应的长序列片段和每个长序列片段出现的次数。
8.根据权利要求I至6中任一项所述的系统,其特征在于,所述系统还包括输入单元,用于接收输入指令;所述输入指令包括长序列片段的最小长度、长序列片段的分段长度和序列拼接图中的最少碱基个数。
9.ー种对基因序列片段进行拼接的方法,其特征在于,所述方法包括以下步骤 A、对数据库中的基因序列片段中的短序列片段进行滤除,得长序列片段; B、对长序列片段进行分段和拼接处理,得序列拼接图; C、对所述序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息;所述步骤C中记录得到的序列信息,包括对图进行去除处理后的序列拼接图的信息和序列拼接图中去除的信息。
10.根据权利要求9所述的方法,其特征在于,所述步骤A中,滤除长度小于L的基因序列片段,得长度大于等于L的长序列片段;所述L > 5,L为整数。
11.根据权利要求9所述的方法,其特征在于,所述步骤B包括 BI、将长序列片段转换成长度为K的锚定序列,所述K为正整数; B2、根据锚定序列建立节点;每个锚定序列建立一个节点; B3、将节点连接成序列拼接图。
12.根据权利要求11所述的方法,其特征在于,所述步骤C包括 Cl、去除碱基个数小于M的序列拼接图; C2、对去除处理后剰余的序列拼接图中的环路中的一条路和分支进行去除处理; C3、记录环路或环路中被去除的一条路和去除的分支中长度大于R的分支的序列信息; 所述M彡6,R彡6,且M和R均为整数。
13.根据权利要求9至12中任一项所述的方法,其特征在于,所述步骤C之后还包括步骤D、显示序列信息;所述序列信息包括拼接序列片段、每个拼接序列片段对应的长序列片段和每个长序列片段出现的次数。
14.根据权利要求9至12中任一项所述的方法,其特征在于,所述步骤A之前还包括步骤A0、获取并存储序基因列片段,并确定长序列片段的最小长度、长序列片段的分段长度和序列拼接图中的最少碱基个数。
全文摘要
本发明涉及生物信息处理领域,提供了一种对基因序列片段进行拼接的系统,所述系统包括数据库、过滤单元、拼接单元和处理单元;所述数据库用于存储基因序列片段;所述过滤单元用于对数据库中的基因序列片段中的短序列片段进行过滤,得长序列片段;所述拼接单元用于对长序列片段进行分段和拼接处理,得序列拼接图;所述处理单元用于对序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息。还提供了一种与对基因序列片段进行拼接的系统对应的方法。所述系统和方法能够提高序列片段拼接的准确度,从而为后续分析的准确性提供保障。
文档编号G06F19/18GK102867134SQ201210291770
公开日2013年1月9日 申请日期2012年8月16日 优先权日2012年8月16日
发明者盛司潼 申请人:盛司潼
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1