一种可得到完全解的生物序列局部比对方法

文档序号:6370615阅读:461来源:国知局
专利名称:一种可得到完全解的生物序列局部比对方法
技术领域
本发明属于数据库和生物信息学领域,具体涉及一种可得到完全解的生物序列局部比对方法。
背景技术
在生物信息学研究中,经常需要将获得的基因或蛋白质序列(设为P)与已知的生物序列(设为T)进行比对。在很多时候,T和P从整体来看也许并不相似,然而二者却可能包含非常相似的子序列。局部比对的目的就是要找出这类具有高度相似性的子序列。局部比对技术在生物信息学研究中有重要的应用,例如可用于基因和蛋白功能研究、物种同源性研究等。将两条不同的基因序列进行局部比对,通过分析二者相似的子序列,从而找出两条基因序列中具有相似功能的基因片段。通过把新发现的蛋白序列同功能已知的蛋白序列作比对,则可以推测新蛋白的功能,指导新药的开发。在不同的物种中,特定基因的序列变异可用于研究物种之间的同源性。将两个物种的基因进行局部比对时,错配与突变相应,空位与插入或缺失对应,比对的结果可用于判断基因的相似度,此外也可以在基因组层面比较序列的相同与差异之处,将结果用于构建进化树。因此,探索生物序列的局部相似性具有非常重要的意义。如何能够准确快速的进行局部比对人们提出了挑战。目前已有的较为经典的算法包括 Smith-Waterman、FASTA、BLAST 等。Smith-Waterman基于动态规划的思想,算法考虑两个序列中任意长度的子串,在计算得分的过程中允许匹配、不匹配和插入空格的操作。用这种方法得到的比对也是局部比对中得分最高者。该方法的时间和空间复杂度都是0 (mn),其中m和n分别是P和T的长度。尽管该方法能够找到所有符合条件的结果,但是时间和空间上消耗都太大,以至于很少在实际中应用。FASTA是一种经典的、基于启发式算法的生物序列局部比对工具,其基本思路是首先在T中精确匹配很短的序列片段K-tuple,之后米用启发式算法将构成的动态规划矩阵中同一或相邻对角线中位置相近的片段连接起来,构成局部比对结果。该方法虽有较高的效率,但并不能保证得到所有符合条件的结果。BLAST是一种经典且非常流行的生物序列局部比对工具。与FASTA相似,BLAST也是基于启发式算法。首先在T和P中定位匹配程度超过一定阈值的短片段对segment pair,然后从这些位置开始向左右扩展得到满足给定阈值的局部比对结果。该方法虽然具有很高的效率,但同样不能保证找到所有符合条件的结果。

发明内容
针对现有技术存在的不足,本发明提供一种可得到完全解的生物序列局部比对方法,利用BWT索引,结合过滤和重用技术,得到生物序列局部比对的完全解。本发明采用一组广泛应用的得分模式,在这组得分模式中,匹配得分是指若两个对应字符相同则为一个匹配(match),每一个匹配(match)得Sa分,不匹配得分是指若两个对应字符不相同,即需进行替换操作,则为一个不匹配(mismatch),不匹配得Sb分,若需进行插入或删除操作,则插入一个gap (连续插入r个空格)得分为Sg+rXSs,其中Sg是gap起始罚分(gap opening penalty),即每插入一个gap需罚相应的分数,Ss是gap扩展罚分(gap extension penalty),也就是每插入一个空格罚Ss分。Sa为正分,Sb, Sg和Ss均为负分。本发明方法包含以下步骤步骤I :采用一种生物序列作为基准序列T,另一种生物序列作查询序列P ;步骤2 :进行基准序列的后缀树分支与查询序列的比对,步骤如下步骤2. I :设定匹配得分Sa,不匹配得分Sb,起始罚分Sg,扩展罚分Ss,分数阈值 H;步骤2. 2 :对基准序列T的逆序列T4构建BWT索引;BffT最早应用在数据压缩方面,对一个字符串进行BWT变换后并不改变字符串中字符的值,只是将它们的位置进行了改变。本方法通过BWT索引模拟后缀树遍历,构建BWT索引,步骤如下步骤2. 2. I :在T—1的末尾增加一特殊字符$,使该字符小于T—1序列中所有字符;步骤2. 2. 2 :对T1的后缀数组按字典序进行排序;步骤2. 2. 3 :建立数组SA,使其代表排序后的后缀数组中第i个位置的子序列在T1中出现的开头位置;步骤2. 2. 4 :经过上述8胃1'变换后得到的序列的第1个字符8^[1]=1'_1[5么[1]-1],若 SA[i]-l=0,则 BWT[i]=$ ;步骤2. 3 :按基准序列的后缀树分支进行局部比对,计算各分支比对得分结果;设X代表T的后缀树中从根节点到叶子节点的任意一支的字符串,后缀树分支可以定义成后缀树中从根节点到叶子节点的一条路径;计算所有满足如下条件的比对sim(X[I, i], P[y, j]) ^ H(1 ^ i ^ X|) (I ^ y ^ j ^ |P|)其中sim(X[l,i],P[y,j])代表X[l,i]与P[y,j]比对的分数,H代表给定的分数阈值。P[y,j]代表P中从y到j位置的子串;按基准序列的后缀树分支进行局部比对,计算各分支比对得分结果,具体按如下步骤进行步骤2. 3. I :过滤,包括长度过滤、分数过滤、区域过滤、前缀过滤;具体如下;I)长度过滤比对过程中,计算基准序列的子序列与查询序列构成的矩阵时,限定在一定长度范围内,过滤掉不必要的计算;当计算矩阵Mx时,只有当i满足如下条件时才需要计算Mx (i,j)和其后续值
权利要求
1.一种可得到完全解的生物序列局部比对方法,其特征在于包含以下步骤 步骤I:采用一种生物序列作为基准序列,另一种生物序列作查询序列; 步骤2 :进行基准序列的后缀树分支与查询序列的比对,步骤如下 步骤2. I :设定匹配得分Sa,不匹配得分Sb,起始罚分Sg,扩展罚分Ss,分数阈值H ; 步骤2. 2 :对基准序列的逆序列T—1构建BWT索引; 步骤2. 3 :按基准序列的后缀树分支进行局部比对,计算各分支比对得分结果; 步骤3 :整合各分支比对得分结果,取最大值作为两个生物序列的最终比对得分结果;步骤4 :根据最终比对得分结果,寻找查询序列和基准序列中具有相似功能的片段或判断查询序列和基准序列之间的同源性关系。
2.根据权利要求I所述的可得到完全解的生物序列局部比对方法,其特征在于步骤2. 2对基准序列的逆序列T—1构建BWT索引,包括如下步骤 步骤2. 2. I :在基准序列的逆序列的末尾增加一字符,使该字符小于基准序列的逆序列中所有字符; 步骤2. 2. 2 :对基准序列的逆序列的后缀树分支按字典序进行排序; 步骤2. 2. 3 :建立数组SA,使其代表排序后的后缀数组中第i个位置的子序列在T—1中出现的开头位直; 步骤2. 2. 4 :经过BWT变换后得到的序列的第i个字符为T1中第SA[i]-l个字符。
3.根据权利要求I所述的可得到完全解的生物序列局部比对方法,其特征在于所述步骤2. 3按基准序列的后缀树分支进行局部比对,计算各分支比对得分结果,按如下步骤进行 步骤2. 3. I :过滤; 过滤包括长度过滤、分数过滤、区域过滤、前缀过滤,具体如下 1)长度过滤比对过程中,只有当i满足如下条件时才需要计算基准序列子序列X与查询序列P的比对得分构成的矩阵仏(1,」)和仏(1,j)后续值
全文摘要
一种可得到完全解的生物序列局部比对方法,包含以下步骤步骤1采用一种生物序列作为基准序列,另一种生物序列作查询序列,设定匹配得分Sa,不匹配得分Sb,起始罚分Sg,扩展罚分Ss,分数阈值H;步骤2进行基准序列的后缀树分支与查询序列的比对,步骤如下步骤3整合各分支比对得分结果,取最大值作为两个生物序列的最终比对得分结果。步骤4根据最终比对得分结果,寻找查询序列和基准序列中具有相似功能的片段或判断查询序列和基准序列之间的同源性关系。本发明采用BWT索引,结合过滤和重用技术,进行基准序列的后缀树分支与查询序列的比对,得出生物序列比对的完全解,弥补现有方法准确度不够或效率低下的问题。
文档编号G06F19/22GK102750461SQ201210196668
公开日2012年10月24日 申请日期2012年6月14日 优先权日2012年6月14日
发明者刘洪磊, 杨晓春, 王佳英, 王斌 申请人:东北大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1