基于序列相似性与频谱3-周期性的基因识别方法

文档序号:6401477阅读:627来源:国知局
专利名称:基于序列相似性与频谱3-周期性的基因识别方法
技术领域
本发明涉及DNA序列相似性计算、频谱3-周期性强度计算以及根据这两种性质所实现的基因识别方法,属于生物信息学中的基因识别技术领域。
背景技术
DNA是生物遗传信息的载体,是一种长链聚合物,由腺嘌呤(Adenine,A),鸟嘌呤(Guanine, G),胞卩密唳(Cytosine, C),胸腺卩密唳(Thymine, T)这四种核苷酸(nucleotide)符号按一定的顺序连接而成。其中带有遗传讯息的DNA片段称为基因(Gene)(见

图1第一行)。在真核生物的DNA序列中,基因通常被划分为许多间隔的片段(见图1第二行),其中编码蛋白质的部分,即编码序列(Coding Sequence)片段,称为外显子(Exon),不编码的部分称为内含子(Intron)。外显子在DNA序列剪接(Splicing)后仍然会被保存下来,并可在蛋白质合成过程中被转录(transcription)、复制(replication)而合成为蛋白质。DNA序列通过遗传编码来储存信息,指导蛋白质的合成,把遗传信息准确无误地传递到蛋白质(protein)上去并实现各种生命功能。对大量、复杂的基因序列的分析,传统生物学解决问题的方式是基于分子实验的方法,其代价高昂。诺贝尔奖获得者W.吉尔伯特(Walter Gilbert,1932—,第一个制备出混合脱氧核糖核酸的科学家)1991年曾经指出:“现在,基于全部基因序列都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设。”随着世界人类基因组工程计划的顺利完成,通过物理或数学的方法从大量的DNA序列中获取丰富的生物信息,对生物学、医学、药学等诸多方面都具有重要的理论意义和实际价值,也是目前生物信息学领域的一个研究热点。

基因预测,是一个尚未完全解决的问题,也是当前生物信息学的一个最基础、最首要的问题。对于预测,一类方法是基于统计学的,这类方法在对基因信息了解不多的情况下,基因识别的准确率会明显下降。因此在目前基因预测研究中,采用信号处理与分析方法来发现基因编码序列也受到广泛重视。对于基因序列首先要进行数字映射,将其转换为指示序列。然后,对指示序列做离散傅里叶变换,可以计算平方功率谱,求信噪比等。科学家发现,基因序列存在频谱3-周期特性,这个特性是区分外显子和内含子的重要特征。同时,也有人认为频谱3-周期特性的存在是由于“密码子”使用的偏向性导致的。目前,有一些通过频谱3-周期特性进行基因识别的算法。但是,在目前的频谱3-周期特性进行基因识别的方法中,所选取的特定基因类型的DNA序列,将其信噪比R的判别阈值取为&=2,带有一定的主观性、经验性。对不同的基因类型,所选取的判别阈值应该是不同的。否则,根据某个固定阈值去判断,有可能将本来是外显子的片段误认为是内含子,造成基因识别的准确度下降。因此,我们希望对待测序列先做相似性分析,以与之最相近的基因信噪比阈值作为该序列的判别阈值,然后计算每一位核苷酸的频谱3-周期性强度及斜率,根据所选判别阈值识别出外显子,从而最大程度保证基因识别的精度。

发明内容
发明目的针对现有利用频谱3-周期性进行基因识别的方法中阈值选取的不足,本发明提出了一种基于序列相似性与频谱3-周期性的基因识别方法,通过利用核苷酸频率特征矩阵来描述DNA序列,对不同序列通过计算核苷酸频率特征矩阵相似度来确定DNA序列的相似度,并根据相似度选定信噪比阈值;计算序列核苷酸频谱3-周期性强度以及序列中每个核苷酸位置处的斜率来区分外显子与内含子,并修正处理最终确定外显子段,从而提闻基因识别的准确度。技术方案:一种基于序列相似性与频谱3-周期性的基因识别方法,主要包括DNA特征值计算和基因识别算法两部分,其中:所述DNA特征值计算包括构建核苷酸频率特征矩阵、计算DNA序列相似度、频谱3-周期性强度计算及每一位核苷酸的斜率计算,所述基因识别算法包括利用序列相似度确定信噪比阈值、判断每一位核苷酸是否属于外显子以及最后对外显子段进行修正;步骤1,对待识别DNA序列构建其核·苷酸频率特征矩阵,根据DNA序列相似度计算公式计算该DNA序列与已知物种序列的相似度,以相似度最近已知物种的信噪比阈值作为所述DNA序列识别时所用的信噪比阈值R0 ;步骤2,对待测DNA序列的每一位核苷酸计算其频谱3-周期性强度以及该核苷酸位置处的斜率,用步骤I所得的信噪比阈值Rtl来区分外显子与内含子;步骤3,对外显子段进行修正,对于步骤2识别的结果,若外显子长度小于预设值,则应将其归为内含子;若内含子长度小于预设值,则应归为外显子;最终得到基因识别结果。所述核苷酸频率特征矩阵是三个四阶矩阵,如下所示:
权利要求
1.一种基于序列相似性与频谱3-周期性的基因识别方法,其特征在于,包括DNA特征值的求解和基因识别两部分,其中:所述DNA特征值的求解包括构建核苷酸频率特征矩阵、计算DNA序列相似度、频谱3-周期性强度计算及每一位核苷酸的斜率计算;所述基因识别包括利用序列相似度确定信噪比阈值、判断每一位核苷酸是否属于外显子以及对外显子段进行修正; 步骤1,对待识别DNA序列构建其核苷酸频率特征矩阵,根据DNA序列相似度计算公式计算该DNA序列与已知物种序列的相似度,以相似度最近已知物种的信噪比阈值作为所述DNA序列识别时所用的信噪比阈值Rtl ; 步骤2,对待测DNA序列的每一位核苷酸计算其频谱3-周期性强度以及该核苷酸位置处的斜率,用步骤I所得的信噪比阈值Rtl来区分外显子与内含子; 步骤3,对外显子段进行修正,对于步骤2识别的结果,若外显子长度小于预设值,则应将其归为内含子;若内含子长度小于预设值,则应归为外显子;最终得到基因识别结果。
2.如权利要求1所述的基于序列相似性与频谱3-周期性的基因识别方法,其特征在于,所述步骤2的具体实施步骤如下: 步骤2-1,初始化核苷酸位置游标i=l ; 步骤2-2,对DNA序列第i个位置处的核苷酸计算其在*位置处的总功率谱值以及背景噪声的三周期信号比S [i],此时N=i ; 步骤2-3,计算第i个位置处的核苷酸的斜率slope [i]; 步骤2-4,若S[i]≤Rtl,且slope [i] > O成立,则该位置处的核苷酸属于外显子;否则属于内含子; 步骤2-5,令位置游标i=i+l ; 若i未超过DNA序列长度,则转向步骤2-2 ;否则结束步骤2。
3.如权利要求2所述的基于序列相似性与频谱3-周期性的基因识别方法,其特征在于,所述核苷酸频率特征矩阵是三个四阶矩阵,如下所示:
4.如权利要求3所述的基于序列相似性与频谱3-周期性的基因识别方法,其特征在于,所述DNA序列相似度的计算定义为计算序列所对应的核苷酸频率特征矩阵的相似度;对于两个DNA序列S1与S2,分别对其求得核苷酸频率特征矩阵;对两个基因序列在X,y,z位置上的相似性(!(Sx1, Sx2),(!(Sy1, Sy2),(KSz1, Sz2)定义如下:
5.如权利要求4所述的基于序列相似性与频谱3-周期性的基因识别方法,其特征在AT于,所述频谱3-周期性强度计算需要计算DNA序列在+位置处的总功率谱值,然后计算 DNA序列背景噪声的三周期信号比;在长度为N的DNA序列S=StlS1 S2…Slri中,将核苷酸符号 b e I= ( A, T,G,C }出现在该序列的 O,3,6,...N — 3 与 1,4,7,...N — 2 以及 2,5,8,...MN -1等位置上的频数分别记为xb,yb和zb,则得到序列在τ处的总功率谱值如下:
全文摘要
本发明公开一种基于序列相似性与频谱3-周期性的基因识别方法,属于生物信息学中的基因识别领域。所述基因识别方法利用核苷酸频率特征矩阵来描述DNA序列;对不同序列通过计算核苷酸频率特征矩阵相似度来确定DNA序列的相似度,并根据相似度选定信噪比阈值;通过计算序列核苷酸频谱3-周期性强度以及序列中每个核苷酸位置处的斜率来区分外显子与内含子,并通过修正处理最终确定外显子段。本发明解决了对于给定DNA序列,根据频谱3-周期性基因识别算法中信噪比阈值过于单一,阈值确定过程缺乏考虑基因类别的问题。
文档编号G06F19/22GK103218544SQ20131011550
公开日2013年7月24日 申请日期2013年4月3日 优先权日2013年4月3日
发明者冯钧, 盛震宇, 陈焕霖, 金圣韬, 唐志贤, 朱跃龙, 万定生, 李士进, 徐黎明, 史涯晴, 许潇, 冯读庆, 朱康康, 姜康 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1