基于核苷酸位差的频谱3-周期性信噪比计算方法

文档序号:6401401阅读:193来源:国知局
专利名称:基于核苷酸位差的频谱3-周期性信噪比计算方法
技术领域
本发明涉及一种基于核苷酸位差的频谱3-周期性信噪比计算方法,包含DNA序列频谱计算、信噪比计算,属于生物信息学中的基因识别技术领域。
背景技术
DNA是生物遗传信息的载体,是一种长链聚合物,由腺嘌呤(Adenine,A),鸟嘌呤(Guanine, G),胞喃P定(Cytosine, C),胸腺卩密唳(Thymine, T)这四种核苷酸(nucleo tide)符号按一定的顺序连接而成。其中带有遗传讯息的DNA片段称为基因(Gene)(见

图1第一行)。在真核生物的DNA序列中,基因通常被划分为许多间隔的片段(见图1第二行),其中编码蛋白质的部分,即编码序列(Coding Sequence)片段,称为外显子(Exon),不编码的部分称为内含子(Intixm)。外显子在DNA序列剪接(Spli cing)后仍然会被保存下来,并可在蛋白质合成过程中被转录(transcri ption)、复制(replica tion)而合成为蛋白质。DNA序列通过遗传编码来储存信息,指导蛋白质的合成,把遗传信息准确无误地传递到蛋白质(pro tein)上去并实现各种生命功能。对给定的DNA序列,怎么去识别出其中的编码序列,也称为基因预测,是一个尚未完全解决的问题,也是当前生物信息学的一个最基础、最首要的问题。基因预测问题的一类方法是基于统计学的。很多国际生物数据网站上也有“基因识别”的算法。比如知名的数据网站http://genes.mit.edu/GENSCAN.html提供的基因识别软件GENSCAN (由斯坦福大学研究人员研发的、可免费使用的基因预测软件),主要就是基于隐马尔科夫链(HMM)方法。但是,它预测人的基因组中有45000个基因,相当于现在普遍认可数目的两倍。另外,统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据集来确定模型中的参数,从而提高模型的预测水平。但在对基因信息了解不多的情况下,基因识别的准确率会明显下降。因此在目前基因预测研究中,采用信号处理与分析方法来发现基因编码序列也受到广泛重视。图2是基于序列频谱3-周期性的基因识别方法流程图:在DNA序列研究中,首先需要把A、T、G、C四种核苷酸的符号序列,根据一定的规则映射成相应的数值序列,以便于对其作数字处理。令I = {A,T,G,C},长度(即核苷酸符号个数)为N的任意DNA序列,可表达为
权利要求
1.一种基于核苷酸位差的频谱3-周期性信噪比计算方法,其特征在于:主要包括记录各个核苷酸出现位置之差并累积统计到数组d[i]中和计算余弦函数周期
2.如权利要求1所述的基于核苷酸位差的频谱3-周期性信噪比计算方法,其特征在于:所述对DNA序列进行Voss映射定义如下: 在DNA序列研究中,首先需要把A、T、G、C四种核苷酸的符号序列,映射成相应的数值序列; 令I = {A,T, G, C},长度为N的任意DNA序列,可表达为 S= {S [η] I S [n] e I, η = O, 1,2,…N_l} 即 的符号序列3:5
,5[1],一,5[^1];现对于任意确定的b e I,令称之为Voss映射,于是生成相应的0-1序列{ub [n]}:ub
, ub[l],...,, ub[N_l](be I),也称为指示序列; 所述对指示序列中任何两个“I”之间的位差进行记录为分别在4个序列{uA[n]}、luG[n]}、{uc[n]}、{uc[n]}中进行; 所述位差值的累积次数的统计定义为把4个指示序列里所有距离值出现的累积次数保存在数组d[i]中。
3.如权利要求2所述的基于核苷酸位差的频谱3-周期性信噪比计算方法,其特征在于:所述通过取余操作使数组d[i]所有下标都落入[l,t]范围内,并把原有的值累积加到取余结果后所得的下标所对应的值当中定义为:对于数组d[i],VZ1,只要Z1 Μι,」,则令i2=I^odt, d[i2] = d[i2]+d[ij。
全文摘要
本发明公开一种基于核苷酸位差的频谱3-周期性信噪比计算方法,属于生物信息学中的基因识别领域。所述信噪比计算方法首先要将DNA序列映射为4个指示序列,然后分别统计并记录4个指示序列里任意两个“1”出现位置之差,并把这些不同的距离值所出现的次数累积存储到一维数组中,再利用余弦函数的周期性,根据诱导公式,最终计算出该DNA序列的信噪比。本发明解决了对于给定的DNA序列,计算其信噪比效率不高的问题。
文档编号G06F19/20GK103150491SQ201310112959
公开日2013年6月12日 申请日期2013年4月3日 优先权日2013年4月3日
发明者冯钧, 陈焕霖, 盛震宇, 金圣韬, 唐志贤, 朱跃龙, 李士进, 万定生, 徐黎明, 许潇, 冯读庆, 姜康, 朱康康, 史涯晴, 刘子源 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1