基于Hurst指数的DNA序列相似性检测方法

文档序号:6331736阅读:365来源:国知局
专利名称:基于Hurst指数的DNA序列相似性检测方法
技术领域
本发明涉及生物信息处理领域,具体涉及一种DNA序列相似性检测方法。
背景技术
生物信息学的一个重要内容是序列分析,通过对核酸和蛋白质的序列进行分析, 得到它们的结构和功能信息,以了解核酸和蛋白质在生物体中的作用,并研究它们的进化 起源。序列数据库中序列数据的快速扩增,促使研究人员对序列分析方法进行了大量研究。基于不同序列表达方式,研究人员使用多种算法从数字化的序列中提取可以有效 反映序列生物信息的特征参数,例如各种矩阵的最大特征值和拓扑类指数等,然后构建分 析序列对应的多维向量。广泛使用的序列相似性判断是通过计算向量端点之间的欧几里得 距离或者向量之间的夹角来判定的,若向量端点之间的欧几里得距离越小或者向量之间夹 角越小,则两序列越相似。而宋杰、骆嘉伟等基于信息离散性量度采用离散度函数对DNA序 列的相似性进行分析,李梅等则通过计算动态时间弯曲距离分析DNA序列相似性。但上述 方法一方面分析过程均较复杂,往往需要构建多维向量,计算量较大,这促使我们寻找一种 更简洁的分析方法。另一方面,上述分析方法所的分析结果给出的不同物种之间的相对差 异值有不大,这又促使我们寻找一种能提供更显著结果的分析方法。已有的大量研究表明,DNA序列具有长程相关性,这使我们可以从另一个角度对序 列进行分析。其中,研究人员将Hurst指数作为一个重要的特征参数,对DNA序列蕴含的相 关性进行了分析。例如,赵小杰等在利用功率谱分析编码DNA序列基础上,用Hurst指数对 人的DNA序列的自相似性进行描述,结果反映出人DNA序列中的长程相似性。Boekhorst等 利用Hurst指数区分编码DNA、调控DNA和非编码非调控DNA。Yu等利用Hurst指数对DNA 序列的分形和统计特征进行分析,研究了部分分析对象外显子和内含子的Hurst指数、部 分对象完全基因组的编码序列的平均Hurst指数和相关维数,对利用平均Hurst指数和相 关维数进行分类和进化关系进行了研究。但是Hurst指数并没有应用于DNA序列进行相似 性分析。基于现有研究,我们在本方法中将Hurst指数作为指标参数用于DNA序列相似性 检测。

发明内容
有鉴于此,为了解决上述问题,本发明提出了一种基于Hurst指数的DNA序列相似 性检测方法,能够同时对多个DNA序列进行相似性检测,简化了计算复杂性,提高了运算效 率,并能提高较近进化距离的分析对象间的区别度。本发明的目的是这样实现的基于Hurst指数的DNA序列相似性检测方法,包括如 下步骤1)获取不同物种相同功能区域的DNA编码序列作为初始序列;2)对步骤1)所得的初始序列进行数字转换,得到初始序列对应的数值序列;3)对步骤2)所得的每个数值序列通过R/S分析方法获得得到各个数值序列的Hurst指数;4)利用步骤3)所得的Hurst指数构建距离矩阵;5)从步骤4)获得的距离矩阵获得序列相似性信息,即距离数值越小的Hurst指 数对应的DNA编码序列,其对应物种相似性越大,反之,其对应物种相似性越小。进一步,所述步骤2)中,采用2D图形表示法对初始序列进行数字化;进一步,所述步骤3)中,对任一数值序列,使用R/S分析方法通过如下步骤 获得数值序列的Hurst指数
1 na)通过下式,获得均值序列〈“〉《
n /=1 /b)通过下式,获得累计离差:u(i,n) = h(U〉Jc)通过下式,获得极差R(n) =maxu(i,n)-minu(i,n);d)通过下式,获得标准差-Y(W/-<W>J2 2
n i」 .
R(n) ,n.He)若存在常数H使得—~ (j) 则H为该序列的Hurst指数;以上步骤中,3彡n彡N;进一步,步骤e)中,通过在双对数坐标111(11)-1110 (8)/5(11))系下得到N-2个点, 利用最小二乘法对N-2个点进行拟合得到Hurst指数; 进一步,所述步骤4)中的距离矩阵是所有初始序列对应的Hurst指数两两比较所 得差值构成的数值矩阵;进一步,所述数值矩阵为上三角矩阵。本发明基于Hurst指数的DNA序列相似性检测方法,利用R/S算法求取待分析序 列的Hurst指数作为特征参量,能够对多个DNA序列进行相似性检测,检测效果有效地反映 出分析对象的生物特性,方法较为简洁,无需多维向量的构建和比较,简化了计算复杂性, 提高了运算效率,同时检测结果相对差异值较大,有助于提高较近进化距离的分析对象间 的区别度。同时,由于DNA序列具有长程相关性,Hurst指数作为特征参数可以描述序列的 重要进化特征,可以获得良好的准确度。本发明的其他优点、目标,和特征在某种程度上将在随后的说明书中进行阐述,并 且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可 以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书,权利要 求书,以及附图中所特别指出的结构来实现和获得。


为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进 一步的详细描述图1示出了本发明基于Hurst指数的DNA序列相似性检测方法的流程示意图;图2示出了本发明实施例的人0 _球蛋白第一个外显子编码序列R/S分析示例
4图。
具体实施例方式以下将参照附图,对采用本发明的方法用于11个物种的球蛋白第一个外显 子编码序列作为分析对象为例进行详细的描述,包括以下步骤参见图1,本实施例的基于 Hurst指数的DNA序列相似性检测方法包括如下步骤1)选择了在序列相似性的分析中广泛使用的11个物种的0 “球蛋白第一个外显 子编码序列作为初始序列;参见表1。2)对步骤1)所得的初始序列进行数字转换,得到初始序列所对应的数值序列; 本方法采用2D图形表示法对DNA序列进行数字化(参见Randid M, Vracko M, Lers N, et al. Chemical Physics Letters [J] .,2003,368 :1-6.)。此方法的特点是 4 个碱基的表达 取决于在分析序列中出现的顺序,最先出现者赋值为3,随后依次为2、1、0。例如,序列片段 TACCTG表示为321130,序列片段ATACCT则表示为323112。3)对步骤2)所得数值序列进行R/S分析(中文名重标极差分析法,参见Craciim D, Isvoran A, Avram N M. Physica A-Statistical Mechanics and ItsApplication[J].,
2009,388 (21) =4609-4618.),具体地,对任一数值序列㈣仏,通过如下步骤获得数值序列
的Hurst指数
权利要求
基于Hurst指数的DNA序列相似性检测方法,其特征在于包括如下步骤1)获取不同物种相同功能区域的DNA编码序列作为初始序列;2)对步骤1)所得的初始序列进行数字转换,得到初始序列对应的数值序列;3)对步骤2)所得的每个数值序列通过R/S分析方法获得得到各个数值序列的Hurst指数;4)利用步骤3)所得的Hurst指数构建距离矩阵;5)从步骤4)获得的距离矩阵获得序列相似性信息,即距离数值越小的Hurst指数对应的DNA编码序列,其对应物种相似性越大,反之,其对应物种相似性越小。
2.如权利要求1所述的基于Hurst指数的DNA序列相似性检测方法,其特征在于所 述步骤2)中,采用2D图形表示法对初始序列进行数字化。
3.如权利要求2所述的基于Hurst指数的DNA序列相似性检测方法,其特征在于所述 步骤3)中,对任一数值序列,使用R/S分析方法通过如下步骤获得数值序列的Hurst 指数
4.如权利要求3所述的基于Hurst指数的DNA序列相似性检测方法,其特征在于步 骤e)中,通过在双对数坐标111(11)-1110 (8)/3(11))系下得到N-2个点,利用最小二乘法对 N-2个点进行拟合得到Hurst指数。
5.如权利要求1至4中任一项所述的基于Hurst指数的DNA序列相似性检测方法,其 特征在于所述步骤4)中的距离矩阵是所有初始序列对应的Hurst指数两两比较所得差值 构成的数值矩阵。
6.如权利要求5所述的基于Hurst指数的DNA序列相似性检测方法,其特征在于所 述数值矩阵为上三角矩阵。
全文摘要
本发明涉及生物信息处理领域,具体涉及一种基于Hurst指数的DNA序列相似性检测方法,能够同时对多个DNA序列进行相似性检测,简化了计算复杂性,提高了运算效率,并能提高较近进化距离的分析对象间的区别度;包括如下步骤1)获取不同物种相同功能区域的DNA编码序列作为初始序列;2)对步骤1)所得的初始序列进行数字转换,得到初始序列对应的数值序列;3)对步骤2)所得的每个数值序列通过R/S分析方法获得得到各个数值序列的Hurst指数;4)利用步骤3)所得的Hurst指数构建距离矩阵。5)从步骤4)获得的距离矩阵获得序列相似性信息。
文档编号G06F19/00GK101950326SQ201010277719
公开日2011年1月19日 申请日期2010年9月10日 优先权日2010年9月10日
发明者刘晓, 刘玲, 唐鸿铃, 曾浩, 黄扬帆 申请人:重庆大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1