一种miRNA预测方法

文档序号:562151阅读:234来源:国知局
专利名称:一种miRNA预测方法
技术领域
本发明涉及一种基因预测方法,特别是一种miRNA预测方法。
背景技术
miRNA在生物体内的作用十分广泛,主要通过与靶序列互补配对而实现其调控功 能。因miRNA在生物体内重要的调控作用,人们正尝试着用各种方法在多种生物体内寻找 miRNA。近期研究结果表明,实际存在的miRNA数量要比已知的多得多,同时,用实验方法寻 找新的miRNA已变得越来越困难。随着miRNA相应数据的不断充实,使用生物信息学方法 预测miRNA得到了越来越广泛的应用。目前,大部分的miRNA预测方法都主要依据miRNA 在进化过程中的保守性进行预测,比如,MiRscan软件(Lim et al.,Genes&Development, 2003,17 991)和 miRSeeker 软件(Lai et al.,Genome Biol, 2003,4 :R42)等。但是,对于 某些miRNA,比如从病毒感染的细胞中克隆的miRNA几乎没有任何进化上的保守性。因此, 上述预测算法不适合这类miRNA的预测。本研究拟开发一个无需比较基因组的方法即可高 效地预测miRNA的算法,可用于识别各物种或组织中特异的miRNA
发明内容
有鉴于此,为了解决上述问题,本发明提供了一种miRNA预测方法,可用于基因 miRNA的预测,发现新的未知miRNA基因。本发明的目的是这样实现的一种miRNA预测方法,包括如下步骤a)具体包括al)精选5种碱基的514种二维性质参数;a2)对514种性质参数做 主成分分析,得到4个主成分;a3)计算各主成分得分,建立碱基二维性质得分;b)用碱基二维性质得分矢量涉及的4个主成分对人类基因miRNA和非miRNA的结 构进行表征,其中的每个碱基用4个碱基二维性质得分表征;c)用自交叉协方差处理得到的每个miRNA和非miRNA的表征变量,设置步长1为 6,使每个miRNA和非miRNA的表征变量数目一致,并将得到的变量作为miRNA预测模型的 自变量,以1和2两个指示变量分别表示miRNA样本和非miRNA样本,并以此指示变量作为 miRNA预测模型的因变量;d)用逐步方法挑选与miRNA结构特征密切相关的性质参数,用线性判别分析方法 建立miRNA预测模型;e)用自取代检验,留1/5法交互检验,外部检验验证模型的预测能力,将每个 miRNA样本和非miRNA样本的自变量带入模型并计算,若得1,则该样本被识别为miRNA,若 得2,则该样本被识别为非miRNA。本发明的一种miRNA预测方法,无需比较基因组的方法即可高效地预测miRNA。其 中选取的碱基二维性质得分所含信息量大、表征能力强、拓展性能好及操作简便;用自交叉 协方差方法对每个miRNA和非miRNA的表征变量做归一化处理,该方法能够较大程度地减 少原始变量信息的损失,同时可充分考虑相邻碱基之间的交互效应及相互影响;而线性判别分析技术,可以很好地相关经自交叉协方差转换的序列表征变量及观测分类值之间的关 系,同时,采用的自取代检验,留1/5法交互检验及外部检验验证方法可以较大程度地保证 所建模型的内外部预测能力。本发明的其它优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可 以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书,权利要 求书中所特别指出的结构来实现和获得。
具体实施例方式以下将对采用本发明的方法用于人类基因miRNA预测为例进行详细的描述,包括 以下步骤a)精选5种碱基(A,C,G,T与U)的514种二维性质参数,包括分子电距矢量 (MEDV),分子全息距离矢量(MHDV),拓扑,运转和路径数目,连接性指数,信息指数,自相关, 边缘邻接指数,Burden特征值,拓扑电荷指数和特征值指数。采用主成分分析处理514种性质参数,得到4个主成分,其累计解释原始数据矩阵 (5 X 514) 99. 80%的方差,各主成分得分见表1,因此,可用此4个主成分得分矩阵(5 X 4)代 替原始变量矩阵(5X514)。为方便,称此4个主成分得分为碱基二维性质得分,因为此4个 得分矢量综合了 514种二维性质参数的大部分信息,因此,可将其用于核酸序列表征。表1 5种碱基的514种二维性质参数的4个主成分得分 b)用碱基二维性质得分涉及的4个主成分对miRNA和非miRNA的结构进行表征, 其中的每个碱基用4个碱基二维性质得分表征;选择1206条人类基因miRNA样本,包括606条miRNA前体序列和600条非miRNA 前体序列,构成正样本集。接下来,以长度lOOnt,间隔IOnt滑动切割人类基因编码序列, 用RNAfold程序模拟其二级结构,选择发夹结构的茎长在ISnt以上,形成二级结构的自由 能在14. 5kcal/mol以下的序列,再以cd_hit对比,去除冗余序列,得到1200条非miRNA序 列样本,构成负样本集。用碱基二维性质得分所涉及的4个主成分对所选序列沿5’ 一 3’方向进行表征, 序列中的每个碱基用4个碱基二维性质得分表征。每个序列根据其含有的碱基数目(定义为n),以nX4个变量表征。c)用自交叉协方差处理得到的每个miRNA和非miRNA的表征变量,设置步长1为 6,使每个miRNA和非miRNA的表征变量数目一致,并将经自交叉协方差处理得到的变量作 为miRNA预测模型的自变量,分别用“ 1 ”表示miRNA样本,用“2”表示非miRNA样本,以此 指示变量作为miRNA预测模型的因变量。用自交叉协方差处理得到每个miRNA前体序列的表征变量,该法考虑了序列不同 位点碱基参数之间所有交互效应,因此,在数据变换过程中可最大程度地降低信息损失。设 样本集中最短序列长度为1+1,对任意一个含有η个碱基的序列,自交叉协方差(ACC)处理 如下 式中1为步长;i和i+Ι为序列中碱基所处位置;a和b分别为第i和i+Ι个碱基 相应描述子分量号,对于碱基二维性质得分,其a,b = 1,2,3,4。可看到,当计算所有可能 步长时(1 = 1,2,3, ...,1),样本集中不同长度的序列经自交叉协方差处理后其描述子数 目最终都为42Xl个,此处选择步长1为6,这样每条序列可由42X6 = 96个变量表征,将 经自交叉协方差处理得到的变量作为miRNA预测模型的自变量。d)用逐步方法挑选与miRNA结构特征密切相关的参数,用线性判别分析方法建立 miRNA预测模型;先将总样本分为训练集样本和测试集样本,用逐步方法挑选与miRNA结构密切相 关的结构性质参数,以偏F检验对应的F值为依据,当F值大于3. 84时,则该变量留在模型 中,当该变量对应F值小于2. 71时,则剔除该变量,再用线性判别分析方法建立miRNA预测 模型;e)用自取代检验,留1/5法交互检验、外部检验验证模型的预测能力,将每个 miRNA样本和非miRNA样本的自变量带入模型并计算,若得1,则该样本被识别为miRNA,若 得2,则该样本被识别为非miRNA ;分别定义A。。为计算预测正确样本数目所占总样本数目百分比,Sp为预测正确的 miRNA样本数目的百分比,Sn为预测正确的非miRNA样本数目的百分比,MCC为马休斯相关 系数。经自取代检验,留1/5法交互检验、外部检验验证模型的预测能力,将每个miRNA样本 和非miRNA样本的自变量带入模型并计算,若得1,则该样本被识别为miRNA样本,若得2, 则该样本被识别为非miRNA样本。统计结果显示,对于1206个序列自取代检验的Acc,Sn, Sp 及MCC分别为85. 59,80. 29,82. 36及0. 6892,留1/5法交互检验的Acc,Sn, Sp及MCC分别 为 80. 32,78. 32,78. 19 及 0. 6128,外部预测检验的 Acc,Sn, Sp 及 MCC 分别为 78. 59,75. 42, 76. 16及0. 5897。结果显示,所建线性判别分析模型具有较高的预测能力。以上所述仅为本发明的优选实施例,并不用于限制本发明,显然,本领域的技术人 员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的 这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些 改动和变型在内。
权利要求
一种miRNA预测方法,其特征在于包括如下步骤a)具体包括a1)精选5种碱基的514种二维性质参数;a2)对514种性质参数做主成分分析,得到4个主成分;a3)计算各主成分得分,建立碱基二维性质得分;b)用碱基二维性质得分涉及的4个主成分得分对miRNA和非miRNA的结构进行表征,其中的每个碱基用4个碱基二维性质得分表征;c)用自交叉协方差处理得到的每个miRNA和非miRNA的表征变量,设置步长l为6,使每个miRNA和非miRNA的表征变量数目一致,并将得到的变量作为miRNA预测模型的自变量,以1和2两个指示变量分别表示miRNA样本和非miRNA样本,并以此指示变量作为miRNA预测模型的因变量;d)用逐步方法挑选与miRNA结构特征密切相关的参数,用线性判别分析方法建立miRNA预测模型;e)用自取代检验,留1/5法交互检验,外部检验验证模型的预测能力,将每个miRNA样本和非miRNA样本的自变量带入模型并计算,若得1,则该样本被识别为miRNA,若得2,则该样本被识别为非miRNA。
全文摘要
本发明公开了一种miRNA预测方法,其特征是a)基于主成分分析方法,建立一种新的核酸序列结构表征方法-碱基二维性质得分;b)用碱基二维性质得分表征人类基因miRNA和非miRNA的结构;c)用自交叉协方差方法对每个miRNA和非miRNA的表征变量做归一化处理;d)用逐步方法挑选与miRNA结构特征密切相关的参数,以线性判别分析方法建立miRNA预测模型;e)分别以自取代检验,留1/5法交互检验以及外部检验验证方法的预测能力。该发明方法可用于miRNA预测,发现新的未知miRNA基因。
文档编号C12Q1/68GK101845485SQ20091019182
公开日2010年9月29日 申请日期2009年12月8日 优先权日2009年12月8日
发明者杨力, 梁桂兆, 赵巍, 马秀岩 申请人:重庆大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1