一种miRNA预测方法

文档序号：562151阅读：234来源：国知局

导航： X技术> 最新专利>食品,饮料机械,设备的制造及其制品加工制作,储藏技术

专利名称：一种miRNA预测方法
技术领域：
本发明涉及一种基因预测方法，特别是一种miRNA预测方法。
背景技术：
miRNA在生物体内的作用十分广泛，主要通过与靶序列互补配对而实现其调控功能。因miRNA在生物体内重要的调控作用，人们正尝试着用各种方法在多种生物体内寻找 miRNA。近期研究结果表明，实际存在的miRNA数量要比已知的多得多，同时，用实验方法寻找新的miRNA已变得越来越困难。随着miRNA相应数据的不断充实，使用生物信息学方法预测miRNA得到了越来越广泛的应用。目前，大部分的miRNA预测方法都主要依据miRNA 在进化过程中的保守性进行预测，比如，MiRscan软件(Lim et al.，Genes&Development, 2003，17 991)和 miRSeeker 软件(Lai et al.，Genome Biol, 2003,4 :R42)等。但是，对于某些miRNA，比如从病毒感染的细胞中克隆的miRNA几乎没有任何进化上的保守性。因此，上述预测算法不适合这类miRNA的预测。本研究拟开发一个无需比较基因组的方法即可高效地预测miRNA的算法，可用于识别各物种或组织中特异的miRNA
发明内容
有鉴于此，为了解决上述问题，本发明提供了一种miRNA预测方法，可用于基因 miRNA的预测，发现新的未知miRNA基因。本发明的目的是这样实现的一种miRNA预测方法，包括如下步骤a)具体包括al)精选5种碱基的514种二维性质参数；a2)对514种性质参数做主成分分析，得到4个主成分；a3)计算各主成分得分，建立碱基二维性质得分；b)用碱基二维性质得分矢量涉及的4个主成分对人类基因miRNA和非miRNA的结构进行表征，其中的每个碱基用4个碱基二维性质得分表征；c)用自交叉协方差处理得到的每个miRNA和非miRNA的表征变量，设置步长1为 6，使每个miRNA和非miRNA的表征变量数目一致，并将得到的变量作为miRNA预测模型的自变量，以1和2两个指示变量分别表示miRNA样本和非miRNA样本，并以此指示变量作为 miRNA预测模型的因变量；d)用逐步方法挑选与miRNA结构特征密切相关的性质参数，用线性判别分析方法建立miRNA预测模型；e)用自取代检验，留1/5法交互检验，外部检验验证模型的预测能力，将每个 miRNA样本和非miRNA样本的自变量带入模型并计算，若得1，则该样本被识别为miRNA，若得2，则该样本被识别为非miRNA。本发明的一种miRNA预测方法，无需比较基因组的方法即可高效地预测miRNA。其中选取的碱基二维性质得分所含信息量大、表征能力强、拓展性能好及操作简便；用自交叉协方差方法对每个miRNA和非miRNA的表征变量做归一化处理，该方法能够较大程度地减少原始变量信息的损失，同时可充分考虑相邻碱基之间的交互效应及相互影响；而线性判别分析技术，可以很好地相关经自交叉协方差转换的序列表征变量及观测分类值之间的关系，同时，采用的自取代检验，留1/5法交互检验及外部检验验证方法可以较大程度地保证所建模型的内外部预测能力。本发明的其它优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书，权利要求书中所特别指出的结构来实现和获得。
具体实施例方式以下将对采用本发明的方法用于人类基因miRNA预测为例进行详细的描述，包括以下步骤a)精选5种碱基(A，C，G，T与U)的514种二维性质参数，包括分子电距矢量 (MEDV)，分子全息距离矢量(MHDV)，拓扑，运转和路径数目，连接性指数，信息指数，自相关，边缘邻接指数，Burden特征值，拓扑电荷指数和特征值指数。采用主成分分析处理514种性质参数，得到4个主成分，其累计解释原始数据矩阵 (5 X 514) 99. 80%的方差，各主成分得分见表1，因此，可用此4个主成分得分矩阵(5 X 4)代替原始变量矩阵(5X514)。为方便，称此4个主成分得分为碱基二维性质得分，因为此4个得分矢量综合了 514种二维性质参数的大部分信息，因此，可将其用于核酸序列表征。表1 5种碱基的514种二维性质参数的4个主成分得分 b)用碱基二维性质得分涉及的4个主成分对miRNA和非miRNA的结构进行表征，其中的每个碱基用4个碱基二维性质得分表征；选择1206条人类基因miRNA样本，包括606条miRNA前体序列和600条非miRNA 前体序列，构成正样本集。接下来，以长度lOOnt，间隔IOnt滑动切割人类基因编码序列，用RNAfold程序模拟其二级结构，选择发夹结构的茎长在ISnt以上，形成二级结构的自由能在14. 5kcal/mol以下的序列，再以cd_hit对比，去除冗余序列，得到1200条非miRNA序列样本，构成负样本集。用碱基二维性质得分所涉及的4个主成分对所选序列沿5’ 一 3’方向进行表征，序列中的每个碱基用4个碱基二维性质得分表征。每个序列根据其含有的碱基数目(定义为n)，以nX4个变量表征。c)用自交叉协方差处理得到的每个miRNA和非miRNA的表征变量，设置步长1为 6，使每个miRNA和非miRNA的表征变量数目一致，并将经自交叉协方差处理得到的变量作为miRNA预测模型的自变量，分别用“ 1 ”表示miRNA样本，用“2”表示非miRNA样本，以此指示变量作为miRNA预测模型的因变量。用自交叉协方差处理得到每个miRNA前体序列的表征变量，该法考虑了序列不同位点碱基参数之间所有交互效应，因此，在数据变换过程中可最大程度地降低信息损失。设样本集中最短序列长度为1+1，对任意一个含有η个碱基的序列，自交叉协方差(ACC)处理如下式中1为步长；i和i+Ι为序列中碱基所处位置；a和b分别为第i和i+Ι个碱基相应描述子分量号，对于碱基二维性质得分，其a，b = 1，2，3，4。可看到，当计算所有可能步长时(1 = 1,2,3, ...，1)，样本集中不同长度的序列经自交叉协方差处理后其描述子数目最终都为42Xl个，此处选择步长1为6，这样每条序列可由42X6 = 96个变量表征，将经自交叉协方差处理得到的变量作为miRNA预测模型的自变量。d)用逐步方法挑选与miRNA结构特征密切相关的参数，用线性判别分析方法建立 miRNA预测模型；先将总样本分为训练集样本和测试集样本，用逐步方法挑选与miRNA结构密切相关的结构性质参数，以偏F检验对应的F值为依据，当F值大于3. 84时，则该变量留在模型中，当该变量对应F值小于2. 71时，则剔除该变量，再用线性判别分析方法建立miRNA预测模型；e)用自取代检验，留1/5法交互检验、外部检验验证模型的预测能力，将每个 miRNA样本和非miRNA样本的自变量带入模型并计算，若得1，则该样本被识别为miRNA，若得2，则该样本被识别为非miRNA ；分别定义A。。为计算预测正确样本数目所占总样本数目百分比，Sp为预测正确的 miRNA样本数目的百分比，Sn为预测正确的非miRNA样本数目的百分比，MCC为马休斯相关系数。经自取代检验，留1/5法交互检验、外部检验验证模型的预测能力，将每个miRNA样本和非miRNA样本的自变量带入模型并计算，若得1，则该样本被识别为miRNA样本，若得2，则该样本被识别为非miRNA样本。统计结果显示，对于1206个序列自取代检验的Acc，Sn, Sp 及MCC分别为85. 59，80. 29，82. 36及0. 6892，留1/5法交互检验的Acc，Sn, Sp及MCC分别为 80. 32，78. 32，78. 19 及 0. 6128，外部预测检验的 Acc，Sn, Sp 及 MCC 分别为 78. 59，75. 42， 76. 16及0. 5897。结果显示，所建线性判别分析模型具有较高的预测能力。以上所述仅为本发明的优选实施例，并不用于限制本发明，显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。
权利要求
一种miRNA预测方法，其特征在于包括如下步骤a)具体包括a1)精选5种碱基的514种二维性质参数；a2)对514种性质参数做主成分分析，得到4个主成分；a3)计算各主成分得分，建立碱基二维性质得分；b)用碱基二维性质得分涉及的4个主成分得分对miRNA和非miRNA的结构进行表征，其中的每个碱基用4个碱基二维性质得分表征；c)用自交叉协方差处理得到的每个miRNA和非miRNA的表征变量，设置步长l为6，使每个miRNA和非miRNA的表征变量数目一致，并将得到的变量作为miRNA预测模型的自变量，以1和2两个指示变量分别表示miRNA样本和非miRNA样本，并以此指示变量作为miRNA预测模型的因变量；d)用逐步方法挑选与miRNA结构特征密切相关的参数，用线性判别分析方法建立miRNA预测模型；e)用自取代检验，留1/5法交互检验，外部检验验证模型的预测能力，将每个miRNA样本和非miRNA样本的自变量带入模型并计算，若得1，则该样本被识别为miRNA，若得2，则该样本被识别为非miRNA。
全文摘要
本发明公开了一种miRNA预测方法，其特征是a)基于主成分分析方法，建立一种新的核酸序列结构表征方法-碱基二维性质得分；b)用碱基二维性质得分表征人类基因miRNA和非miRNA的结构；c)用自交叉协方差方法对每个miRNA和非miRNA的表征变量做归一化处理；d)用逐步方法挑选与miRNA结构特征密切相关的参数，以线性判别分析方法建立miRNA预测模型；e)分别以自取代检验，留1/5法交互检验以及外部检验验证方法的预测能力。该发明方法可用于miRNA预测，发现新的未知miRNA基因。
文档编号C12Q1/68GK101845485SQ20091019182
公开日2010年9月29日申请日期2009年12月8日优先权日2009年12月8日
发明者杨力, 梁桂兆, 赵巍, 马秀岩申请人:重庆大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：梁桂兆;赵巍;马秀岩;杨力
技术所有人：重庆大学
我是此专利的发明人

上一篇：一种虾条的制作方法
上一篇：旋覆代赭面包的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.食品功能因子基因工程菌种的构建、智能高通量进化筛选 2.发酵工艺优化
2、马老师：1.酶工程与生物催化 2.酿造技术与风味分析 3.生物质资源综合利用
3、林老师：1.酿造微生物育种及关键酿造工艺开发 2. 真菌基因功能及调控网络解析 3.精细化学品、蛋白真菌细胞底盘开发
4、张老师：1.发酵食品安全：危害物相关基因的筛选，危害物产生菌的快速检测，危害物的预警和发酵过程控制 2.真菌次级代谢与调控 3.酿造酒相关研究
5、郭老师：1.现代酿造技术与食品安全 2. 酵母生物学 3.生物基化学品与合成生物学
如您是高校老师，可以点此联系我们加入专家库。

相关技术

网友询问留言已有0条留言

还没有人留言评论。精彩留言会获得点赞！

1

精彩留言，会给你点赞！

彩票预测最准的方法相关技术

双色球预测方法相关技术