一种定量分析rna结构稳健性的进化的方法

文档序号:6464057阅读:237来源:国知局
专利名称:一种定量分析rna结构稳健性的进化的方法
技术领域
本发明涉及一种计算机程序,更具体地,是一种定量分析RNA结构稳健性的进化的方法。
背景技术
生物稳健性是生物系统中一种最基本且普遍存在的现象。它被理解为在各种干扰面前, 仍能保持稳定功能的一种能力。根据干扰性质的不同(可遗传与否),稳健性分为遗传稳健性 和环境稳健性。遗传稳健性是指在遗传突变干扰面前,表型的不敏感性;而环境稳健性是指 在外部环境因素的干扰面前,表型的不敏感性。 一直以来,生物学家都非常关注生物稳健性 的研究,从Fisher的显性研究到Waddington的发育稳态研究。研究表明,在生物系统的各个 水平上,都存在稳健性,包括基因表达、蛋白质折叠、代谢流量、身体自理调节、发育,甚 至组织适应性。正确理解生物系统中稳健性的起源和进化将有助于我们对生物进化的理解。RNA二级结构是研究生物稳健性的一个很好的平台。事实上,已经有很多研究者研究了 RNA病毒、类病毒和microRNA中的稳健性。尽管有很多的研究关注于稳健性的进化机制, 但迄今为止,稳健性的起源及其进化仍然不是很清楚。造成这一现状的原因,主要归因于在 生物系统中很难给出稳健性进化的定量分析方法。发明内容本发明旨在提供一种能简单、方便、快捷地度量RNA结构稳健性的进化的定量化分析方 法,解决稳健性进化评估难、定量难的问题,达到分析生物稳健性的起源及其进化的目的, 由此而提高对生物进化的理解。为了达到上述目的,本发明以RNA二级结构为研究平台,在计算机系统中提供了一种定 量分析RNA结构稳健性的进化的方法,该方法包括检査从计算机终端输入的RNA序列的合 法性、产生对照序列、计算RNA结构稳健性,定量分析RNA结构稳健性的进化的步骤。在一种定量分析RNA结构稳健性的进化的方法中,对照序列的产生是在选定置乱方法的 基础上,沿着输入的RNA序列(长度为/)的海明距离,采用蒙特卡洛方法随机采样iV条序列,共产生/xiV条随机序列。本发明共实现了五种产生对照序列的置乱方法,具体描述如下 *完全随机产生与输入序列具有相同长度的随机序列; *单碱基置乱随机置换序列中碱基的位置; *双碱基置乱根据Erikson-Altschul算法,得到双碱基置乱序列。*基于零阶马尔科夫模型的置乱计算序列中单碱基频率PO)。根据该频率在每个位点随机釆样不同的碱基直到达到输入序列的长度为止;*基于一阶马尔科夫模型的置乱计算序列中给定碱基6碱基"出现的条件概率户(alZ))。随机选择第一个位点的碱基x,,根据条件概率P(x,」x,)选择下一位点的碱 基《+1,直到达到输入序列的长度为止;在一种定量分析RNA结构稳健性的进化的方法中,采用中性值作为RNA结构稳健性的 定量分析指标,中性值的定义为其中,《,/ = 1,2,...,3X/为RNA序列与其第, 个突变体序列之间的结构距离,/为RNA序列 的长度。中性值z越大,表明该RNA序列具有较高水平的稳健性。RNA序列与其突变体序'列之间的结构距离"的计算分为两种情况在仅考虑最小自由能结构的情况下,"为采用不 同结构度量计算的RNA序列与其突变体序列之间的最小自由能结构的距离,这些结构度量具 体包括字符串编辑距离,树编辑距离和碱基对距离;在考虑次优结构的情况下,J由RNA序 列与其突变体序列之间的结构整体距离&给出。结构整体距离&的定义如下^"力=(2)其中,A(S)是序列jc的结构整体中结构S的平衡概率,;^(S')是序列y的结构整体中结构S'的平衡概率,^(S,S')为结构S和S'的距离。在一种定量分析RNA结构稳健性的进化的方法中,RNA结构稳健性的进化的定量分析 是沿着输入的RNA序列的海明距离进行的。具体操作如下分别计算输入的RNA序列及沿 着海明距离采样产生的对照序列的稳健性7和l^化',hl,2,…,A^、1,2,...,/},其中iV为在每个海明距离上产生的对照序列的数目,/为输入的RNA序列的长度。在每个海明距离/上比较y和T、分析输入的RNA序列在每个海明距离上稳健性的显著性,计算每个海明距离 上相应的/7-value值。并由此给出RNA结构稳健性随海明距离变化的曲线,即RNA结构稳 健性的进化的定量分析结果。在海明距离j'上,,value值定义为其中,^表示集合丫/ = ^/,/ = 1,2,...,^}中,比输入的RNA序列更稳健的序列的数目,即集 合1^=化、/ = 1,2,...,^}中比^的值更大的中性值的数目。


图1为本发明的一种定量分析RNA结构稳健性的进化的方法的总体框图;图2为图1中计算RNA结构稳健性的进化的流程图;图3为线虫中microRNA /W-7的结构稳健性的进化的分析结果。
具体实施方式
图1为本发明一种定量分析RNA结构稳健性的进化的方法的总体框图。 对从计算机终端输入的RNA序列,根据RNA序列的定义,做合法性检查。RNA序列是 取自字母表J:(A,C,G,U)的一个字符串i -n,^,…,^,其中(.e J,Z-1,2,…,"。对不符合该定义的输入序列,则返回重新输入。采用本发明,分析的实例是线虫中长度为/ = 99的 microRNA /W-7前体的序列在对从计算机终端输入的RNA序列检査合法性之后,沿着输入的RNA序列的海明距离, 选定五种置乱方法中的完全随机的置乱方法,采用蒙特卡洛方法随机采样iV = 1,000条随机RNA序列,共产生/ x = 99,000条随机RNA序列。对输入的RNA序列microRNA /^-7及其每个海明距离上的对照RNA序列,计算它们的 结构稳健性,图2给出了计算RNA结构稳健性的进化的流程图。对每条RNA序列,由于每个位点共有四个碱基J-(A,C,G,U)可供选择,去掉其本身,在每个位点可产生三条突变体例如,对输入的microRNA/W-7前体序列,它第一个位点的碱基U,可以突变为其它的三个碱基A、 C和U,这样三个突变体序列为位点 突变体序列利用标准的RNA 二级结构折叠程序RNAfold,将输入的RNA序列及其每个位点的三个 突变体序列(共有3x/个突变体序列)折叠成相应的二级结构。若仅考虑最小自由能结构, 利用标准的RNA二级结构距离度量程序RNAdistance,选定距离度量(字符串编辑距离,树 编辑距离或碱基对距离三种距离度量),计算输入的RNA序列与其每个突变体序列之间的结 构距离d。若考虑次优结构,则利用标准的RNA 二级结构整体距离度量程序RNApdist,计算输入的RNA序列与其每个突变体序列之间的结构整体距离^ 。在得到RNA序列与其突变体序列之间的结构距离后,对3x/个突变体序列,计算^", / = 1,2,...,3></的值,统计它们的平均值,即得到(l)式中所定义的RNA序列的中性值z。在一种定量分析RNA结构稳健性的进化的方法中,按照上面的流程,计算输入的RNA 序列及沿着海明距离采样产生的对照序列的稳健性;r和Y = OV,/ = l,2,...,7V,y = l,2,...,/},其中iV为每个海明距离上产生的对照序列的数目,/为输入的RNA序列的长度。随后,分析 RNA结构稳健性的进化。在每个海明距离上,根据公式(3),计算每个海明距离上相应的,value 值,并由此给出RNA结构稳健性的进化的分析结果。图3显示的是线虫中microRNA /"-7 的结构稳健性的进化的分析结果。本发明采用中性值定量评估RNA分子的结构稳健性,能够简单、方便、快捷地定量分析 RNA结构稳健性随着海明距离的进化,对RNA进化具有重要的理论意义和实用价值。
权利要求
1. 一种定量分析RNA结构稳健性的进化的方法,其特征在于所述的方法包括下列步骤1)接收来自计算机终端输入的RNA序列(长度为l),判别该序列的合法性;2)选择置乱方法,在每个海明距离上生成相应的对照序列;3)根据中性值的定义,计算输入的RNA序列及其每个海明距离上的对照序列的中性值;4)定量分析RNA结构稳健性的进化。
2. 根据权利要求1所述的一种定量分析RNA结构稳健性的进化的方法,其中所述的置 乱方法,其特征是,它包括完全随机、单碱基置乱、双碱基置、基于零阶马尔科夫 模型的置乱和基于一阶马尔科夫模型的置乱共计五种产生对照序列的随机化方法。
3. 根据权利要求1所述的一种定量分析RNA结构稳健性的进化的方法,其中所述的中 性值,其特征是,它的定义中RNA序列与其突变体序列之间的结构距离J的计算分 为两种情况1) 在仅考虑最小自由能结构的情况下,RNA序列与其突变体序列之间的结构距 离",由RNA序列与突变体序列之间的最小自由能结构的字符串编辑距离, 树编辑距离或碱基对距离给出;2) 在考虑次优结构的情况下,RNA序列与其突变体序列之间的结构距离d由RNA 序列与其突变体序列之间的结构整体距离&给出。
4. 根据权利要求3所述的考虑次优结构的情况,其特征是,它是指考虑在输入的RNA 序列和突变体序列的最小自由能1 kcal/mo1内的所有次优结构。
5. 根据权利要求1所述的一种定量分析RNA结构稳健性的进化的方法,其中所述的定 量分析RNA结构稳健性的进化,其特征是,它的结果由输入的RNA序列的结构稳 健性的显著性的p-valiie值随海明距离变化的曲线给出。
全文摘要
本发明涉及一种计算机程序,更具体地,是一种定量分析RNA结构稳健性的进化的方法。本发明旨在提供一种能简单、方便、快捷地度量RNA结构稳健性的进化的定量化分析方法,解决稳健性进化评估难、定量难的问题,达到分析生物稳健性的起源及其进化的目的,由此而提高对生物进化的理解。为了达到上述目的,本发明以RNA二级结构为研究平台,在计算机系统中提供了一种定量分析RNA结构稳健性的进化的方法,该方法包括检查从计算机终端输入的RNA序列的合法性、产生对照序列、计算RNA结构稳健性,定量分析RNA结构稳健性的进化的步骤。
文档编号G06F19/14GK101281561SQ200810111510
公开日2008年10月8日 申请日期2008年6月5日 优先权日2008年6月5日
发明者伯晓晨, 王升启, 舒文杰 申请人:中国人民解放军军事医学科学院放射与辐射医学研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1