一种设计具有多稳健结构的核糖核酸分子的方法

文档序号:6464056阅读:190来源:国知局
专利名称:一种设计具有多稳健结构的核糖核酸分子的方法
技术领域
本发明涉及一种计算机程序,更具体地,是一种设计具有多稳健结构的核糖核酸分子的 方法。
背景技术
存在着形成两个或多个亚稳健结构并具有完全不同功能的核糖核酸分子,被称之为核糖 核酸分子开关。核糖核酸分子开关调节和控制自然界中各种不同的生物过程,它的可变构象 通常被很高的能量屏障分割开,并能通过配体结合或外部刺激如温度改变等而触发。实验结 果表明,自然界中存在多种不同的、具有很长生存期的可变构象的核糖核酸分子开关。稳健性是生物大分子所具有的一种最基本且最普遍的性质,它被理解为在各种干扰面前, 生物大分子仍能保持稳定功能的一种能力。根据干扰性质的不同(可遗传与否),稳健性分为 遗传稳健性和环境稳健性。遗传稳健性是指在遗传突变干扰面前,表型的不敏感性;而环境 稳健性是指在外部环境因素的干扰面前,表型的不敏感性。研究者已经人工设计出核糖核酸分子开关。然而,设计出能折叠成指定可变构象、并显 示出稳定活性,同时具有稳健性和动力学性质、且不需要引入变性和退火步骤就能被触发的 变构核糖核酸分子仍然是一项巨大的挑战。发明内容本发明旨在提供一种能简单、方便、快捷地设计出具有多稳健结构的核糖核酸分子的方法,解决变构核糖核酸分子的设计问题,为变构酶设计、RNA计算等研究奠定坚实的理论和 实验基础。为了达到上述目的,本发明将具有多稳健结构的核糖核酸分子的设计问题转化为与预定 结构相容的核糖核酸分子集合上的组合优化问题,在此基础上,采用基于图论的数学模型, 进一步将该问题转化为依赖图上的点着色问题,在计算机系统中提供了一种设计具有多稳健 结构的核糖核酸分子的方法。该方法包括检査从计算机终端输入的预定结构集合的合法性、生成依赖图、检验依赖图的二分性、分解依赖图、相容序列的计数与均匀采样、选择代价函 数模型及参数、优化候选序列的步骤。在一种设计具有多稳健结构的核糖核酸分子的方法中,首先将具有多稳健结构的核糖核 酸分子的设计问题转化为与预定结构相容的核糖核酸分子集合上的组合优化问题。设RNA 二 级结构为5 (为简单起见,假设序列位置连续编号为l到w),未配对碱基位置的集合为r 。给定一个RNA 二级结构^就限制了所选择的序列必须与5相容,因为对每个配对仏力ecf 及每个相容序列x , x,、必须是六种类型的碱基对S = {AU,UA,CG,GC,GU,UG}中的一个;而 对每个/e7,则可以选择核苷酸字母表乂-(A,G,C,U)中任意的一个字母。令与预定结构J 相容的所有序列的集合为C[5],则允许与RNA 二级结构5相容的序列个数为进一步,将具有多稳健结构的核糖核酸分子的设计问题转化为依赖图上的点着色问题。 每个输入的预定结构表示成圆圈图,将这些结构的圆圈图叠加在一个称之为依赖图的组合图 中。"个核苷酸的二级结构的集合{《}的依赖图屮包含"个顶点,当且仅当(A,/)在至少一个二级结构c5;中是碱基对时,yt和/之间存在一条边。依赖图是设计具有多稳健结构的核糖核酸 分子方法的出发点。在一种设计具有多稳健结构的核糖核酸分子的方法中,只有在依赖图甲满足二分性的条 件下,才能找到与预定结构相容的核糖核酸分子,即相容序列的集合C[J]不为空集。如果预定结构的数目小于等于2,则相应的依赖图总是二分的;如果预定结构超过两个,则相应的 依赖图的二分性并不总是能够保证,此时,依赖图二分性的检验可以通过采用宽度优先搜索 算法对依赖图做二着色实现。在一种设计具有多稳健结构的核糖核酸分子的方法中,需要分解依赖图。首先通过基于 一个结合识别割点准则的深度优先搜索的双连通图算法寻找割点,然后进一步将这些连通分 支分裂成它们的双连通分支。在一种设计具有多稳健结构的核糖核酸分子的方法中,为了设计在序列组成上没有任何 先验偏性的核糖核酸分子,需要在与所有预先指定的结构相容的核糖核酸分子集合中计数和 均匀采样。前一步得到依赖图?的全部双连通分支后,相容序列的计数与均匀采样可以通过 采用图着色算法实现。在一种设计具有多稳健结构的核糖核酸分子的方法中,要求所设计的核糖核酸分子具有遗传稳健性。在温度r下,描述遗传稳健性的函数为<formula>formula see original document page 6</formula> (1)上式中"(X)是所设计的核糖核酸分子JC (长度为Z)的中性值,定义为<formula>formula see original document page 6</formula>(2)其中,"为所设计的核糖核酸分子与其突变体之间的二级结构的距离。当r二:r。二37。c时,(i)式简写为<formula>formula see original document page 6</formula> (3)在一种设计具有多稳健结构的核糖核酸分子的方法中,要求所设计的核糖核酸分子具有 环境稳健性。令^.(x,^)为序列x在温度r下的二级结构J的自由能,G,W为序列x在温度r下的总体自由能,则在温度r下,描述环境稳健性的函数为<formula>formula see original document page 6</formula> (4)当7^r。-37'C时,(4)式简写为<formula>formula see original document page 6</formula> (5)在一种设计具有多稳健结构的核糖核酸分子的方法中,设计了两个代价函数模型,其一 为多稳健热敏核糖核酸分子开关模型,其二为多稳健能量屏障核糖核酸分子开关模型。在这 两个模型中,均要求所设计的核糖核酸分子具有(1)式和(4)式所定义的遗传与环境稳健性。在多稳健热敏核糖核酸分子开关模型中,令^(x,c5;,c5;.^&(x,c5:)-£7.(x,^.),当温度由a,经过7;,…,7;—"变化到7;的时候,相应的结构从《,经过《,…,《一 ,转换到《的具有"个稳健结构的核糖核酸分子开关可以通过定义下面的代价函数得到SW ="力(x,《)+《t (。r (x,(D, (x,《,《))}<formula>formula see original document page 6</formula>(6)其中《>0, 0< <1分别为一个常数。在代价函数(6)中,第一项表示在温度7;偏爱相应的结构cs;的程度,第二项表示对结构《.,y7/出现在温度7;的惩罚,第三项表示稳健性的贡献。在多稳健能量屏障核糖核酸分子开关模型中,给定"个完全不同的二级结构<formula>formula see original document page 7</formula>(具有相同的序列长度丄),要求所设计核糖核酸分子的《个结构《,《,...,《具有大致相等的 自由能,且两两结构之间的能量屏障(energy barrier)大约为y,/,y = <formula>formula see original document page 7</formula>。对 <formula>formula see original document page 7</formula>, <formula>formula see original document page 7</formula>为两两结构之间能量屏障的高度,代价函数定义为<formula>formula see original document page 7</formula> (7)<formula>formula see original document page 7</formula>分别为一个常数。在一种设计具有多稳健结构的核糖核酸分子的方法中,为避免在优化过程中出现局部极小值问题,本发明采用了两种元启发优化方法局部搜索算法和模拟退火算法。


图1为本发明的一种设计具有多稳健结构的核糖核酸分子的方法的总体框图; 图2表示依赖图Y的生成.(a)长度为20的两个二级结构的圆圈图表示.(b)长度为20的 两个二级结构的圆圈图的叠加.(c)长度为20的两个二级结构的依赖图; 图3表示依赖图?的分解.(a)依赖图甲.(b)依赖图?的分解;图4为利用本发明设计的多稳健热敏核糖核酸分子开关的热力学曲线;图5为利用本发明设计的多稳健能量屏障核糖核酸分子开关的能量屏障树。
具体实施方式
图1为本发明的一种设计具有多稳健结构的核糖核酸分子的方法的总体框图。 对从计算机终端输入的预定结构集合中的每一个预定结构,根据RNA 二级结构的定义, 做合法性检查。RNA序列7 = 。^,...^是取自字母表乂(A,C,G,U)的一个字符串,其中<formula>formula see original document page 7</formula> 。 RNA 二级结构Q是RNA序列i 中碱基对折叠而成的所有碱基对的集合,碱基对由0 = {AU,UA,CG,GC,GU,UG}六种配对中的任意一种形成。假设/ 乂表示由第/个碱基《.和第y个碱基r,形成的碱基对,其中1&'<j、n。 RNA二级结构Q满足以下条件(1) 对于Q中任意的碱基对/j,贝l化/e8;(2) 对于任意的两个碱基对& .义和/2 乂2 ,要么= /2 , 乂 =力,要么/, - /2 ,# 72 , /, # /2 ,在对从计算机终端输入的预定结构集合中的每一个预定结构检査合法性之后,将每个预 定的结构表示成圆圈图,并把这些结构的圆圈图叠加在一个称之为依赖图的组合图中。图2 给出了两个预定结构的依赖图甲的示例,其中图2(a)为两个长度为20的预定二级结构A和B 的圆圈图表示,标号l、 5、 10、 15和20是依赖图的结点编号;通过叠加两个预定结构的圆 圏图表示,得到相应的依赖图,如图2(b)所示。在图2(b)中,仅在结构A中出现的边为结点 4和18、结点5和17、结点7和15、结点8和14、结点9和13,仅在结构B中出现的边为 结点1和20、结点4和10、结点5和9、结点12和18、结点13和17,两个结构中均存在 的边为结点2和19。在该依赖图中,长度为1的路径有4条,分别为结点1和20、结点2 和19、结点7和15、结点8和14;长度为3的路径有1条,结点是10, 4, 18, 12;长度为 4的圈一个结点是5、 9、 13、 17,如图2(c)所示。如果预定结构数目小于等于2,则直接分解依赖图;如果预定结构数目大于2,则首先需 要检验依赖图的二分性。在一种设计具有多稳健结构的核糖核酸分子的方法中,依赖图的二 分性检验通过采用宽度优先搜索算法对依赖图做二着色实现。如果依赖图具有二分性,则直 接分解依赖图;否则,返回。在依赖图的分解的步骤中,首先采用双连通图算法寻找割点,然后进一步将这些连通分 支分裂成它们的双连通分支。在一种设计具有多稳健结构的核糖核酸分子的方法中,寻找割 点算法通过采用基于一个结合识别割点准则的深度优先搜索实现。图3给出了一个四个叠加 的二级结构的依赖图的分解的示例,其中图3(a)表示的是四个长度为20的叠加的二级结构的 依赖图,标号l、 5、 10、 15和20是依赖图的结点编号。它具有两个连通分支 一条路径(结 点5和13)和一个复杂的分支(除结点2、 3、 6、 10、 15、 19和20以外的所有其它结点)。依赖图的第二个连通分支可以在割点x,y分解为长度为1的两条路径G1和G2'、长度为4的 一个圈G3,以及一个块的双连通分支G2",如图3(b)所示。力"2;(3)如果/z </<_/< A:,则Q中不能同时存在碱基对A /和在得到依赖图T的全部双连通分支后,通过采用图着色算法进行相容序列的计数与均匀 采样。选择代价函数模型(多稳健热敏核糖核酸分子开关模型或多稳健能量屏障核糖核酸分 子开关模型),确定模型中代价函数的参数。采用两种元启发优化方法(局部搜索和模拟退火 算法),在相容序列集合上,优化模型的代价函数,设计出满足性质的最优的具有多稳健结构 的核糖核酸分子。对下面的三个预定结构-构象1 (((.((((((((((((((((((((((((((( ( (((((((((((((( ((((...))))..)))))))))))))).).)))))))))))))))))))..))))))))..))).根据图1中本发明的一种设计具有多稳健结构的核糖核酸分子的方法的总体框图,选择多稳 健热敏核糖核酸分子开关模型,设定代价函数的参数为《=0.3, f = 0.2。利用本发明的方法, 设计的具有三个稳健结构的多稳健热敏核糖核酸分子为分析该分子的热力学性质,图4显示的是随着温度的变化,该分子的热力学曲线。由图 可知,从7;=20°<:的构象1转换到?;-37。C的构象2,再转换到7;-75。C的构象3时,这三个构象正好被两个倒V型的峰分割开来,表明两两构象之间转换时,需要一个很大的能量。 分析该分子的遗传稳健性,根据(2)式所计算的中性值为0.91,表明该分子具有很高的遗传稳 健性。同时,所设计的核糖核酸分子的三个构象的自由能分别为-56.30kcal/mo1, 56.20kcal/mol 和-56.10kcal/mo1,表明该分子具有很好的热力学性质,即环境稳健性。以上结果表明,所设 计的具有三个稳健结构的多稳健热敏核糖核酸分子具有很好的环境稳健性,同时也具有很高的遗传稳健性,满足设计的要求。同样地,根据图1中本发明的一种设计具有多稳健结构的核糖核酸分子的方法的总体框 图,选择多稳健能量屏障核糖核酸分子开关模型,设定代价函数的参数为《=0.3,《=0.3和;=0.2。利用本发明的方法,设计的具有二个稳健结构的多稳健能量屏障核糖核酸分子为分析该分子的能量屏障,图5给出了该分子在30个局部极小值之间的能量屏障树,由图 可知,该分子具有三个主要构象,分别对应于构象l、构象2和构象3,并且处于三个不同分支中。除这三个构象外,其它构象的概率非常低。结果表明这三个构象两两之间被一个较大 的能量屏障(~8.0 Kcal/mol)分隔开。分析该分子的遗传稳健性,根据(2)式所计算的中性值 为0.94,表明该分子具有很高的稳健性。同时,所设计的核糖核酸分子的三个构象具有非常 相似的自由能,分别为-56.00 kcal/mol, -55.80 kcal/mol和-55.70kcal/mo1,表明该分子具有很 好的热力学性质,即环境稳健性。以上结果表明,所设计的具有三个稳健结构的多稳健能量 屏障核糖核酸分子具有很好的环境稳健性,同时也具有很好的稳健性,满足设计的要求。根据本发明的方法,具有多稳健结构的核糖核酸分子设计问题变得简单、方便、快捷。 此外,设计的两个代价函数模型,能够很好的描述所设计的具有多稳健结构的核糖核酸分子 的性质的要求。而所采用两种元启发优化方法(局部搜索和模拟退火算法),在设计具有多稳 健结构的核糖核酸分子的方法中,能够很好地避免优化过程中出现的局部极小值问题,提高 设计效率。本发明将对变构酶设计、RNA计算等研究具有重要理论意义和实用价值。
权利要求
1. 一种设计具有多稳健结构的核糖核酸分子的方法,其特征在于所述的方法首先将具有多稳健结构的核糖核酸分子的设计问题转化为与预定结构相容的核糖核酸分子集合上的组合优化问题,在此基础上,采用基于图论的数学模型,进一步将该问题转化为依赖图上的点着色问题。具体包括下列步骤1)接收来自计算机终端的预定二级结构集合,判别其合法性;2)生成依赖图;3)检验依赖图的二分性;4)分解依赖图;5)在相容序列集合上计数与均匀采样;6)选择代价函数模型及参数;7)优化候选序列。
2. 根据权利要求1所述的一种设计具有多稳健结构的核糖核酸分子的方法,其中所说 的依赖图,其特征是,将每个预先设定的结构表示成圆圈图,再将这些圆圈图叠加 在一个组合图中,即为依赖图。
3. 根据权利要求1所述的一种设计具有多稳健结构的核糖核酸分子的方法,其中所说 的依赖图二分性的检验,其特征是,对输入的预定二级结构超过两个的情况,通过 采用宽度优先搜索算法对依赖图做二着色实现依赖图二分性的检验。
4. 根据权利要求1所述的一种设计具有多稳健结构的核糖核酸分子的方法,其中所说的依赖图的分解,其特征是,首先通过基于一个结合识别割点准则的深度优先搜索 的双连通图算法寻找割点,然后进一步将这些连通分支分裂成它们的双连通分支。
5. 根据权利要求1所述的一种设计具有多稳健结构的核糖核酸分子的方法,其中所说 的相容序列的计数与均匀采样,其特征是,在依赖图分解后的双连通分支上,采用 图着色算法实现的。
6. 根据权利要求1所述的一种设计具有多稳健结构的核糖核酸分子的方法,其中所说 的代价函数模型,其特征是,它包括所设计的多稳健热敏核糖核酸分子开关模型和 多稳健能量屏障核糖核酸分子开关模型。
7. 根据权利要求6所述的多稳健热敏核糖核酸分子开关模型,其特征是,它所定义的 代价函数为<formula>formula see original document page 3</formula>其中《>0, 0< <1分别为一个常数。
8. 根据权利要求6所述的多稳健能量屏障核糖核酸分子开关模型,其特征是,它所定义的代价函数为<formula>formula see original document page 3</formula>+ (l-。0(x), /<) 其中纟>0,《>0, 0<^ <1分别为一个常数。
9. 根据权利要求1所述的一种设计具有多稳健结构的核糖核酸分子的方法,其中所说 的候选序列的优化,其特征是,采用两种元启发优化方法一_局部搜索算法和模拟 退火算法避免优化过程中出现的局部极小值问题。
全文摘要
本发明涉及一种计算机程序,更具体地,是一种设计具有多稳健结构的核糖核酸分子的方法。本发明旨在提供一种能简单、方便、快捷地设计出具有多稳健结构的核糖核酸分子的方法,解决变构核糖核酸分子的设计问题。为了达到上述目的,本发明将具有多稳健结构的核糖核酸分子的设计问题转化为与预定结构相容的核糖核酸分子集合上的组合优化问题,采用基于图论的数学模型,进一步将该问题转化为依赖图上的点着色问题,提出了一种设计具有多稳健结构的核糖核酸分子的方法。该方法包括检查从计算机终端接收的预定结构集合的合法性、生成依赖图、检验依赖图的二分性、分解依赖图、相容序列的计数与均匀采样、选择代价函数模型及参数、优化候选序列的步骤。
文档编号G06F19/00GK101281560SQ200810111509
公开日2008年10月8日 申请日期2008年6月5日 优先权日2008年6月5日
发明者伯晓晨, 王升启, 舒文杰 申请人:中国人民解放军军事医学科学院放射与辐射医学研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1