基于拟态章鱼RNA编辑的遗传方法与流程

文档序号:17593492发布日期:2019-05-03 22:08阅读:494来源:国知局
基于拟态章鱼RNA编辑的遗传方法与流程

本发明属于自动化技术领域,特别涉及一种受基于拟态章鱼rna编辑的遗传方法。



背景技术:

在章鱼家族中有一种善于模仿的成员拟态章鱼,目前已经发现能够模仿多达十八种不同生物的形态,利用模仿技能有效保护、趋利避害和获取食物的目的。在拟态章鱼体内,也约有2万个基因,其中至少有6万个活性rna的编辑位点,被重新编辑过的rna,能够让拟态章鱼拥有多样化的神经系统,从而应对各种各样的挑战。所谓rna编辑是指通过对转录后成熟rna分子的修饰和加工,使得rna所传递的遗传信息发生改变。经过rna编辑后的拟态章鱼神经系统更加多样化,这让它们能够学习到更多新的技能,比如打开水族箱的盖子逃跑,隐藏自己躲避天敌,应对各种挑战等等。

该研究的不足之处为:该算法依赖使用人员的经验,需要调参。为了验证算法和实验数据的准确性,以及影响算法的参数,在测试函数时设置了不同的参数,改变交叉概率和变异概率等等,得出当交叉概率取值较大时,算法失去寻优性能,变成随机性算法,当交叉概率较低时,可能会导致算法收敛较慢,从而减小找到全局最优解的机会。



技术实现要素:

本发明的目的是克服已有技术的不足之处,受启发于拟态章鱼体内rna的自我编辑能力,编写了rna的遗传算法,本发明算法在编码时采用了基于rna碱基的数字编码方式,即采用0,1,2,3这四个数字代替rna中的四个碱基a,g,c,u;同时该算法在选择的时候并未采用传统的轮盘赌的方法,而是为了体现随机性,选择最优的和最差的不同个体组成新的种群,进行交叉运算;在后面的变异过程中,为了体现自我编辑,设置了不同的变异概率,并设置碱基a的突变概率较大,以完成向碱基g的突变。完成了rna遗传算法的一系列操作后,将该算法对几个不同的测试函数进行寻优计算,在多次实验以及同标准的遗传算法进行对比,具有较高的有效性。

本发明采用如下技术方案:

通过对拟态章鱼的四种碱基a,c,g,u进行编码,并借鉴章鱼的rna编辑思想,将a变异成g,编写rna遗传算法,并对不同的测试函数进行寻优计算,多次对比实验,最终得出该算法在寻优性能上具有一定的有效性,能够快速跳出局部循环而找到全局最优值;通过对该算法的研究有助于进一步探究rna编辑机制对拟态章鱼进化的影响,具体实现步骤如下:

步骤1、设定个体编码;

采取碱基的数字编码方式对个体编码;

步骤2、个体选择操作;

为保持种群的多样性,在进行个体选择的时候选择最优的前十个个体和最差的后二十个个体组成新的种群进行后面的操作;

步骤3、个体交叉;

采用基于k点交换的同等长度替换操作实现个体交叉,具体表现为:一段染色体中的一个子序列被另一段染色体中一个同等长度的子序列代替,设初始个体为k1k2k3k4......kn,当k4这个子序列被一个同等长度的序列k4'替换时,新的序列则变成了k1k2k3k′4......kn;

步骤4、个体变异操作;

设置了两种不同的突变概率,即高位突变概率和低位突变概率;拟态章鱼在进化过程中能够不断地进行rna的编辑,主要体现在碱基a定向突变成g,于是设置碱基a定向突变成g的定向突变概率介于高位突变概率和低位突变概率之间,以保证突变的顺利进行。

所述的碱基的数字编码方式具体如下:

对rna而言,一个rna分子的核糖核酸由四个碱基组成,分别是胞嘧啶(c)、尿嘧啶(u)、腺嘌呤(a)和鸟嘌呤(g);采用四个数字0(00)、1(01)、2(10)和3(11)来分别替代时胞嘧啶(c)、尿嘧啶(u)、腺嘌呤(a)和鸟嘌呤(g),通过四个数字能够和rna分子很好的结合,从而模拟生物的进化过程;

rna分子中a,c,g,u排列组合形成4!=24中组合形式,但是由于在二进制中通常知道0与1成互补的关系,即~0=1,因此这四个数字中设置0(00)与3(11)互补、1(01)与2(10)互补,对等于四个碱基c与g配对、u与a配对;于是在进行碱基的数字编码的时候应该满足互补的法则,c,u,a,g四种碱基满足的互补法则的数字编码格式共有8种,即:0123-cuag,0123-caug,0123-guac,0123-gauc,0123-ucga,0123-ugca,0123-acgu,0123-agcu,其余的16种由于不满足碱基的互补配对而被舍弃;对于以上的8种碱基的配对方式,拟采用0123-cuag的配对方式,一方面按照分子量大小排列时c=111.10,u=112.10,a=135.13,g=151.13,刚好c+g=a+u,即0+3=1+2;另一方面,该种编码方式能够反映4种碱基的强弱键的结合方式。

所述的高位突变概率和低位突变概率,可分别按照以下计算方法进行计算:

高位突变概率:

低位突变概率:

式中,设置高低位的突变概率范围在[0,0.25]之间,同时设置初始时刻的全局突变概率pm_a的取值范围在[0,0.05]之间,这里取pm_a=0.03,pm_b表示全局概率的变化范围,取值范围在[0,0.5],这里取pm_b=0.2,time表示进化代数,这里time=2000,iter表示当前进化代数,即iter在[0,time]之间,g0表示变异概率最大时的进化代数,a表示变异概率最大时的斜率值。

所述的碱基a定向突变成g的定向突变概率pm_a=0.1。

本发明具有以下优点及突出性效果:

该rna编辑的遗传算法在最初进行编码的时候采取了同rna四种碱基a,g,c,u相对应的四个实数0,1,2,3的数字编码方式,一方面,采用该数字编码方式时能够比传统的二进制编码方式更简单,而且能够避免海明悬崖的问题;另一方面,采用数字的编码方式可以表示碱基的各种特性,比如碱基的互补,强弱氢键的结合等等。其次,在变异过程中将特定的碱基a变异成g,程序中表现为将2变异成3,在此过程中设置2变成3的概率较大,这样就能保证在一般突变概率的基础上有更大的突变能力。为了验证算法的有效性,通过对schwefel函数,多峰值函数,大海捞针型函数以及rana函数这四个函数进行寻优测试,发现该算法能够进行全局搜索,跳出局部最优值,而且找到最优值得概率较高。为了验证算法和实验数据的准确性,在实验过程中进行了多次的实验,以观察实验效果。首先,随着种群数量由2000增加到10000,发现算法的收敛性在不断地增强,同时获得最优值得速度也较快;其次,通过改变交叉概率值得出:当交叉概率设置较低时,算法的收敛速度很慢,而且容易陷入局部最优;当交叉概率取值较大时,算法就会变成随机算法,失去寻优能力。最后,当对变异概率进行设置时发现:当变异概率取值较大时,将会导致进化过程发散;而当变异概率取值较小时,算法的寻优能力更强,并在此基础上设置碱基a到g的定向突变概率取较小值,在一定程度上保证了染色体中碱基a到g的突变。

最后,本发明的算法在进行不同函数寻优的时候能够表现出较高的成功率,而且不会陷入局部最优值,而传统的遗传算法在寻优时很容易陷入局部最优值,甚至陷入局部最优值的时候很难跳出,因此,本发明的算法具有一定的优越性。

附图说明

图1是个体交叉基于k点交换的同等长度替换操作图;

图2是个体高位突变概率变异图;

图3是个体低位突变概率变异图;

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1-3所示,基于拟态章鱼rna编辑的遗传方法,受启发于拟态章鱼体内rna的自我编辑能力,编写了rna的遗传算法。如图1所示,本发明算法在编码时采用了基于rna碱基的数字编码方式,即采用0,1,2,3这四个数字代替rna中的四个碱基a,g,c,u;同时该算法在选择的时候并未采用传统的轮盘赌的方法,而是为了体现随机性,选择最优的和最差的不同个体组成新的种群,进行交叉运算;在后面的变异过程中,为了体现自我编辑,设置了不同的变异概率,并设置碱基a的突变概率较大,以完成向碱基g的突变。完成了rna遗传算法的一系列操作后,将该算法对几个不同的测试函数进行寻优计算,在多次实验以及同标准的遗传算法进行对比,具有较高的有效性。

本发明通过对拟态章鱼的四种碱基a,c,g,u进行编码,并借鉴章鱼的rna编辑思想,将a变异成g,编写rna遗传算法,并对不同的测试函数进行寻优计算,多次对比实验,最终得出该算法在寻优性能上具有一定的有效性,能够快速跳出局部循环而找到全局最优值;通过对该算法的研究有助于进一步探究rna编辑机制对拟态章鱼进化的影响,具体实现步骤如下:

步骤1、设定个体编码;

本发明在进行个体编码的时候采取了新的编码方式—碱基的数字编码方式,碱基的数字编码方式在一定程度上缓解了海明悬崖的问题;

所述的碱基的数字编码方式具体如下:

对rna而言,一个rna分子的核糖核酸由四个碱基组成,分别是胞嘧啶(c)、尿嘧啶(u)、腺嘌呤(a)和鸟嘌呤(g);采用四个数字0(00)、1(01)、2(10)和3(11)来分别替代时胞嘧啶(c)、尿嘧啶(u)、腺嘌呤(a)和鸟嘌呤(g),通过就四个数字就能够和rna分子很好的结合,具有一定的生物学意义,可以很好的模拟生物的进化过程。

rna分子中a,c,g,u排列组合可以形成4!=24中组合形式,但是由于在二进制中通常知道0与1成互补的关系,即~0=1,因此这四个数字中设置0(00)与3(11)互补、1(01)与2(10)互补,对等于四个碱基c与g配对、u与a配对;于是在进行碱基的数字编码的时候应该满足互补的法则,c,u,a,g四种碱基满足的互补法则的数字编码格式共有8种,即:0123-cuag,0123-caug,0123-guac,0123-gauc,0123-ucga,0123-ugca,0123-acgu,0123-agcu,其余的16种由于不满足碱基的互补配对而被舍弃。对于以上的8种碱基的配对方式,拟采用0123-cuag的配对方式,主要有以下原因:(1)按照分子量从小到大排列时c=111.10,u=112.10,a=135.13,g=151.13,而四个数字从小到大排列时为0,1,2,3,于是cuag刚好可以对应0123;(2)c与g的结合同0(00)与3(11)是互补结合,共有3条氢键,属于强氢键结合,而a与u的结合同1(01)与2(10)的结合,共有2条氢键,属于弱氢键结合,于是采用0123-cuag的方式更能突出强弱氢键的结合方式;(3)体现了碱基的化学性质,碱基的二进制编码中首位通常称为结构编码位,末位称为功能基团编码位。首位为0时编码嘧啶碱py,如00为胞嘧啶c,01为胸腺嘧啶u;首位为1时编码嘌呤碱基pu,如10为腺嘌呤a,11为鸟嘌呤g。末位为0时表示编码氨基基团,如c(00)与a(10),末位为1时表示编码酮基基团,如u(01)与g(11)。由两对互补的碱基呈现互补的关系知,~00=11,~01=10,于是刚好对应~c=g,~u=a的关系,刚好可以满足0123-cuag的配对方式。

步骤2、个体选择操作;

在本发明中为了保持种群的多样性,决定在进行选择的时候选择最优的前十个个体和最差的后二十个个体组成新的种群进行后面的操作,该方法在一定程度上保证了种群的多样化。

步骤3、个体交叉;

交叉是产生新个体的重要方法,两个染色体之间通过交叉重组产生新的个体,交叉就是在染色体中随机的选择基因座,将两个体中对应的基因座上的基因进行互换,常见的选择基因座的方法包括一点交换、k点交换和均匀交换等等。

本发明通过分析rna分子的特点决定采用基于k点交换的同等长度替换操作,具体表现为一段染色体中的一个子序列被另一段染色体中一个同等长度的子序列代替,假设发明中的初始个体为k1k2k3k4......kn,当k4这个子序列被一个同等长度的序列k4'替换时,新的序列则变成了k1k2k3k′4......kn。

步骤4、个体变异操作;

变异操作引入的目的是一方面使算法具有局部搜索能力,另一方面是要保持种群的多样性,当遗传算法通过选择操作接近最优解的时候,变异算子的局部寻优能力能够使它们更加接近最优解,一般情况下变异概率的取值应较小,否则可能使已经接近最优解以较大的概率发生偏离,从而导致局部搜索能力变差。在本发明中个体变异是算法中最重要的一部分,是rna自我编辑的重要体现。

如图2和3所示,本发明设置了两种不同的突变概率,即高位突变概率和低位突变概率,可分别按照以下计算方法进行计算:

高位突变概率:

低位突变概率:

式中,设置高低位的突变概率范围在[0,0.25]之间,同时设置初始时刻的全局突变概率pm_a的取值范围在[0,0.05]之间,这里取pm_a=0.03,pm_b表示全局概率的变化范围,取值范围在[0,0.5],这里取pm_b=0.2,time表示进化代数,这里time=2000,iter表示当前进化代数,即iter在[0,time]之间,g0表示变异概率最大时的进化代数,a表示变异概率最大时的斜率值。

拟态章鱼在进化过程中能够不断地进行rna的编辑,主要体现在碱基a定向突变成g,在程序中体现为2(10)突变成3(11),于是设置2到3的定向突变概率介于高低位突变概率之间,以保证突变的顺利进行,这里设置碱基a定向突变成g的定向突变概率pm_a=0.1。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1