RNA二级结构预测方法及装置

文档序号:34798158发布日期:2023-07-18 18:02阅读:46来源:国知局

本发明神经网络预测的,尤其是涉及一种rna二级结构预测方法及装置。


背景技术:

1、预测rna结构有重要意义,根据遗传法则,rna是基因的载体,在基因的选择与表达、基因调控、密码子与反密码子的结合和蛋白质翻译等生物过程中发挥着关键作用。具体而言,ncrna在高等生物中具有关键作用,是rna家族中的重要一份子、对于转录和转录后调节以及染色质修饰复合物提供依据。

2、rna分子具有三层结构,分别为一级序列、二级结构和三级空间结构三个层次。rna三级空间结构是由二级结构单元之间的相互作用、扭曲、折叠等产生的。是在空间中形成的稳定结。因此,预测rna二级结构是鉴定三级结构的重要依据。也是帮助我们了解rna机制,了解遗传发展、了解蛋白质与各种生物活性的重要前提。

3、现有技术中,一些传统的rna二级结构方法有如下几种:

4、1)比较序列分析法:以rna序列中互补碱基间的共变联配(covariant-alignment)活动为基础;以已知的rna序列的数据为依据标准,以查找被测算rna序列中的高近似度序列为手段;以一定的相关数学模型为依托,共同研究推算所给rna序列的二级结构,其缺点是对于较少、甚至是一条序列,以及同源性低的序列不适合使用,测算结果较差;

5、2)动态规划法:最大碱基配对算法基于在碱基互补配对的过程中碱基间的氢键能让两个碱基比较紧密地结合在一起的基本假设,rna结构中配对的碱基对越多,连接的氢键越多,结构就越稳定,但其没有考虑到连续碱基对可以形成茎区这一更为稳定的结构,因此预测出二级结构中各个碱基对是不连续的,不能够形成稳定的茎区;

6、3)组合优化的方法:根据碱基配对可以构成各式各样不同种类的茎区,茎区组合的种类繁多茎区数量大,因此该问题灵活性很大,也容易产生错误。

7、综上所述,现有技术中,rna二级结构预测方法的梯度爆炸和消失问题以及正负样本之间的不平衡的技术问题,进而提高rna二级结构预测的准确率。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种rna二级结构预测方法,以缓解现有技术中rna二级结构预测方法中梯度爆炸和消失问题以及正负样本之间的技术问题。同时,本发明使用cdcgan从现有的数据特征中获取新的数据特征,并通过图像扩展技术的应用实现了rna序列数据量的扩充。更加的高效快捷,对特征的处理能力更好提高了rna预测系统的准确率。

2、第一方面,本发明提供了rna二级结构预测方法,具体包括如下步骤:

3、s101:获取rna碱基顺序及其配对序列,并对所述rna碱基顺序及其配对序列进行特征处理,以获取rna碱基序列训练集;

4、s102:构建双向lstm神经网络,在所述构建双向lstm神经网络输出端引入注意力层,在所述注意力层输出端引入全连接分类器以构建双向lstm-注意力神经网络,利用所述rna碱基序列训练集对所述双向lstm-注意力神经网络进行训练;

5、所述rna碱基顺序及其配对序列进行特征处理,以获取rna碱基序列训练集的步骤包括:

6、1)将所述rna碱基顺序及其配对序列进行one-hot编码以生成第一矩阵;

7、2)将所述rna碱基顺序及其配对序列进行点括号编码值,所述点括号编码值用于获取所述rna碱基顺序及其配对序列的点括号编码值灰度图,构建并利用cdcgan网络的生成器与鉴别器进行生成与对抗对所述rna碱基顺序及其配对序列的点括号编码值灰度图进行扩充以及特征优化,生成第二矩阵;

8、3)基于第一矩阵以及第二矩阵获取rna碱基序列训练集。

9、一种可能的方式是,所述基于第一矩阵以及第二矩阵获取rna碱基序列训练集的步骤包括:

10、将所述第一特征矩阵以及第二特征矩阵进行相加以获取第三特征矩阵;

11、所述第三矩阵划分所述rna碱基序列训练集。

12、一种可能的方式是,获取第一特征矩阵步骤包括:

13、将所述rna碱基顺序及其配对序列进行one-hot编码,获取mask值、某个配对的碱基占所有配对碱基的比例以及标签,碱基具体为‘a’,‘g’,‘c’,‘u’;

14、基于将所述rna碱基顺序及其配对序列进行one-hot编码所获取的编码值、mask值、某个配对的碱基占所有配对碱基的比例以及标签获取所述第一矩阵。

15、一种可能的方式是,所述cdcgan网络包括生成器以及判别器,所述生成器对所述rna碱基顺序及其配对序列的点括号编码值灰度图进行扩充;

16、所述判别器用于判定扩充的所述rna碱基顺序及其配对序列的点括号编码值灰度图是否为真样本;

17、采用如下方式进行cdcgan网络的生成与对抗:

18、a:对生成器进行训练:即固定判别器,单独对生成器进行训练,直至判别器的误判别误差超过预设的第一阈值;

19、b:对判别器进行训练:即固定生成器,单独对判别器进行训练,直至判别器的误判别误差小过预设的第二阈值。

20、一种可能的方式是,所述构建双向lstm神经网络,在所述构建双向lstm神经网络输出端引入注意力层,在所述注意力层输出端引入全连接分类器以构建双向lstm-注意力神经网络,利用所述rna碱基序列训练集对所述双向lstm-注意力神经网络进行训练的步骤包括:

21、构建双向lstm神经网络并对所述双向lstm神经网络进行训练以生成张量,引入注意力层对生成的张量进行训练,并对注意力层输出的数据采用全连接分类器进行分类。

22、一种可能的方式是,所述rna碱基序列训练集为总长度×8的训练矩阵,所述构建双向lstm神经网络并对所述双向lstm神经网络进行训练以生成张量的步骤包括:

23、将所述rna碱基序列训练集为总长度×8的训练矩阵进行如下处理

24、(1):所述双向lstm神经网络获取上一时刻的输出值以及本时刻的输入值,将上一时刻的输出值以及本时刻的输入值进入遗忘门以获取要舍弃的信息;

25、(2):将上一时刻的输出值以及本时刻的输入值进入输出门确定要更新的信息以及当前细胞状态

26、(3):将(1)中遗忘门的输出与(2)中输入门的输出进行组合以获取长时信息以及短时信息作为第一输出量。

27、一种可能的方式是,所述rna碱基序列训练集为总长度×8的训练矩阵,所述构建双向lstm神经网络并对所述双向lstm神经网络进行训练以生成张量的步骤包括:

28、将所述rna碱基序列训练集为总长度×8的训练矩阵进行逆序排序。并进行如下处理

29、(1):所述双向lstm神经网络获取上一时刻的输出值以及本时刻的输入值,将上一时刻的输出值以及本时刻的输入值进入遗忘门以获取要舍弃的信息;

30、(2):将上一时刻的输出值以及本时刻的输入值进入输出门确定要更新的信息以及当前细胞状态

31、(3):将(1)中遗忘门的输出与(2)中输入门的输出进行组合以获取长时信息以及短时信息作为第二输出量。

32、一种可能的方式是,将所述第一输出量与所述第二输出量进行叠加以生成张量。

33、一种可能的方式是,所述第三矩阵划分所述rna碱基序列测试集,采用所述测试集对所述双向lstm-注意力神经网络进行测试:

34、采用如下指标对所述双向lstm-注意力神经网络进行测试:

35、

36、

37、

38、

39、acc-整体预测精度;

40、sen-灵敏度;

41、ppv-阳性预测值;

42、mcc-马修斯相关系数;

43、tp-预测为正类的正样本数;

44、tn-预测为负类的负样本数;

45、fp-预测为正类的负样本数;

46、fn-预测为负类的正样本数。

47、第二方面,本发明提供了一种rna二级结构预测装置,包括:

48、数据获取模块:用于获取rna碱基顺序及其配对序列,并对所述rna碱基顺序及其配对序列进行特征处理,以获取rna碱基序列训练集;

49、训练模块:构建双向lstm神经网络,在所述构建双向lstm神经网络输出端引入注意力层,在所述注意力层输出端引入全连接分类器以构建双向lstm-注意力神经网络,利用所述rna碱基序列训练集对所述双向lstm-注意力神经网络进行训练;

50、所述数据获取模块包括:

51、第一矩阵生成单元:用于将所述rna碱基顺序及其配对序列进行one-hot编码以生成第一矩阵;

52、第二矩阵生成单元:用于将所述rna碱基顺序及其配对序列进行点括号编码值,所述点括号编码值用于获取所述rna碱基顺序及其配对序列的点括号编码值灰度图,构建并利用cdcgan网络的生成器与鉴别器进行生成与对抗对所述rna碱基顺序及其配对序列的点括号编码值灰度图进行扩充以及特征优化,生成第二矩阵;

53、训练集生成模块:用于基于第一矩阵以及第二矩阵获取rna碱基序列训练集。

54、本发明实施例提供了一种rna二级结构预测方法及装置,方法包括s1:获取rna碱基顺序及其配对序列,并对所述rna碱基顺序及其配对序列进行特征处理,以获取rna碱基序列训练集;s2:构建双向lstm神经网络,在所述构建双向lstm神经网络输出端引入注意力层,在所述注意力层输出端引入全连接分类器以构建双向lstm-注意力神经网络,利用所述rna碱基序列训练集对所述双向lstm-注意力神经网络进行训练。通过本发明提供的方法及装置可以缓解现有技术中rna预测方法中的梯度爆炸和消失问题以及正负样本之间的不平衡的技术问题,提高了rna二级结构预测的准确率。同时,本发明使用cdcgan从现有的数据特征中获取新的数据特征,并通过图像扩展技术的应用实现了rna序列数据量的扩充,进一步提高了rna预测系统的准确率。

55、本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

56、为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1