一种环状RNA和疾病关联预测方法

文档序号:33933889发布日期:2023-04-22 13:54阅读:97来源:国知局
一种环状RNA和疾病关联预测方法

本发明涉及生物信息学,具体涉及一种基于图嵌入和动态卷积自编码器来预测circrna和疾病关联的方法。


背景技术:

1、环状rna(circrnas)是一类客观存在于生物体中的非编码rna分子,没有50-cap和30-多聚腺苷酸化尾,通过共价键形成环状结构。circrnas含有比线性mrnas更丰富的转录本,可以在转录或转录后水平调控多种生命活动。此外,circrnas还可以作为竞争性内源性rnas(cernas)的成分来抑制mirnas的活性,从而控制基因的转录、翻译等功能。许多研究也证明circrna存在于各种生物体中,具有重要的调控作用,也表明circrna与疾病之间有着密切的联系,circrna在多种疾病中发挥着重要作用,circrnas可以作为新的疾病诊断生物标志物,在药物研发和疾病诊治中具有良好的应用前景。

2、由于circrna与疾病之间有着密不可分的联系,把握这种联系对于疾病的研究和治疗具有重要价值。然而,普通的生物实验投入了大量的人力物力,只能确认其中的一小部分联系。快速有效的计算方法是解决这一问题的关键。目前,有许多模型可以预测circrna与疾病的关联。2019年,wang等人提出了一种基于多源信息融合和卷积神经网络(cnn)的预测circrna-疾病关联的方法。2019年,li等人提出了一种基于网络共识投影的circrna-疾病关联预测方法。2020年,k.deepthi等人提出了一种基于自动编码器(ae)和深度神经网络的方法来预测circrna-疾病关联。2022年,zhang等人提出了一种基于图表示学习的方法来预测circrna-疾病关联。但这些模型预测在生物信息的融合上并没有最大化利用生物信息的相关性,如基因序列的相似度或表达相似度等,且某些疾病或circrna的深层特征难以提取,计算力复杂度较高,导致目前存在的预测的关联结果仍存在很大偏差。


技术实现思路

1、用以解决或者提高现有技术中的方法存问题和性能,本发明提出以下技术方案:

2、一种环状rna和疾病关联预测方法,包括以下步骤:

3、s1)数据组织

4、从公共数据库获取已知的circrna和疾病关联信息、circrna表达谱数据、疾病语义相似度信息形成原始数据集;

5、s2)数据融合

6、根据疾病语义相似度、circrna表达谱数据以及circrna和疾病的关联矩阵,计算出疾病语义相似度、疾病和circrna的jaccard相似度和gip(高斯交互表达谱相似度)以及circrna表达谱相似度,并按照不同疾病之间是否有语义相似性和不同circrna之间是否有表达谱数据来进行融合,最后通过矩阵拼接和归一化操作融合数据形成统一的融合标识符;

7、s3)特征提取

8、通过aane和dcaes组成的深度学习模型提取融合标识符的低维特征和深层特征,aane通过特定的损失函数,当损失函数的值达到设定值后,即完成训练和提取,dcaes则使用mse作为损失函数并通过adadelta算法对模型参数和网络结构进行优化;

9、s4)分类器预测

10、将最终提取的特征放入随机森林分类器,对分类器进行训练,并优化关键的参数,优化完毕后,将测试集放入分类器进行circrna和疾病的关联预测,并得到最后的预测分数矩阵。

11、进一步的,融合标识符的形成方法为:若疾病或者circrna之间有语义相似度,对其最终的融合数据进行取平均值的运算;若没有,则取高斯交互核相似度来补充不同数据库之间的数据差异,最后将疾病和circrna的融合相似度降维后进行拼接形成最后的融合标识符。

12、进一步的,疾病语义相似度的具体计算方式为:

13、疾病e与疾病d为关联的两种疾病,根据疾病之间的有向无环图计算疾病的语义价值nd表示与d相关的一组疾病节点且包含节点d本身,dd表示疾病e对疾病d的贡献,从而确定疾病d(i)和疾病d(j)疾病语义相似度dss1(d(i),d(j))

14、

15、其次,考虑疾病编号对疾病贡献的影响,采用下式计算疾病e在疾病数量影响下的贡献

16、

17、其中,num(dagd(e))是指与疾病d相关的疾病数量,num(diseases)指所有疾病的个数;

18、得到疾病d(i)和疾病d(j)的疾病语义相似度dss2(d(i),d(j))

19、

20、进一步的,circrna表达谱相似度的具体计算方式为:将带有表达谱数据的circrna表示为一个32维的特征向量,并使用降序的方法对不同circrna的表达谱数据进行重新排序,使用spearman相关系数得到circrna之间的表达谱相似性。

21、进一步的,jaccard相似度的具体计算方式为:

22、使用以下公式计算疾病d(i)和疾病d(j)的jaccard相似度jd(d(i),d(j))

23、

24、其中,ca(d(i))是指与疾病d(i)相关的circrna组;

25、根据上式可以推断出circrna的jaccard相似模型jc(c(i),c(j))

26、

27、其中,da(c(i))是指与circrna c(i)相关的疾病组,通过两个circrna关联疾病的交集比上两个circrna关联疾病的并集,就可以得到两个circrna的jc相似度。

28、进一步的,融合方法的具体实现为:

29、将疾病相似性多源信息ds和疾病jaccard相似度jd进行拼接形成疾病相似度模型dm=[ds,jd];

30、将circrna相似性多源信息cs和circrna jaccard相似度jc进行拼接形成circrna相似度模型cm=[cs,jc];

31、融合过程中,使用pca降维归一化后将cm与dm进行拼接后得到融合标识符fm(c(i),d(i))

32、fm(c(i),d(j))=[cm(c(i)),dm(d(j))]

33、其中,cm(c(i))表示cm的第i行向量,dm(d(j))表示dm的第j列向量。

34、进一步的,通过aane算法,得到与余弦相似度矩阵差值最小的图嵌入表达矩阵,所得到的图嵌入表达矩阵即为低维特征,利用aane提取低维特征的具体步骤包括:

35、对于网络n=(v,e,w),v为n中的节点集,w为n中的边集,e为边所代表值的集合,w中的边eij表示连接节点i和节点的边j,其大小与两个节点之间的相似度密切相关,如果eij的值较大,则节点i与节点j更相似;根据实对称矩阵可以正交相似对角化的推论,可以得到如下公式:

36、a=hλht=hb2ht=hbhthbht=(hbht)(hbht)t=uut

37、其中a指的是半定对称矩阵,a可以用一个正交矩阵h和一个对角矩阵λ来表示,b是定义的新矩阵,即λ中的元素,应用该算法时,只需给出待输入的属性矩阵a,通过余弦相似度计算相似度矩阵s,可以推出:s=qqt,其中q表示图嵌入表达矩阵;

38、在以下两种情况下,节点最有可能具有相似的向量表示,一种是拓扑更相似的节点,另一种是连接权重更高的节点,因此定义目标函数l如下:

39、

40、这里的s=qqt只是理论上可以得到,但是实际中,他们两个是具有差值的,我们这个算法就是为了得到与s最小的差值的q,即l的值最小;其中,λ为平衡参数,f为为(),ωij为(),qi为(),qj为();

41、定义参数z=q,目标函数也可以写成如下形式:

42、

43、ρ代表惩罚参数,ui是对偶变量的缩放数据;zi为z中第i个节点的数据,通过降低的zi和qi的差值,得到最优的;

44、使用乘法器的交替方向法解决目标函数的优化问题,在连续求导的情况下,使用如下迭代公式:

45、

46、

47、

48、

49、其中t表示第t次迭代,si表示余弦相似度矩阵中的值,i是固定参数,从1开始增加,每次迭代i+1。

50、进一步的,对模型参数和网络结构进行优化的步骤为:

51、在训练每一层的过程中,计算解码有的重构向量x'和输入向量x的损失函数,并将损失函数优化到设定值,重复这个动作直到所有层都训练完毕,编码公式如下:

52、

53、y=subsampling(x)

54、

55、

56、其中t为通过动态卷积编码后得到的中间值,解码的具体公式如下:

57、

58、其中,πk是第k个线性函数的注意力权重,代表卷积操作,w和b是权重矩阵和偏置向量,g是激活函数,y是x的编码输出,是聚合权重,是聚合偏差;模型训练是否完成的标志是损失函数是否最小化,使用最小均方误差作为模型的损失函数,并在训练过程中使用adadelta来优化网络和更新参数。

59、进一步的,随机森林的生成方法为:

60、s41)使用bootstrap从有放回的c个样本集中随机选择c个样本,选取的c个样本作为决策树根节点的样本用于训练决策树;

61、s42)从样本的m个特征中随机选择m个特征,满足条件m<<m,然后从这m个特征中选择1个特征作为分割这个节点的特征;

62、s43)在形成决策树的过程中,每个节点都必须按照步骤s42进行分裂,直到不能再分裂,在整个决策树形成过程中不进行剪枝;

63、s44)按照步骤s41-s43构建多个决策树,形成随机森林。

64、优选的,本方法基于pytorch和python及其辅助库编写。

65、本发明提出了一种基于图嵌入和动态卷积自编码器来预测circrna和疾病关联的方法,本方法采用的模型集合了更多的生物学信息并且创新了提取能力更强和计算成本更低的深度学习模型。与现有技术中融合的生物学信息数量相比,本发明可以将jaccard和circrna表达谱相似度融合到传统的生物信息中,充分利用有限的生物信息并创新了性能更好的深度学习模型,所以本发明可以更为有效地应用到circrna和疾病关联进而提升预测精度。同时,本发明提供的方法不仅融合了circrna和疾病的网络结构信息,还有效地利用circrna和疾病的各种特征信息,因而本发明不仅仅可以推断未知的circrna和疾病关联,而且能很高效地预测当前没有与任何疾病关联的新circrna,以及预测当前没有与任何circrna关联的新的疾病,同时,动态卷积自编码器编码器可以在提高提取特征效果的同时控制计算成本的增长,推动模型性能的进一步提升。通过实验验证,我们的方法在预测的circrna和疾病关联分数前20的关联中,有16种得到了文献验证,这也足以证明我们的方法可以为生物实验提供可靠的验证对象。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1