本发明属于生物信息学领域,具体涉及一种基于多通道稀疏处理的药物-mirna关联预测方法。
背景技术:
1、微小rna(mirna)是一类长度约为22个核苷酸的非编码单链rna分子,是动植物中影响转录后基因表达调控的重要分子元件。mirna可以通过互补碱基配对方式附着在信使rna(mrna)的3'端不翻译区,从而控制mrna翻译,达到调节基因表达的目的。近年来,研究表明mirna在许多复杂人类疾病的发生和发展中发挥着关键作用。越来越多的研究表明,mirna可以作为小分子药物治疗疾病的有效靶点。因此,准确地预测药物-mirna关联关系对于发现潜在的药物靶点和设计新的疾病治疗方案具有十分重要的意义。
2、由于通过生物学实验鉴定新的药物-mirna关联关系的成本高昂且耗时较长,研究者们提出了一些计算模型来进行药物与mirna之间的关联关系预测。这些药物-mirna关联预测方法大致可以分为两大类。第一类方法是利用异构网络中的节点特征和拓扑关系进行药物-mirna关联关系预测。例如,一种集成学习方法基于异构网络中的mirna相似性和药物的相似性构建关联特征,并通过主成分分析算法(pca)最小化特征维数,利用降维后的特征训练卷积神经网络来检索隐式输入模式,最后将提取的特征输入到支持向量机(svm)分类模型来预测潜在的药物-mirna关联关系。基于深度自编码器的可拓展树增强模型利用三层深度自动编码器从药物-mirna异构网络中学习药物与mirna关联关系的潜在特征表示,并构建了基于xgboost的药物-mirna关联关系预测模型。第二类方法将药物-mirna关联关系预测问题建模为矩阵元素补全问题,利用矩阵分解和填充方法预测药物与mirna之间的关联关系。例如,一种方法通过将图拉普拉斯正则化与非负矩阵分解相结合来预测药物与mirna的潜在关联。尽管这些方法被证实是有效的,但由于先验的药物-mirna关联数据比较稀疏并且噪声较多,从而导致当前药物-mirna关联预测方法的准确率较低。
技术实现思路
1、本发明目的是为了解决先验的药物-mirna关联数据比较稀疏并且噪声较多,从而导致药物-mirna关联预测方法的准确率较低的问题,提出一个融合矩阵分解、有界核范数与图神经网络的多通道稀疏处理的药物-mirna关联预测方法。该方法具体过程为:
2、s1:根据药物在功能、化学结构、副作用以及适应症等四个方面的相似性获得药物之间的综合相似性;根据mirna在功能和适应症表型方面的相似性估算出mirna之间的综合相似性;收集并整理先验的药物-mirna关联数据;利用上述三类关系数据构建药物-mirna异构网络。
3、s2:设计稀疏学习(sparse learning,sl)方法来增强先验的药物-mirna关联数据,并重构s1中获得的药物-mirna异构网络;利用非负矩阵分解方法分析药物-mirna异构网络,得到新的药物-mirna关联得分矩阵ysl。
4、s3:设计一种基于有界核范数正则化(bounded nuclear norm regularization,bnnr)的方法,对s1中获得的药物-mirna异构网络进行关系补全处理,从而得到药物-mirna关联得分矩阵ybnnr。
5、s4:利用k近邻(k-nearest neighbor)方法来降低先验的药物-mirna关联数据中的噪声,并重构s1中获得的药物-mirna异构网络;构建基于层注意力机制的gcn(graphconvolutional network)模型从重构后的药物-mirna异构网络中学习药物-mirna关联特征,并最终获得药物-mirna关联得分矩阵ygcn。
6、s5:利用基于随机森林代理模型的贝叶斯优化算法对药物-mirna关联得分矩阵ysl,ybnnr和ygcn进行融合,最终获得药物-mirna关联的综合得分矩阵yu。
7、s6:在常用公共测试数据集上进行对比实验以及消融实验,收集并整理实验结果;利用aupr(pr曲线下面积)、精确度(precision)、召回率(recall)、f1分数(f1-score)和准确率(accuracy)等指标从多个角度对实验结果进行分析,从而评测新方法的性能;利用新方法分别从全局和局部层面进行典型案例的分析,对新方法的实践效果进行评估。
8、进一步地,s1的具体过程为:
9、s11:收集整理药物相关数据,包括药物之间的功能相似性化学结构相似性副作用相似性以及适应症表型相似性并通过如下公式计算获得药物之间的综合相似性:
10、
11、其中α1,α2,α3和α4为各个药物相似性的权重,均初始化为1,即各个相似性对于药物综合相似度的贡献是相同的,ss是药物综合相似度矩阵。
12、s12:收集mirna的相关数据,包括mirna之间的功能相似性和适应症表型相似性并通过如下公式计算获得mirna之间的综合相似性:
13、
14、其中β1,β2为各个mirna相似性的权重,均初始化为1,即各个相似性对于药物综合相似度的贡献是相同的,sm是mirna综合相似度矩阵。
15、s13:收集先验的药物-mirna关联数据,将其与mirna相似性数据、药物相似性数据相融合构建药物-mirna异构网络。
16、进一步地,s2的具体过程为:
17、由于先验的药物-mirna关联关系较少,所对应的关联矩阵中元素比较稀疏,其中的假阴性特征严重影响预测效果。研究表明,通过稀疏矩阵处理所得的低秩矩阵具有显著的隐藏特征,能有效降低假阴性噪声带来的负面影响。本发明将药物-mirna关联数据对应的邻接矩阵a分解为两部分:(1)原始邻接矩阵a与具有显著隐藏特征的低秩矩阵x的线性组合;(2)包含大量噪声的稀疏矩阵e(其中的大多数元素是0),可建立拉格朗日函数如下:
18、
19、根据非精确增广拉格朗日乘子(inexact augmented lagrange multipliers)算法求解此方程,其中δ>0为惩罚项,将x*,e*定义为方程的解,通过更新拉格朗日乘子迭代计算,最终去除噪声得到了新的矩阵a*。。
20、随后,对矩阵a*进行非负矩阵分解(nonnegative matrix factorization),将a*分解为两个低秩矩阵p和q,优化目标为:
21、
22、s.t.p≥0,q≥0
23、其中||*||f是矩阵的frobenius范数,s.t是指矩阵p和q所受的约束条件。求解后获得药物-mirna关联得分矩阵ysl,其中的元素值分别代表对应药物与mirna之间的关联得分。
24、进一步地,s3的具体过程为:
25、首先将预测问题建模为一个矩阵补全问题,再采用基于有界核范数正则化方法填充矩阵未知元素,所构建的优化目标函数如下:
26、
27、s.t.0≤uij≤1
28、其中||u||*代表u的核范数,ω是已知存在关联关系的小分子-mirna对的坐标集合,rω是其正交投影算子。v是由小分子相似度矩阵、mirna相似度矩阵以及小分子-mirna关联矩阵及其转制组成的分块矩阵,ε用作误差项的权重参数。
29、考虑到先验的药物-mirna关联矩阵具有稀疏性,本发明在构建优化目标函数时,通过添加正则化约束项的方式降低过拟合,并最大限度地减小数据噪声的负面影响。利用交替乘子法(alternating direction method of multipliers)求解该方程,获得补全后的药物-mirna关联矩阵ybnnr。
30、进一步地,s4的具体过程为:
31、s41:根据牵连犯罪原则(guilt association rule),假设药物si与mirna mj存在关联关系,则与药物si最相似的前k个药物与mirna mj之间很可能存在关联关系;同理,mirna mi与药物sj也存在类似的关联规则。因此,本发明利用k近邻方法对先验的药物-mirna关联矩阵进行处理,获得新的药物-mirna关联矩阵y*,具体处理过程按照如下公式进行:
32、
33、
34、其中ys(si)=(yi1,yi2,yi3,...,yim)代表药物si与各个mirna的相互作用,取与药物sq最相似的前k个药物度量sq与mirna的相互作用;ym(mj)=(yj1,yj2,yj3,...,yjs)代表mirnamj与各个药物的相互作用,取与mq最相似的前k个mirna度量mq与药物的相互作用;z代表归一化项;ω代表权重参数,以药物为例,ωi=φi-1×ss(si,sq),φ是衰减系数。之后通过对两部分整合取最大值,最终获得了新的药物-mirna关联矩阵y*。
35、s42:为充分学习药物与mirna的特征表示,本发明采用具有层注意力机制的图卷积网络对s41中获得的药物-mirna关联矩阵y*进行处理。首先,将s41中获得的药物-mirna关联矩阵y*及其转置,药物综合相似度矩阵ss、mirna综合相似度矩阵sm整合后表示为g:
36、
37、然后,利用全连接层(full connected layer,fcc)从g中学习药物和mirna的特征嵌入表示,进而利用sigmoid激活函数预测药物-mirna之间的关联得分,最终获得药物-mirna关联得分矩阵ygcn。
38、进一步地,s5的具体过程为:
39、经过s2、s3和s4后,获得了三个药物-mirna关联得分矩阵ysl,ybnnr和ygcn。以此为基础,本发明构建如下式所示的优化目标函数对上述ysl,ybnnr和ygcn进行融合。
40、yu=x1y1+x2y2+x2y3
41、s.t.x1+x2+x3=1
42、其中y1,y2和y3分别代表ysl,ybnnr和ygcn矩阵中处于相同位置的元素值,即三个通道的药物-mirna对的预测得分,x1,x2和x3分别代表可训练的权重参数。根据先验的药物-mirna关联关系,利用贝叶斯优化方法动态地学习每个矩阵的最优权重系数,并获得最终的药物-mirna关联关系yu。
43、进一步地,s6的具体过程为:
44、首先,为了检验与评估本发明的性能,分别从全局、以药物为中心和以mirna为中心的角度,采用留一交叉验证(loocv)和五折交叉验证方法,对本发明以及gcnlasmma、bnnrsmma、ekrrsmma和gismma相关模型在两个独立数据集上的性能进行比较。采用的评价指标包括:精确度(precision)、召回率(recall)、f1分数(f1-score)、特异度(specificity)、准确率(accuracy)以及roc曲线下面积(area under roc,auc)、pr曲线下面积(area under p-r curve,aupr),具体计算公式如下:
45、
46、
47、
48、
49、
50、为了验证各通道的必要性,本发明分别在不使用矩阵分解通道、正则化通道、图卷积通道的情况下进行消融实验。每次实验均使用贝叶斯优化方法调整各通道的权重,以保证在缺失一个通道的状态下,模型依然处于最佳性能。最后,将本发明与消融实验的结果进行对比和分析,发现本发明具有最佳的预测效果。
51、为验证本发明的实用性,还分析了本发明在两种类型的案例分析中的预测效果。
52、本发明的有益效果为:
53、(1)本发明提出了一种新的基于多通道稀疏处理的药物-mirna关联预测方法。与其他先进的模型相比,本发明具有更好的预测准确率和模型泛化性,为发现药物的潜在mirna靶点和设计新的疾病治疗方案提供了有效的技术支持。
54、(2)本发明综合利用稀疏学习方法、k近邻方法、有界核范数正则化方法提出多通道稀疏处理模型,降低了药物-mirna关联预测相关的先验数据稀疏性和噪声,为提升了药物-mirna关联预测的准确性奠定了坚实的数据基础。
55、(3)本发明提出一种基于随机森林模型代理的贝叶斯优化算法,将通过多通道获得的药物-mirna关联预测结果进行融合,能够有效提升药物-mirna关联预测结果的合理性和有效性。