一种基于多层异构图的miRNA靶标预测方法及系统和应用

文档序号:35247516发布日期:2023-08-25 19:00阅读:69来源:国知局
一种基于多层异构图的miRNA靶标预测方法及系统和应用

本发明属于计算机应用技术,涉及一种利用计算机进行生物信息识别,具体涉及一种基于多层异构图的mirna靶标预测方法及系统和应用。


背景技术:

1、非编码rna(non-coding rna,ncrna)是指在细胞中没有翻译成蛋白质的rna分子,它们在细胞中扮演着多种生物学功能,例如基因表达调控、转录后修饰、组蛋白修饰、rna剪接、rna降解等等。ncrna的两大类包括小rna(sirna、mirna等)和非小rna(lncrna、circrna等),这两类rna的失调与包含癌症在内的疾病息息相关,在细胞的调控中扮演重要角色,具有很高的临床和科学相关性,将会对未来的医学和疾病治疗有重要的影响。

2、其中,mirna(microrna)是最为广泛研究的非编码rna之一。mirna是一种长度约为20~25个核苷酸的小分子rna,其广泛存在于真核生物的细胞中,主要通过与靶基因的互补结合,参与到转录后水平的基因表达调控中。mirna是由细胞内的一系列酶以及蛋白质复合物协同作用合成的,其生物合成过程包括mirna基因转录、pri-mirna的剪切、pre-mirna的释放和成熟的mirna的结合等步骤。mirna在细胞中的作用机制十分复杂,它们可以通过两种方式来调控靶基因的表达:一种是通过与mrna的3'非翻译区(3'untranslated region,utr)结合并抑制靶基因mrna的翻译过程,另一种则是通过与mrna的编码区域(codingregion,cds)结合并诱导靶基因mrna的降解。mirna对于生物体内多种生物学过程的调控具有十分重要的作用,包括细胞增殖、分化、凋亡、细胞周期等等。因此,mirna已经成为细胞分子生物学、疾病发病机制以及新型药物研发等方面的热门研究领域之一。

3、ncrna和mrna都可作为mirna靶标。首先,它们通常位于细胞中,并参与信号传导、细胞活性和调节细胞状态等重要生物过程。此外,它们具有高度保守的结构特征,这使得mirna更容易识别结合这些ncrna和mrna作为它们的靶标。最后,这些ncrna和mrna的表达水平会受到mirna的调节,这种因果关系可以用来提供进一步的信息。这种调控关系共同打造了围绕mirna的辅助调控网络。

4、mirna调控网络是一种复杂的、自我调节的生物信号传导系统,可以用于调节和协调细胞的基因表达。它通过发出一系列消息来调节蛋白的合成和细胞的活动。mirna调控网络包括各种mirna与靶标间的复杂相互作用,可以控制基因表达水平、促进转录水平变化、导致细胞表型调控以及信号传导途径的异常。在这种复杂的调控体系中,mirna可以影响宿主基因的合成或抑制,也可以影响其他mirna以及mrna的表达。

5、mirna靶标预测方法目前主要是基于机器学习或者统计以及生物信息技术的一种基于数据挖掘的方法,用于分析mirna与mrna,以及其他非编码rna之间的相互作用。这种方法使用机器学习技术,基于对mirna和靶标序列及表达水平的多种信息,提取出特征特性,如深度学习、聚类分析、支持向量机等,来识别特征,并通过多元统计分析预测mirna的靶标。在此基础上,可以使用不同的ai模型和数据挖掘技术来开发更强大的mirna靶标预测模型,以预测mirna-mrna相互作用的复杂结构。这样的模型可以帮助生物学家更好地理解mirna-mrna相互作用,并有助于研究mirna对细胞信号传导和表观遗传学调节的作用。

6、按照数据类型,可以将mirna-lncrna靶标识别算法划分为三类,分别是基于序列的,基于表达数据的,以及基于图的。2018年,zhang等人主要基于序列特征提出了一种序列推导的线性域传播方法(slnpm),利用线性域相似度方法计算lncrna、mirna相似度,并分别构建了lncrna相似网络、mirna相似网络。在网络上实现标签传播过程,对lncrna-mirna对进行评分。2018年huang基于现有许多证据表明,lncrna-mirna的相互作用与它们的相对表达水平密切相关。除了表达谱,他们进一步利用lncrna-function以及mirna-mrna以及mirna、lncrna的序列数据,采用pcc和needleman-wunsch pairwise sequence alignment分别计算出mirna、lncrna的相似矩阵,提出了基于二部图的简单模型eplmi。同年,huang还基于同样假设与数据,融合贝叶斯协同过滤算法提出了gbcf模型。zhang主要基于序列数据提出了线性邻域传播算法slnpm。但这些算法实际上都没有使用图神经网络,huang在2019年提出了基于图卷积和自编码器的端到端的预测模型gclmi。不需要再进行数据预处理,并且进行了负采样的影响实验。zhang在同年实验了基于五种图表示学习算法的集成模型,也取得了不错的效果。2019年you整合了多种与rna相关的信息源来构建一个异构网络模型lmnlmi。首先针对lncrna、mirna分别做了异构网络融合,得到一个新的相似网络。然后,lmnlmi从lncrna特征空间中找到最佳的投影到mirna空间上,使得lncrna的投影特征向量与已知相互作用mirna的特征向量距离相近。在那之后,lmnlmi会根据该lncrna在投影空间中与投影特征向量的几何接近度推断出新的交互作用,对其候选目标进行排序。最后,lmnlmi还与常用在推荐系统中的协同过滤算法进行了比较。2020年fan基于序列和链接数据构建了异构图模型snfhgilmi,假定mirna、lncrna符合高斯分布,运用kl散度计算出高阶特征,再与通过序列计算得出的相似网络进行非线形融合,最后采用异构图推理算法进行预测。h.liu基于逻辑矩阵分解算法提出模型lmfnrlmi,采用了邻域正则化来优化矩阵分解算法。

7、而mirna-mrna也可按照类似准则进行划分。2020年jiang基于矩阵补全算法提出了基于异构网络的预测算法mirtmc。通过needleman-wunsh global alignment algorithm计算mirna基于种子区域的相似矩阵,同时通过smith-waterman local alignmentalgorithm计算基于与3‘-utr互补的mrna的相似矩阵,利用经过生物实验验证的链接数据来融合两个矩阵,将mirna-target预测问题转化成低维矩阵补全的问题。wang基于样本中不同类型的rna是以不同的效率随机接触和结合的自由运动粒子的假设,提出模型miracle。wang主要基于mirna种子区间序列相似度,利用现有的推荐算法构建模型mirtrs进行预测。m.mokhtaridoost等人依据mirna和mrna表达谱的数据,通过线性多元回归模型和低秩矩阵分解来寻找mirna-mrna调控模块。fu等人通过clear-clip实验,在成年雌蚊虫卵成熟过程中生成mirna-mrna相互作用网络。

8、目前的方法主要具有以下缺陷:

9、1.缺乏针对不同靶标的预测能力:当前的mirna靶标预测方法只能静态地分析已有的数据集,而不能根据新的数据进行实时预测,因而往往只能针对lncrna或mrna进行单一的预测。

10、2.预测误差大:mirna靶标预测方法中存在很多隐式因素,这些隐式因素不能完全反映出mirna和mrna之间的相关性,从而导致预测精度不高。

11、3.数据量不足:mirna靶标预测方法所依赖的数据量不足,多数数据集中只包含少数mirna-target pairs,从而限制了系统预测效果的精确性。


技术实现思路

1、要解决的技术问题

2、为了避免现有技术的不足之处,本发明提出一种基于多层异构图的mirna靶标预测方法及系统和应用。

3、技术方案

4、一种基于多层异构图的mirna靶标预测方法,其特征在于步骤如下:

5、步骤1:构建由七种rna网络组成的异质图,其中节点代表三种rna中的一种:mirna、lncrna和mrna,七种rna网络反映了七种不同的边类型;

6、所述七种边类型为:

7、①mirna-lncrna相互作用层代表已知的经验证的lmi,

8、②mirna-mirna序列相似性层测量mirna之间的序列相似性,

9、③mirna-mirna共表达层测量mirna之间的共表达关系,

10、④mirna-mrna相互作用层代表mirna靶向的已知mrna,

11、⑤lncrna-lncrna序列相似性层测量lncrna之间的序列相似性,

12、⑥lncrna-lncrna共表达层测量lncrna之间的表达相似性,

13、⑦lncrna-mrna相互作用层代表lncrna靶向的已知mrna;

14、步骤2:采用基于特定图层的方法来聚合来自不同图层的特征,使用平均池化层进行聚合得到网络层中节点i的k阶特征即得到多层异质图中的每个节点在所在图层中的边嵌入,说明了节点i的第k阶特征取决于节点i以及其邻居的k-1阶特征的平均值:

15、

16、其中σ(·)表示sigmoid函数,w(k)是一个需要在训练过程中学习的权重矩阵,mean(·)代表取平均操作,r代表图层编号即代表第r个网络层,ni,r是一个包含了节点i以及其邻居的节点集合,表示ni,r集合中节点j的(k-1)阶特征,其中1≤k≤k,k表示每个网络层的最大特征聚集级别;

17、步骤3:将节点i的所有图层中的边嵌入记为矩阵ui=(ui,1,…,ui,l),其中ui∈rs×l,即ui是一个s×l的矩阵,s代表节点的边嵌入维度,l代表图层的总数;使用多头自注意力机制来对节点vi的多个图层的边嵌入进行编码得到hi,r[k],为:

18、

19、其中:k代表注意力头的编号(k∈[1,m],m代表总注意力头数),hi,r[k]表示在第r图层中的节点vi的第k头表示;ai,r的计算公式如下:

20、

21、其中r代表图层编号,i代表节点编号,softmax(·)代表softmax函数,和为可学习矩阵,其中m代表总注意力头数,s代表节点的边嵌入维度,da代表变化过程中的中间维度;

22、步骤4:使用投影方法将将边嵌入投影到任务空间,再提取来自各图层的特征并最终整合到一起;

23、具体为:

24、通过以下公式将单个节点的多注意力头的表示从rs映射到最终的任务空间rd中:

25、pi,r[k]=hi,r[k]wp

26、其中wp∈rs×d是要通过训练来学习的矩阵参数,s代表节点经过投影器之前的边嵌入维度,d代表节点经过投影器之后的边嵌入维度,k代表注意力头的编号,pi,r[k]代表经过投影之后节点的第k头表示;

27、选择双线性相互作用(bi-pool)池进行池化操作来融合节点k个注意力头的表示,得到节点i在r层最终的边嵌入ei,r:

28、

29、其中:m表示总的注意力头数,j,k都代表注意力头的编号,pi,r[k]表示在第r图层的节点i的第k头表示,pi,r[j]表示在第r图层的节点i的第j头表示,表示两个向量的元素乘积,wr,pool是要通过训练来学习的矩阵参数;

30、所述节点vi的基础嵌入在所有图层上共享,作为消息传递介质,融合来自各个图层的边嵌入,在各图层间传递;

31、步骤5:通过从高斯分布中随机生成一组数值,可以随机初始化得到每一个节点的基础嵌入,采用下式对基础嵌入和边嵌入ei,r进行融合,得到t阶的融合嵌入

32、

33、代表t-1阶的基础嵌入,代表t阶的边嵌入;

34、通过上一轮的融合嵌入与边嵌入的混合来实现相邻邻域聚合层次上的信息混合,让不同聚合层与层之间输出的平滑,叠加更多的邻域聚合层,捕捉到更长距离信息,得到任一节点i的最终表示oi;

35、步骤6:采用如下所示的余弦距离公式来计算靶标的两节点i、j在预测空间中的距离:

36、

37、其中oi、oj分别代表节点vi、vj的节点最终表示;

38、所述节点代表mirna,或代表mirna的靶标即mrna或者lncrna,如果一个靶标节点和一个mirna节点的距离大,则说明该mrna/lncrna是该mirna的靶标的可能性就相应较大。

39、所述mirna-lncrna相互作用层代表已知的经验证的lmi为:从lncrnasnp2数据库中提取具有至少一个clip序列实验证据的独特mirna-lncrna相互作用,网络层由多个独特的mirna和多个独特的lncrna以及多个独特的小rna lncrna边缘组成。

40、所述mirna-mirna序列相似性层测量mirna之间的序列相似性为:首先从mirbase数据库检索了多个mirna的mirna序列,然后使用biostring软件包中实现的needleman-wunsch算法对每对mirna序列进行全局比对;间隙打开惩罚设置为0.5,间隙打开扩展惩罚设置为0.1;如果两个mirna的同一性得分大于或等于40,则将在这一层中连接,由此产生的网络层由多个mirna和多个mirna-mirna相互作用组成。

41、所述mirna-mirna共表达层测量mirna之间的共表达关系为:从哺乳动物microrna表达图谱中检索了多个mirna的mirna表达谱,这些图谱收集自多名人类受试者的主要器官和细胞类型;皮尔逊相关系数pcc用于测量mirna之间的共表达相似性,两个pcc大于或等于0.3的mirna将在该层中连接,所得到的网络层由多个mirna中的多个mirna共表达mirna对组成。

42、所述mirna-mrna相互作用层代表mirna靶向的已知mrna为:从mirtarbase下载了实验验证的mirna mrna相互作用,在去除微弱的mirna-mrna相互作用后,只有一个或多个来自qrt-pcr、荧光素酶报告物测定、western blot、微阵列、免疫组化和原位杂交等的证据保留了强烈的相互作用。

43、所述lncrna-lncrna序列相似性层测量lncrna之间的序列相似性为:首先从noncode数据库下载多个lncrna的dna序列,并基于序列比对计算lncrna lncrna序列相似性;使用局部对齐算法smith-waterman执行任务;在对齐过程中,开放间隙的惩罚设置为10,沿间隙长度产生的增量成本设置为4;对齐分数大于或等于400的lncrna对将保留在该层中的lncrna-lncrna边;由此产生的网络层由多个lncrna和多个lncrna-lncrna相互作用组成。

44、所述lncrna-lncrna共表达层测量lncrna之间的表达相似性为:从noncode数据库下载多个lncrna的表达谱,选择了0.9的更高pcc阈值,最终该层剩下的多个lncrna中有多个lncrna共表达链接关系。

45、所述lncrna-mrna相互作用层代表mirna靶向的已知mrna为:从rise数据库下载多条实验验证边,从其中得到lncrna-mrna边关系。

46、一种用于所述基于多层异构图的mirna靶标预测方法的系统,其特征在于:包括聚合器、编码器、投影器、融合器和预测器;聚合器的输入端接收七种rna网络组成的异质图,异质图每一层的节点特征通过聚合器得到更新;然后,每一层的节点特征通过编码器去融合其他图层的信息得到再次更新后的节点特征,其中每个节点会有多个头的表示;然后,通过投影器将多个头的表示进行融合,将最终融合后的向量作为节点的边嵌入;将边嵌入和基础嵌入在融合器里融合得到最终的节点表示;最后在预测器里计算余弦距离以进行预测。

47、一种所述基于多层异构图的mirna靶标预测方法以及所述系统,其特征在于:所述方法和所述系统用于mirna靶标的预测。

48、有益效果

49、本发明提出的一种基于多层异构图的mirna靶标预测方法及系统和应用,首先在节点表征上,本方案将节点表示做了解耦,分为边嵌入和基础嵌入,每个图层单独维护所有节点在该图层上的边嵌入。第二在图传播上,因为浅层gcn不能大范围的传播特征,而深层gcn容易导致过平滑,因此我们选用了抽样平均聚合来解决这个问题,从节点邻域中抽取固定的k个节点嵌入做平均来表征中心节点。第三在注意力机制上,本方案在前人的基础上略作创新,对于多头注意力机制不是简单的将向量拼接,而是采用了池化层和全连接层,整体实现上更加符合逻辑,实验时参数调整更为简单。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1