一种多视图的circRNA与miRNA关系预测方法及系统

文档序号:37943699发布日期:2024-05-11 00:24阅读:19来源:国知局
一种多视图的circRNA与miRNA关系预测方法及系统

本发明涉及生物信息学和计算生物学,具体为一种多视图的circrna与mirna关系预测方法及系统。


背景技术:

1、在生物学和生物信息学的研究中,环状rna(circrna)和微小rna(mirna)是两类核心的非编码rna分子。它们在生命过程中起着重要的作用,并在基因表达调控、生物分子交互、疾病发生以及治疗等方面展示出了极大的潜力。特别是在这两者相互作用关系的研究中,对理解生物体内的复杂网络及其在疾病中的作用都具有重要意义。

2、circrna是一类特殊的非编码rna,其结构以环形为特征,不同于传统的线性rna分子。这种独特的环状结构使得它们在细胞中的稳定性远高于线性rna,从而在许多生物过程中发挥重要作用。研究人员已经发现,circrna在基因表达的调控、细胞生命周期、免疫反应等多种生物过程中起到关键作用。近年来的研究还进一步揭示了circrna在诸多疾病中,包括各类癌症、神经退行性疾病和心脏病等,在疾病的发生、发展和治疗中的重要性。mirna是一类长度约为22个核苷酸的小rna分子,它们通过与mrna的3'非翻译区域互补配对,导致mrna的降解或翻译抑制,从而调控基因的表达。自从1993年在线虫中首次发现mirna以来,人们已经发现了数千种mirna,并逐渐揭示出它们在生物过程中的作用,包括细胞增殖、分化、凋亡和免疫反应等。另外,mirna也在许多疾病中,如各种癌症、心脏病和神经退行性疾病等,发挥着重要作用。

3、在这两类rna分子中,circrna和mirna之间的相互作用关系很重要。其中,最重要的一种相互作用就是circrna可以作为mirna的“海绵”来吸附mirna,防止mirna与其目标mrna结合,从而调控基因表达。这种相互作用关系在许多生物过程中都起到了关键作用,包括细胞增殖、分化、凋亡等。因此,预测和研究circrna与mirna的相互作用关系,对于理解生物过程和疾病的发生及发展具有重要的科研价值。然而,预测circrna与mirna之间的相互作用关系是一项极具挑战性的任务,需要处理大量的生物数据,并理解复杂的生物网络。目前的预测方法主要是基于生物信息学和机器学习的方法,但这些方法常常忽略了生物网络的结构信息,可能会导致预测的准确性不足。因此,开发新的预测方法,以提高预测的准确性和理解生物过程的复杂性,是当前这一领域的重要研究方向。


技术实现思路

1、鉴于上述存在的问题,提出了本发明。

2、因此,本发明解决的技术问题是:目前的预测方法主要是基于生物信息学和机器学习的方法,但这些方法常常忽略了生物网络的结构信息,可能会导致预测的准确性不足。

3、为解决上述技术问题,本发明提供如下技术方案:一种多视图的circrna与mirna关系预测方法,包括:

4、采集云服务端的平台参数;

5、将所述平台参数通过粒子群算法得到初步优解;

6、将所述初步优解作为遗传算法的初始种群进行计算,通过适应度函数实现种群优化并判断是否达到停止条件,从而得到最优结果,实现负载平衡。

7、从数据库中收集circrna和mirna数据;

8、构建正负样本数据集,从序列和网络层面构建表征特征;

9、将特征数据融合为二维数据结构,得到序列特征和图嵌入特征的矩阵;

10、基于特征转化矩阵,构建四通道的卷积神经网络,分析预测circrna和mirna的关系。

11、作为本发明所述的多视图的circrna与mirna关系预测方法的一种优选方案,其中:所述构建正负样本数据集包括,从circnet和circbank两个数据库,选择强相关关联的circrna-mirna对作为正样本,弱相关性的circrna-mirna对作为负样本;构建cmi-14500和cmi-9600数据集。

12、作为本发明所述的多视图的circrna与mirna关系预测方法的一种优选方案,其中:所述负样本包括,获取数据集中所有已知的circrna和mirna,生成circrna-mirna对,将所有的circrna和所有的mirna进行配对,生成所有可能的circrna-mirna对,移除所有已知的正样本对;

13、为判断负样本对,使用生物信息学的预测工具miranda和targetscan预测circrna和mirna是否存在交互作用;miranda使用动态规划算法来寻找mirna序列与mrna序列之间的最佳匹配,并基于互补碱基的数量和类型、序列中的错配和间隙、mirna的种子区域与mrna的互补性三个因素评分,判断circrna-mirna是否存在相关关系;targetscan使用mirna序列与mrna的3’utr序列进行比对,关注mirna的种子区域与mrna中的3’utr中的互补序列的结合情况,通过评分基于种子匹配的强度、结合位点的保守性判断circrna-mirna是否存在相关关系;若miranda和targetscan同时判断circrna与mirna存在相关关系,则该样本对被判断为负样本对。

14、作为本发明所述的多视图的circrna与mirna关系预测方法的一种优选方案,其中:所述构建表征特征包括,从circrna和mirna的序列层面中提取序列特征;提取的特征包括序列长度、gc含量、核苷酸频率分布;

15、通过boruta特征选择方法筛选最为高效的特征,做出假设,若一个特征对预测目标非常重要,那么在数据中加入该特征的随机扰动后,该特征的重要性应该仍然高于这些随机特征;通过迭代地测试特征的重要性来选择最佳特征子集;通过构建基于circrna与mirna的相关关系图,图中节点表示circrna和mirna,边表示节点间的相关关系;采用图嵌入方法graphsage,为每个节点生成一个向量表示;graphsage算法通过采样和聚合节点的邻居信息来学习节点的嵌入,通过多个聚合层来实现。

16、作为本发明所述的多视图的circrna与mirna关系预测方法的一种优选方案,其中:所述聚合包括,初始化节点嵌入,对于图中的每个节点,随机初始化其嵌入表示采样邻居,对于每个节点v,从其邻居n(v)中随机采样固定数量的邻居节点;聚合邻居信息,对于采样得到的邻居节点,使用均值聚合函数来聚合它们的嵌入表示,均值聚合的公式表示为:

17、

18、其中,s表示采样得到的邻居节点集合,w表示可学习的权重;b表示可学习的偏置,σ表示relu激活函数;更新节点嵌入,将聚合后的邻居信息与当前节点的嵌入表示相结合,生成新的节点嵌入表示l表示当前层,l+1为l的下一层;s表示节点v的所有邻居节点,u表示邻居节点中的一个节点,u属于集合s;

19、迭代聚合,重复采样到嵌入的步骤,进行多轮聚合,每一轮都可以采样更多的邻居节点,从而融合来自更远邻居的信息;

20、输出最终嵌入,经过多轮聚合后,每个节点的最终嵌入表示将是最后一轮聚合的输出,其中l是聚合的轮数;通过合并序列特征向量m和节点图嵌入特征n,生成合并后的向量[m,n],用于circrna和mirna的向量表征。

21、作为本发明所述的多视图的circrna与mirna关系预测方法的一种优选方案,其中:所述融合为二维数据结构包括,将circrna和mirna的序列特征,通过二维直方图的方式转化为2维矩阵;将circrna和mirna的图嵌入表示通过二维直方图的方式转化为2维矩阵;通过二维直方图的转换模式,将circrna和mirna特征表示为一种联合分布的矩阵,二维直方图将数据集的每个维度划分为一系列区间;

22、x维度数据划分m个区间为[x1,x2],[x2,x3],...,[xm,xm+1],y维度数据划分n个区间为[y1,y2],[y2,y3],...,[yn,yn+1],并计算落入每个区间内的数据点的数量,区间内的数据点数量表示为:

23、

24、其中,h(i,j)表示二维直方图在区间(i,j)中的高度,表示该区间组合内的数据点数或密度;n表示数据集中的总点数;i(x,y)表示指示函数,当点(x,y)落在区间(i,j)内时为1,否则为0;x∈[xi,xi+1]表示x属于区间[xi,xi+1],y∈[yi,yi+1]表示y属于区间y∈[yi,yi+1];

25、在二维平面上,使用每个区间内的数据点数量来绘制矩形,其中矩形的高度表示该区间内的数据点数量,实现circrna和mirna特征向量的矩阵表示;将circrna和mirna的序列特征,通过矩阵外积运算构建为2维的矩阵,对circrna序列一维特征a=[a1,a2,...,an]和mirna特征序列一维特征b=[b1,b2,...,bm],进行外积,表示为:

26、

27、circrna和mirna的图嵌入特征,通过矩阵外积运算构建为2维的矩阵,通过上述数据融合将得到4个2维矩阵,circrna和mirna的序列特征构建的直方图矩阵,circrna和mirna的序列特征构建的外积矩阵,circrna和mirna的图嵌入特征构建的直方图矩阵,circrna和mirna的图嵌入特征构建的外积矩阵。

28、作为本发明所述的多视图的circrna与mirna关系预测方法的一种优选方案,其中:所述构建四通道的卷积神经网络包括,构建的网络的通道分别对应circrna和mirna的序列特征转化的矩阵数据和circrna和mirna图嵌入特征转化的矩阵数据;对卷积神经网络添加多视图的注意力机制,用于细致扫描数据特性;将基于序列的特征和基于图嵌入的特征结合在一起,完成对circrna与mirna关系的分析和预测。

29、一种采用本发明任一所述方法的多视图的circrna与mirna关系预测系统,其中:

30、数据采集模块,负责数据库中收集circrna和mirna的相关数据;

31、数据处理模块,对收集到的数据进行预处理和特征提取,包括构建正负样本数据集,从序列和网络层面提取表征特征;

32、特征融合模块,将序列特征和图嵌入特征融合为二维数据结构;包括将特征通过二维直方图和外积运算转化为2维矩阵,并输入卷积神经网络处理;

33、卷积神经网络模块,基于融合后的特征数据,构建并训练一个四通道的卷积神经网络模型,用于分析和预测circrna与mirna之间的关系。

34、一种计算机设备,包括:存储器和处理器;所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现本发明中任一项所述的方法的步骤。

35、一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现本发明中任一项所述的方法的步骤。

36、本发明的有益效果:本发明提供的多视图的circrna与mirna关系预测方法,本发明以序列特征、图嵌入、卷积深度网络和注意力机制为核心,提供了一种精准、高效、可解释性和广泛应用前景的新方法,用于准确预测circrna与mirna的关系,其有益效果包括如下。增加数据集的丰富性和多样性,通过从多个数据库收集正负样本,并通过生物信息学工具进行验证,本专利构建了丰富多样的数据集。这种数据集的构建方式有助于提高模型的泛化能力,使模型能够更好地处理现实世界的复杂情况。特征的全面提取和融合,本专利在序列层面和图嵌入层面进行特征提取,从而捕获到circrna和mirna的全面信息。通过特征选择方法,我们可以选择最有效的特征。然后,通过数据融合技术,将不同的特征融合在一起,形成一个全面的特征表示,这有助于提高模型的性能。灵活的模型设计,本专利设计了一个四通道卷积神经网络,该网络能够处理两种不同的特征表示。此外,模型还添加了注意力机制,可以更细致地捕获数据的特性,从而提高模型的预测精度。应用广泛,由于本专利提出的方法基于通用的神经网络和图嵌入技术,因此,它不仅可以应用于circrna和mirna的关联预测,还可以应用于其他类型的生物信息学预测任务,具有广泛的应用前景。提高预测准确性,通过对序列特征和图嵌入特征的综合利用,以及注意力机制的引入,能够提高circrna和mirna交互关系的预测准确性,这对于生物医学研究具有重要的意义。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1