基于跨模态视图关联发现网络的卵巢癌预后预测方法

文档序号:37143333发布日期:2024-02-26 16:56阅读:29来源:国知局
基于跨模态视图关联发现网络的卵巢癌预后预测方法

本发明涉及卵巢癌预后研究与分析领域,尤其涉及基于跨模态视图关联发现网络的卵巢癌预后预测方法。


背景技术:

1、卵巢癌是具有不同临床病理和分子特征的肿瘤,绝大多数患者在确诊时已存在局部或大范围扩散,对患者进行早期诊断和预后预测有助于卵巢癌潜在发病机制的理解和治疗效果的改善。卵巢癌的发生受基因组、转录组以及蛋白组等多个复杂机制的影响,不同类型的组学分析有助于卵巢癌患者存活率的预测。卵巢癌多组学数据具有高维异质性,现有方法在整合多组学数据时未考虑到不同组学数据之间的差异性和互相关性。


技术实现思路

1、本发明的目的在于避免现有技术的不足之处而提供一种基于跨模态视图关联发现网络的卵巢癌预后预测方法。

2、本发明是这样实现的,基于跨模态视图关联发现网络的卵巢癌预后预测方法,包括以下步骤:

3、步骤s1、获取卵巢癌患者的临床数据和多个组学数据,构建多模态特征空间,并对临床数据和多个组学数据进行预处理;

4、步骤s2、预处理后的组学数据利用rlasso进行组学特征选择,使用lasso回归将组学特征稀疏化,结合随机森林对组学特征进行重要性排序,并将随机森林选取的重要组学特征作为lasso回归中丢失组学特征的补充,获得与卵巢癌相关的预后特征;

5、步骤s3、预处理后的临床数据与预后特征进行整合,得到整合组学数据;

6、步骤s4、采用多模态深度神经网络,提取整合组学数据的高级特征表示;

7、步骤s5、采用跨模态视图关联发现网络,对整合组学数据的高级特征表示构建发现张量,探索空间中交叉组学的互相关性,构建卵巢癌预后预测模型;

8、步骤s6、训练卵巢癌预后预测模型;

9、步骤s7、验证并评估卵巢癌预后预测模型的预测能力和有效性。

10、进一步的,多个所述组学数据包括mrna表达、dna甲基化、mirna表达和拷贝数变异,所述临床数据中的临床特征包括年龄、种族、figo分期、卵巢癌亚型、生存时间和生存状态。

11、进一步的,步骤s1中,预处理步骤具体包括:

12、过滤临床数据和多个组学数据中缺失值超过20%的样本和特征;

13、将临床数据和多个组学数据中的样本相交,得到临床数据和多个组学数据的共同样本;

14、将共同样本的组学数据通过方差阈值进行初步筛选,得到预处理后的组学数据;

15、将共同样本的临床数据进行嵌入处理,得到预处理后的临床数据。

16、进一步的,步骤s2中,具体包括:

17、lasso回归进行特征选择的公式如下:

18、

19、

20、其中,i表示第i个组学数据,n表示样本数量,di表示第i个组学数据的组学特征总量,yj表示第j个样本的标签,λ表示正则化参数;

21、使用随机森林构建决策树,对所有组学特征进行重要性排名,根据组学特征重要性标准选择前k个重要组学特征;

22、在组学数据的特征集中,根据特征重要性,输出特征重要性集合其中di表示第i个组学数据的组学特征总数,ix计算公式如下所示:

23、

24、其中,和表示扰动前后的袋外数据,即决策树重采样时未采样到的样本,并统计分类正确的样本数;

25、按重要性降序排列,选择重要性较高的k个特征作为筛选后的特征;

26、将随机森林选择的重要特征与lasso回归中保留的特征共同作为特定组学数据的总特征,即与卵巢癌相关的预后特征。

27、进一步的,步骤s3中,具体包括:

28、将临床数据中的年龄、种族、卵巢癌亚型、figo分期这4个临床特征分别与经过特征选择的组学特征,即预后特征,进行拼接,得到整合组学数据,作为多模态深度神经网络的输入,其中,一个深度神经网络输入的特征如下所示:

29、

30、其中,xi表示第i个组学特征与临床特征融合后的总特征,表示第i个组学数据的第p个组学特征,i=1,2,3,4,c1-c4表示临床特征。

31、进一步的,步骤s4中,具体包括:

32、采用多模态深度神经网络,从多个通道并行学习整合组学数据,每个通道对应一个深度神经网络,每个通道独立学习并提取不同类型整合组学数据的高级特征表示;

33、第i个整合组学数据具有l个隐藏层的深度神经网络表示如下:

34、

35、

36、

37、其中,y表示样本标签,θ表示所有神经网络的参数,zk(k=1,2,…,l)均是通过隐藏神经元处理后的结果,b是偏置向量;z和w取决于输入维度的大小,隐藏神经元的个数以及类别的数量;σ(·)是激活函数leakyrelu,g(·)是softmax函数,将输出层的值转换为预测概率;

38、对于第i个类型的整合组学数据的预测过程可以写为:

39、

40、其中,使用表示中的第j行,这是第i个整合组学数据的第j个训练样本的预测标签分布,即整合组学数据的高级特征表示。

41、进一步的,步骤s5,具体包括:

42、采用跨模态视图关联发现网络对每个多组学数据的预测标签分布构建跨组学发现张量,通过跨组学发现张量充分学习不同组学数据之间的互相关性;

43、其中,对mrna表达、dna甲基化、mirna表达和拷贝数变异的相关性进行建模,令pj∈r2×2×2×2表示第j个样本的跨组学发现张量,计算公式如下:

44、

45、表示的第i项,使用pj挖掘不同组学数据预测标签分布之间的关系,充分学习它们之间的互相关性;

46、将跨组学发现张量pj∈r2×2×2×2重塑为长度是24的一维向量pj∈r16,pj表示融合后的标签特征,使用全连接神经网络学习重塑后的跨组学发现张量,即融合后的标签特征,获得卵巢癌预后预测的最终结果;

47、其中,将pj输入全连接神经网络中获得卵巢癌最终的预后预测结果y′j;

48、当全连接网络由2个隐藏层组成,每个层数均为100时,获得最好的预测结果,公式如下:

49、macodn(pj)=σ2(w2(σ1(w1pj+b1))+b2)

50、y′j=macodn(pj)

51、其中,σ1和σ2表示激活函数分别为leakyrelu和softmax,w表示权重矩阵,b表示偏置向量,y′j∈r2。

52、进一步的,步骤s6中,训练卵巢癌预后预测模型,具体包括:

53、采用交叉熵作为代价函数,以最小化训练多模态神经网络误差:

54、

55、

56、其中,v表示组学类型的数量,n表示样本数量,表示交叉熵损失函数,yj∈r2是第j个样本的one-hot编码的标签;

57、跨模态视图关联发现网络使用交叉熵损失函数进行训练,即:

58、

59、其中,macodn(pj)∈r2,v表示组学数据的类型总数,全连接网络中的激活函数分别为leakyrelu和softmax,最终输出维度为2的预测结果;

60、多模态深度神经网络和跨模态视图关联发现网络总的损失函数如下所示:

61、

62、其中,β是特定组学的预测损失与最终预测损失之间的权衡参数,设置β=1;

63、采用adam优化器对目标函数进行优化,学习率和批处理分别设置为0.01和32,采用dropout技术和权重衰减进一步防止模型过度拟合。

64、进一步的,步骤s7中,具体包括:

65、在训练集和测试集比例为7:3的相同基准训练数据集下比较卵巢癌预后预测模型和其他预测方法的性能;

66、采用geo数据集独立验证的方式,进一步比较卵巢癌预后预测模型与其他模型的预测能力;

67、在tcga数据集上,对识别出的重要基因采用生存分析进一步验证卵巢癌预后预测模型的有效性;

68、在tcga数据集上,对识别出的重要基因进行go/kegg富集分析评估卵巢癌预后预测模型的能力。

69、区别于现有技术,本发明所述的基于跨模态视图关联发现网络的卵巢癌预后预测方法,共同构建多模态特征空间,引入随机森林与lasso回归结合的特征选择方法rlasso,去除冗余和带有噪声的特征,充分选择与卵巢癌预后相关的基因;引入临床特征,将其分别与mrna表达、dna甲基化、mirna表达和拷贝数变异进行整合;采用多模态深度神经网络并行学习特定组学数据的高级特征表示,进行卵巢癌初始预后预测;提出使用跨模态视图关联网络对初始预测结果构建发现张量,探索空间中交叉组学的互相关性,实现最终的卵巢癌预后预测。本发明能够有效解决现有方法忽略不同组学数据之间的差异性和互相关性的问题,更准确地预测了卵巢癌患者的预后,对患者进行生存分析并确定后续治疗方案,揭示了卵巢癌潜在的发病机制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1