一种生存期预测模型的生成方法及装置、存储介质与流程

文档序号:27905143发布日期:2021-12-11 04:09阅读:180来源:国知局
一种生存期预测模型的生成方法及装置、存储介质与流程

1.本技术涉及数字医疗技术领域,尤其是涉及到一种生存期预测模型的生成方法及装置、存储介质、计算机设备。


背景技术:

2.癌症的发生和发展实际上与患者基因的变异情况息息相关。例如,变异基因的类型不同,对癌症患者的各方面身体机能的影响也是不同的,与此同时对于癌症患者生存期的影响也不同。因此,可以通过研究基因变异情况来预测癌症患者的生存期。
3.现有技术中利用snp数据对癌症患者的生存期进行预测,但是应用过程中发现利用这种方法预测癌症患者生存期时,预测结果准确性不高。因此,如何提升癌症患者生存期预测的准确性,成为了本领域亟待解决的技术问题。


技术实现要素:

4.有鉴于此,本技术提供了一种生存期预测模型的生成方法及装置、存储介质、计算机设备,能够更系统的了解目标样本的基因信息,充分的利用不同snp以及不同基因之间的关系进行癌症患者生存期的预测,提升癌症患者生存期预测的准确性。
5.根据本技术的一个方面,提供了一种生存期预测模型的生成方法,包括:
6.获取目标样本的样本数据,其中,所述样本数据包括每个所述目标样本对应的snp数据、基因表达数据以及真实生存期数据;
7.获取预设基因数据库中各基因之间的基因调控关系,并依据所述基因调控关系生成基因调控网络;
8.基于所述目标样本的样本数据以及所述基因调控网络,构建目标异构图;
9.依据所述目标异构图,对初始预测模型进行训练,以得到生存期预测模型。
10.可选地,所述目标样本包括训练样本以及测试样本;所述依据所述目标异构图,对初始预测模型进行训练,以得到生存期预测模型包括:
11.将所述目标异构图输入至初始预测模型的特征识别层中,得到目标样本节点特征,其中,所述目标样本节点特征包括训练样本节点特征;
12.将所述训练样本节点特征输入至所述初始预测模型的全连接层中,得到训练样本生存期预测特征,并通过预设激活函数识别所述训练样本生存期预测特征,得到与每个训练样本对应的第一生存期预测数据;
13.基于所述第一生存期预测数据以及与所述训练样本对应的真实生存期数据,通过预设交叉熵函数计算模型损失值;
14.依据所述模型损失值调整所述初始预测模型的模型参数,通过调整后的初始预测模型对应的全连接层以及所述预设激活函数,得到与每个训练样本对应的第二生存期预测数据,并再次计算所述模型损失值;
15.当所述模型损失值小于预设损失阈值时,得到生存期预测模型。
16.可选地,所述基于所述目标样本的样本数据以及所述基因调控网络,构建目标异构图包括:
17.依据每个所述目标样本以及对应的snp,构建目标异构图的第二特征边,并基于所述snp的变异类型确定所述第二特征边对应的权重;
18.利用预设注释法以及所述snp数据,确定所述snp对应的所述基因调控网络中的基因,依据所述snp以及所述基因构建所述目标异构图的第三特征边,并基于所述snp与所述基因之间的位置关系,确定所述第三特征边对应的权重;
19.将所述基因调控网络中的任一基因确定为目标节点基因,查找与所述目标节点基因对应的所述基因表达数据,并分别计算每个所述目标样本对应的基因表达数据的相对表达比值;当所述相对表达比值大于或等于所述第一表达阈值,或者所述相对表达比值小于或等于所述第二表达阈值时,依据所述目标节点基因以及所述目标样本构建所述目标异构图的第四特征边,并将所述相对表达比值作为所述第四特征边对应的权重。
20.可选地,所述分别计算每个所述目标样本对应的基因表达数据的相对表达比值包括:
21.基于所述目标节点基因对应的所述基因表达数据,计算所述目标节点基因在所述目标样本中的平均表达数据,并分别计算每个所述目标样本对应的基因表达数据与所述平均表达数据之间的比值,得到与每个所述目标样本对应的相对表达比值。
22.可选地,所述利用预设注释法以及所述snp数据,确定所述snp对应的所述基因调控网络中的基因之前,所述方法还包括:
23.对不同所述目标样本的样本数据中的所述snp数据进行去重处理,以去除重复snp数据。
24.可选地,所述获取预设基因数据库中各基因之间的基因调控关系,并依据所述基因调控关系生成基因调控网络包括:
25.获取预设基因数据库中各基因对应的蛋白之间的关联关系数据,当所述关联关系数据大于预设关联阈值时,确定所述基因之间存在调控关系,并构建所述基因之间的第一特征边,将所述关联关系数据作为所述第一特征边对应的权重,生成所述基因调控网络。
26.可选地,所述得到生存期预测模型之后,所述方法还包括:
27.将所述目标异构图输入至所述生存期预测模型的特征识别层中,得到目标样本节点特征,其中,所述目标样本节点特征包括测试样本节点特征;
28.基于所述测试样本节点特征以及所述测试样本对应的真实生存期数据,计算所述生存期预测模型的生存期预测偏差值;
29.若所述生存期预测偏差值满足预设偏差值条件,则确定所述生存期预测模型训练成功。
30.根据本技术的另一方面,提供了一种生存期预测模型的生成装置,包括:
31.样本数据获取模块,用于获取目标样本的样本数据,其中,所述样本数据包括每个所述目标样本对应的snp数据、基因表达数据以及真实生存期数据;
32.基因调控网络生成模块,用于获取预设基因数据库中各基因之间的基因调控关系,并依据所述基因调控关系生成基因调控网络;
33.异构图构建模块,用于基于所述目标样本的样本数据以及所述基因调控网络,构
建目标异构图;
34.模型构建模块,用于依据所述目标异构图,对初始预测模型进行训练,以得到生存期预测模型。
35.可选地,所述目标样本包括训练样本以及测试样本;所述模型构建模块包括:
36.节点特征获取单元,用于将所述目标异构图输入至初始预测模型的特征识别层中,得到目标样本节点特征,其中,所述目标样本节点特征包括训练样本节点特征;
37.预测数据计算单元,用于将所述训练样本节点特征输入至所述初始预测模型的全连接层中,得到训练样本生存期预测特征,并通过预设激活函数识别所述训练样本生存期预测特征,得到与每个训练样本对应的第一生存期预测数据;
38.模型损失值计算单元,用于基于所述第一生存期预测数据以及与所述训练样本对应的真实生存期数据,通过预设交叉熵函数计算模型损失值;
39.模型调整单元,用于依据所述模型损失值调整所述初始预测模型的模型参数,通过调整后的初始预测模型对应的全连接层以及所述预设激活函数,得到与每个训练样本对应的第二生存期预测数据,并再次计算所述模型损失值;
40.模型确定单元,用于当所述模型损失值小于预设损失阈值时,得到生存期预测模型。
41.可选地,所述异构图构建模块包括:
42.第二特征边构建单元,用于依据每个所述目标样本以及对应的snp,构建目标异构图的第二特征边,并基于所述snp的变异类型确定所述第二特征边对应的权重;
43.第三特征边构建单元,用于利用预设注释法以及所述snp数据,确定所述snp对应的所述基因调控网络中的基因,依据所述snp以及所述基因构建所述目标异构图的第三特征边,并基于所述snp与所述基因之间的位置关系,确定所述第三特征边对应的权重;
44.第四特征边构建单元,用于将所述基因调控网络中的任一基因确定为目标节点基因,查找与所述目标节点基因对应的所述基因表达数据,并分别计算每个所述目标样本对应的基因表达数据的相对表达比值;当所述相对表达比值大于或等于所述第一表达阈值,或者所述相对表达比值小于或等于所述第二表达阈值时,依据所述目标节点基因以及所述目标样本构建所述目标异构图的第四特征边,并将所述相对表达比值作为所述第四特征边对应的权重。
45.可选地,所述第四特征边构建单元用于:
46.基于所述目标节点基因对应的所述基因表达数据,计算所述目标节点基因在所述目标样本中的平均表达数据,并分别计算每个所述目标样本对应的基因表达数据与所述平均表达数据之间的比值,得到与每个所述目标样本对应的相对表达比值。
47.可选地,所述装置还包括:
48.去重模块,用于所述利用预设注释法以及所述snp数据,确定所述snp对应的所述基因调控网络中的基因之前,对不同所述目标样本的样本数据中的所述snp数据进行去重处理,以去除重复snp数据。
49.可选地,所述基因调控网络生成模块用于:
50.获取预设基因数据库中各基因对应的蛋白之间的关联关系数据,当所述关联关系数据大于预设关联阈值时,确定所述基因之间存在调控关系,并构建所述基因之间的第一
特征边,将所述关联关系数据作为所述第一特征边对应的权重,生成所述基因调控网络。
51.可选地,所述装置还包括:
52.测试模块,用于所述得到生存期预测模型之后,将所述目标异构图输入至所述生存期预测模型的特征识别层中,得到目标样本节点特征,其中,所述目标样本节点特征包括测试样本节点特征;
53.预测偏差计算模块,用于基于所述测试样本节点特征以及所述测试样本对应的真实生存期数据,计算所述生存期预测模型的生存期预测偏差值;
54.所述测试模块,还用于若所述生存期预测偏差值满足预设偏差值条件,则确定所述生存期预测模型训练成功。
55.依据本技术又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述生存期预测模型的生成方法。
56.依据本技术再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述生存期预测模型的生成方法。
57.借由上述技术方案,本技术提供的一种生存期预测模型的生成方法及装置、存储介质、计算机设备,获取目标样本的snp数据、基因表达数据以及真实生存期数据等样本数据,并从预设基因数据库中获取人体不同基因相互之间的基因调控关系,生成对应的基因调控网络,接着,通过获取的目标样本对应的snp数据、基因表达数据、真实生存期数据等样本数据以及生成的基因调控网络,构建目标异构图,之后通过构建的目标异构图,训练初始预测模型,通过对初始预测模型中的相关参数进行迭代优化,最终得到生存期预测模型。本技术实施例通过构建包含患者、基因、snp节点的目标异构图,并利用图神经网络学习目标异构图中各个节点的邻居信息,能够更系统的了解目标样本的基因信息,充分的利用不同snp以及不同基因之间的关系进行癌症患者生存期的预测,提升癌症患者生存期预测的准确性。
58.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
59.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
60.图1示出了本技术实施例提供的一种生存期预测模型的生成方法的流程示意图;
61.图2示出了本技术实施例提供的一种生存期预测模型的生成装置的结构示意图。
具体实施方式
62.下文中将参考附图并结合实施例来详细说明本技术。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
63.在本实施例中提供了一种生存期预测模型的生成方法,如图1所示,该方法包括:
64.步骤101,获取目标样本的样本数据,其中,所述样本数据包括每个所述目标样本
对应的snp数据、基因表达数据以及真实生存期数据;
65.本发明实施例主要适用于对癌症患者生存期预测的场景,本技术实施例提供的生存期预测模型的生成方法,具体可以应用于服务器一侧。其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。本技术实施例中,获取目标样本的snp(single nucleotide polymorphism,单核苷酸变异)数据、基因表达数据以及真实生存期数据等样本数据。其中,snp数据主要是指在基因组水平上由单个核苷酸的变异所引起的dna序列多态性。除了snp数据,基因表达数据也能够反映出基因存在的异常。基因表达数据反映的是直接或间接测量得到的基因转录产物mrna在细胞中的丰度,这些数据可以用于分析哪些基因的表达发生了改变、基因之间有何相关性以及在不同条件下基因的活动是如何受影响的,基因表达数据可以受到snp的影响。目标样本对应的真实生存期数据具体可以利用不同的数值表示,例如,将癌症患者的生存期分为两类,第一类是长生存期(5年以上),对应的真实生存期数据可以是1;第二类是短生存期(5年以下),对应的真实生存期数据可以是0。此外,有些目标样本可能并不存在snp,因而不具备对应的snp数据,在获取目标样本数据时可以直接通过数据0来进行填充。
66.步骤102,获取预设基因数据库中各基因之间的基因调控关系,并依据所述基因调控关系生成基因调控网络;
67.在该实施例中,从预设基因数据库中获取人体不同基因相互之间的基因调控关系,并将有调控关系的基因之间形成一条边,以此类推,从而生成对应的基因调控网络。在这里,预设基因数据库可以是dip(database of interacting proteins)数据库、bind(biomolecular interaction network database)数据库等。
68.步骤103,基于所述目标样本的样本数据以及所述基因调控网络,构建目标异构图;
69.在该实施例中,通过获取的目标样本对应的snp数据、基因表达数据、真实生存期数据等样本数据,以及生成的基因调控网络,构建目标异构图。具体地,可以以snp、基因调控网络中的基因和目标样本作为目标异构图中的节点构建目标异构图。
70.步骤104,依据所述目标异构图,对初始预测模型进行训练,以得到生存期预测模型。
71.在该实施例中,通过构建的目标异构图,训练初始预测模型,通过对初始预测模型中的相关参数进行迭代优化,最终得到生存期预测模型。
72.通过应用本实施例的技术方案,获取目标样本的snp数据、基因表达数据以及真实生存期数据等样本数据,并从预设基因数据库中获取人体不同基因相互之间的基因调控关系,生成对应的基因调控网络,接着,通过获取的目标样本对应的snp数据、基因表达数据、真实生存期数据等样本数据以及生成的基因调控网络,构建目标异构图,之后通过构建的目标异构图,训练初始预测模型,通过对初始预测模型中的相关参数进行迭代优化,最终得到生存期预测模型。本技术实施例通过构建包含患者、基因、snp节点的目标异构图,并利用图神经网络学习目标异构图中各个节点的邻居信息,能够更系统的了解目标样本的基因信息,充分的利用不同snp以及不同基因之间的关系进行癌症患者生存期的预测,提升癌症患
者生存期预测的准确性。
73.进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种生存期预测模型的生成方法,该方法包括:
74.步骤201,获取目标样本的样本数据,其中,所述样本数据包括每个所述目标样本对应的snp数据、基因表达数据以及真实生存期数据;
75.步骤202,获取预设基因数据库中各基因对应的蛋白之间的关联关系数据,当所述关联关系数据大于预设关联阈值时,确定所述基因之间存在调控关系,并构建所述基因之间的第一特征边,将所述关联关系数据作为所述第一特征边对应的权重,生成所述基因调控网络;
76.在该实施例中,获取目标样本的snp数据、基因表达数据以及真实生存期数据等样本数据时,还可以构建基因调控网络。具体地,首先从预设基因数据库中获取蛋白和蛋白之间的关联关系数据,关联关系数据可以反映出不同蛋白之间的相似程度,当获得的关联关系数据比预设关联阈值大时,说明这两个蛋白之间的相似度较高,那么确定这两个蛋白对应的基因之间存在调控关系,并将这两个蛋白对应的基因之间构建出一条边,这条边可以被称作第一特征边。例如,如果预设基因数据库中的基因a对应的蛋白a’与基因b对应的蛋白b’之间的关联关系数据大于预设关联阈值时,那么默认基因a和基因b之间存在调控关系,基因a和基因b之间可以形成基因调控网络中的一条边。此外,还可以将对应的关联关系数据作为第一特征边的权重标记在基因调控网络中。
77.步骤203,基于所述目标样本的样本数据以及所述基因调控网络,构建目标异构图;
78.步骤204,将所述目标异构图输入至初始预测模型的特征识别层中,得到目标样本节点特征,其中,所述目标样本节点特征包括训练样本节点特征;
79.在该实施例中,所述目标样本包括训练样本以及测试样本。通过目标样本对应的样本数据以及构建好的基因调控网络,进一步构建目标异构图,其中,目标异构图中可以包括目标样本节点、snp节点以及基因节点。接着,将目标异构图输入到初始预测模型的特征识别层中,通过特征识别层可以得到不同节点对应的节点特征。由于构建目标异构图时的目标样本包括训练样本和测试样本,因而得到的目标样本特征具体可以包括训练样本节点特征。
80.步骤205,将所述训练样本节点特征输入至所述初始预测模型的全连接层中,得到训练样本生存期预测特征,并通过预设激活函数识别所述训练样本生存期预测特征,得到与每个训练样本对应的第一生存期预测数据;
81.在该实施例中,初始预测模型除了包括特征识别层,还可以包括全连接层。得到训练样本节点特征后,可以将训练样本节点特征进一步输入到初始预测模型的全连接层中,进而得到对应的训练样本生存期预测特征,接着,通过预先设置的激活函数对得到的训练样本生存期预测特征进行识别,得到对应的第一生存期预测数据。其中,预先设置的激活函数可以是softmax函数,通过softmax函数可以计算每个训练样本对应不同生存期的概率,即第一生存期预测数据。例如,针对训练样本1,假如softmax函数需要做的工作是两分类工作,对应的生存期可以是5年以上、5年以下,那么通过softmax函数识别训练样本的训练样本生存期预测特征后,得到的第一生存期预测数据可以是训练样本1对应生存期为5年以
上、5年以下的概率,这些概率相加的总和为1。本技术实施例通过预设激活函数,可以将训练样本对应的不同生存期的预测结果通过概率的形式显示出来,显示更加直观,有利于帮助医生进行结果判断。
82.步骤206,基于所述第一生存期预测数据以及与所述训练样本对应的真实生存期数据,通过预设交叉熵函数计算模型损失值;
83.在该实施例中,得到每个训练样本对应的第一生存期预测数据后,利用预设交叉熵函数、每个训练样本的第一生存期预测数据以及对应的真实生存期数据,计算得到初始预测模型的模型损失值。
84.步骤207,依据所述模型损失值调整所述初始预测模型的模型参数,通过调整后的初始预测模型对应的全连接层以及所述预设激活函数,得到与每个训练样本对应的第二生存期预测数据,并再次计算所述模型损失值;当所述模型损失值小于预设损失阈值时,得到生存期预测模型;
85.在该实施例中,可以利用模型损失值对初始预测模型中预先设置的模型参数进行调整,得到调整后的初始预测模型,并通过调整后的初始预测模型的全连接层,以及同样的预设激活函数,计算每个训练样本对应的第二生存期预测数据。之后以计算得到的第二生存期预测数据和该训练样本的真实生存期数据为基础,再次计算模型损失值。一直重复上面调整初始预测模型中模型参数的过程,直到计算得到的模型损失值小于预先设置的损失阈值时,说明模型损失已经达到了可接受的程度,此时初始预测模型对应的模型参数可以作为最终的模型参数,对应的初始预测模型即生存期预测模型。本技术实施例通过计算模型损失值,并通过模型损失值不断调整模型参数,使得最终的生存期预测模型的输出结果更加贴近实际,有利于提升后续预测的准确性。
86.步骤208,将所述目标异构图输入至所述生存期预测模型的特征识别层中,得到目标样本节点特征,其中,所述目标样本节点特征包括测试样本节点特征;基于所述测试样本节点特征以及所述测试样本对应的真实生存期数据,计算所述生存期预测模型的生存期预测偏差值;若所述生存期预测偏差值满足预设偏差值条件,则确定所述生存期预测模型训练成功。
87.在该实施例中,生存期预测模型构建完毕后,还可以利用测试样本对构建好的生存期预测模型的预测性能进行测试。具体地,可以将构建的目标异构图输入到生存期预测模型的特征识别层中,得到每个节点对应的节点特征,其中包括目标样本节点特征。对于目标样本节点特征来说,由于目标样本中包括测试样本,所以目标样本节点特征可以包括测试样本节点特征,接着将测试样本节点特征输入到生存期预测模型的全连接层中,得到测试样本生存期预测特征,并通过预设激活函数识别所述测试样本生存期预测特征,得到与每个测试样本对应的生存期测试数据,之后以生存期测试数据以及与测试样本对应的真实生存期数据为基础,通过预设交叉熵函数计算生存期预测模型的生存期预测偏差值,并进一步判断生存期预测偏差值是否满足预先设置的偏差值条件,如果满足,说明生存期预测模型具有较好的生存期预测效果,模型训练成功。
88.在本技术实施例中,可选地,步骤203中所述“基于所述目标样本的样本数据以及所述基因调控网络,构建目标异构图”包括:依据每个所述目标样本以及对应的snp,构建目标异构图的第二特征边,并基于所述snp的变异类型确定所述第二特征边对应的权重;利用
预设注释法以及所述snp数据,确定所述snp对应的所述基因调控网络中的基因,依据所述snp以及所述基因构建所述目标异构图的第三特征边,并基于所述snp与所述基因之间的位置关系,确定所述第三特征边对应的权重;将所述基因调控网络中的任一基因确定为目标节点基因,查找与所述目标节点基因对应的所述基因表达数据,并分别计算每个所述目标样本对应的基因表达数据的相对表达比值,当所述相对表达比值大于或等于所述第一表达阈值,或者所述相对表达比值小于或等于所述第二表达阈值时,依据所述目标节点基因以及所述目标样本构建所述目标异构图的第四特征边,并将所述相对表达比值作为所述第四特征边对应的权重。
89.在该实施例中,构建目标异构图的过程具体可以是构建第二特征边、第三特征边以及第四特征边的过程。目标异构图中第二特征边的构建是以目标样本和snp为基础构建的,针对每个目标样本以及对应的snp,构建目标样本和snp之间的第二特征边,由于有些目标样本中并不存在snp,或者其对应的snp数据为0时,那么不需要构建该目标样本和对应snp之间的第二特征边。第二特征边还可以有对应的权重,该权重具体可以根据snp的变异类型来确定。例如,如果在目标样本a的样本数据中存在snp1数据且不为0,那么就构建目标样本a和snp1之间的第二特征边,而当snp1的变异类型为纯合突变时,第二特征边对应的权重为2,当snp1的变异类型为杂合突变时,第二特征边对应的权重为1。
90.目标异构图中第三特征边的构建是以基因和snp为基础构建的。利用预设注释法以及snp数据,找到每个snp在基因调控网络中对应的基因,使snp与对应的基因之间构建出第三特征边。不同目标样本中可能包含相同的snp数据,当存在相同snp数据时,无需重复构建第三特征边。第三特征边还可以有对应的权重,该权重具体可以是通过snp和对应基因之间的位置关系确定的。例如,当snp位于该基因的外显子上时,snp与基因之间的第三特征边的权重为3;当snp位于该基因的内含子上时,snp与基因之间的第三特征边的权重为2,当snp位于两个基因之间时,snp与基因之间的第三特征边的权重为1。
91.目标异构图中第四特征边的构建是以基因和目标样本为基础构建的。从基因调控网络中选择任意一个基因作为目标节点基因,从全部基因表达数据中查找与目标节点基因相对应的基因表达数据。例如,从基因调控网络中选择基因y作为目标节点基因,那么从基因表达数据中获取y1到y
n
,其中,y1为目标样本1对应的基因y的基因表达数据,y
n
为目标样本n对应的基因y的基因表达数据,从目标样本1到目标样本n构成了所有目标样本。找到对应的基因表达数据后,可以分别计算这些基因表达数据的相对表达比值,通过相对表达比值可以看出目标样本中该基因的基因表达量相对于全部目标样本中该基因的平均基因表达量的表达水平。当相对表达比值比第一表达阈值大或者等于第一表达阈值时,可以说明此时目标样本中该基因的基因表达量是处于偏高水平的;当相对表达比值比第二表达阈值小或者等于第二表达阈值时,可以说明此时目标样本中该基因的基因表达量是处于偏低水平的。当目标样本的基因表达量处于偏高水平或者偏低水平时,通过基因调控网络中的基因与对应的目标样本之间构建第四特征边,并将相对表达比值作为第四特征边对应的权重。当将所选的目标节点基因相对应的每个目标样本的相对表达比值均遍历一遍后,更换基因调控网络中的目标节点基因,并重复上述过程,直到基因调控网络中的所有基因全部遍历一遍,自此构建完目标异构图的所有第四特征边。
92.在本技术实施例中,可选地,上述步骤中所述“分别计算每个所述目标样本对应的
基因表达数据的相对表达比值”包括:基于所述目标节点基因对应的所述基因表达数据,计算所述目标节点基因在所述目标样本中的平均表达数据,并分别计算每个所述目标样本对应的基因表达数据与所述平均表达数据之间的比值,得到与每个所述目标样本对应的相对表达比值。
93.在该实施例中,相对表达比值具体可以通过如下步骤获得:首先以选择的目标节点基因对应的全部基因表达数据为基础,计算这些基因表达数据在全部目标样本中的平均表达数据,之后分别计算每个目标样本对应的基因表达数据和平均表达数据之间的比值,计算出来的比值即与每个目标样本对应的相对表达比值。例如,选择的目标节点基因为基因y,目标样本共有n个,分别是目标样本1到目标样本n,这些目标样本中基因y对应的基因表达数据为y1到y
n
,那么基因y在全部目标样本中的平均表达数据为,那么基因y在全部目标样本中的平均表达数据为而每个目标样本对应的基因y的相对表达比值分别是
94.在本技术实施例中,可选地,所述“利用预设注释法以及所述snp数据,确定所述snp对应的所述基因调控网络中的基因”之前,所述方法还包括:对不同所述目标样本的样本数据中的所述snp数据进行去重处理,以去除重复snp数据。
95.在该实施例中,在构建目标异构图的第三特征边之前,可以先对所有目标样本对应的snp数据汇集在一起,去除其中存在的重复的snp数据,使得剩余的snp数据两两不同,这样可以有效避免构建目标异构图的第三特征边时,出现重复操作的情况,提升第三特征边构建的效率。
96.进一步的,作为图1方法的具体实现,本技术实施例提供了一种生存期预测模型的生成装置,如图2所示,该装置包括:
97.样本数据获取模块,用于获取目标样本的样本数据,其中,所述样本数据包括每个所述目标样本对应的snp数据、基因表达数据以及真实生存期数据;
98.基因调控网络生成模块,用于获取预设基因数据库中各基因之间的基因调控关系,并依据所述基因调控关系生成基因调控网络;
99.异构图构建模块,用于基于所述目标样本的样本数据以及所述基因调控网络,构建目标异构图;
100.模型构建模块,用于依据所述目标异构图,对初始预测模型进行训练,以得到生存期预测模型。
101.可选地,所述目标样本包括训练样本以及测试样本;所述模型构建模块包括:
102.节点特征获取单元,用于将所述目标异构图输入至初始预测模型的特征识别层中,得到目标样本节点特征,其中,所述目标样本节点特征包括训练样本节点特征;
103.预测数据计算单元,用于将所述训练样本节点特征输入至所述初始预测模型的全连接层中,得到训练样本生存期预测特征,并通过预设激活函数识别所述训练样本生存期预测特征,得到与每个训练样本对应的第一生存期预测数据;
104.模型损失值计算单元,用于基于所述第一生存期预测数据以及与所述训练样本对应的真实生存期数据,通过预设交叉熵函数计算模型损失值;
105.模型调整单元,用于依据所述模型损失值调整所述初始预测模型的模型参数,通过调整后的初始预测模型对应的全连接层以及所述预设激活函数,得到与每个训练样本对
应的第二生存期预测数据,并再次计算所述模型损失值;
106.模型确定单元,用于当所述模型损失值小于预设损失阈值时,得到生存期预测模型。
107.可选地,所述异构图构建模块包括:
108.第二特征边构建单元,用于依据每个所述目标样本以及对应的snp,构建目标异构图的第二特征边,并基于所述snp的变异类型确定所述第二特征边对应的权重;
109.第三特征边构建单元,用于利用预设注释法以及所述snp数据,确定所述snp对应的所述基因调控网络中的基因,依据所述snp以及所述基因构建所述目标异构图的第三特征边,并基于所述snp与所述基因之间的位置关系,确定所述第三特征边对应的权重;
110.第四特征边构建单元,用于将所述基因调控网络中的任一基因确定为目标节点基因,查找与所述目标节点基因对应的所述基因表达数据,并分别计算每个所述目标样本对应的基因表达数据的相对表达比值;当所述相对表达比值大于或等于所述第一表达阈值,或者所述相对表达比值小于或等于所述第二表达阈值时,依据所述目标节点基因以及所述目标样本构建所述目标异构图的第四特征边,并将所述相对表达比值作为所述第四特征边对应的权重。
111.可选地,所述第四特征边构建单元用于:
112.基于所述目标节点基因对应的所述基因表达数据,计算所述目标节点基因在所述目标样本中的平均表达数据,并分别计算每个所述目标样本对应的基因表达数据与所述平均表达数据之间的比值,得到与每个所述目标样本对应的相对表达比值。
113.可选地,所述装置还包括:
114.去重模块,用于所述利用预设注释法以及所述snp数据,确定所述snp对应的所述基因调控网络中的基因之前,对不同所述目标样本的样本数据中的所述snp数据进行去重处理,以去除重复snp数据。
115.可选地,所述基因调控网络生成模块用于:
116.获取预设基因数据库中各基因对应的蛋白之间的关联关系数据,当所述关联关系数据大于预设关联阈值时,确定所述基因之间存在调控关系,并构建所述基因之间的第一特征边,将所述关联关系数据作为所述第一特征边对应的权重,生成所述基因调控网络。
117.可选地,所述装置还包括:
118.测试模块,用于所述得到生存期预测模型之后,将所述目标异构图输入至所述生存期预测模型的特征识别层中,得到目标样本节点特征,其中,所述目标样本节点特征包括测试样本节点特征;
119.预测偏差计算模块,用于基于所述测试样本节点特征以及所述测试样本对应的真实生存期数据,计算所述生存期预测模型的生存期预测偏差值;
120.所述测试模块,还用于若所述生存期预测偏差值满足预设偏差值条件,则确定所述生存期预测模型训练成功。
121.需要说明的是,本技术实施例提供的一种生存期预测模型的生成装置所涉及各功能单元的其他相应描述,可以参考图1方法中的对应描述,在此不再赘述。
122.基于上述如图1所示方法,相应的,本技术实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述如图1所示的生存期预测模型的
生成方法。
123.基于这样的理解,本技术的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd

rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施场景所述的方法。
124.基于上述如图1所示的方法,以及图2所示的虚拟装置实施例,为了实现上述目的,本技术实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1所示的生存期预测模型的生成方法。
125.可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(radio frequency,rf)电路,传感器、音频电路、wi

fi模块等等。用户接口可以包括显示屏(display)、输入单元比如键盘(keyboard)等,可选用户接口还可以包括usb接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、wi

fi接口)等。
126.本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
127.存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
128.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本技术可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。获取目标样本的snp数据、基因表达数据以及真实生存期数据等样本数据,并从预设基因数据库中获取人体不同基因相互之间的基因调控关系,生成对应的基因调控网络,接着,通过获取的目标样本对应的snp数据、基因表达数据、真实生存期数据等样本数据以及生成的基因调控网络,构建目标异构图,之后通过构建的目标异构图,训练初始预测模型,通过对初始预测模型中的相关参数进行迭代优化,最终得到生存期预测模型。本技术实施例通过构建包含患者、基因、snp节点的目标异构图,并利用图神经网络学习目标异构图中各个节点的邻居信息,能够更系统的了解目标样本的基因信息,充分的利用不同snp以及不同基因之间的关系进行癌症患者生存期的预测,提升癌症患者生存期预测的准确性。
129.本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本技术所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
130.上述本技术序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本技术的几个具体实施场景,但是,本技术并非局限于此,任何本领域的技术人员能思之的变化都应落入本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1