本发明涉及生物信息学和生物医学,具体涉及癌症预测系统的制备。
背景技术:
1、癌症作为异质性疾病具有不同的分子特征、临床行为、形态外观和对治疗的不同反应。其中,扩散性癌症的复杂性及其显著变化的临床结果使得预测和治疗变得极其困难。因此,针对癌症的预后情况进行更准确的预测,不仅可以帮助癌症患者了解他们的预期寿命,保证癌症患者的心理健康,而且也可以帮助临床医生制定更适当的治疗方案,以便得到更好的治疗效果。同时,预后在所有临床医师的临床工作中起着重要作用,特别是那些与短生存期患者一起工作的临床医师。当能够合理准确地估计预后时,临床医师通常利用预后预测知识来协助临床决策,确定患者接受治疗方案,设计和分析临床试验的资格。此外,当患者被预测为短生存期患者时,临床医生可以为患者提供机会,考虑他们是否希望得到照顾,并让他们有时间采取实际措施,为自己的死亡做好准备。现有的肿瘤患者生存期预测方法主要依赖于分子标记物和基因表达量。在专利110187110a中,公开了一种贲门癌预后预测标志物—erich3蛋白以及erich3蛋白的检测试剂在制备用于责门癌预后预测的试剂盒或试剂中的应用。然而,分子标记物普遍存在过度拟合、发现组病例数过小和缺乏外部验证等问题,无法运用到临床实践中;利用基因表达量预测患者生存时间也存在数据集之间的异质性和跨平台检测技术偏差等问题,难以实现临床应用。因此,亟需一种简单可靠、准确性高的肿瘤患者生存期的预测系统。
技术实现思路
1、贲门癌一般指胃食管交界部齿状线2cm以内的肿瘤,病理类型以腺癌常见,分布具有明显的区域特征,好发于东亚地区,且与远端胃癌的临床流行病学、危险因素、病理、临床特征,区域分布及预后明显不一致。在现有的关于为不得数据模型中,暂无可用的贲门癌的预后预测模型,仅有胃癌的预后模型。据现有文献报道,与非贲门部的胃癌不同,贲门癌更具侵袭性预后更差(maeda h等,2007)。一项针对中国人的贲门癌预后研究也指出,贲门癌预后与其他非贲门的胃癌预后不同(aversa jg等,2021)。因此,贲门癌被视为一种独立的肿瘤类型,其5年生存率也是对该类患者预后最重要的检验指标之一,围绕预后反应该类疾病的症状、体征和结局事件,是临床医生及患者及家属共同关注的指标。因此,基于真实临床数据建立贲门癌的预后预测系统,能识别治疗潜在获益人群,为临床提供参考。
2、本技术旨在引入深度学习算法,拟合真实世界中临床资料与预后的关系,以预测贲门癌患者的生存时间。
3、第一方面,本发明提供一种基于神经网络算法的贲门癌患者的生存期的预测方法,所述方法包括如下步骤:
4、s01数据获取:获取贲门癌患者的临床资料,以年龄、性别、病理亚型、tnm分期信息、肿瘤直径、手术、放疗、化疗与否、既往有无恶性肿瘤等临床信息作为原始数据;
5、s02数据预处理:将连续性资料进行标准化得到标准化数据,将分类资料为哑变量;
6、s03构建模型:将上述标准化数据和哑变量的数据、通过输入层输入神经网络模型,通过神经网络模型中的隐藏层进行数据拟合;通过输出层输出一组0到1之间的数值;经过训练优化后形成贲门癌患者的生存期的预测模型;
7、s04评估模型性能:受试者工作特征曲线下面积(area under the receiveroperating curve,auc)来评估模型性能;auc大于0.5时,模型才具有预测价值,且越接近于1,预测效能越强。
8、进一步的,所述连续性资料包括年龄、肿瘤直径。
9、进一步的,所述哑变量包括性别、病理亚型、tnm分期信息(t/n/m/stage)、手术、放疗、化疗与否、既往有无恶性肿瘤。
10、进一步的,所述标准化是指将连续性资料的数值减去均值并除以标准差,即得到标准化数据。
11、进一步的,所述数据拟合是采用批训练和批标准化数据进行拟合。
12、更进一步的,所述批训练每次优选200-300个数据参与训练。
13、进一步的,所述数据拟合优选early stopping function函数进行验证,即每30-50轮进行一次检查,并在模型性能提升不明显时自动结束训练。
14、进一步的,所述神经网络共计10层,初始输入为12×32节点的线性层,随后经过数据拟合,随后dropout层随机沉默30%神经元,并传递给下一个32×8节点的线性层,再次数据拟合和dropout层沉默30%神经元,最后经过一个8×1节点的线性层,经过数据拟合后,输出一组0到1之间的数值。
15、更进一步的,输出的一组0到1之间的数值为贲门癌患者的生存状态预测值。
16、更进一步的,所述生存状态预测值为贲门癌患者在具体月份的生存概率。
17、进一步的,所述数据拟合包括激活、归一化、加权、转换、优化。
18、进一步的,所述数据激活优选relu函数和/或sigmoid函数。
19、进一步的,所述数据归一化是指减去资料的均值并除以标准差。
20、进一步的,所述数据转换优选sigmoid函数,把输出的数字转为0到1之间的数值。
21、进一步的,所述12×32节点的线性层加权可选自如下:
22、表1 12×32节点的线性层加权值
23、
24、
25、进一步的,所述32×8节点的线性层加权可选自如下:
26、表2 32×8节点的线性层加权值
27、
28、
29、进一步的,所述8×1节点的线性层加权可选自如下:
30、表3 8×1节点的线性层加权值
31、
32、进一步的,所述数据优化优选adam函数作为优化器,学习率设定为0.01。
33、第二方面,本发明提供一种贲门癌患者的生存期的预测系统,所述系统数据输入模块、数据分析处理模块和生存概率预测模块;所述预测系统是由如下方法获得:
34、s01数据获取:获取贲门癌患者的临床资料,以年龄、性别、病理亚型、tnm分期信息、肿瘤直径、手术、放疗、化疗与否、既往有无恶性肿瘤等临床信息作为原始数据;
35、s02数据预处理:将连续性资料进行标准化得到标准化数据,将分类资料为哑变量;
36、s03构建模型:将上述标准化数据和哑变量的数据、通过输入层输入神经网络模型,通过神经网络模型中的隐藏层进行数据拟合;通过输出层输出一组0到1之间的数值;经过训练优化后形成贲门癌患者的生存期的预测模型;
37、s04评估模型性能:受试者工作特征曲线下面积(area under the receiveroperating curve,auc)来评估模型性能;auc大于0.5时,模型才具有预测价值,且越接近于1,预测效能越强。
38、进一步的,所述连续性资料包括年龄、肿瘤直径。
39、进一步的,所述哑变量包括性别、病理亚型、tnm分期信息(t/n/m/stage)、手术、放疗、化疗与否、既往有无恶性肿瘤。
40、进一步的,所述标准化是指将连续性资料的数值减去均值并除以标准差,即得到标准化数据。
41、进一步的,所述数据拟合是采用批训练和批标准化数据进行拟合。
42、更进一步的,所述批训练每次优选200-300个数据参与训练。
43、进一步的,所述数据拟合优选early stopping function函数进行验证,即每30-50轮进行一次检查,并在模型性能提升不明显时自动结束训练。
44、进一步的,所述神经网络共计10层,初始输入为12×32节点的线性层,随后经过激活并经过标准化层归一化,随后dropout层随机沉默30%神经元,并传递给下一个32×8节点的线性层,再次激活,并再次经标准化层归一化和dropout层沉默30%神经元,最后经过一个8×1节点的线性层,经过函数激活和转换后,输出一组0到1之间的数值。
45、更进一步的,输出的一组0到1之间的数值为贲门癌患者的生存状态预测值。
46、更进一步的,所述生存状态预测值为贲门癌患者在具体月份的生存概率。
47、进一步的,所述数据拟合包括激活、归一化、加权、转换、优化。
48、进一步的,所述数据激活优选relu函数和/或sigmoid函数。
49、进一步的,所述数据归一化是指减去资料的均值并除以标准差。
50、进一步的,所述数据转换优选sigmoid函数,把输出的数字转为0到1之间的数值。
51、进一步的,所述12×32节点的线性层加权可选自表1数据。
52、进一步的,所述32×8节点的线性层加权可选自表2数据。
53、进一步的,所述8×1节点的线性层加权可选自表3数据。
54、进一步的,所述数据优化优选adam函数作为优化器,学习率设定为0.01。
55、第三方面,本发明提供一种贲门癌患者的生存期系统在制备贲门癌患者生存期预测设备中的应用。
56、进一步的,所述应用是预测贲门癌患者在具体月份的生存概率。