非小细胞肺癌术后并发症风险预测模型的构建方法和装置

文档序号:37681369发布日期:2024-04-18 20:54阅读:9来源:国知局
非小细胞肺癌术后并发症风险预测模型的构建方法和装置

本发明属于医疗数据挖掘,具体涉及一种非小细胞肺癌术后并发症风险预测模型的构建方法和装置。


背景技术:

1、肺癌(lung cancer,lc),又称原发性支气管肺癌,是一种高发病率、高死亡率、预后差、生存率低恶性肿瘤,严重威胁人类健康。最常见的肺癌种类为非小细胞肺癌(non-small cell lung cancer,nsclc)。

2、近年来,随着社会健康意识的增强和低剂量计算机断层扫描(low dose helicalcomputed tomography,ldct)筛查胸部疾病的普及,早期非小细胞肺癌患者的检出率大大提高。根治性切除手术是目前诸多指南及权威专家公认的最佳早期非小细胞肺癌治疗方案。并发症作为非小细胞肺癌手术术后的主要不良事件之一,是临床医生在患者围手术期必须考虑到的重要问题。非小细胞肺癌手术术后并发症主要包括心血管系统和呼吸系统并发症,此类并发症易导致患者术后住院时间延长、住院费用提升、术后死亡风险增加,并影响术后康复及预后效果。在临床实践中,详尽的术前风险评估是术后并发症防治的重要环节。目前,已有许多研究成果辅助临床医生进行风险评估,如风险因子、评估患者风险的评分量表、规范临床检查和围手术期管理的临床指南、专家共识文件等。然而,此类评分量表和指南等仅针对患者术前特征进行整体手术风险评估,而无法具体评估发生某类或某种并发症的风险。

3、随着医疗信息系统的推广与普及,大量记录在电子病历中的数据催生出一系列数据驱动的、基于机器学习方法的术后风险预测相关研究。该类并发症风险预测的实质是通过训练和优化指定机器学习模型,使之在患者特征项和术后并发症标签之间建立良好映射,从而对未知数据进行预测并输出。常见术后并发症风险预测模型构建方法有逻辑回归、朴素贝叶斯、决策树、随机森林、梯度提升树、极端梯度提升、自适应提升、支持向量机、多层感知机等。尽管上述方法能够从历史数据中自动学习医疗知识且展现良好预测性能,但已构建的模型仍未解决较粗的预测粒度与并发症标签关联性的问题。在临床场景下,不同粒度的并发症出现比例与标签间的相关性并不相同,带来数据不平衡的问题。在研究数据中,25.6%的患者出现了呼吸系统并发症,其中仅有8.8%的患者发生肺漏气,1.85%的患者发生乳糜胸。尽管数据不平衡问题会随着时间的延长而在一定程度上得以缓解,但依然会使得中短期预后预测模型偏向于多数类样本,从而影响模型预测性能。

4、因此,迫切需要一种训练方法来解决标签粒度与标签间相关性不同所带来的数据不平衡问题,提高非小细胞肺癌术后并发症风险预测的准确性。


技术实现思路

1、鉴于上述,本发明的目的是提供一种非小细胞肺癌术后并发症风险预测模型的构建方法和装置,基于标签的余弦相似度计算、层次聚类和多任务学习方法有效建模标签粒度与标签间相关性,并为每一个并发症标签预测任务有针对性地构建共享隐含层,以得到细粒度、依赖标签相关性的术后并发症风险预测模型,提高非小细胞肺癌术后并发症风险预测性能,具有重要的临床应用价值。

2、为实现上述发明目的,本发明提供的技术方案如下:

3、第一方面,本发明实施例提供的一种非小细胞肺癌术后并发症风险预测模型的构建方法,包括以下步骤:

4、将临床医学数据的原始数据集按余弦相似度计算基于并发症标签间的标签相似性,得到关于原始数据集的标签余弦相似性矩阵;

5、利用层次聚类算法对标签余弦相似性矩阵进行层次聚类,得到并发症标签层次聚类树状图;

6、划分若干聚类簇距离值并依次对并发症标签层次聚类树状图进行独立分割,得到若干包含不同聚类簇的标签集;

7、基于若干包含不同聚类簇的标签集和并发症标签层次聚类树状图,构建包含共享隐含层的部分参数共享的多任务深度学习模型;

8、将原始数据集划分为多个子集对多任务深度学习模型进行训练,得到多个训练后的多任务深度学习模型;

9、综合多个训练后的多任务深度学习模型作为非小细胞肺癌术后并发症风险预测模型。

10、优选地,所述并发症标签包括:

11、(1)呼吸系统并发症包括:肺漏气/气胸、肺不张、肺部感染、胸腔积液、哮喘、呼吸衰竭、乳糜胸或肺栓塞的在icd-10编码分类为以下的疾病、症状或并发症:i26、j12、j13、j14、j15、j16、j17、j18、j43、j44、j80、j81、j85、j86、j93、j94、j95和/或j98,呼吸系统并发症这一标签为符合上述呼吸系统并发症疾病的数据所具有的共有标签,其他呼吸系统并发症这一标签为在针对原始数据进行数据处理时,为简化模型参数,针对某些符合上述并发症外的其他并发症所构建的标签;

12、(2)心血管系统并发症包括:心律失常、肺栓塞、深静脉血栓或心绞痛的在icd-10编码分类为以下的疾病、症状或并发症:i20、i21、i26、i27、i49、i67、i80、i82、i89和/或i97,心血管系统并发症这一标签为符合上述心血管系统并发症疾病的数据所具有的共有标签,其他心血管系统并发症这一标签为在针对原始数据进行数据处理时,为简化模型参数,针对某些符合上述并发症外的其他并发症所构建的标签;

13、(3)发生并发症这一标签为符合(1)或(2)的数据所具有的共有标签。

14、优选地,所述划分若干聚类簇距离值并依次对并发症标签层次聚类树状图进行独立分割,得到若干包含不同聚类簇的标签集,包括:

15、根据并发症标签层次聚类树状图p,根据n个聚类簇距离值k1,k2,…,kn对p进行独立分割,得到n个包含不同聚类簇的标签集组成的集合n,其中,每个标签集中聚类簇的聚类个数依次为p1,p2,…,pn且互不相同。

16、优选地,所述基于若干包含不同聚类簇的标签集和并发症标签层次聚类树状图,构建包含共享隐含层的部分参数共享的多任务深度学习模型,包括:

17、部分参数共享的多任务深度学习模型m包括特征向量输入层、共享隐含层和多任务预测输出层,其中,特征向量输入层用于将临床医学数据的原始数据集转化为特征向量输入,多任务预测输出层用于针对多个并发症预测任务输出二分类预测结果,根据不同聚类簇的标签集内的各标签之间存在相应的相似程度和并发症标签层次聚类树状图p,得到各聚类簇之间的相似距离,并根据p中的相似树形状关系确定隐含层参数共享的范围,为每一个并发症标签预测任务有针对性地构建共享隐含层。

18、优选地,共享隐含层的构建方法包括:

19、基于n个包含不同聚类簇的标签集c1,c2,…,cn,对任意的标签集cm与cm+1,cm所包含的第l个任一聚类簇dm,l由cm+1所包含的第l′1,l′2,…,l′v个若干聚类簇之和表示,其中1≤m≤n-1,1≤l≤pm,pm为标签集cm所包含的聚类簇的聚类个数,1≤l′1,l′2,…,l′v≤pm+1,pm+1为标签集cm+1所包含的聚类簇的聚类个数,l′1,l′2,…,l′v互不相同,根据这一性质,针对第m层隐含层设置pm组参数,每组参数所对应的隐含层将针对cm的其中一类聚类簇进行训练,针对这些隐含层的下层隐含层即第m+1层设置pm+1组参数,每组参数所对应的隐含层将针对cm+1的其中一类聚类簇进行训练,两层隐含层间的连接方式由cm与cm+1间包含的若干聚类簇间的加和排列所决定。

20、优选地,所述将原始数据集划分为多个子集对多任务深度学习模型进行训练,得到多个训练后的多任务深度学习模型,包括:

21、将包括预测对象基础信息、临床数据及术后癌症分期的临床医学数据作为原始数据集,将原始数据集按k折交叉验证机制分割成k个子集,并将每个子集数据再次拆分成训练集dtrain、验证集ddev与测试集dtest,将预后并发症情况作为学习标签,对多任务深度学习模型利用有监督分类算法进行训练,得到k个训练后的多任务深度学习模型。

22、优选地,所述综合多个训练后的多任务深度学习模型作为非小细胞肺癌术后并发症风险预测模型,包括:

23、将多个训练后的多任务深度学习模型的参数进行平均,得到非小细胞肺癌术后并发症风险预测模型。

24、第二方面,本发明实施例提供的一种非小细胞肺癌术后并发症风险预测模型的构建装置,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述计算机程序时,实现上述非小细胞肺癌术后并发症风险预测模型的构建方法。

25、第三方面,本发明实施例提供的一种非小细胞肺癌术后并发症风险预测装置,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述计算机程序时,采用上述非小细胞肺癌术后并发症风险预测模型进行非小细胞肺癌术后并发症风险预测。

26、第四方面,本发明实施例提供的一种非小细胞肺癌术后并发症风险因子分析方法,采用上述非小细胞肺癌术后并发症风险预测装置进行风险预测,并使用沙普利加和解释的方法对风险因子进行分析。

27、与现有技术相比,本发明具有的有益效果至少包括:

28、(1)本发明首先通过余弦相似度计算与层次聚类得到标签间的相似性,然后通过部分参数共享机制基于所生成的并发症标签层次聚类树构建多任务深度学习模型,之后通过原始数据集对多任务学习模型进行训练并得到非小细胞肺癌术后并发症风险预测模型,能够解决标签粒度与标签间相关性不同所带来的数据不平衡问题导致的模型性能下降问题,进而提高非小细胞肺癌术后并发症风险预测模型的性能。

29、(2)本发明基于层次聚类结果构建共享隐含层,能够实现更细粒度下标签相关性分析,随着共享隐含层的网络层次越深,标签相关性越高,从而有效建模标签粒度与标签间相关性,提高非小细胞肺癌术后并发症风险预测精准性。

30、(3)本发明在进行模型训练时通过k折验证集设置,能够增加非小细胞肺癌术后并发症风险预测模型的稳定性和泛化能力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1