一种基于机器学习的肺癌风险预测方法及相关设备

文档序号:37042940发布日期:2024-02-20 20:37阅读:13来源:国知局
一种基于机器学习的肺癌风险预测方法及相关设备

本说明书涉及数据处理领域,更具体地说,本技术涉及一种基于机器学习的肺癌风险预测方法及相关设备。


背景技术:

1、在当前的肺癌风险预测时,通常基于结构化plcom2012模型变量的特征优选方法、病历文本等非机构化数据进行特征提取和融合,基于kmeans smote采样算法对少数类样本扩充,采用stacking集成学习的思想将多元混合模型进行集成,通过多轮迭代构建高精度肺癌风险预测模型。

2、当前技术仅聚焦于结构化或非结构化其中一种数据的特征提取研究,但在实际诊疗、肺癌早筛过程中,健康信息中的这两类数据都需要进行关注和处理,以提高肺癌筛查精准度。


技术实现思路

1、在
技术实现要素:
部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本技术的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。

2、第一方面,本技术提出一种基于机器学习的肺癌风险预测方法,上述方法包括:

3、基于plcom2012模型变量的结构化表提取结构化特征;

4、根据筛查医疗文本获取非结构化特征,其中,上述筛查医疗文本包括诊断记录、意见、患者主诉的文本文字性描述;

5、根据上述结构化特征和上述非结构化特征构建训练集和测试集;

6、根据上述训练集和上述测试集对混合集成预测系统进行训练以构建目标混合集成预测系统,其中,上述混合集成预测系统包括第一级分类器和第二级分类器,上述第一级分类器包括至少两个基学习器,上述第二级分类器用于将第一级分类器的所有基学习器的预测结果获取最终预测结果;

7、通过上述目标混合集成预测系统获取肺癌风险预测结果。

8、在一种实施方式中,上述基于plcom2012模型变量的结构化表提取结构化特征,包括:

9、在上述plcom2012模型变量的结构化表中随机抽取样本集;

10、根据每个上述样本集构建分类模型;

11、对上述每个上述分类模型基于专家法获取其对应的分类结果;

12、基于所有的上述分类结果构建目标随机森林分类器;

13、利用上述目标随机森林分类器对上述plcom2012模型变量的结构化表提取上述结构化特征。

14、在一种实施方式中,上述根据筛查医疗文本获取非结构化特征,包括:

15、对上述筛查医疗文本进行分词处理获取分词结果;

16、基于上述分词结果根据词频建立霍夫曼树;

17、构建并初始化目标神经网络模型,其中,上述目标神经网络模型的输入和输出的数据维度相同,上述目标神经网络模型只包括一层隐式层;

18、通过预设取词窗口获取单个分词的上下文出现概率;

19、利用最大似然函数估计求取上述上下文出现概率对应的似然概率值;

20、利用梯度上升法求取上述似然概率值的较大值;

21、在梯度收敛或模型更新停止的情况下,将上述似然概率值的较大值对应的词向量作为上述非结构化特征。

22、在一种实施方式中,上述根据上述结构化特征和上述非结构化特征构建训练集和测试集,包括:

23、将上述结构化特征和上述非结构化特征进行特征融合以获取融合特征样本集;

24、将上述融合特征样本集进行进行样本划分以获取上述训练集和上述测试集。

25、在一种实施方式中,上述根据上述训练集和上述测试集对混合集成预测系统进行训练以构建目标混合集成预测系统,包括:

26、对上述训练集进行k折划分以获取k份训练数据;

27、用上述第一级分类器中每个上述基学习器进行k折交叉验证,并进行遍历训练,以获取k份预测数据,其中,每次训练中选取k-1份训练数据作为训练样本,预测剩余一份样本;

28、将上述第一级分类器中每个上述基学习器的预测数据输入至上述第二级分类器以获取最终预测结果。

29、在一种实施方式中,上述基学习器包括决策树学习器、k临近模型学习器、朴素贝叶斯模型学习器和多层感知机学习器。

30、在一种实施方式中,上述方法还包括:

31、将上述第一级分类器的所有基学习器的预测结果输入至上述第二级分类器;

32、通过上述第二分类性的线性回归操作获取上述最终预测结果。

33、第二方面,本技术还提出一种基于机器学习的肺癌风险预测装置,包括:

34、提取单元,用于基于plcom2012模型变量的结构化表提取结构化特征;

35、获取单元,用于根据筛查医疗文本获取非结构化特征,其中,上述筛查医疗文本包括诊断记录、意见、患者主诉的文本文字性描述;

36、第一构建单元,用于根据上述结构化特征和上述非结构化特征构建训练集和测试集;

37、第二构建单元,用于根据上述训练集和上述测试集对混合集成预测系统进行训练以构建目标混合集成预测系统,其中,上述混合集成预测系统包括第一级分类器和第二级分类器,上述第一级分类器包括至少两个基学习器,上述第二级分类器用于将第一级分类器的所有基学习器的预测结果获取最终预测结果;

38、预测单元,用于通过上述目标混合集成预测系统获取肺癌风险预测结果。

39、第三方面,一种电子设备,包括:存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器用于执行存储器中存储的计算机程序时实现如上述的第一方面任一项的基于机器学习的肺癌风险预测方法的步骤。

40、第四方面,本技术还提出一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现第一方面上述任一项的基于机器学习的肺癌风险预测方法。

41、综上,本技术实施例的基于机器学习的肺癌风险预测方法包括:基于plcom2012模型变量的结构化表提取结构化特征;根据筛查医疗文本获取非结构化特征,其中,上述筛查医疗文本包括诊断记录、意见、患者主诉的文本文字性描述;根据上述结构化特征和上述非结构化特征构建训练集和测试集;根据上述训练集和上述测试集对混合集成预测系统进行训练以构建目标混合集成预测系统,其中,上述混合集成预测系统包括第一级分类器和第二级分类器,上述第一级分类器包括至少两个基学习器,上述第二级分类器用于将第一级分类器的所有基学习器的预测结果获取最终预测结果;通过上述目标混合集成预测系统获取肺癌风险预测结果。本技术实施例提出的基于机器学习的肺癌风险预测方法,结合了结构化数据和非结构化数据,充分利用了多源信息,从而提供了更全面的信息来评估肺癌风险。通过处理非结构化文本数据,可以学习到隐藏在文本中的有用特征和信息,有助于提高风险预测的准确性。采用混合集成方法,结合了多个分类器的结果,可以提高模型的稳定性和性能,能够减小过拟合风险并提高预测能力。通过结合结构化和非结构化数据,该系统可以提供更个性化的风险预测,考虑了个体的医疗历史和文本描述,从而更好地满足患者的需求。通过更为准确的肺癌风险预测,可以帮助医生和患者更早地发现潜在的肺癌风险,提高早期诊断的机会。

42、本技术提出的基于机器学习的肺癌风险预测方法,本技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本技术的研究和实践而为本领域的技术人员所理解。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1