一种基于集成学习的肺部病毒感染的辅助诊断方法和装置

文档序号:37469229发布日期:2024-03-28 18:52阅读:11来源:国知局
一种基于集成学习的肺部病毒感染的辅助诊断方法和装置

本发明涉及基因技术和生物医学领域,特别是涉及一种基于集成学习的肺部病毒感染的辅助诊断方法和装置。


背景技术:

1、肺部病毒感染临床症状主要包括身体乏力、呼吸困难和低血氧症等。随着感染的加重,病情会慢慢的延伸至胸膜腔造成脓胸,严重的肺炎还会导致肺组织坏死。此外,某些病毒可引发系统性炎症反应,进而影响全身各个脏器的正常功能。因此,对于肺部病毒感染的及时诊断至关重要。

2、当前,用于临床检测肺部病毒感染的主要方法有pcr和病毒抗原检测。尽管pcr具有高敏感性,病毒抗原检测速度快,但是受限于病毒种类检测通量,无法同时对多种病毒进行检测而造成漏检,最终导致假阴性的结果。

3、宏基因组和宏转录组检测技术的出现提高了病毒种类检测通量,为个性化治疗提供了有针对性的信息。尽管宏转录组技术提供全面的基因表达信息,但在实际应用中面临技术和成本方面的一些挑战。首先,其实验室操作要求高度专业技能和昂贵的设备,限制了其在临床中的广泛应用。其次,宏转录组数据的分析需要复杂的生物信息学技能,对专业知识的需求较高。再次,宏转录组技术在分析时显示出一定的时效性不足。该技术在处理大规模数据时,需要耗费较多时间。

4、需要说明的是,在上述背景技术部分公开的信息仅用于对本技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本发明的主要目的在于克服上述背景技术的缺陷,提供一种基于集成学习的肺部病毒感染的辅助诊断方法和装置。

2、为实现上述目的,本发明采用以下技术方案:

3、一种基于集成学习的肺部病毒感染的辅助诊断方法,包括在计算机上处理完成的如下步骤:

4、对可用于回顾性研究的宏转录组数据进行病毒感染检测分组,筛选出差异表达基因,使用所述差异表达基因构建训练集和测试集;

5、使用多种机器学习算法对训练集的差异基因进行筛选,对各算法所得到的保留基因求交集,并通过多次迭代选择出最具有预测性和稳健性的基因集合;

6、使用多种机器学习算法分别构建辅助诊断子模型,各辅助诊断子模型分别使用所述基因集合进行预测,且各辅助诊断子模型的预测结果使用广义线性模型glm进行拟合,形成使用集成学习的方式进行最终风险预测的辅助诊断模式。

7、进一步地:

8、所述筛选出差异表达基因包括:

9、分别使用limma和deseq2算法对所述宏转录组数据的原始count数据进行差异分析,筛选差异表达基因,并使用wilcox算法对所述宏转录组数据的tpm数据进行显著性分析,筛选差异表达基因;

10、根据统计指标,对以上三种算法筛选的差异表达基因进行进一步的筛选,再求取三种算法筛选的差异表达基因的交集。

11、所述统计指标包括p-value和logfc。

12、在构建训练集和测试集之前,还包括从所述差异表达基因中过滤掉虚假基因。

13、所述使用多种机器学习算法对训练集和测试集的差异基因进行筛选,对各算法所得到的保留基因求交集,并通过多次迭代选择出最具有预测性和稳健性的基因集合,包括:

14、将差异表达基因数据输入随机森林模型进行分析,选择模型中x.incmse参数大于0的基因;

15、将差异表达基因数据输入lasso模型进行分析,选择模型中系数不为0的基因;

16、将差异表达基因数据输入支持向量机模型,利用10折交叉验证对差异基因进行排序,并选择排名靠前的预设占比的基因;优选地,所述预设占比为百分之50;

17、对通过以上三种模型选择得到的基因求交集,并进行迭代选择出所述基因集合。

18、构建各辅助诊断子模型的所述多种机器学习算法包括:lasso、随机森林rf、支持向量机svm、决策树rpart、岭回归ridge、弹性网络elastic、广义线性模型glm、朴素贝叶斯nb、梯度提升机gbm。

19、按照下式对各辅助诊断子模型的预测结果进行拟合:

20、s=(0.22623)+(20.30683×elasso)+(2.15987×eridge)+(-10.83474×eelastic)+(1.87032×erf)+(0.01969×esvm)+(-12.39264×eglm)+(-0.16672×erpart)+(-0.06649×egbm)+(-0.17145×enaivebayes)

21、式中,s为风险评分,elasso、eridge、eelastic、erf、esvm、eglm、erpart、egbm、enaivebayes分别代表各辅助诊断子模型在集成学习中的风险预测指标。

22、所述宏转录组数据中的差异表达基因包括:"slc25a5"、"tldc2"、"il10ra"、"isg15"、"mt-co3"。

23、一种基于集成学习的肺部病毒感染的辅助诊断装置,包括:

24、第一处理模块:对可用于回顾性研究的宏转录组数据进行病毒感染检测分组,筛选出差异表达基因,使用所述差异表达基因构建训练集和测试集;

25、第二处理模块:使用多种机器学习算法对训练集和测试集的差异基因进行筛选,对各算法所得到的保留基因求交集,并通过多次迭代选择出最具有预测性和稳健性的基因集合;

26、第三处理模块:使用多种机器学习算法分别构建辅助诊断子模型,各辅助诊断子模型分别使用所述基因集合进行预测,且各辅助诊断子模型的预测结果使用广义线性模型glm进行拟合,形成使用集成学习的方式进行最终风险预测的辅助诊断模式。

27、一种计算机可读存储介质,存储有计算机程序,所述计算机程序由处理器执行时,实现所述的基于集成学习的肺部病毒感染的辅助诊断方法。

28、本发明具有如下有益效果:

29、本发明提供一种基于集成学习的肺部病毒感染的辅助诊断方法和装置,筛选宏转录组人源无微生物肺部病毒感染辅助诊断基因,基于所筛查基因构建一种基于集成学习的肺部病毒感染风险预测模型,实现辅助诊断,本发明的辅助诊断具有准确性、稳定性和独立性,能够提高对肺部病毒感染患者的风险评估能力,有助于有效识别其是否为病毒感染微生物的患者。

30、本发明优选实施例中,通过对对源自患者的宏转录组人源基因表达数据进行分析,确定了以五个主要基因("slc25a5"、"tldc2"、"il10ra"、"isg15"、"mt-co3")在构建诊断患者是否发生病毒感染的辅助诊断模型中的应用;本发明所建立的预测模型经过多次随机实验,其诊断信息准确性、稳定性和独立性得到证实。本发明的辅助诊断方法和装置能够在临床早期干预治疗阶段提供更快速、更便捷的辅助诊断结果给医生,为患者争取宝贵时间。

31、经过测试,本发明的模型辅助诊断结果与宏转录组判断患者是否发生病毒感染一致性为85%-97%,且相比较来说,本发明可以为帮助医生利用计算机的数据处理手段更迅速、经济有效地识别肺部感染提供可行性,具有缩短检测时间、降低检测成本的优点,并很大程度上提高了感染状态评估的准确性。

32、本发明实施例中的其他有益效果将在下文中进一步述及。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1