一种基于肺活量数据的疾病预测模型的构建方法及系统与流程

文档序号:23265862发布日期:2020-12-11 18:56阅读:110来源:国知局
一种基于肺活量数据的疾病预测模型的构建方法及系统与流程

本发明涉及智能医疗以及医疗信息技术领域,涉及一种疾病预测模型的构建方法及系统,尤其涉及一种基于肺活量数据的疾病预测模型的构建方法及系统。



背景技术:

肺活量(vitalcapacity,vc)是指一次尽力吸气后,再尽力呼出的气体总量。肺活量在一定意义上可反映呼吸机能的潜在能力。成年男子肺活量约为3500毫升,女子约为2500毫升。壮年人的肺活量最大,幼年和老年人较小。健康状况愈好的人肺活量愈大,肺组织损害如肺结核、肺纤维化、肺不张或肺叶切除达一定程度时都可能使肺活量减小;脊柱后凸,胸膜增厚,渗出性胸膜炎或气胸等,也可使肺扩张受限,肺活量减小。因此,肺活量明显减小是限制性通气障碍的表现。由于肺活量的测定方法简单,重复性较好,故是健康检查常用的指标。

目前暂未出现基于肺活量数据的疾病预测评估模型,为普通人群提供一种操作简单、易于执行的与肺功能疾病预测预防或自我筛查的方法。



技术实现要素:

本发明针对现有技术中存在的技术问题,提出了一种基于肺活量数据的疾病预测评估模型,本发明的第一方面目的提供了一种基于肺活量数据的疾病预测模型的构建方法,包括如下步骤:获取包括患病人群的肺活量数据、健康人群的肺活量数据,将其作为第一样本集;根据肺活量数据异常所对应的疾病知识库对所述第一样本集进行数据清洗和标准化,构成第二样本集;将所述第二样本集划分为训练集、验证集,然后将所述训练集作为knn分类器的输入;训练所述knn分类器,直至该分类器的质心不再改变,得到预测模型。

具体地,获取包括患病人群的肺活量数据、健康人群的肺活量数据可通过志愿者直接测量或在脱去患者敏感数据的前提下从电子病历中获取涉及肺部检查的相关数据。

在本发明的一些实施例中,所述根据肺活量数据异常所对应的疾病知识库对所述第一样本集进行数据清洗和标准化包括如下步骤:根据所述疾病知识库中的人群、性别、年龄所确定的健康肺活量数据范围剔除第一样本集中的健康人群中肺活量数据异常的样本以及患病人群中肺活量数据正常的样本;对经过数据清洗的的第一样本集中的肺活量数据根据不同人群的性别、年龄进行归一化。

进一步的,还包括将所述第一样本集中的健康人群中肺活量数据异常的样本以及患病人群中肺活量数据正常的样本作为验证集对所述预测模型进行验证。

进一步的,所述对经过数据清洗的的第一样本集中的肺活量数据不同人群、性别、年龄进行归一化包括如下步骤:若样本人群的年龄低于20时,则按性别逐年对经过数据清洗的的第一样本集中的肺活量数据进行归一化;若样本人群的年龄高于20时,则按性别对经过数据清洗的的第一样本集中的肺活量数据归一化。

在上述的实施例中,所述第一样本集包括样本人群的性别、年龄、身高、体重。

进一步的,所述第二样本集中包括样本人群的性别、年龄、体表面积,所述体表面积根据身高和体重所确定的体表回归方程计算而得。

在上述的实施例中,疾病知识库中记录了肺活量测量值异常分布数据所对应的疾病以及疾病知识和相应的解决方案。比如,肺活量测量值偏低或者减少,一般是指各种肺实质病变,如肺气肿、胸膜病变、胸廓畸形、呼吸肌无力或麻痹等。肺活量测量值偏低可能的疾病有滑石粉尘肺、肺气肿、哮喘、阻塞性肺气肿、月经性哮喘等。另外肺组织损害如肺结核、肺纤维化、肺不张或肺叶切除达一定程度时都可能使肺活量减小;脊柱后凸、胸膜增厚、渗出性胸膜炎或气胸等,也可使肺扩张受限,肺活量减小。因此,肺活量明显减小是限制性通气障碍的表现。

本发明的第二方面目的提供了一种基于肺活量数据的疾病预测模型的系统,包括获取模块、存储模块、匹配模块、计算模块、预测模型,所述获取模块,用于获取用户的年龄、性别、体重、身高、体表面积、肺活量数据;所述存储模块,用于存储肺活量数据异常所对应的疾病知识库;所述匹配模块,用于根据用户的年龄、性别、体表面积匹配与所述疾病知识库匹配,得到相应的健康肺活量数据范围;所述计算模块,用于根据肺活量数据和所述相应的健康肺活量数据范围进行归一化,得到肺活量特征值;所述预测模型,用于根据所述肺活量特征值预测用户是否患病。

在本发明的一些实施例中,所述获取模块根据身高和体重所确定的体表回归方程计算体表面积。

进一步,所述预测模型包括本发明第一方面目的提供的基于肺活量数据的疾病预测模型的构建方法所构建的模型。具体计算方法如下:

更进一步的,所述预测模型包括knn分类器,所述knn分类器根据knn算法和第二数据集来预测用户是否患病。

本发明的有益效果是:本发明提供了一种基于肺活量数据的疾病预测模型的构建方法,该模型能应用于普通人群的肺功能自我筛查和疾病预测预防,大大减轻了医院肺功能的相关检查的压力,也提高了普通人群健康意识。另一方面本发明利用机器学习中的knn算法,将与肺活量相关的数据进行聚类和归一化,极大提高了预测的准确率和检测速度,也为预测提供了足够的科学依据。

附图说明

图1为本发明的一些实施例中的基于肺活量数据的疾病预测模型的构建方法的基本流程图;

图2为本发明的一些实施例中的基于肺活量数据的疾病预测模型的系统的结构原理图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。一种基于肺活量数据的疾病预测模型的构建方法,包括如下步骤:s101.获取包括患病人群的肺活量数据、健康人群的肺活量数据,将其作为第一样本集;s102.根据肺活量数据异常所对应的疾病知识库对所述第一样本集进行数据清洗和标准化,构成第二样本集;s103.将所述第二样本集划分为训练集、验证集,然后将所述训练集作为knn分类器的输入;s104.训练所述knn分类器,直至该分类器的质心不再改变,得到预测模型。

在本发明的一些实施例中的步骤s102中,所述根据肺活量数据异常所对应的疾病知识库对所述第一样本集进行数据清洗和标准化包括如下步骤:根据所述疾病知识库中的人群、性别、年龄所确定的健康肺活量数据范围剔除第一样本集中的健康人群中肺活量数据异常的样本以及患病人群中肺活量数据正常的样本;对经过数据清洗的的第一样本集中的肺活量数据根据不同人群的性别、年龄进行归一化。

具体地,以小学生肺活量平均参考值为例,小学时候的标准一般为:男生2200ml,女生2300ml。其中,男生一至六年级基本标准为:7岁1342ml;8岁1496ml;9岁1972ml;10岁1843ml;11岁2010ml;女生:7岁1213ml;8岁1354ml;10岁1685ml;9岁1516ml;11岁1883ml;12岁2077ml等。这里,肺活量测量数据涉及到类别:{小学生;性别:男女;值域:男生1342-2200ml、女生1213-2300ml}等;根据人群分类以及测量数据的值域,将采集到的样本集做线性归一化处理,获取肺活量测量值分布数据。由于肺活量受年龄、性别、身长、体表面积等的影响,故应以预计值百分率作为指标来判断。正常人群为100±20%,<80%为减少。这里,以成人男性(>17岁)为例:正常值在3500ml-4000ml之间;重度减低100ml-1400ml;中度减低1401ml-2100ml;轻度减低2101ml-2800ml;偏低2801ml-3500ml;偏高4001ml-10000ml;以成人女性(>17岁)为例:正常值2500ml-3000ml;重度减低100ml-1000ml;中度减低1001ml-1500ml;轻度减低1501ml-2000ml;偏低2001ml-2500ml;偏高3001ml-10000ml等。这里,线性归一化公式为:

该方法通过线性变化对原始数据进行等比例缩放映射到[0,1]之间,其中x’为归一化后的数据,x为原始数据,min(x)和max(x)分别为x向量的最小值和最大值。实际归一化中,若数据分布差异较大,也可采用对数函数对肺活量数据进行归一化。

进一步的,还包括将所述第一样本集中的健康人群中肺活量数据异常的样本以及患病人群中肺活量数据正常的样本作为验证集对所述预测模型进行验证。

进一步的,考虑到肺活量数据因性别和年龄而异,男性明显高于女性。在20岁前,肺活量随着年龄增长而逐渐增大,20岁后增加量就不明显。因此,所述对经过数据清洗的的第一样本集中的肺活量数据不同人群、性别、年龄进行归一化包括如下步骤:若样本人群的年龄低于20时,则按性别逐年对经过数据清洗的的第一样本集中的肺活量数据进行归一化;若样本人群的年龄高于20时,则按性别对经过数据清洗的的第一样本集中的肺活量数据归一化。

在上述的实施例中,所述第一样本集包括样本人群的性别、年龄、身高、体重。

进一步的,考虑到肺活量数据因体表面积而异,所述第二样本集中包括样本人群的性别、年龄、体表面积,所述体表面积根据身高和体重所确定的体表回归方程计算而得。

本发明的第二方面目的提供了一种基于肺活量数据的疾病预测模型1的系统,包括获取模块11、存储模块12、匹配模块13、计算模块14、预测模型15,所述获取模块11,用于获取用户的年龄、性别、体重、身高、体表面积、肺活量数据;所述存储模块12,用于存储肺活量数据异常所对应的疾病知识库;所述匹配模块13,用于根据用户的年龄、性别、体表面积匹配与所述疾病知识库匹配,得到相应的健康肺活量数据范围;所述计算模块14,用于根据肺活量数据和所述相应的健康肺活量数据范围进行归一化,得到肺活量特征值;所述预测模型15,用于根据所述肺活量特征值预测用户是否患病。

在本发明的一些实施例中,所述获取模块11根据身高和体重所确定的体表回归方程计算体表面积。具体如下:

体表面积(单位为cm2)=42.3556h+176.6882w-272.2716,h代表身高(单位为cm),w代表体重(单位为kg)。

进一步,所述预测模型15包括本发明第一方面目的提供的基于肺活量数据的疾病预测模型的构建方法所构建的模型。

更进一步的,所述预测模型15还包括knn分类器,所述knn分类器根据knn算法和第二数据集来预测用户是否患病。具体地,将计算出待诊断患者肺活量测量数据与肺活量测量值分布数据之间的距离,并与对应的疾病信息进行匹配。

具体地,利用knn算法(用于参考已知的数据,对未知实例的类别进行判断),将用户或待测试的肺活量测量数据与第二样本集中的肺活量测量值分布数据进行比较,计算出待诊断患者肺活量测量数据与肺活量测量值分布数据之间的距离。具体操作方法为:输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前k个数据,则该测试数据对应的类别就是k个数据中出现次数最多的那个分类,其算法的描述为:

1)、计算测试数据与各个训练数据之间的距离;

2)、按照距离的递增关系进行排序;

3)、选取距离最小的k个点;

4)、确定前k个点所在类别的出现频率;

5)、返回前k个点中出现频率最高的类别作为测试数据的预测分类。

这里,最常用的是两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点x=(x1,...,xn)和y=(y1,...,yn)之间的距离为:

在上述的实施例中,所述knn分类器根据knn算法和第二数据集来预测用户是否患病具体为:根据匹配结果生成对应预测或评估报告。比如,如果成年人肺活量偏低,也就是在2801ml-3500ml之间,那么可能的疾病有脊柱后凸、胸膜增厚、渗出性胸膜炎、气胸等;如果成年人肺活量重度减低,也就是在100ml-1400ml之间,那么可能的疾病有支气管炎、铁尘肺、特发性肺纤维化、矽肺、肺气肿、阻塞性肺气肿、肺结核、气胸、心肌炎、先天性心脏病、呼吸衰竭、肥胖症等。

应当注意的是,肺活量测量是最大吸气后用力作最快速度呼气直至呼完为止,从而得到测量值。上述计算出待诊断患者肺活量测量数据与肺活量测量值分布数据之间的距离,并与对应的疾病信息进行匹配,显然并没有考虑呼气速度所用的时间,因而并测不出呼吸道通气不畅的具体疾病。所以需要要引入时间这个变量,通过与上述结果进行加权,以便推测出相对具体的疾病。比如,最大吸气后用力作最快速度呼气,直至呼完为止。同时分别记录第1、2、3秒末呼出的气量。正常人应分别呼出其肺活量的83%、96%和99%。患肺阻塞性肺部疾病者往往需要5~6秒或更多时间才能呼出全部肺活量。

此外,肺活量因性别和年龄而异,男性明显高于女性。在20岁前,肺活量随着年龄增长而逐渐增大,20岁后增加量就不明显了。成年男子的肺活量约3500~4000毫升,成年女子约2500~3000毫升。肺活量主要取决于胸腔壁的扩张与收缩的宽舒程度。肺活量随年龄的增长而下降,每10年下降9%~27%,但长期坚持体育锻炼的人,其肺活量仍能保持正常;另外,体育锻炼可以明显提高肺活量,譬如可以经常性的做一些扩胸、振臂等徒手操练习,坚持耐久跑、游泳、踢足球、打篮球、折返跑等,像中长跑运动员和游泳运动员的肺活量可达6000毫升以上。这些因素可以作为一些辅助因子和变量进行加权参与上述欧式距离计算中。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元或模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。

基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1