风险预测方法及系统与流程

文档序号:14131284阅读:931来源:国知局

本发明涉及风险评估技术领域,尤其涉及风险预测方法及系统。



背景技术:

心脑血管疾病包括冠心病(心绞痛、心肌梗塞、动脉硬化性心脏病、冠脉综合症等)和脑卒中(缺血性和出血性脑卒中、蛛网膜下腔出血等),两种病发病原因较为相似,参考国际通行作法,将其归为一类疾病。

目前,心脑血管疾病已经成为我国居民死亡首因,但是疾病控制预防中心对心脑血管高风险人数的筛查仍基于传统的经验判断,学术机构对心脑血管疾病风险预测基于问卷调查和身体检查等,大规模的人群调查耗时耗力,目前业界尚无基于健康大数据的心脑血管长期风险预测模型。



技术实现要素:

有鉴于此,本发明的目的在于提供一种风险预测方法及系统,以解决现有心脑血管疾病预测方式中问卷调查和身体检查刻意采集数据的耗时费力的问题。

为实现上述目的,本发明提供一种风险预测方法,该方法包括步骤:

从地区医疗信息系统中收集与心脑血管相关的基础数据;

基于所述基础数据建立广义线性逻辑回归模型;及

根据所述广义线性逻辑回归模型预测个人心脑血管发生概率。

优选地,所述基础数据包括所述地区内满足预设年龄且排除当年本身患有心脑血管疾病的人群在预设历史时间段内的个人疾病史和用药史信息。

优选地,所述基于所述基础数据建立广义线性逻辑回归模型的步骤具体包括:

根据心脑血管疾病的主要疾病因子构建初始模型;

尝试添加其他特征作为变量并进行降维处理,以对所述初始模型进行优化;

根据优化结果生成最终模型。

优选地,所述初始模型以性别、年龄、住院次数、门诊次数、糖尿病、高血压、头晕头痛症状、胸闷胸痛症状、慢性阻塞性肺疾病、心律失常作为变量。

优选地,所述降维处理采用主成分分析法进行降维。

优选地,所述最终模型以年龄、性别、门诊就诊次数、高血压、糖尿病、头晕头痛眩晕,以及多个机构就诊次数特征、科室就诊次数特征、药物/诊疗项目使用次数特征作为变量。

优选地,所述根据所述广义线性逻辑回归模型预测个人心脑血管发生概率的步骤具体包括:

输入用户在预设历史时间段内对应的预测变量;

采用所述广义线性逻辑回归模型根据所输入的预测变量进行评估,得到在预设未来时间段内对应的心脑血管疾病发生概率;

输出评估得到的所述心脑血管疾病发生概率。

本发明提出的风险预测方法,基于从地区医疗信息系统中收集的个人疾病史和用药史信息建立广义线性逻辑回归模型,并在初始模型的基础上进一步优化选择最佳的预测变量,从而根据某个人第一年间就诊信息预测未来两年间的心脑血管疾病发生风险。该方法可以解决问卷调查和身体检查刻意采集数据的耗时费力情况,并且采用大数据手段建模,可以显著提高对心脑血管疾病的预测准确度。

为实现上述目的,本发明还提出一种风险预测系统,该系统包括:

收集模块,用于从地区医疗信息系统中收集与心脑血管相关的基础数据;

建立模块,用于基于所述基础数据建立广义线性逻辑回归模型;及

预测模块,用于根据所述广义线性逻辑回归模型预测个人心脑血管发生概率。

优选地,所述建立模块还用于:

根据心脑血管疾病的主要疾病因子构建初始模型;

尝试添加其他特征作为变量并进行降维处理,以对所述初始模型进行优化;

根据优化结果生成最终模型。

优选地,所述预测模块还用于:

输入用户在预设历史时间段内对应的预测变量;

采用所述广义线性逻辑回归模型根据所输入的预测变量进行评估,得到在预设未来时间段内对应的心脑血管疾病发生概率;

输出评估得到的所述心脑血管疾病发生概率。

本发明提出的风险预测系统,基于从地区医疗信息系统中收集的个人疾病史和用药史信息建立广义线性逻辑回归模型,并在初始模型的基础上进一步优化选择最佳的预测变量,从而根据某个人第一年间就诊信息预测未来两年间的心脑血管疾病发生风险。该系统可以解决问卷调查和身体检查刻意采集数据的耗时费力情况,并且采用大数据手段建模,可以显著提高对心脑血管疾病的预测准确度。

附图说明

图1为本发明第一实施例提出的一种风险预测方法的流程图;

图2为图1中步骤s102的具体流程图;

图3为图1中步骤s104的具体流程图;

图4为所述风险预测方法的预测效果示意图;

图5为本发明第二实施例提出的一种风险预测系统的模块示意图;

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

第一实施例

如图1所示,本发明第一实施例提出一种风险预测方法,该方法包括以下步骤:

s100,从地区医疗信息系统中收集与心脑血管相关的基础数据。

具体地,所述基础数据包括该地区40岁以上(因为95%的患者都大于40岁)且排除当年本身患有心脑血管疾病的人群在预设历史时间段内(例如一年内)的个人疾病史和用药史信息。

s102,基于所述基础数据建立广义线性逻辑回归模型。

具体地,所述广义线性逻辑回归模型通过函数l将ax+b对应一个概率p,p=l(ax+b),然后根据p与1-p的大小决定因变量y的值,其中a和b是待求参数,x是自变量。逻辑回归的因变量可以是二分类的,也可以是多分类的,实际中最为常用的是二分类的逻辑回归。

逻辑回归模型的适用条件包括:(1)因变量为二分类的分类变量或某事件的发生率,并且是数值型变量。但是需要注意,重复计数现象指标不适用于逻辑回归。(2)残差和因变量都要服从二项分布。二项分布对应的是分类变量,所以不是正态分布,不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。(3)自变量和逻辑概率是线性关系。(4)各观测对象间相互独立。

参阅图2所示,为所述步骤s102的具体流程图。该流程包括步骤:

s200,根据心脑血管疾病的主要疾病因子构建初始模型。

具体地,初始模型根据知识经验和相关文献选择心脑血管疾病的主要疾病因子以及患病人数较多的疾病作为潜在因子来进行构建。所述潜在因子可以包括:脑卒中;糖尿病;高血压;胸闷、胸痛等循环呼吸症状;头痛、头晕、眩晕等头部症状;肺炎;支气管炎;感冒、急性上呼吸道感染;慢性阻塞性肺病;痔;恶性肿瘤;胆囊疾病;胃痛、腹痛症状;白内障;腰椎病;骨折;胃肠炎;心律失常;抑郁症、焦虑症;肾结石、尿道结石等。

将上述因子及年龄、性别、住院次数、门诊次数、总费用全部放入逻辑回归模型,剔除无预测价值的变量,最终所述初始模型以性别、年龄、住院次数、门诊次数、糖尿病、高血压、头晕头痛症状、胸闷胸痛症状、慢性阻塞性肺疾病(chronicobstructivepulmonarydisease,copd)、心律失常作为变量。

s202,尝试添加其他特征作为变量并进行降维处理,以对所述初始模型进行优化。

具体地,可以在所述初始模型的基础上挑选下列三种特征进行添加:第一种是地区医疗信息系统中的其他疾病因子,因为疾病特征的长尾效应,所以将icd-10(internationalclassificationofdiseases-10,国际疾病分类-第10次修订本)编码前三位相同的疾病归为一类,最后选择患病人数大于1000的疾病种类作为变量。第二种是药物或治疗项目,首先进行单变量筛选,将每个特征依次加入包含年龄和性别的逻辑回归模型中,筛选出概率p<0.0001的特征,然后再对筛选出的特征进行降维处理。第三种是就诊医院和科室,也采用与第二种特征相同的方式添加。

所述降维处理可以采用下列两种方式:

第一种:将全部变量放入模型,然后逐步剔除概率p>0.05的变量。

第二种:使用主成分分析法,纳入累积解释比例超过85%的最小数目主成分组合。主成分分析的作用主要是降低数据集的维度,然后挑选最主要的特征或特征组合。主成分分析的主要流程为:原始数据标准化;计算标准化变量间的相关系数矩阵;计算相关系数矩阵的特征值和特征向量;计算主成分变量值;统计结果分析,提取所需的主成分。

s204,根据优化结果生成最终模型。

具体地,经过上述优化过程后,所述最终模型共以65个特征作为变量,包括年龄、性别、门诊就诊次数、3个疾病/症状特征(高血压、糖尿病、头晕头痛眩晕)、5个机构就诊次数特征(心血管医院、中心医院、人民医院、协和医院、社区卫生服务站)、11个科室就诊次数特征(心血管科、内科、内分泌科、神经内科、检验科、心电图室、感染科等)以及43个药物/诊疗项目使用次数特征(氯化钠、常规心电图检查、一般诊疗费、数字化摄影(dr)、阿司匹林、肝功能常规检查、心脏彩色多普勒超声、多潘立酮、美托洛尔等)。

回到图1,步骤s104,根据所述广义线性逻辑回归模型预测个人心脑血管发生概率。

具体地,根据所述广义线性逻辑回归模型,输入某个人在预设历史时间段内对应的预测变量,可以输出在预设未来时间段内的心脑血管疾病发生概率。

参阅图3所示,为所述步骤s104的具体流程图。该流程包括步骤:

s300,输入某个人在预设历史时间段内对应的预测变量。

具体地,所述预测变量是指所述最终模型所包括的65个特征变量。也就是说,在所述最终模型中输入某个人在预设历史时间段内(例如当前一年内)对应的所述65个特征变量。

s302,采用所述广义线性逻辑回归模型根据所输入的预测变量进行评估。

具体地,在所述最终模型中输入所述65个特征变量后,可以计算得到在预设未来时间段内(例如未来两年内)这个人对应的心脑血管疾病发生概率。

s304,输出评估得到的心脑血管疾病发生概率。

本实施例所提出的风险预测方法,基于从地区医疗信息系统中收集的个人疾病史和用药史信息建立广义线性逻辑回归模型,并在初始模型的基础上进一步优化选择最佳的预测变量,从而根据某个人第一年间就诊信息预测未来两年间的心脑血管疾病发生风险。该方法可以解决问卷调查和身体检查刻意采集数据的耗时费力情况,并且采用大数据手段建模,可以显著提高对心脑血管疾病的预测准确度。

参阅图4所示,为所述风险预测方法的预测效果示意图。图4中示出了针对不同的心脑血管疾病发生概率的人群,有模型和无模型时的预测准确度。可以看出,对于前10%人群心脑血管疾病预测准确度,有模型比无模型效果提升3.5倍。

第二实施例

如图5所示,本发明第二实施例提出一种风险预测系统50。

在本实施例中,所述风险预测系统50包括收集模块500、建立模块502和预测模块504。

所述收集模块500,用于从地区医疗信息系统中收集与心脑血管相关的基础数据。

具体地,所述基础数据包括该地区40岁以上(因为95%的患者都大于40岁)且排除当年本身患有心脑血管疾病的人群在预设历史时间段内(例如一年内)的个人疾病史和用药史信息。

所述建立模块502,用于基于所述基础数据建立广义线性逻辑回归模型。

具体地,所述广义线性逻辑回归模型通过函数l将ax+b对应一个概率p,p=l(ax+b),然后根据p与1-p的大小决定因变量y的值,其中a和b是待求参数,x是自变量。逻辑回归的因变量可以是二分类的,也可以是多分类的,实际中最为常用的是二分类的逻辑回归。

在本实施例中,建立模块502建立所述广义线性逻辑回归模型的过程具体包括:

建立模块502根据心脑血管疾病的主要疾病因子构建初始模型。

具体地,初始模型根据知识经验和相关文献选择心脑血管疾病的主要疾病因子以及患病人数较多的疾病作为潜在因子来进行构建。所述潜在因子可以包括:脑卒中;糖尿病;高血压;胸闷、胸痛等循环呼吸症状;头痛、头晕、眩晕等头部症状;肺炎;支气管炎;感冒、急性上呼吸道感染;慢性阻塞性肺病;痔;恶性肿瘤;胆囊疾病;胃痛、腹痛症状;白内障;腰椎病;骨折;胃肠炎;心律失常;抑郁症、焦虑症;肾结石、尿道结石等。

将上述因子及年龄、性别、住院次数、门诊次数、总费用全部放入逻辑回归模型,剔除无预测价值的变量,最终所述初始模型以性别、年龄、住院次数、门诊次数、糖尿病、高血压、头晕头痛症状、胸闷胸痛症状、慢性阻塞性肺疾病(chronicobstructivepulmonarydisease,copd)、心律失常作为变量。

建立模块502尝试添加其他特征作为变量并进行降维处理,以对所述初始模型进行优化。

具体地,可以在所述初始模型的基础上挑选下列三种特征进行添加:第一种是地区医疗信息系统中的其他疾病因子,因为疾病特征的长尾效应,所以将icd-10(internationalclassificationofdiseases-10,国际疾病分类-第10次修订本)编码前三位相同的疾病归为一类,最后选择患病人数大于1000的疾病种类作为变量。第二种是药物或治疗项目,首先进行单变量筛选,将每个特征依次加入包含年龄和性别的逻辑回归模型中,筛选出概率p<0.0001的特征,然后再对筛选出的特征进行降维处理。第三种是就诊医院和科室,也采用与第二种特征相同的方式添加。

所述降维处理可以采用下列两种方式:

第一种:将全部变量放入模型,然后逐步剔除概率p>0.05的变量。

第二种:使用主成分分析法,纳入累积解释比例超过85%的最小数目主成分组合。主成分分析的作用主要是降低数据集的维度,然后挑选最主要的特征或特征组合。主成分分析的主要流程为:原始数据标准化;计算标准化变量间的相关系数矩阵;计算相关系数矩阵的特征值和特征向量;计算主成分变量值;统计结果分析,提取所需的主成分。

建立模块502根据优化结果生成最终模型。

具体地,经过上述优化过程后,所述最终模型共以65个特征作为变量,包括年龄、性别、门诊就诊次数、3个疾病/症状特征(高血压、糖尿病、头晕头痛眩晕)、5个机构就诊次数特征(心血管医院、中心医院、人民医院、协和医院、社区卫生服务站)、11个科室就诊次数特征(心血管科、内科、内分泌科、神经内科、检验科、心电图室、感染科等)以及43个药物/诊疗项目使用次数特征(氯化钠、常规心电图检查、一般诊疗费、数字化摄影(dr)、阿司匹林、肝功能常规检查、心脏彩色多普勒超声、多潘立酮、美托洛尔等)。

所述预测模块504,用于根据所述广义线性逻辑回归模型预测个人心脑血管发生概率。

具体地,预测模块504根据所述广义线性逻辑回归模型,输入某个人在预设历史时间段内对应的预测变量,可以输出在预设未来时间段内的心脑血管疾病发生概率。

在本实施例中,预测模块504根据所述广义线性逻辑回归模型预测个人心脑血管发生概率的过程具体包括:

预测模块504输入某个人在预设历史时间段内对应的预测变量。

具体地,所述预测变量是指所述最终模型所包括的65个特征变量。也就是说,在所述最终模型中输入某个人在预设历史时间段内(例如当前一年内)对应的所述65个特征变量。

预测模块504采用所述广义线性逻辑回归模型根据所输入的预测变量进行评估。

具体地,在所述最终模型中输入所述65个特征变量后,可以计算得到在预设未来时间段内(例如未来两年内)这个人对应的心脑血管疾病发生概率。

预测模块504输出评估得到的心脑血管疾病发生概率。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1