一种基于医疗大数据挖掘的慢性病风险模型的构建方法_2

文档序号:9376055阅读:来源:国知局
nf (Y|X)为既包含危险 因素组合且又包含慢性病的数据在包含危险因素组合的数据中的概率。
[0026] 3)设置最小支持度和最小置信度,在η种危险因素组合中选择出支持度和置信度 在最小支持度和最小置信度以上的危险因素组合。
[0027] 4)通过危险因素组合构建慢性病风险模型;其中,慢性病风险模型为慢性病与每 种危险因素同时出现的概率,具体是指每种危险因素在支持度和置信度高于最小支持度和 最小置信度的危险因素组合中出现的概率P 1,计算公式如下:
[0028] Pi= n i/N (I)
[0029] 式中,Ii1为第i种危险因素在支持度和置信度高于最小支持度和最小置信度的危 险因素组合中出现的次数;N为支持度和置信度高于最小支持度和最小置信度的危险因素 组合数。
[0030] 实施例
[0031] 1)确定慢性病脑卒中的危险因素包括短暂性脑缺血、高血压病、房颤或瓣膜性心 脏病、吸烟、血脂异常、糖尿病、缺乏锻炼、肥胖和脑卒中家族史,共9个,通过脑卒中高危人 群筛查和干预试点项目的实施获得参与人群的医疗统计数据,共计862244人的有效数据。
[0032] 2)对脑卒中的9个危险因素进行任意组合获得511种危险因素组合,将每个危险 因素组合作为关联规则Y中的先导X,将脑卒中作为关联规则X二Y中的后继Y,计 算每个危险因素组合在医疗统计数据中的支持度supp(XY)和置信度conf(YlX)。其中,单 独因素的支持度supp(XY)和置信度conf(YlX)的计算结果如表1所示。
[0033] 表1脑卒中单独因素的支持度和置信度
[0034]

[0035] 3)设置最小支持度supp(XY)为0· I %和最小置信度conf(Y IX)为10%,在511种 危险因素组合中选择出支持度和置信度在最小支持度和最小置信度以上的危险因素组合, 共21种,如表2所示。
[0036] 表2 21种危险因素组合的支持度和置信度
[0037]
[0038]
LlN 丄 UOUy〇b/d A pyj U 0/O JM
[0039] 4)通过危险因素组合构建脑卒中风险模型。
[0040] 脑卒中风险模型为脑卒中与每种危险因素同时出现的概率,具体是指每种危险因 素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的概率Pi。
[0041] 其中,计算每种危险因素在支持度和置信度高于最小支持度和最小置信度的危险 因素组合中出现的概率P 1包括以下步骤:
[0042] (1)确定第i种风险因素在支持度和置信度高于最小支持度和最小置信度的危险 因素组合中出现的次数H 1,如图2所示,从图2可以得到短暂性脑缺血和高血压病出现次数 最多,吸烟出现次数最少。
[0043] (2)根据公式P1= n YN计算每种危险因素在支持度和置信度高于最小支持度和 最小置信度的危险因素组合中出现的概率P1,其中N为支持度和置信度高于最小支持度和 最小置信度的危险因素组合数,即N = 21,计算结果如表3所示。
[0044] 表3每种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素 组合中出现的概率P 1
[0045]

[0046] 其中统计选择出的21种危险因素组合中各个危险因素出现的次数,其出现次数 柱状图如图2所示,从图2可以得到短暂性脑缺血和高血压病出现次数最多,吸烟出现次数 最少。
[0047] 上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和制作工艺等都 是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除 在本发明的保护范围之外。
【主权项】
1. 一种基于医疗大数据挖掘的慢性病风险模型的构建方法,其包括以下步骤: 1) 确定慢性病的若干个危险因素,获得参与调查的人群含有危险因素及是否患有慢性 病的医疗统计数据; 2) 对慢性病的若干个危险因素进行任意组合获得n种危险因素组合,其中,n为正整 数;将每个危险因素组合作为关联规则X1Y中的先导X,将慢性病作为关联规则Y 中的后继Y,计算每个危险因素组合在医疗统计数据中的支持度和置信度; 3) 设置最小支持度和最小置信度,在n种危险因素组合中选择出支持度和置信度在最 小支持度和最小置信度以上的危险因素组合; 4) 通过危险因素组合构建慢性病风险模型,其为慢性病与每种危险因素同时出现的概 率,具体是指每种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组 合中出现的概率。2. 如权利要求1所述的一种基于医疗大数据挖掘的慢性病风险模型的构建方法,其特 征在于:所述步骤2)中,每个危险因素组合在医疗统计数据中的支持度为既包含危险因素 组合且又包含慢性病的数据在临床统计数据中的概率;每个危险因素组合在临床统计数据 中的置信度为既包含危险因素组合且又包含慢性病的数据在包含危险因素组合的数据中 的概率。3. 如权利要求1或2所述的一种基于医疗大数据挖掘的慢性病风险模型的构建方法, 其特征在于:所述步骤4)中,所述每种危险因素在支持度和置信度高于最小支持度和最小 置信度的危险因素组合中出现的概率 ?1为: Pi=ni/N; 式中,Pi为第i种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因 素组合中出现的概率为第i种危险因素在支持度和置信度高于最小支持度和最小置信 度的危险因素组合中出现的次数;N为支持度和置信度高于最小支持度和最小置信度的危 险因素组合数。
【专利摘要】本发明涉及一种基于医疗大数据挖掘的慢性病风险模型的构建方法,其包括以下步骤:确定慢性病的若干个危险因素,获得参与调查的人群含有危险因素及患有慢性病的临床统计数据;对慢性病的若干个危险因素进行任意组合获得n种危险因素组合,计算每个危险因素组合在医疗统计数据中的支持度和置信度;设置最小支持度和最小置信度,选择出支持度和置信度大于最小支持度和最小置信度的危险因素组合;通过危险因素组合构建慢性病风险模型,慢性病风险模型为慢性病与每种危险因素同时出现的概率,具体是指每种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因素组合中出现的概率。本发明可广泛应用于慢性病风险模型的构建中。
【IPC分类】G06F19/00
【公开号】CN105095673
【申请号】CN201510531445
【发明人】李非, 伯晓晨, 徐文剑, 罗一夫
【申请人】中国人民解放军军事医学科学院放射与辐射医学研究所
【公开日】2015年11月25日
【申请日】2015年8月26日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1