一种基于医疗大数据挖掘的慢性病风险模型的构建方法

文档序号:9376055阅读:623来源:国知局
一种基于医疗大数据挖掘的慢性病风险模型的构建方法
【技术领域】
[0001] 本发明涉及一种模型的构建方法,特别是关于一种基于医疗大数据挖掘的慢性病 风险模型的构建方法。
【背景技术】
[0002] 心脏病、脑卒中、肿瘤、慢性呼吸道疾病、糖尿病等慢性病造成严重的社会负担,并 呈现出快速上升和年轻化趋势。世界卫生组织2005的一项报告显示对心脏病、中风、癌症 和其他慢性病长期存在的误解助长了全球对它们的忽视:2005年因慢性病造成的死亡人 数将达3500万,其中80%以上发生在低收入和中等收入国家。报告强调了对慢性病的日益 严重性要有所预测和了解,并紧急对其采取行动,这就要求那些能够加强慢性病预防和控 制工作的各国领袖以及国际公共卫生界对此采取新的策略,其中,至关重要的第一步是将 最新和最准确的知识和信息传授给一线卫生专业人员和广大公众。
[0003] 遗传因素和不健康生活方式是慢性病发生的根本原因,家庭成员相似的遗传背景 和共同的生活习惯,使得慢性病的发生常表现出明显的家族聚集性。高血压、糖尿病、血脂 异常、肥胖、冠心病、脑卒中和肿瘤均为多基因遗传病,同时受环境和心理因素的影响。遗传 因素与环境因素作用的总和决定一个人是否易于患病,即易患性,这种易患性高到一定的 程度(超过阈值)时才会发病。显然,为预防发病,疾病的遗传度越高,就越应该注意控制 环境和心理因素的影响,以防止其易患性达到发病的阈值。那种只讲遗传,忽视可改变危险 因素干预的宿命论观点是完全错误的,事实上,80 %以上的心脏病、脑卒中和糖尿病,40 % 以上的肿瘤都是可以预防的。
[0004] 年龄、性别、遗传、高血压、糖尿病、血脂异常、超重和肥胖、不健康膳食、缺乏身体 活动、吸烟、精神压力过大、过量饮酒等都是慢性病事件的危险因素。除年龄、性别和遗传背 景无法改变外,其他危险因素都是可以干预的。慢性病危险因素间常存在协同作用,即两个 危险因素同时存在时,其致病作用远远高于两个因素单独存在时的作用之和。因此,针对所 有危险因素进行综合干预效果是最好的。
[0005] 合理的科学依据为综合或者特定慢性病的健康评估模型,健康评估起源于临床护 理,最初是对疾病损害程度的判断工具,后来演化为临床决策和预测的有力助手,基本方法 是问卷量表、体检问卷、临床指数公式、评分表和评估模型,采集数据的来源可以是体检数 据和各大医院的医疗病例记录。针对某种慢性病的评估模型能够在一定可靠度下对人群的 发病风险程度进行划分。
[0006] 因此,进一步推进我国慢性病高危人群筛查及干预工作、探索其有效防治途径与 策略至关重要,可有效提高我国居民发病危险因素知晓率和控制率,降低慢性病的发生率、 复发率、死亡率和致残率,从而减轻慢性病给社会和家庭带来的经济负担和疾病负担,提 高国民健康水平。
[0007] 现有慢性病风险模型参差不齐,多数过于简单,缺乏数据支持,不够精确、危险程 度划分过粗糙、高危人群过于广泛等缺陷。

【发明内容】

[0008] 针对上述问题,本发明的目的是提供一种精确合理、简单易用的基于医疗大数据 挖掘的慢性病风险模型的构建方法。
[0009] 为实现上述目的,本发明采取以下技术方案:一种基于医疗大数据挖掘的慢性病 风险模型的构建方法,其包括以下步骤:
[0010] 1)确定慢性病的若干个危险因素,获得参与调查的人群含有危险因素及是否患有 慢性病的医疗统计数据;
[0011] 2)对慢性病的若干个危险因素进行任意组合获得η种危险因素组合,其中,η为 正整数;将每个危险因素组合作为关联规则X=> Y中的先导X,将慢性病作为关联规则 X二Y中的后继Υ,计算每个危险因素组合在医疗统计数据中的支持度和置信度;
[0012] 3)设置最小支持度和最小置信度,在η种危险因素组合中选择出支持度和置信度 在最小支持度和最小置信度以上的危险因素组合;
[0013] 4)通过危险因素组合构建慢性病风险模型,其为慢性病与每种危险因素同时出现 的概率,具体是指每种危险因素在支持度和置信度高于最小支持度和最小置信度的危险因 素组合中出现的概率。
[0014] 所述步骤2)中,每个危险因素组合在医疗统计数据中的支持度为既包含危险因 素组合且又包含慢性病的数据在临床统计数据中的概率;每个危险因素组合在临床统计数 据中的置信度为既包含危险因素组合且又包含慢性病的数据在包含危险因素组合的数据 中的概率。
[0015] 所述步骤4)中,所述每种危险因素在支持度和置信度高于最小支持度和最小置 信度的危险因素组合中出现的概率P 1S :
[0016] Pi= n i/N ;
[0017] 式中,P1为第i种危险因素在支持度和置信度高于最小支持度和最小置信度的危 险因素组合中出现的概率;Il 1为第i种危险因素在支持度和置信度高于最小支持度和最小 置信度的危险因素组合中出现的次数;N为支持度和置信度高于最小支持度和最小置信度 的危险因素组合数。
[0018] 本发明由于采取以上技术方案,其具有以下优点:本发明由于采用通过关联规则 从大量统计数据中挖掘出慢性病的危险因素与慢性病之间有价值的相关关系构建慢性病 风险模型,在慢性病风险模型中,更加简明清晰地显示了慢性病与各个危险因素同时发病 的概率,使得人们可以在发现某个危险因素后及时有效地采取慢性病的有效防治措施,从 而减轻慢性病给社会和家庭带来的经济负担和疾病负担。综上所述,本发明可以广泛应用 于慢性病风险模型的构建中。
【附图说明】
[0019] 图1是本发明的基于临床大数据挖掘的慢性病风险模型的构建流程示意图;
[0020] 图2是本发明的实施例中各个危险因素的出现次数柱状图。
【具体实施方式】
[0021] 下面结合附图和实施例对本发明进行详细的描述。
[0022] 如图1所示,本发明提供一种基于医疗大数据挖掘的慢性病风险模型的构建方 法,其包括以下步骤:
[0023] 1)确定慢性病的若干个危险因素,通过慢性病筛查与防控工程的实施获得参与人 群含有危险因素及是否患有慢性病的医疗统计数据。
[0024] 2)对慢性病的若干个危险因素进行任意组合获得η种危险因素组合,其中,η为 正整数。将每个危险因素组合作为关联规则X^Y中的先导X,将慢性病作为关联规则 X二Y中的后继Υ,计算每个危险因素组合在医疗统计数据中的支持度supp (XY)和置信度 conf (YIX) 〇
[0025] 其中,每个危险因素组合在医疗统计数据中的支持度supp(XY)为既包含危险因 素组合且又包含慢性病的数据在医疗统计数据中的概率;置信度co
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1