糖尿病分析方法及应用服务器与流程

文档序号:14078044阅读:763来源:国知局
糖尿病分析方法及应用服务器与流程
本发明涉及数据分析
技术领域
,尤其涉及一种糖尿病分析方法及应用服务器。
背景技术
:糖尿病是一组由多病因引起的以慢性高血糖为特征的终身性代谢性疾病。长期血糖增高,大血管、微血管受损并危及心、脑、肾、周围神经、眼睛、足等,据世界卫生组织统计,糖尿病并发症高达100多种,是目前已知并发症最多的一种疾病。糖尿病死亡者有一半以上是心脑血管所致,10%是肾病变所致。因糖尿病截肢的患者是非糖尿病的10~20倍。临床数据显示,糖尿病发病后10年左右,将有30%~40%的患者至少会发生一种并发症,且并发症一旦产生,药物治疗很难逆转,因此强调尽早预防糖尿病并发症。糖尿病的发病存在三方面因素:遗传、环境因素和生理性老化引起胰岛素抵抗和胰岛素作用不足。根据糖尿病并发症发病的急缓以及病理上的差异,可将其分为急性和慢性两大类。传统医学上,由于并发症的多样化导致并发症的确诊较为复杂,时间开销很大,很容易耽误治疗及预防时间。技术实现要素:有鉴于此,本发明提出一种糖尿病分析方法及应用服务器,以解决如何有效预防糖尿病及其他并发症的问题。首先,为实现上述目的,本发明提出一种糖尿病分析方法,该方法包括步骤:设置样本范围,包括用户范围和数据维度;根据所设置的样本范围,获取相应的样本数据;对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析,其中,将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集;及输出关联分析结果。可选地,该方法在之前还包括步骤:对所述样本数据进行预处理,包括缺失值处理和连续变量的离散化。可选地,所述用户范围包括数据来源及采集时间、城市、年龄、性别;所述数据维度包括人口属性、用户是否患有糖尿病及并发症、健康以及非健康因子。可选地,所述对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析的步骤具体包括:从样本数据中获取各用户患病情况,包括糖尿病及其并发症;将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集进行关联分析;从结果中筛选出高提升度的规则,对应的左项集因子即为糖尿病或并发症的患病因子。可选地,所述对所述样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析的步骤还包括:按关联分析中找到的左项集因子对用户进行分类;对每一类用户进行进一步深入的分析,计算各类用户患糖尿病几率,产生各种并发症几率;比较各类用户的患病比例,找出糖尿病或并发症与不同的患病因子之间的病理关系,以及不同患病因子对于用户患上糖尿病或并发症的影响的强弱程度。可选地,所述关联分析结果包括关联项集以及相应的支持度、置信度、提升度。可选地,所述缺失值处理包括:默认将有缺失的数据进行丢弃,若要保留包含缺失的数据,则先对缺失值进行填充;所述缺失值的填充方式包括:人口属性和体检指标中涉及到的连续变量用均值填充;金融消费属性中涉及到的连续变量用0填充;各类疾病涉及到的缺失值用0填充;其他离散维度用-1填充。可选地,所述连续变量的离散化包括:对连续变量进行等频或等宽分箱。此外,为实现上述目的,本发明还提供一种应用服务器,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的糖尿病分析系统,所述糖尿病分析系统被所述处理器执行时实现如上述的糖尿病分析方法的步骤。进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有糖尿病分析系统,所述糖尿病分析系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的糖尿病分析方法的步骤。相较于现有技术,本发明所提出的糖尿病分析方法、应用服务器及计算机可读存储介质,可以利用大数据,基于庞大的用户样本,寻找样本的各个维度的特征及患病信息。通过关联分析的方法,研究各类不同的人群的各类患病之间的潜在关系。进而通过用户的患病情况得到各类不同用户患糖尿病的几率、糖尿病患者产生其他并发症的几率、以及糖尿病与其他影响因素之间的关系。最终帮助潜在糖尿病患者提早预防,并帮助糖尿病患者预防其他并发症的产生。附图说明图1是本发明应用服务器一可选的硬件架构的示意图;图2是本发明糖尿病分析系统第一实施例的程序模块示意图;图3是本发明糖尿病分析系统第二实施例的程序模块示意图;图4是本发明糖尿病分析方法第一实施例的流程示意图;图5是本发明糖尿病分析方法第二实施例的流程示意图;附图标记:应用服务器2存储器11处理器12网络接口13糖尿病分析系统200设置模块201获取模块202分析模块203输出模块204预处理模块205本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。参阅图1所示,是本发明应用服务器2一可选的硬件架构的示意图。本实施例中,所述应用服务器2可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是,图2仅示出了具有组件11-13的应用服务器2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,所述应用服务器2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该应用服务器2可以是独立的服务器,也可以是多个服务器所组成的服务器集群。所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述应用服务器2的内部存储单元,例如该应用服务器2的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述应用服务器2的外部存储设备,例如该应用服务器2上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。当然,所述存储器11还可以既包括所述应用服务器2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述应用服务器2的操作系统和各类应用软件,例如糖尿病分析系统200的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。所述处理器12在一些实施例中可以是中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述应用服务器2的总体操作。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述的糖尿病分析系统200等。所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述应用服务器2与其他电子设备之间建立通信连接。至此,己经详细介绍了本发明相关设备的硬件结构和功能。下面,将基于上述介绍提出本发明的各个实施例。首先,本发明提出一种糖尿病分析系统200。参阅图2所示,是本发明糖尿病分析系统200第一实施例的程序模块图。本实施例中,所述糖尿病分析系统200包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本发明各实施例的糖尿病分析操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,糖尿病分析系统200可以被划分为一个或多个模块。例如,在图3中,所述糖尿病分析系统200可以被分割成设置模块201、获取模块202、分析模块203、输出模块204。其中:所述设置模块201,用于设置样本范围,包括用户范围和数据维度。具体地,本实施例需要利用大数据,基于庞大的用户样本,寻找样本的各个维度的特征及患病信息,从而分析出各类不同的人群的各类患病之间的潜在关系。首先,需要设置所采集的样本的范围,所述样本范围包括用户范围和数据维度。其中,所述用户范围包括数据来源及采集时间、城市、年龄、性别等。例如,可以设置从医院和保险公司的数据库中采集2010年至2015年深圳市18岁以上的所有男性及女性用户的数据。所述数据维度包括人口属性(性别、年龄、婚姻、学历等)、用户是否患有糖尿病及并发症、健康以及非健康因子等多个维度。例如,健康因子包括体检、用药等相关因子;非健康因子包括职业、金融消费等相关因子。所述获取模块202,用于根据所设置的样本范围,获取相应的样本数据。具体地,根据所述用户范围,从所述数据来源中获取所述采集时间内所设置的城市的符合所述年龄和性别等特征的用户对应的所有所述数据维度的数据。所述分析模块203,用于对样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析。具体地,从样本数据中获取各用户患病情况,包括糖尿病及其并发症。将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集进行关联分析。从结果中筛选出高提升度的规则,对应的左项集因子即为糖尿病或并发症的患病因子。按关联分析中找到的左项集因子对用户进行分类,其中包括健康因子、非健康因子、人口属性等。对每一类用户进行进一步深入的分析,计算各类用户患糖尿病几率,产生各种并发症几率。比较各类用户的患病比例,找出糖尿病或并发症与不同的患病因子之间的病理关系,以及不同患病因子对于用户患上糖尿病或并发症的影响的强弱程度。所述输出模块204,用于输出关联分析结果。具体地,所述关联分析结果包括关联项集以及相应的支持度、置信度、提升度,用于发现各个因素与糖尿病或并发症之间的关联关系,从而找到糖尿病或并发症潜在的患病因子、以及不同人群的各类患病因子对糖尿病或并发症的影响的强弱关系。关联因子相应的支持度、置信度、提升度说明了该关联因子所属类别的患者与是否患有糖尿病或并发症的关联关系。例如,因子i的支持度是a%,表示包含因子i的人群在总人群中的占比;置信度是b%,表示包含因子i的人群中患有糖尿病的人群的所占比例为b%;提升度是c,表示上述人群占比相比于总人群中糖尿病患者占比的倍数提升了c倍。说明了因子i作为糖尿病的患病因子的强弱程度。本实施例利用了大量的用户样本,使用关联分析的方法挖掘糖尿病(并发症)与其他维度特征之间的关系,而不是简单的依照病理关系来确定糖尿病(并发症)的患病因子。这样能更全面的挖掘出更多潜在的患病信息,并能得到每项因子对患病产生的影响程度的数值化结果,能更加直观的比较不同因子的重要性。参阅图3所示,是本发明糖尿病分析系统200第二实施例的程序模块图。本实施例中,所述的糖尿病分析系统200除了包括第一实施例中的所述设置模块201、获取模块202、分析模块203、输出模块204之外,还包括预处理模块205。所述预处理模块205用于在所述获取模块202获取样本数据后,对所述样本数据进行预处理。具体地,所述预处理包括缺失值处理和连续变量的离散化。在本实施例中,默认将有缺失的数据进行丢弃。如果想保留包含缺失的数据,需要先对缺失值进行填充。本实施例中的样本缺失值主要通过如下方法填充:a)人口属性和体检指标中涉及到的连续变量用均值填充;b)金融消费属性中涉及到的连续变量用0填充;c)各类疾病涉及到的缺失值用0填充,即缺失表示未患病;d)其他离散维度用-1填充,单独表示缺失类。该关联规则不能处理连续变量,因此对连续变量进行等频或等宽分箱。例如,本实施例中对年龄进行了等宽分箱,后期又将数据量较小的几个箱进行了合并。其余数据由于数据分布不均匀,左偏现象严重,因此采用等频分箱。此外,本发明还提出一种糖尿病分析方法。参阅图4所示,是本发明糖尿病分析方法第一实施例的流程示意图。在本实施例中,根据不同的需求,图4所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。步骤s400,设置样本范围,包括用户范围和数据维度。具体地,本实施例需要利用大数据,基于庞大的用户样本,寻找样本的各个维度的特征及患病信息,从而分析出各类不同的人群的各类患病之间的潜在关系。首先,需要设置所采集的样本的范围,所述样本范围包括用户范围和数据维度。其中,所述用户范围包括数据来源及采集时间、城市、年龄、性别等。例如,可以设置从医院和保险公司的数据库中采集2010年至2015年深圳市18岁以上的所有男性及女性用户的数据。所述数据维度包括人口属性(性别、年龄、婚姻、学历等)、用户是否患有糖尿病及并发症、健康以及非健康因子等多个维度。例如,健康因子包括体检、用药等相关因子;非健康因子包括职业、金融消费等相关因子。步骤s402,根据所设置的样本范围,获取相应的样本数据。具体地,根据所述用户范围,从所述数据来源中获取所述采集时间内所设置的城市的符合所述年龄和性别等特征的用户对应的所有所述数据维度的数据。步骤s404,对样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析。具体地,从样本数据中获取各用户患病情况,包括糖尿病及其并发症。将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集进行关联分析。从结果中筛选出高提升度的规则,对应的左项集因子即为糖尿病或并发症的患病因子。按关联分析中找到的左项集因子对用户进行分类,其中包括健康因子、非健康因子、人口属性等。对每一类用户进行进一步深入的分析,计算各类用户患糖尿病几率,产生各种并发症几率。比较各类用户的患病比例,找出糖尿病或并发症与不同的患病因子之间的病理关系,以及不同患病因子对于用户患上糖尿病或并发症的影响的强弱程度。步骤s406,输出关联分析结果。具体地,所述关联分析结果包括关联项集以及相应的支持度、置信度、提升度,用于发现各个因素与糖尿病或并发症之间的关联关系,从而找到糖尿病或并发症潜在的患病因子、以及不同人群的各类患病因子对糖尿病或并发症的影响的强弱关系。关联因子相应的支持度、置信度、提升度说明了该关联因子所属类别的患者与是否患有糖尿病或并发症的关联关系。例如,因子i的支持度是a%,表示包含因子i的人群在总人群中的占比;置信度是b%,表示包含因子i的人群中患有糖尿病的人群的所占比例为b%;提升度是c,表示上述人群占比相比于总人群中糖尿病患者占比的倍数提升了c倍。说明了因子i作为糖尿病的患病因子的强弱程度。本实施例所提出的糖尿病分析方法,利用了大量的用户样本,使用关联分析的方法挖掘糖尿病(并发症)与其他维度特征之间的关系,而不是简单的依照病理关系来确定糖尿病(并发症)的患病因子。这样能更全面的挖掘出更多潜在的患病信息,并能得到每项因子对患病产生的影响程度的数值化结果,能更加直观的比较不同因子的重要性。如图5所示,是本发明糖尿病分析方法的第二实施例的流程示意图。本实施例中,所述糖尿病分析方法的步骤s500-s502及s506-s508与第一实施例的步骤s400-s406相类似,区别在于该方法还包括步骤s504。该方法包括以下步骤:步骤s500,设置样本范围,包括用户范围和数据维度。具体地,本实施例需要利用大数据,基于庞大的用户样本,寻找样本的各个维度的特征及患病信息,从而分析出各类不同的人群的各类患病之间的潜在关系。首先,需要设置所采集的样本的范围,所述样本范围包括用户范围和数据维度。其中,所述用户范围包括数据来源及采集时间、城市、年龄、性别等。例如,可以设置从医院和保险公司的数据库中采集2010年至2015年深圳市18岁以上的所有男性及女性用户的数据。所述数据维度包括人口属性(性别、年龄、婚姻、学历等)、用户是否患有糖尿病及并发症、健康以及非健康因子等多个维度。例如,健康因子包括体检、用药等相关因子;非健康因子包括职业、金融消费等相关因子。步骤s502,根据所设置的样本范围,获取相应的样本数据。具体地,根据所述用户范围,从所述数据来源中获取所述采集时间内所设置的城市的符合所述年龄和性别等特征的用户对应的所有所述数据维度的数据。步骤s504,对所述样本数据进行预处理。具体地,所述预处理包括缺失值处理和连续变量的离散化。在本实施例中,默认将有缺失的数据进行丢弃。如果想保留包含缺失的数据,需要先对缺失值进行填充。本实施例中的样本缺失值主要通过如下方法填充:a)人口属性和体检指标中涉及到的连续变量用均值填充;b)金融消费属性中涉及到的连续变量用0填充;c)各类疾病涉及到的缺失值用0填充,即缺失表示未患病;d)其他离散维度用-1填充,单独表示缺失类。该关联规则不能处理连续变量,因此对连续变量进行等频或等宽分箱。例如,本实施例中对年龄进行了等宽分箱,后期又将数据量较小的几个箱进行了合并。其余数据由于数据分布不均匀,左偏现象严重,因此采用等频分箱。步骤s506,对样本数据中的各个数据维度与糖尿病或并发症的关系进行关联分析。具体地,从样本数据中获取各用户患病情况,包括糖尿病及其并发症。将是否患糖尿病或并发症作为关联规则的右项集,其他数据维度作为左项集进行关联分析。从结果中筛选出高提升度的规则,对应的左项集因子即为糖尿病或并发症的患病因子。按关联分析中找到的左项集因子对用户进行分类,其中包括健康因子、非健康因子、人口属性等。对每一类用户进行进一步深入的分析,计算各类用户患糖尿病几率,产生各种并发症几率。比较各类用户的患病比例,找出糖尿病或并发症与不同的患病因子之间的病理关系,以及不同患病因子对于用户患上糖尿病或并发症的影响的强弱程度。步骤s508,输出关联分析结果。具体地,所述关联分析结果包括关联项集以及相应的支持度、置信度、提升度,用于发现各个因素与糖尿病或并发症之间的关联关系,从而找到糖尿病或并发症潜在的患病因子、以及不同人群的各类患病因子对糖尿病或并发症的影响的强弱关系。关联因子相应的支持度、置信度、提升度说明了该关联因子所属类别的患者与是否患有糖尿病或并发症的关联关系。例如,因子i的支持度是a%,表示包含因子i的人群在总人群中的占比;置信度是b%,表示包含因子i的人群中患有糖尿病的人群的所占比例为b%;提升度是c,表示上述人群占比相比于总人群中糖尿病患者占比的倍数提升了c倍。说明了因子i作为糖尿病的患病因子的强弱程度。本实施例所提出的糖尿病分析方法,可以利用大数据,基于庞大的用户样本,寻找样本的各个维度的特征及患病信息。在获取到样本数据后,先对所述样本数据进行预处理,以便于后续通过关联分析的方法,研究各类不同的人群的各类患病之间的潜在关系。进而通过用户的患病情况得到各类不同用户患糖尿病的几率、糖尿病患者产生其他并发症的几率、以及糖尿病与其他影响因素之间的关系。最终帮助潜在糖尿病患者提早预防,并帮助糖尿病患者预防其他并发症的产生。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的
技术领域
,均同理包括在本发明的专利保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1