基于动态优化模糊模式算法的医疗数据不确定性分析方法与流程

文档序号:12125370阅读:311来源:国知局
本发明属于医疗数据分析
技术领域
:,尤其涉及一种基于动态优化模糊模式算法的医疗数据不确定性分析方法。
背景技术
::大规模数据集中挖掘潜在有用但隐藏的信息是模式挖掘的主要目标。传统的模式挖掘方法,主要包括Apriori(Agrawaletal.,1993)和FP-growth(Hanetal.,2004)算法。并且这两种算法的特征和性质已经被广泛的应用到其他研究工作中(Tsengetal.,2013;Zhongetal.,2012;Linetal.,2011;Liu,2012;Tsaietal.,2011;GrahneandZhu,2005;Zengetal.,2009)。但是随着数据集的大规模增长,具有更高性能和满足多目标需求的算法不断被提出,其中包括连续频繁模式(MuzammalandRaman,2015;Adamo,2012),Top-K频繁模式(Wangetal.,2005),加权频繁模式(Voetal.,2013;WangandZeng,2011),和高维模式(Alcala-Fdezetal.,2011;Fangetal.,2012)。其中,连续频繁模式挖掘近期的研究考虑了事件与项目之间关联的不确定性,采用概率数据库对事物、事物之间的关联性进行建模并采用枚举树的方式对所有期望进行序列有效性的考查。Top-K频繁模式携带真实的支持度计数,采用深度优先、广度优先、格子粒度深度搜索等技术来提高模式挖掘的有效性。加权频繁模式增加了事物与事物、项、项集之间的权重考量以提高模式挖掘的准确性。高维模式则通过对事物的属性、多样性、多元性等分析,对事物特征所体现的高维度性进行研究并提出剪枝算法来提高算法的有效性。上述频繁模式挖掘方法均基于传统的频繁模式的先验性质:频繁项集的所有非空子集也一定是频繁的。并且要挖掘的模式均依据条件出现频度需要大于指定阈值的频繁项目集。然而,根据实践经验,具有实践意义的模式通常是相对频繁的项目和出现频率相对较低的项目的组合。例如,针对一个患病的病人的诊断项目,疾病项目通常跨越多个不同的科室,并且患病集合一般由常见病和该病人“个性化”的疾病组成。由于在医疗领域各个科室和专项之间的信息和知识是相对封闭的,通常本科室的专家只是对专业相关的疾病非常熟悉,但是病人的所得的疾病项目通常跨越了几个科室,这就导致了病人需要在不同的科室之间进行往返。因此,为了阐述大规模数据集所隐含的模式的复杂性,出现频繁的项目和出现相对不频繁的项目应该综合分析。综上所述,在高级模式挖掘的理论和应用中,隐藏于数据集中的有用信息的高效挖掘和使用适当结构进行嵌入式信息表达都非常重要。最主要的挑战是如何缓解挖掘组合爆炸问题和确保挖掘模式结果的有效性。然而,由于存在大量的候选模式和只考虑确定值的项的权重限制,大多数现有的算法并不能完全解决这些问题。技术实现要素:本发明的目的在于提供一种基于动态优化模糊模式算法的医疗数据不确定性分析方法,旨在解决缓解挖掘组合爆炸问题和确保挖掘模式结果有效的问题。本发明是这样实现的,一种基于动态优化模糊模式算法的医疗数据不确定性分析方法,所述基于动态优化模糊模式算法的医疗数据不确定性分析方法采用二阶效应的模式结构和新的剪枝策略,包括模式感知的动态基本模式搜索策略和FSFP-Tree阵列技术;在一个完整的数据集和一个事务中,通过模糊权重的约束和属性来反映其每个项的不确定性的重要性;提出的最大FSFPs挖掘算法扫描数据集一次;采用模糊模式结构:核心项和相应的牵引项的组合,并且采用模糊支持度以及基于模糊支持度的剪枝策略来分析和挖掘隐藏在项目集当中的有用信息。进一步,所述基于动态优化模糊模式算法的参数有:核心项最小出现的频度,牵引项最小出现的频度,核心项最小的模糊支持度,牵引项出现的最小模糊度,全局权重,以及本地权重。进一步,所述基于动态优化模糊模式算法具体包括以下步骤:删除不能满足最小支持度和最小权重的项目;每一条路径的核心项集将会被确定;在当前路径当中有唯一的核心项,那么该核心项便是本条路径的核心;如果部分核心项在路径当中出现,那么则需要判断核心当中没有出现的项目是否具备吸附能力;条件满足,那么含有的核心项便是本条路径的核心项;否则,对于其他情况,选取该条路径当中权重最大的便是该条路径的核心项集;核心项集选择完之后,在FSFP-Tree插入算法中,如果剩余项目集当中的某一项和其他分支有交集,那么在同一条路径上的项目的支持度、模糊支持度需要重新计算;否则,生成一个节点,并且设置相应的出现频度以及模糊度值,链接该节点的父节点,并且通过节点链来链接该节点;如果当前节点属于核心相集中的元素,那么在当前路径中包含该节点的核心模式应当被筛选出来;同时,如果目前所选择的核心模式能够同时作为其他分支的核心模式,那么则需要更新该核心模式的出现频度以及相应的模糊度值,设置当前的核心模式为其他节点的父节点,并且连接其他核心节点通过核心节点链;如果当前核心模式和其他分支没有连接,那么则设置改核心模式为当前路径上其他节点的父节点;最终,反复递归调用FSFP-Tree算法直到完成建立事物数据集T中的所有事物项。进一步,所述FSFP-Tree插入算法包括以下步骤:输入:第一项p,coreItems,附加到coreItems的剩余项q,当前事务T;输出:更新后的FSFP树;BEGIN:T有子项n,并且n的项目名和p的项目名相同;那么countNumber(n)加1,计算SUP(n);否则,创建新的节点n,设置countNumber(n)的值为1,重新计算SUP(n),链接它的父节点,并且通过节点链路的结构将节点连接到同一个项目名称;如果p∈coreItems;从当前分支中选择coreItems,并标记为p’;如果T有子项n’,并且n’的项目名和p’的项目名相同;那么countNumber(n)加1,调整具有相coreItems的这些分支,并将这些分支指向这个共同的coreItems,且该[coreItems]为这些剩余节点的父节点;否则,如果事务T有子项n”,并且n”∩p’≠Null;那么[coreItems]为该路径中这些剩余节点的父节点;如果q≠Null;那么递归地调用Insert_FSFP-Tree(q,T)函数;END。进一步,所述最大FSFP挖掘算法包括以下步骤:输入:事务数据库TDs;允许的项的最小频率:minmum_count_number;项的最小支持度:λ;输出:最大FSFPs:MFSFPs;BEGIN:计算SUP(i),之后对所有项按照降序方式重新排序;采用模式感知的动态基本模式搜索策略确定基本模式集BP;基于基本模式集BP、算法1和算法2构建TDs的FSFP树;基于新提出的阵列结构和条件数据库CDB构建FSFP阵列;如果路径pi是单一路径,那么;通过在当前路径bpi和路径pi的所有子项集{i}中检查基本模式生成新的模式npi;如果SUP(npi)≧λ,并且superset_check(npi)返回值为false;那么MFSFP=MFSFP∪npi;否则:记录MFSFP=MFSFP∪bpi;//对于多路径;否则:对于TDs.header中的每一项ai;生成一个新的基于FSFP阵列结构且在ai条件模式基频繁项sfi的频次数据集;基于相应的支持度值按照降序方式对sfi进行排序;调用MFSFPMining(sfi,minmum_count_number,λ)函数;END。本发明提供的基于动态优化模糊模式算法的医疗数据不确定性分析方法,提出了基于二阶效应的模式结构和新的剪枝策略,包括模式感知的动态基本模式搜索策略和FSFP-Tree阵列技术。此外,在一个完整的数据集和一个事务中,通过模糊权重的约束和属性来反映其每个项的不确定性的重要性;提出的最大FSFPs挖掘算法仅仅扫描数据集一次就能保证高效的挖掘性能,防止了基于剪枝策略模式抽取的开销,并采用模糊加权条件提高挖掘结果的可靠性;基于九个基准数据集,与PADS和FPMax*算法比较,大量的实验结果表明,提出的新算法具有卓越的表现。本发明是为了发现与该疾病密切相关的其他疾病或者是该疾病最易诱发或者牵引出的其他疾病,而不仅仅是给出常见疾病之间的关联性。本发明的高级模式挖掘对潜在的隐藏信息发现和有用信息的恰当表达至关重要。本发明创新性的提出了模糊模式结构:核心项(corepattern)和相应的牵引项(secondordereffectpattern)的组合,并且提出了模糊支持度以及基于模糊支持度的剪枝策略来分析和挖掘隐藏在项目集当中的有用信息。本发明所提出的最大模糊模式挖掘算法能够更加有效、更快的实现挖掘操作。高级模式挖掘对潜在的隐藏信息发现和有用信息的恰当表达至关重要。本发明创新性的提出了模糊模式结构:核心项(corepattern)和相应的牵引项(secondordereffectpattern)的组合,并且提出了模糊支持度以及基于模糊支持度的剪枝策略来分析和挖掘隐藏在项目集当中的有用信息。本发明所提出的最大模糊模式挖掘算法能够能够更加有效、更快的实现挖掘操作。为了分析最大模糊模式挖掘算法的有效性,开展了对挖掘结果、时间和空间复杂度的结果的分析,实验结果显示该挖掘算法显著的优越于PADS和FPMax*算法。挖掘出的有效信息的数量和质量表明,该算法更适合于处理频繁项和相对出现次数较低的项目的组合。在今后的工作中,从医学的角度,将会对比分析相对频繁的疾病和相对较低的并发症疾病的临床资料,从而从医学的角度验证新提出的最大模糊模式对医疗疾病发现的有效性;在知识发现的角度,将会探究核心-牵引项的模式结构在高级知识挖掘中的作用以挖掘其他更有趣的新结构和发现新特征。附图说明图1是本发明实施例提供的基于动态优化模糊模式算法的医疗数据不确定性分析方法流程图。图2是本发明实施例提供的与已有算法的时间复杂度对比示意图。图3是本发明实施例提供的与已有算法的空间复杂度对比示意图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。下面结合附图对本发明的应用原理作详细描述。图1的简要描述:首先该算法通过考察项目的模糊支持度和最小出现的频度,来确立应该出现在动态模糊模式中的项,对不满足条件的项目予以删除;对于满足条件的项目,按照其模糊支持度进行降序排列,并且采用动态核心模式搜索策略来确立动态模糊模式的核心项集。其次,创建FSFP树的结构和根节点,并且插入FSFP树的每一个分支来确立FSFP树。FSFP树的分支分为三种情况:当前分支无核心项;当前分支只有一个核心项;当前分支存在多个核心项;分别采用相应的处理策略来这三种情况并且确立当前分支中的核心项和所被核心项牵引的吸附项。再次,结合项目和事物的排序表以及项目的插入算法来确立最终的动态优化模糊模式。对于图2和图3的说明如下:本发明所提出的算法对所有的数据集都具有最好的时间性能。算法的时间复杂度结果对比见图2。根据对时间复杂度的整体分析,提出的动态模糊优化模式挖掘算法在任何参数设置下相比FPMax*(GrahneandZhu,2005)和PADS(Zengetal.,2009)算法都具有最好的时间性能。同时,由于模糊修剪策略的提出,当模糊权重和项目的出现频度增加时使得提出的最大模糊模式挖掘算法具有最低的运行时间增量。并且,当事物数据集的规模增大和项目出现的频度变小时,本发明提出的算法和以往的算法的时间复杂度的差距将会更加显著。对分析的所有的数据集,算法FPMax*具有最差的时间复杂度,并且当项目的出现频度下降时,该算法的时间复杂度将会骤增。由于动态优化剪枝策略的提出,以及模糊支持度探测和无效模式的优化删除,使得本算法PADS比FPMax*更加优越。算法的空间复杂度的实验结果见图3。本发明所提出的模式搜索策略和阵列技术为减少内存做了很大的贡献。根据空间复杂度的结果分析,文章提出的算法具有显著的性能。算法FPMax*和PADS的空间复杂度使用情况非常相似,因为这两种算法均采用了类FP-tree结构。但是,这两种算法与本发明的提出的算法具有巨大的差距。因此,为了能够良好的在图中显示3种算法的空间复杂度对比,按照不同比例缩小了FPMax*和PADS算法的空间复杂度结果。根据图3所反应的空间复杂度挖掘结果,相对稀疏型数据集,挖掘稠密型数据集,本发明提出的最大模糊模式挖掘与PADS,和FPMax*算法具有更大的差距。实验结果揭示了本发明所提出的算法对挖掘稠密型数据集更为显著。最大模糊模式挖掘耗费较少的空间复杂度是因为该算法通过提出修剪子树剪枝策略以确保更好地调度候选模式进行较少的子模式检查,并且在提出相应的剪枝策略和模糊约束的基础上,一些在已有的算法下面需要检测的子模式并不需要在本发明所提出的算法中检测。本发明主要工作是针对基于医学事物数据集的特征分析,挖掘适当和有效的最大频繁模式的问题。1、(模糊模式的模糊权重(SLP))定义模式P={i1,i2,…,ii,…in},那么对于事务集Ti中每一个项目ii在模式P中的权重可以定义为:对于项目ii在总的项目集I中的权重记为:其中和的取值属于模糊值。模糊模式的模糊权重计算(SLP)如公式模式P的模糊权重可以设置的取值范围是[0,10]。项目的模糊权重(标示为:)被划分为5个重要等级。项目在事物中的对比权重(标记为:)同样被划分为5个重要等级。该重要等级的取值范围见表Table3。定义2.事物项的模糊等级(SL(Ti)).给出事物Ti={i1,i2,…,im},由于事物所携带的项目及其权重不相同,所以不同的事物在事物集中的权重均不相同。事物的模糊等级定义为:定义3.基于模糊权重的模式P的模糊支持度。模式P在事物Ti中的计算频次见公式(3.4),其中,|Ti|表示事物Ti的长度。SUP(SLP)是三角模糊函数,等同于以下真实值(3.6):SUP(SLP)=(supL(SLP),supM(SLP),supU(SLP))(3.6)其中,SUPL(SLp)是低值,SUPM(SLp)是中值,SUPU(SLp)是上界值。他满足以下条件:SUPL(SLp)≤SUPM(SLp)≤SUPU(SLp).如果存在条件SUPL(SLp)=SUPM(SLp)=SUPU(SLp),那么SUP(SLP)根据对医疗数据集的特征分析,患者往往在一段时间内具有若干项主要的疾病(核心项)和若干项由核心项所牵引的二阶效应的项目(牵引项)所组成。例如,老年患者的疾病项目是:<慢性咽炎,淋巴细胞百分数升高,消化不良,慢性支气管炎>,根据治疗数据,该患者的慢性咽炎具有较高的危险等级,其他项目均为该项目的作用下所产成的二阶效应项目。因此,本发明挖掘的模糊模式定义为核心项(corepattern)和牵引项(secondordereffectpattern)的组合。定义4(模糊亚频繁模式(FuzzySupplementFrequentPattern))。根据核心项和牵引项之间的关系,挖掘的模糊模式的结构主要包含两类:1)所有特定的核心项目和全部(或者部分)牵引项一起出现。核心项目具有很高的模糊权重,从而具备较强吸附能力来吸附具有较低模糊权重的牵引项。2)部分特定的核心项和全部(或者部分)牵引项一起出现。核心项中某些项不具有较高的模糊权重,只有部分的核心项具有吸附牵引项的能力。但是规则模式挖掘还是应该考虑不发生的核心项对整个核心项和整个事务的影响,因为不发生的核心项可能会减少或者改变核心项目的吸附能力以及吸附其他项目的活跃性。例如,在诊断老年慢病患者出现严重流感现象时,即使在一段时间内病人并未出现发热的情况,医疗记录中还是要求必须标记病人的体温状况,同时该体温项目也对其他的核心项有重要的影响。综上,本发明挖掘的模糊模式(FuzzyFrequentPattern)可以定义为公式(3.10):其中,模糊模式的模糊支持度SUP(FSFP)是一个三角隶属度函数,被描述为:SUP(FSFP)=(SUPL(FSFP),SUPM(FSFP),SUPU(FSFP))。标示指的是该项目不与其他的项目同时出现,例如表示所有的在集合中元素不和集合中的元素在同一个事物中同时发生。模式FFP的出现必须满足以下约束条件:其中,核心项(corepattern)满足的最小支持度阈值为:minsup,核心项需要满足的最小模糊权重阈值为θ,参数min_connect_sup用来定义核心项和二阶效应项目之间的边界,σ(σ≤θ)是定义的SOP项目集的最小模糊权重阈值,ε定义为调节参数以根据挖掘模式数量的需要来个性化的设置变量变化范围。表1.具有相应的局部和最终的权重以及频次的样本事务数据库表2.表1中每个项的相应含义和全局权重表3.项和事务的模糊级别定义5.(FuzzySupplementFrequentPatternTree(模糊模式挖掘树))模糊模式挖掘树的结构包含以下四个部分:(1)头节点,标记为“Root”;(2)每个节点包含7个字段:项目名(item-name),当前分支(branch-level),父节点(parent),子节点(children),节点链(node-link),模糊支持度(fuzzysupport),出现频度(countnumber),and核心节点链接(node-link-core).所有共享同一个节点名的节点用节点链(node-link)连接,所有包含相同核心项的分支采用自底向上的方式由核心节点链(node-link-core)连接。并且事务项的综合模糊度来自于所有节点的综合模糊度和出现频度的组合计算。为了表示每个项目的出现频度,频度数(countnumber)也作为一个字段。特别的,头表当中的出现频度表示了每一个项目在树中出现的总频数,在FFP-Tree中节点出现的频数是该节点在当前路径上的出现频数。(3)核心节点项目集(coreItems)。该字段主要用来记录当前核心项目的信息,包含:当前核心项目名、当前未发生的核心项目、核心项目的频数、模糊支持度以及核心节点链(node-link-core)的头表。(4)项目的头表(headertable)。头表(headertable)主要放置项目集并且依据项目的模糊度值来降序排列。头表主要包含两个字段:头表名(item-name)和节点链的头节点(headofthenode-link)。并且该节点链由同一个节点名的链接来连接。2、算法构建需要提供的参数有:核心项最小出现的频度(core_count_number),牵引项最小出现的频度(connect_count_number),核心项最小的模糊支持度(θ),牵引项出现的最小模糊度(σ),and全局权重and本地权重算法的第一步是删除不能满足最小支持度和最小权重的项目(line4-line7).核心模式的确定是基于模糊属性约简和模糊动态感知策略(line8-line12)。每一条路径的核心项集将会被确定(line14-line25).如果在当前路径当中有唯一的核心项,那么该核心项便是本条路径的核心(line16).如果部分核心项在路径当中出现,那么则需要判断核心当中没有出现的项目是否具备吸附能力。如果该条件满足,那么含有的核心项便是本条路径的核心项。(line17-line19).否则,对于其他情况,选取该条路径当中权重最大的便是该条路径的核心项集(line22).当核心项集选择完之后,FSFP-Tree插入算法被提出(表5).在FSFP-Tree插入算法中,如果剩余项目集当中的某一项和其他分支有交集(coreItems除外),那么在同一条路径上的项目的支持度、模糊支持度需要重新计算。否则,需要新生成一个节点,并且设置相应的出现频度以及模糊度值,链接该节点的父节点,并且通过节点链(node-link)来链接该节点(line1-4).如果当前节点属于核心相集中的元素,那么在当前路径中包含该节点的核心模式应当被筛选出来。同时,如果目前所选择的核心模式能够同时作为其他分支的核心模式,那么则需要更新该核心模式的出现频度以及相应的模糊度值,设置当前的核心模式为其他节点的父节点,并且连接其他核心节点通过核心节点链(node-linkcore)(line9-10)。如果当前核心模式和其他分支没有连接,那么则设置改核心模式为当前路径上其他节点的父节点(line12)。最终,反复递归调用Insert_FSFP-Tree算法直到完成建立事物数据集T中的所有事物项。表4算法1:FSFP树构建算法表5.算法2:插入FSFP树算法表6.表1中的示例事务数据库的基本模式最大模糊模式(MaximalFSFPs)挖掘算法以及相应的优化剪枝策略将会在本节给出。挖掘算法操作首先应该提供的参数包含:模糊支持度值(fuzzysupportvalue),核心项(basepatterns),FSFP-Tree,和基于FSFP-Tree的阵列结构(FSFP-array)。FSFP-Tree的结构定义、核心项集的选择、项目的模糊度值、以及项目的出现频率均作为最大模糊模式挖掘树的优化剪枝策略。依据算法1(最大模糊模式挖掘算法),如果当前路径是单路径(第5行),那么通过检测当前路径上项目的超集和检测当前项目的模糊支持度是否满足最小阈值以产生新的npi模式。如果通过再次计算的模糊支持度大于等于最小阈值并且当前求取的模式并无超集,那么此时产生的MFSFP模式即为求取的最大模糊模式(第6-8行)。否则,当前求取的MFFP模式并不能够满足最大模糊模式的求取条件,那么只选取具有强吸附能力的核心项集作为当前路径的最大频繁模式FSFP(第10行)。对于多路径,基于FSFP-array结构来生成条件模式树并且基于模糊度值来对项目进行降序排列,然后依据项目的头表对新产生的核心项设置其核心项模糊度值,并递归调用该函数直到产生单路径(12-17行)。给出事物数据集表1。基于算法1,该事物集得到的最大模糊模式为:<j,(h,b,o)>,<(m,b,o)>。其中,(h,b,o),(m,b,o)为分支的核,说明在分支中(h,b,o),(m,b,o)具有较强的吸附力,并且对其他项目具有较强的影响力。而基于传统的最大频繁模式挖掘仅能够得到:<j>,<m,b,o>。并且不能够反应项目之间的重要关系。表7.算法3:最大FSFP挖掘算法本发明的高级模式挖掘对潜在的隐藏信息发现和有用信息的恰当表达至关重要。本发明创新性的提出了模糊模式结构:核心项(corepattern)和相应的牵引项(secondordereffectpattern)的组合,并且提出了模糊支持度以及基于模糊支持度的剪枝策略来分析和挖掘隐藏在项目集当中的有用信息。本发明所提出的最大模糊模式挖掘算法能够更加有效、更快的实现挖掘操作。高级模式挖掘对潜在的隐藏信息发现和有用信息的恰当表达至关重要。本发明创新性的提出了模糊模式结构:核心项(corepattern)和相应的牵引项(secondordereffectpattern)的组合,并且提出了模糊支持度以及基于模糊支持度的剪枝策略来分析和挖掘隐藏在项目集当中的有用信息。本发明所提出的最大模糊模式挖掘算法能够更加有效、更快的实现挖掘操作。为了分析最大模糊模式挖掘算法的有效性,开展了对挖掘结果、时间和空间复杂度的结果的分析,实验结果显示该挖掘算法显著的优越于PADS和FPMax*算法。挖掘出的有效信息的数量和质量表明,该算法更适合于处理频繁项和相对出现次数较低的项目的组合。在今后的工作中,从医学的角度,将会对比分析相对频繁的疾病和相对较低的并发症疾病的临床资料,从而从医学的角度验证新提出的最大模糊模式对医疗疾病发现的有效性;在知识发现的角度,将会探究核心-牵引项的模式结构在高级知识挖掘中的作用以挖掘其他更有趣的新结构和发现新特征。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1