基于层次聚类的风险分析方法、装置、设备及存储介质与流程

文档序号:23056462发布日期:2020-11-25 17:35阅读:167来源:国知局
基于层次聚类的风险分析方法、装置、设备及存储介质与流程

本发明涉及医疗数据领域,尤其涉及一种基于层次聚类的风险分析方法、装置、设备及存储介质。



背景技术:

风险控制是指风险管理者采取各种措施和方法,消灭或减少风险事件发生的各种可能性,或风险控制者减少风险事件发生时造成的损失。在电商、信用卡防欺诈、医保基金防欺诈等领域,风控都是非常重要的方向。

现有方案中,一般会通过关联分析、统计分析等异常识别模型,找到候选的异常结果,但是,由于数据往往噪音较大,得到的结果往往不是很理想。而且对于高维数据,很容易陷入维数灾难(curseofdimensionality)中,分析结果失真。



技术实现要素:

本发明提供了一种基于层次聚类的风险分析方法、装置、设备及存储介质,用于避免在处理时间序列数据时陷入维数灾难。

本发明实施例的第一方面提供一种基于层次聚类的风险分析方法,包括:获取初始数据,所述初始数据用于指示多个医院的药品销售额数据,所述初始数据为时间序列数据;根据预置的相似度公式和所述初始数据计算任意两个不同医院之间的相关系数,得到多个目标相关系数;根据所述多个目标相关系数生成多个医院之间的距离矩阵;对所述距离矩阵进行剪枝和层次聚类操作,生成聚类树,所述聚类树包括多个簇;根据所述聚类树进行风险分析,得到风险分析结果。

可选的,在本发明实施例第一方面的第一种实现方式中,所述根据预置的相似度公式和所述初始数据计算任意两个不同医院之间的相关系数,得到多个目标相关系数,包括:分别确定医院i的药品销售额yi和医院j的药品销售额yj;将所述药品销售额yi和所述药品销售额yj输入到预置的相似度公式中,生成医院i和医院j的相关系数,预置的相似度公式为其中,yi表示医院i的药品销售额,yj表示医院j的药品销售额,i、j为正整数,<>表示均值,ρij为医院i和医院j的相关系数;计算其他任意两个医院之间的相关系数,得到多个其他相关系数,所述其他任意两个医院不同时包含医院i和医院j;生成多个目标相关系数,所述多个目标相关系数包括所述医院i和医院j的相关系数和所述多个其他相关系数。

可选的,在本发明实施例第一方面的第二种实现方式中,所述根据所述多个目标相关系数生成多个医院之间的距离矩阵,包括:根据所述多个目标相关系数计算任意两个不同医院之间的初始距离,得到多个初始距离;基于所述多个初始距离生成距离矩阵,所述距离矩阵用于指示任意两个医院之间的距离。

可选的,在本发明实施例第一方面的第三种实现方式中,所述根据所述多个目标相关系数计算任意两个不同医院之间的初始距离,得到多个初始距离,包括:调用预置的距离公式计算每个目标相关系数对应的距离,得到多个初始距离,d(i,j)表示医院i和医院j之间的距离,所述预置的距离公式为:

可选的,在本发明实施例第一方面的第四种实现方式中,所述对所述距离矩阵进行剪枝和层次聚类操作,生成聚类树,所述聚类树包括多个簇,包括:对所述距离矩阵进行剪枝操作,得到剪枝后的距离矩阵;对所述剪枝后距离矩阵进行层次聚类,生成聚类树。

可选的,在本发明实施例第一方面的第五种实现方式中,所述对所述距离矩阵进行剪枝操作,得到剪枝后的距离矩阵,包括:将所述距离矩阵转换为无向图;利用预置算法和所述无向图生成最小生成树;基于所述最小生成树对所述距离矩阵进行剪枝,得到剪枝后的距离矩阵。

可选的,在本发明实施例第一方面的第六种实现方式中,所述对所述剪枝后距离矩阵进行层次聚类,生成聚类树,包括:调用预置的矩阵距离公式计算所述剪枝后的距离矩阵中每个数据点的距离,得到多个距离,预置的矩阵距离公式为d表示任意两个数据点之间的距离;将多个距离中最近的两个数据点进行层次聚类,得到多个数据类别,数据类别包括数据点和数据组合,并迭代执行层次聚类过程直至距离矩阵转换为多个簇,生成聚类树。

本发明实施例的第二方面提供了一种基于层次聚类的风险分析装置,包括:获取模块,用于获取初始数据,所述初始数据用于指示多个医院的药品销售额数据,所述初始数据为时间序列数据;计算模块,用于根据预置的相似度公式和所述初始数据计算任意两个不同医院之间的相关系数,得到多个目标相关系数;生成模块,用于根据所述多个目标相关系数生成多个医院之间的距离矩阵;聚类模块,用于对所述距离矩阵进行剪枝和层次聚类操作,生成聚类树,所述聚类树包括多个簇;分析模块,用于根据所述聚类树进行风险分析,得到风险分析结果。

可选的,在本发明实施例第二方面的第一种实现方式中,计算模块包括:确定单元,用于分别确定医院i的药品销售额yi和医院j的药品销售额yj;输入单元,用于将所述药品销售额yi和所述药品销售额yj输入到预置的相似度公式中,生成医院i和医院j的相关系数,预置的相似度公式为其中,yi表示医院i的药品销售额,yj表示医院j的药品销售额,i、j为正整数,<>表示均值,ρij为医院i和医院j的相关系数;第一计算单元,用于计算其他任意两个医院之间的相关系数,得到多个其他相关系数,所述其他任意两个医院不同时包含医院i和医院j;第一生成单元,用于生成多个目标相关系数,所述多个目标相关系数包括所述医院i和医院j的相关系数和所述多个其他相关系数。

可选的,在本发明实施例第二方面的第二种实现方式中,生成模块包括:第二计算单元,用于根据所述多个目标相关系数计算任意两个不同医院之间的初始距离,得到多个初始距离;第二生成单元,用于基于所述多个初始距离生成距离矩阵,所述距离矩阵用于指示任意两个医院之间的距离。

可选的,在本发明实施例第二方面的第三种实现方式中,第二计算单元具体用于:调用预置的距离公式计算每个目标相关系数对应的距离,得到多个初始距离,d(i,j)表示医院i和医院j之间的距离,所述预置的距离公式为:

可选的,在本发明实施例第二方面的第四种实现方式中,聚类模块包括:剪枝单元,用于对所述距离矩阵进行剪枝操作,得到剪枝后的距离矩阵;聚类单元,用于对所述剪枝后距离矩阵进行层次聚类,生成聚类树。

可选的,在本发明实施例第二方面的第五种实现方式中,剪枝单元具体用于:将所述距离矩阵转换为无向图;利用预置算法和所述无向图生成最小生成树;基于所述最小生成树对所述距离矩阵进行剪枝,得到剪枝后的距离矩阵。

可选的,在本发明实施例第二方面的第六种实现方式中,聚类单元具体用于:调用预置的矩阵距离公式计算所述剪枝后的距离矩阵中每个数据点的距离,得到多个距离,预置的矩阵距离公式为d表示任意两个数据点之间的距离;将多个距离中最近的两个数据点进行层次聚类,得到多个数据类别,数据类别包括数据点和数据组合,并迭代执行层次聚类过程直至距离矩阵转换为多个簇,生成聚类树。

本发明实施例的第三方面提供了一种基于层次聚类的风险分析设备,存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于层次聚类的风险分析设备执行上述的基于层次聚类的风险分析方法。

本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被处理器执行时实现上述任一实施方式所述的基于层次聚类的风险分析方法的步骤。

本发明实施例提供的技术方案中,获取初始数据,所述初始数据用于指示多个医院的药品销售额数据,所述初始数据为时间序列数据;根据预置的相似度公式和所述初始数据计算任意两个不同医院之间的相关系数,得到多个目标相关系数;根据所述多个目标相关系数生成多个医院之间的距离矩阵;对所述距离矩阵进行剪枝和层次聚类操作,生成聚类树,所述聚类树包括多个簇;根据所述聚类树进行风险分析,得到风险分析结果。本发明实施例,通过对时间序列数据进行降噪和剪枝处理,避免陷入维数灾难,增强风险分析结果的可信度。

附图说明

图1为本发明实施例中基于层次聚类的风险分析方法的一个实施例示意图;

图2为本发明实施例中基于层次聚类的风险分析方法的另一个实施例示意图;

图3为本发明实施例中基于层次聚类的风险分析装置的一个实施例示意图;

图4为本发明实施例中基于层次聚类的风险分析装置的另一个实施例示意图;

图5为本发明实施例中基于层次聚类的风险分析设备的一个实施例示意图。

具体实施方式

本发明提供了一种基于层次聚类的风险分析方法、装置、设备及存储介质,用于对时间序列数据进行降噪和剪枝处理,避免陷入维数灾难,增强风险分析结果的可信度。

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例进行描述。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1,本发明实施例提供的基于层次聚类的风险分析方法的流程图,具体包括:

101、获取初始数据,初始数据用于指示多个医院的药品销售额数据,初始数据为时间序列数据。

服务器获取初始数据,初始数据用于指示多个医院的药品销售额数据,初始数据为时间序列数据。本实施例中的初始数据是时间序列数据,以医保风控为例,基本的数据是医保结算数据,通过分组和整合,服务器能够得到各家医院各种药品的每天的销售额数据,这是时间序列数据。

需要说明的是,服务器分析各家医院的时间序列数据,用本实施例提出的基于层次聚类的风险分析方法,从中找出可能异常的医院,然后再对异常医院的数据做可视化处理,发掘验证异常的原因并进行提示。

可以理解的是,本发明的执行主体可以为基于层次聚类的风险分析装置,还可以是服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、根据预置的相似度公式和初始数据计算任意两个不同医院之间的相关系数,得到多个目标相关系数。

服务器根据预置的相似度公式和初始数据计算任意两个不同医院之间的相关系数,得到多个目标相关系数。其中,任意两个医院之间的目标相关系数为药品销售额之间的相关系数,这里的药品销售额是特定的药品,可以聚焦到单价较贵、医保基金支出较大的药品,例如,用于治疗癌症的药品、用于治疗心血管的药品,具体此处不做限定。

103、根据多个目标相关系数生成多个医院之间的距离矩阵。

服务器根据多个目标相关系数生成多个医院之间的距离矩阵。

具体的,服务器根据多个目标相关系数计算任意两个不同医院之间的初始距离,得到多个初始距离;服务器基于多个初始距离生成距离矩阵,距离矩阵用于指示任意两个医院之间的距离。

其中,服务器根据多个目标相关系数计算任意两个不同医院之间的初始距离,得到多个初始距离包括:服务器调用第二预置公式计算每个目标相关系数对应的距离,得到多个初始距离,d(i,j)表示医院i和医院j之间的距离,第二预置公式为:

104、对距离矩阵进行剪枝和层次聚类操作,生成聚类树,聚类树包括多个簇。

服务器对距离矩阵进行剪枝和层次聚类操作,生成聚类树,聚类树包括多个簇。具体的,服务器对所述距离矩阵进行剪枝操作,得到剪枝后的距离矩阵;服务器对所述剪枝后距离矩阵进行层次聚类,生成聚类树。

本实施例中采用自底向上的合并方法来进行聚类,层次聚类的合并算法通过计算两类数据点间的相似性,对所有数据点中最为相似的两个数据点进行组合,并反复迭代这一过程。其中,层次聚类的合并算法是通过计算每一个类别的数据点与所有数据点之间的距离来确定它们之间的相似性,距离越小,相似度越高,并将距离最近的两个数据点或类别进行组合,生成聚类树。由于服务器已经得到了剪枝后的距离矩阵,所以服务器可以根据各个医院之间的距离对不同医院进行组合,生成聚类树。

105、根据聚类树进行风险分析,得到风险分析结果。

服务器根据聚类树进行风险分析,得到风险分析结果。

通过层次聚类得到聚类树,每个簇(层次结构)可以表示一类医院的层次结构,与预置规则进行比对,如果三级医院、二级医院、一级医院分别聚在一起,就没有问题,而如果医院a落入其他层次中,医院a可能就有异常。另一方面,层次聚类之后,可以确定最为接近的两家医院的距离,设为a,确定与最后聚类的两个簇的距离,设为b,然后将a和b进行比较,如果b>3a,那么就确定最后聚类的簇中的医院存在异常,如果这个异常簇中的医院数目很小,异常的可疑程度就更高。

需要说明的是,判断异常的标准可以根据实际情况进行设置,例如,可以将判断条件“b>3a”替换为“b>4a”或“b>2a”,具体此处不做限定。

本发明实施例,通过对时间序列数据进行降噪和剪枝处理,避免陷入维数灾难,增强风险分析结果的可信度。并且本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。

请参阅图2,本发明实施例提供的基于层次聚类的风险分析方法的另一个流程图,具体包括:

201、获取初始数据,初始数据用于指示多个医院的药品销售额数据,初始数据为时间序列数据。

服务器获取初始数据,初始数据用于指示多个医院的药品销售额数据,初始数据为时间序列数据。本实施例中的初始数据是时间序列数据,以医保风控为例,基本的数据是医保结算数据,通过分组和整合,服务器能够得到各家医院各种药品的每天的销售额数据,这是时间序列数据。

需要说明的是,服务器分析各家医院的时间序列数据,用本实施例提出的基于层次聚类的风险分析方法,从中找出可能异常的医院,然后再对异常医院的数据做可视化处理,发掘验证异常的原因并进行提示。

可以理解的是,本发明的执行主体可以为基于层次聚类的风险分析装置,还可以是服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

202、根据预置的相似度公式和初始数据计算任意两个不同医院之间的相关系数,得到多个目标相关系数。

服务器根据预置的相似度公式和初始数据计算任意两个不同医院之间的相关系数,得到多个目标相关系数。其中,任意两个医院之间的目标相关系数为药品销售额之间的相关系数,这里的药品销售额是特定的药品,可以聚焦到单价较贵、医保基金支出较大的药品,例如,用于治疗癌症的药品、用于治疗心血管的药品,具体此处不做限定。

具体的,服务器分别确定医院i的药品销售额yi和医院j的药品销售额yj;服务器将药品销售额yi和药品销售额yj输入到预置的相似度公式中,生成医院i和医院j的相关系数,预置的相似度公式为其中,yi表示医院i的药品销售额,yj表示医院j的药品销售额,i、j为正整数,<>表示均值,ρij为医院i和医院j的相关系数;服务器计算其他任意两个医院之间的相关系数,得到多个其他相关系数,其他任意两个医院不同时包含医院i和医院j;服务器生成多个目标相关系数,多个目标相关系数包括医院i和医院j的相关系数和多个其他相关系数。

203、根据多个目标相关系数生成多个医院之间的距离矩阵。

服务器根据多个目标相关系数生成多个医院之间的距离矩阵。

具体的,服务器根据多个目标相关系数计算任意两个不同医院之间的初始距离,得到多个初始距离;服务器基于多个初始距离生成距离矩阵,距离矩阵用于指示任意两个医院之间的距离。

其中,服务器根据多个目标相关系数计算任意两个不同医院之间的初始距离,得到多个初始距离包括:服务器调用第二预置公式计算每个目标相关系数对应的距离,得到多个初始距离,d(i,j)表示医院i和医院j之间的距离,第二预置公式为:

204、对距离矩阵进行剪枝操作,得到剪枝后的距离矩阵。

服务器对距离矩阵进行剪枝操作,得到剪枝后的距离矩阵。具体的,服务器将距离矩阵转换为无向图;服务器利用预置算法和无向图生成最小生成树;服务器基于最小生成树对距离矩阵进行剪枝,得到剪枝后的距离矩阵。

根据医院之间的距离矩阵,以医院为节点,医院和医院的距离为边的权重,就可以得到一个无向图。这里通过把无向图转变为最小生成树,就实现了剪枝和去噪的目的。剪枝后的距离矩阵中,如果两个医院在最小生成树上是通过分支相连的,那这两个医院的距离就保留,否则的话就把这两个医院的距离设成一个很大的值,比如1000,2000等大于500的其他数值,具体此处不做限定。

需要说明的是,在一给定的无向图g=(v,e)中,(u,v)代表连接顶点u(即医院)与顶点v的边(即医院之间的距离),而w(u,v)代表此边的权重,若存在t为e的子集且为无循环图,使得w(t)最小,则此t为g的最小生成树。一个有n个结点的连通图的生成树是原图的极小连通子图,且包含原图中的所有n个结点,并且有保持图连通的最少的边。最小生成树可以用克鲁斯卡尔(kruskal)算法或普里姆(prim)算法求出。

需要说明的是,因为实际的数据往往噪音较大,算出来的原始的距离矩阵噪音也较大,会对最终的分析结果造成干扰。距离矩阵本质上是一个图,使用最小生成树的思想进行剪枝,只保留得到的最小生成树的节点之间的距离,其他的距离都设成一个很大的距离,剪枝后的距离矩阵噪音大大减小,有利于后续分析。

205、对剪枝后距离矩阵进行层次聚类,生成聚类树。

服务器对剪枝后距离矩阵进行层次聚类,生成聚类树。具体的,服务器调用预置的矩阵距离公式计算剪枝后的距离矩阵中每个数据点的距离,得到多个距离,预置的矩阵距离公式为d表示任意两个数据点之间的距离;服务器将多个距离中最近的两个数据点进行层次聚类,得到多个数据类别,数据类别包括数据点和数据组合,并迭代执行层次聚类过程直至距离矩阵转换为多个簇,生成聚类树。

本实施例中采用自底向上的合并方法来进行聚类,层次聚类的合并算法通过计算两类数据点间的相似性,对所有数据点中最为相似的两个数据点进行组合,并反复迭代这一过程。其中,层次聚类的合并算法是通过计算每一个类别的数据点与所有数据点之间的距离来确定它们之间的相似性,距离越小,相似度越高,并将距离最近的两个数据点或类别进行组合,生成聚类树。由于服务器已经得到了剪枝后的距离矩阵,所以服务器可以根据各个医院之间的距离对不同医院进行组合,生成聚类树。其中,计算每一个数据点与所有数据点之间的距离来确定它们之间的欧式距离d,欧式距离越小,相似度越高。

本申请中的数据点为医院,一个医院表示一个数据点,一个数据点组合表示合并后的两个数据点,假设,本发明实施例中剪枝后的距离矩阵包括六个医院a、b、c、d、e、f,即包括数据点a、数据点b、数据点c、数据点d、数据点e和数据点f,那么,将数据点b(医院b)与数据点c(医院c)进行组合后,得到类别(b,c),最终得到数据类别a、数据类别(b,c)、数据类别d、数据类别e、数据类别f,重新计算各数据类别之间的距离矩阵。

可以理解的是,对于计算数据点之间的距离的计算方法,采用预置的矩阵距离公式进行计算。对于计算数据组合与其他数据点间的计算方法,例如:当计算数据组合(b,c)到数据点a的距离时,需要分别计算b到a和c到a的距离均值,即对于计算两个数据组合之间的距离的计算方法:计算两个组合数据点中的每个数据点与其他所有数据点的距离。将所有距离的均值作为两个组合数据点间的距离。这种方法计算量比较大,但结果比前两种方法更合理。例如,对于数据组合(a,e)到数据组合(b,c)的距离为

206、根据聚类树进行风险分析,得到风险分析结果。

服务器根据聚类树进行风险分析,得到风险分析结果。

通过层次聚类得到聚类树,每个簇(层次结构)可以表示一类医院的层次结构,与预置规则进行比对,如果三级医院、二级医院、一级医院分别聚在一起,就没有问题,而如果医院a落入其他层次中,医院a可能就有异常。另一方面,层次聚类之后,可以确定最为接近的两家医院的距离,设为a,确定与最后聚类的两个簇的距离,设为b,然后将a和b进行比较,如果b>3a,那么就确定最后聚类的簇中的医院存在异常,如果这个异常簇中的医院数目很小,异常的可疑程度就更高。

需要说明的是,判断异常的标准可以根据实际情况进行设置,例如,可以将判断条件“b>3a”替换为“b>4a”或“b>2a”,具体此处不做限定。

本发明实施例,通过对时间序列数据进行降噪和剪枝处理,避免陷入维数灾难,增强风险分析结果的可信度。并且本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。

上面对本发明实施例中基于层次聚类的风险分析方法进行了描述,下面对本发明实施例中基于层次聚类的风险分析装置进行描述,请参阅图3,本发明实施例中基于层次聚类的风险分析装置的一个实施例包括:

获取模块301,用于获取初始数据,所述初始数据用于指示多个医院的药品销售额数据,所述初始数据为时间序列数据;

计算模块302,用于根据预置的相似度公式和所述初始数据计算任意两个不同医院之间的相关系数,得到多个目标相关系数;

生成模块303,用于根据所述多个目标相关系数生成多个医院之间的距离矩阵;

聚类模块304,用于对所述距离矩阵进行剪枝和层次聚类操作,生成聚类树,所述聚类树包括多个簇;

分析模块305,用于根据所述聚类树进行风险分析,得到风险分析结果。

本发明实施例,通过对时间序列数据进行降噪和剪枝处理,避免陷入维数灾难,增强风险分析结果的可信度。并且本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。

请参阅图4,本发明实施例中基于层次聚类的风险分析装置的另一个实施例包括:

获取模块301,用于获取初始数据,所述初始数据用于指示多个医院的药品销售额数据,所述初始数据为时间序列数据;

计算模块302,用于根据预置的相似度公式和所述初始数据计算任意两个不同医院之间的相关系数,得到多个目标相关系数;

生成模块303,用于根据所述多个目标相关系数生成多个医院之间的距离矩阵;

聚类模块304,用于对所述距离矩阵进行剪枝和层次聚类操作,生成聚类树,所述聚类树包括多个簇;

分析模块305,用于根据所述聚类树进行风险分析,得到风险分析结果。

可选的,计算模块302包括:

确定单元3021,用于分别确定医院i的药品销售额yi和医院j的药品销售额yj;

输入单元3022,用于将所述药品销售额yi和所述药品销售额yj输入到预置的相似度公式中,生成医院i和医院j的相关系数,预置的相似度公式为其中,yi表示医院i的药品销售额,yj表示医院j的药品销售额,i、j为正整数,<>表示均值,ρij为医院i和医院j的相关系数;

第一计算单元3023,用于计算其他任意两个医院之间的相关系数,得到多个其他相关系数,所述其他任意两个医院不同时包含医院i和医院j;

第一生成单元3024,用于生成多个目标相关系数,所述多个目标相关系数包括所述医院i和医院j的相关系数和所述多个其他相关系数。

可选的,生成模块303包括:

第二计算单元3031,用于根据所述多个目标相关系数计算任意两个不同医院之间的初始距离,得到多个初始距离;

第二生成单元3032,用于基于所述多个初始距离生成距离矩阵,所述距离矩阵用于指示任意两个医院之间的距离。

可选的,第二计算单元3031具体用于:

调用预置的距离公式计算每个目标相关系数对应的距离,得到多个初始距离,d(i,j)表示医院i和医院j之间的距离,所述预置的距离公式为:

可选的,聚类模块304包括:

剪枝单元3041,用于对所述距离矩阵进行剪枝操作,得到剪枝后的距离矩阵;

聚类单元3042,用于对所述剪枝后距离矩阵进行层次聚类,生成聚类树。

可选的,剪枝单元3041具体用于:

将所述距离矩阵转换为无向图;利用预置算法和所述无向图生成最小生成树;基于所述最小生成树对所述距离矩阵进行剪枝,得到剪枝后的距离矩阵。

可选的,聚类单元3042具体用于:

调用预置的矩阵距离公式计算所述剪枝后的距离矩阵中每个数据点的距离,得到多个距离,预置的矩阵距离公式为d表示任意两个数据点之间的距离;将多个距离中最近的两个数据点进行层次聚类,得到多个数据类别,数据类别包括数据点和数据组合,并迭代执行层次聚类过程直至距离矩阵转换为多个簇,生成聚类树。

本发明实施例,通过对时间序列数据进行降噪和剪枝处理,避免陷入维数灾难,增强风险分析结果的可信度。并且本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。

上面图3至图4从模块化功能实体的角度对本发明实施例中的基于层次聚类的风险分析装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于层次聚类的风险分析设备进行详细描述。

图5是本发明实施例提供的一种基于层次聚类的风险分析设备的结构示意图,该基于层次聚类的风险分析设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于层次聚类的风险分析设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在基于层次聚类的风险分析设备500上执行存储介质530中的一系列指令操作。

基于层次聚类的风险分析设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如windowsserve,macosx,unix,linux,freebsd等等。本领域技术人员可以理解,图5示出的基于层次聚类的风险分析设备结构并不构成对基于层次聚类的风险分析设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。处理器510可以执行上述实施例中获取模块301、计算模块302、生成模块303、聚类模块304和分析模块305的功能。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述基于层次聚类的风险分析方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1