基于随机抽样的聚类可视化方法及装置与流程

文档序号:20444725发布日期:2020-04-17 22:39阅读:275来源:国知局
基于随机抽样的聚类可视化方法及装置与流程

本发明涉及聚类可视化领域,具体而言,涉及一种基于随机抽样的聚类可视化方法及装置。



背景技术:

聚类分析是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。分组的目标是,组内对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差距越大,说明聚类效果越好。聚类分析结果通常使用可视化图来展示。

现有的聚类可视化分析中,通常使用直方图、饼图、散点图等可视化技术分别展示聚类簇和总体各个特征的概率分布情况,需人工分辨簇中哪些特征与总体之间的差异较大,没有统一的标准来衡量。此外,现有的聚类可视化方法需将所有特征的分布都绘制出来,以供人工分析聚类簇与总体样本之间的差异,当样本特征数量比较大时必然导致可视化图中包含许多无用特征(根据实际经验,大多数聚类模型的执行结果中,聚类簇与总体样本之间在大部分特征上的分布并无明显差别),增加了数据分析人员的负担。



技术实现要素:

本发明为了解决上述技术问题中的至少一个,提供一种基于随机抽样的聚类可视化方法及装置。

为了实现上述目的,根据本发明的一个方面,提供了一种基于随机抽样的聚类可视化方法,该方法包括:

获取总体样本中各特征的取值的概率分布;

对所述总体样本执行n次随机抽样,分别计算每次随机抽样中各特征的取值的概率分布;

根据总体样本中各特征的取值的概率分布以及每次随机抽样中各特征的取值的概率分布分别计算每个特征在每次随机抽样和总体样本中的取值的概率分布的kl散度,并确定每个特征的kl散度的最大值;

获取对所述总体样本进行聚类生成的聚类簇,分别针对每个所述聚类簇计算各特征的取值的概率分布;

根据每个所述聚类簇对应的各特征的取值的概率分布以及总体样本中各特征的取值的概率分布计算每个特征在每个所述聚类簇和总体样本中的取值的概率分布的kl散度;

根据每个特征在每个所述聚类簇和总体样本中的取值的概率分布的kl散度以及所述每个特征的kl散度的最大值确定每个所述聚类簇中与总体样本分布不相似的特征;

根据每个所述聚类簇中与总体样本分布不相似的特征对每个所述聚类簇进行可视化输出。

可选的,该方法还包括:

对所述总体样本中的所有连续型特征进行离散化处理,得到连续型特征的离散化取值。

可选的,根据每个特征在每个所述聚类簇和总体样本中的取值的概率分布的kl散度以及所述每个特征的kl散度的最大值确定每个所述聚类簇中与总体样本分布不相似的特征,具体包括:

判断每个所述聚类簇中每个特征的取值的概率分布和总体样本中该特征的取值的概率分布的kl散度是否大于或等于该特征的kl散度的最大值;

若是,则确定该聚类簇中的该特征为与总体样本分布不相似的特征。

可选的,所述根据每个所述聚类簇中与总体样本分布不相似的特征对每个所述聚类簇进行可视化输出,具体包括:

对每个所述聚类簇中与总体样本分布不相似的特征进行可视化输出。

为了实现上述目的,根据本发明的另一方面,提供了一种基于随机抽样的聚类可视化装置,该装置包括:

取值概率分布获取单元,用于获取总体样本中各特征的取值的概率分布;

抽样取值概率分布计算单元,用于对所述总体样本执行n次随机抽样,分别计算每次随机抽样中各特征的取值的概率分布;

特征kl散度的最大值计算单元,用于根据总体样本中各特征的取值的概率分布以及每次随机抽样中各特征的取值的概率分布分别计算每个特征在每次随机抽样和总体样本中的取值的概率分布的kl散度,并确定每个特征的kl散度的最大值;

聚类簇取值概率分布计算单元,用于获取对所述总体样本进行聚类生成的聚类簇,分别针对每个所述聚类簇计算各特征的取值的概率分布;

聚类簇特征kl散度计算单元,用于根据每个所述聚类簇对应的各特征的取值的概率分布以及总体样本中各特征的取值的概率分布计算每个特征在每个所述聚类簇和总体样本中的取值的概率分布的kl散度;

分布不相似特征确定单元,用于根据每个特征在每个所述聚类簇和总体样本中的取值的概率分布的kl散度以及所述每个特征的kl散度的最大值确定每个所述聚类簇中与总体样本分布不相似的特征;

可视化输出单元,用于根据每个所述聚类簇中与总体样本分布不相似的特征对每个所述聚类簇进行可视化输出。

可选的,该装置还包括:

离散化处理单元,用于对所述总体样本中的所有连续型特征进行离散化处理,得到连续型特征的离散化取值。

可选的,所述分布不相似特征确定单元包括:

判断模块,用于判断每个所述聚类簇中每个特征的取值的概率分布和总体样本中该特征的取值的概率分布的kl散度是否大于或等于该特征的kl散度的最大值;

确定模块,用于当某个聚类簇中的某个特征的取值的概率分布和总体样本中该特征的取值的概率分布的kl散度大于或等于该特征的kl散度的最大值时,确定该聚类簇中的该特征为与总体样本分布不相似的特征。

可选的,所述可视化输出单元,具体用于对每个所述聚类簇中与总体样本分布不相似的特征进行可视化输出。

为了实现上述目的,根据本发明的另一方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于随机抽样的聚类可视化方法中的步骤。

为了实现上述目的,根据本发明的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述基于随机抽样的聚类可视化方法中的步骤。

本发明的有益效果为:本发明实施例提出了一种对聚类簇与总体样本的特征之间的概率分布差异进行定量计算的方法。并根据差异定量计算结果,确定出聚类簇与总体样本之间概率分布差异较大特征,实现了减少可视化输出时特征数量,重点突出了与总体样本差异较大特征,便于数据分析人员对聚类结果进行分析。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1是本发明实施例基于随机抽样的聚类可视化方法的流程图;

图2是本发明实施例确定聚类簇中与总体样本分布不相似的特征的流程图;

图3是本发明实施例基于随机抽样的聚类可视化装置的结构框图;

图4是本发明实施例分布不相似特征确定单元的组成结构框图;

图5是本发明实施例计算机设备示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面对本发明中的一些术语进行解释:

随机抽样:指按照随机的原则,从总体中抽取个体,保证总体中的每一个体都以已知的、非零的概率被选入作为研究对象,保证样本对总体的代表性,其特点满足随机性和等概率性;

总体分布:把研究对象的全体组成称为总体,而把组成总体的元素称为个体,当试验次数无限增大时,试验结果的频率值就成为相应的概率,除了由于抽样的随机性造成的误差因素外,精确地反映了总体取值的概率分布规律,这种整体取值的概率分布规律通常称为总体分布;

抽样分布:也成为统计量分布、随机变量函数分布,是指样本估计量的分布,在统计学中称作统计量,因此抽样分布也是指统计量的分布;

聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程;

聚类簇:是指经过聚类分析过程后产生的数据对象的集合,这些对象与同一簇中的对象彼此相似,与其他簇的对象相异;

可视化分析:主要用于海量数据关联分析,可辅助人工操作将数据进行关联分析,并作出完整的分析图表。图表中包含所有事件的相关信息,也完整展示出数据分析的过程和数据链走向;

特征与特征矩阵:数量的变异标志称为特征,它的表现形式是具体的特征值或变量值。每个个体在特征上的特征值集合被称为特征矩阵;

连续型特征:在一定区间内可以任意取值的特征叫做连续型特征,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值;

离散型特征:特征的取值空间是有限个或可列无限多个,或概率1以一定的概率分布在各个取值上被称为离散型特征;

k-means分箱法:由k-means聚类出的簇通过直方图来展示,其横轴代表各个分组类别,其纵轴长方形的高代表对应组的频数;

kl散度:又称kl距离,是一种相对熵,是用来描述两个概率分布p和q之间差异的一种方法。若其中一个概率分布为真实分布,另一个为理论(拟合)分布,则此时相对熵等于交叉熵与真实分布的信息熵之差,表示使用理论分布拟合真实分布时产生的信息损耗。直观地说,可以用来衡量给定任意分布偏离真实分布的程度,如果两个分布完全匹配,那么kl(p||q)=0,否则它的取值应该是0~∞(inf)之间。kl散度越小,真实分布与拟合分布之间的匹配程度就越好;

离散概率分布的kl散度计算公式:

连续概率分布的kl散度计算公式:

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

图1是本发明实施例基于随机抽样的聚类可视化方法的流程图,如图1所示,本实施例的基于随机抽样的聚类可视化方法包括步骤s101至步骤s107。

步骤s101,获取总体样本中各特征的取值的概率分布。

在本发明实施例中,总体样本中各特征的取值的概率分布可以为各特征的的概率分布向量。假设总体样本共n个特征,其中特征j有k个取值,特征j对应的概率分布向量为:

pj=(pj1,pj2,pj3,…,pjk),j∈[1,n],pjk为概率分布(1)

步骤s102,对所述总体样本执行n次随机抽样,分别计算每次随机抽样中各特征的取值的概率分布。

在本发明的可选实施例中,n为大于等于50的自然数。在本发明优选实施例中,可以对总体样本执行100次随机抽样。在以下实施例中,将以100次随机抽样对本发明方案进行解释说明。

在本发明的可选实施例中,本步骤对总体样本执行100次抽样,分别计算每个抽样中各特征取值的概率分布,每次随机抽样中与总体样本一样共有n个特征,则第s次抽样中的特征j共有k个取值,对应一个概率分布向量:

psj=(psj1,psj2,psj3,…,psjk),s∈[1,100],j∈[1,n](2)

步骤s103,根据总体样本中各特征的取值的概率分布以及每次随机抽样中各特征的取值的概率分布分别计算每个特征在每次随机抽样和总体样本中的取值的概率分布的kl散度,并确定每个特征的kl散度的最大值。

在本发明实施例中,本步骤分别计算每次随机抽样与总体在n个特征取值概率分布上的kl散度,则特征j在100次抽样中与总体样本之间的kl散度值可表示为向量:

klj=(kl1j,kl2j,…,kl100j),j∈[1,n](3)

进而对于每个特征j,在所有抽样与总体的kl散度向量klj中找出最大值kljmax,则有:

kljmax=max(klj1,klj2,…,klj100),j∈[1,n](4)

在本发明实施例中,kljmax表示在100次随机抽样中,取抽样与总体在特征j上差异最大的kl散度值,在本发明实施例中该值可以作为后续衡量聚类簇与总体在特征j上是否相似的标准。

步骤s104,获取对所述总体样本进行聚类生成的聚类簇,分别针对每个所述聚类簇计算各特征的取值的概率分布。

在本发明实施例中,假设聚类的结果共生成u个聚类簇,则分别对每个聚类簇计算各特征取值的概率分布,每个聚类簇与总体样本一样共有n个特征,则聚类簇v中的特征j对应一个概率分布向量:

pvj=(pvj1,pvj2,pvj3,…,pvjk)v∈[1,u],j∈[1,n](5)

步骤s105,根据每个所述聚类簇对应的各特征的取值的概率分布以及总体样本中各特征的取值的概率分布计算每个特征在每个所述聚类簇和总体样本中的取值的概率分布的kl散度。

在本发明实施例中,本步骤计算当前聚类簇v中特征j的概率分布向量pvj,与总体样本中特征j的概率分布向量pj之间的kl散度,记为klvj

步骤s106,根据每个特征在每个所述聚类簇和总体样本中的取值的概率分布的kl散度以及所述每个特征的kl散度的最大值确定每个所述聚类簇中与总体样本分布不相似的特征。

在本发明实施例中,本步骤通过比较上述步骤s103得到的kljmax与上述步骤s105得到的klvj的大小,确定聚类簇v与总体样本在特征j上的分布是否相似。具体为,当klvj小于等于kjjmax时聚类簇v与总体样本在特征j上的分布相似,当klvj大于kljmax时聚类簇v与总体样本在特征j上的分布不相似。

在本发明的另一可选实施例中,通过比较kljmax与klvj的大小确定聚类簇v与总体样本在特征j上的分布是否相似,有如下公式:

当simvj=1时,表示聚类簇v与总体样本在特征j上的分布相似;当simvj=0时,表示聚类簇v与总体样本在特征j上的分布不相似。

步骤s107,根据每个所述聚类簇中与总体样本分布不相似的特征对每个所述聚类簇进行可视化输出。

在本发明实施例中,步骤s107具体可以为对每个所述聚类簇中与总体样本分布不相似的特征进行可视化输出。在本发明实施例中,在确定出聚类簇中与总体样本分布不相似的特征后,在进行可视化输出时仅对各聚类簇中与总体样本分布不相似的特征进行可视化输出,对各聚类簇中与总体样本分布相似的特征不进行输出,这样减少可视化输出时特征数量,并重点突出了与总体样本差异较大特征,便于数据分析人员对聚类结果进行分析。

在本发明的可选实施例中,本步骤的对每个所述聚类簇进行可视化输出具体可以为,利用公式(6)计算当前所有簇中各特征的概率分布于总体之间是否相似,可以得到如下一个矩阵au×n,其中u为聚类簇个数,n为特征个数:

矩阵au×n中每个元素simvj取值为0或1,表示簇v中特征j的概率分布是否与总体特征相似。进而根据矩阵au×n中描述的簇v中特征j与总体之间的概率分布相似情况,绘制每个簇特征的分布图。

在本发明的可选实施例中,在进行可视化输出时,按行遍历矩阵au×n中的每个元素simvj,如果simvj=0,表示需要绘制簇v中特征j的取值概率分布,当特征j为连续型特征时,使用直方图表示其特征分布;当特征j为离散型特征时,使用饼图表示其特征分布;如果simvj=1,表示无需绘制簇v中特征j的取值概率分布,继续遍历下一个元素,直到矩阵中所有元素遍历完成。

从以上实施例可以看出,本发明实施例提出了一种对聚类簇与总体样本的特征之间的概率分布差异进行定量计算的方法。并根据差异定量计算结果,确定出聚类簇与总体样本之间概率分布差异较大特征,实现了减少可视化输出时特征数量,重点突出了与总体样本差异较大特征,便于数据分析人员对聚类结果进行分析。

在本发明的实施例中,在进行上述步骤s101之前,还需要对所述总体样本中的所有连续型特征进行离散化处理,得到连续型特征的离散化取值。在本发明的可选实施例中,可以使用k-means分箱法将连续型特征进行离散化,将连续型特征转化为离散型特征,具体方法可以为:

使用k-means分箱法算出连续型特征的分箱区间,假设共有m个连续型特征,将连续型特征i分为k个区间,则可得到一个区间分界点向量:

zi=[ai0,ai1,ai2…,aik]i∈[1,m],aik为特征的取值(8)

进而,根据公式(8)中描述的分界点,将原始特征i的取值设置为[ai1,ai2,…,aik]中的一个值。

在本发明的可选实施例中,上述步骤s101的总体样本中各特征的取值的概率分布具体可以通过以下步骤计算得出:

对于总体样本中的r个离散型特征来说,假设特征j共有k个取值,为[a1,a2,…,ak],则可计算特征j在其每个取值上的样本个数向量:

qj=(qj1,qj2,qj3,…,qjk)j∈[1,n],qjk为在特征j上取值为ak的样本数(9)

假设总体样本中样本个数为m,则对公式(9)中的向量除以m,可得特征j在其每个取值上的样本数占比向量:

pj=(pj1,pj2,pj3,…,pjk)j∈[1,n],pjk为概率分布

该向量与公式(1)中描述的一致。

在本发明的可选实施例中,上述步骤s102的随机抽样并计算每次随机抽样中各特征的取值的概率分布,具体可以包括以下步骤:

对总体样本执行100次随机抽样,对于第s(s∈[1,100])次抽样中的特征j,如果特征j为离散型特征,则使用公式(9)计算特征j在每个取值上的样本个数向量qj=(qsj1,qsj2,…,qsjk),假设第s次抽样中供包含总体样本数的30%,则抽样中特征j在其每个取值上的样本占比向量为:

psj=(psj1,psj2,psj3,…,psjk)s∈[1,100],j∈[1,n],且

该向量与公式(2)中描述的一致;

对于第s(s∈[1,100])次抽样中的特征j,如果特征j为连续型特征,则先对其进行k-means分箱离散化,再采用上述方法求得抽样s中特征j在其每个取值上的样本占比向量psj。

在本发明的可选实施例中,上述步骤s103的计算每个特征在每次随机抽样和总体样本中的取值的概率分布的kl散度,并确定每个特征的kl散度的最大值,具体可以包括以下步骤:

使用公式(2)中描述的第s次抽样中特征j的概率分布向量psj=(psj1,psj2,psj3,…,psjk),以及公式(1)中描述的总体样本特征j的概率分布向量pj=(pj1,pj2,pj3,…,pjk),特征j共有k个不同的取值,可以使用如下公式计算第s次抽样与总体样本在特征j上,两者取值概率分布的kl散度值:

对每个特征j,都使用公式(10)分别计算100次抽样中,与总体样本分布之间的kl散度值,可以得到特征j在每次随机抽样和总体样本中的取值的概率分布的kl散度向量:

klj=(kl1j,kl2j,…,kl100j)j∈[1,n]

该向量与公式(3)中描述的一致。

在本发明的可选实施例中,上述步骤s104的计算每个聚类簇的各特征的取值的概率分布,具体可以包括以下步骤:

对于聚类簇v中的特征j,如果特征j为离散型特征,则使用公式(9)计算特征j在每个取值上的样本个数向量为:

qj=(qvj1,qvj2,…,qvjk),其中k为特征j不同取值的个数

假设簇v中包含的样本个数为mv,则簇v中特征j在其每个取值上的样本占比向量为:

pvj=(pvj1,pvj2,pvj3,…,pvjk)v∈[1,u],j∈[1,n],且

该向量与公式(5)中描述的一致。

在本发明的可选实施例中,上述步骤s105的计算各特征在每个聚类簇和总体样本中的取值的概率分布的kl散度的方法具体可以为:

对公式(5)中的每个pvj,以及公式(1)中的每个pj,求两者之间的kl散度值,为:

公式(11)表示簇v与总体样本在特征j上的取值概率分布kl散度值。

图2是本发明实施例确定聚类簇中与总体样本分布不相似的特征的流程图,如图2所示,在本发明实施例中,上述步骤s106具体包括步骤s201和步骤s202。

步骤s201,判断每个所述聚类簇中每个特征的取值的概率分布和总体样本中该特征的取值的概率分布的kl散度是否大于或等于该特征的kl散度的最大值。

步骤s202,若是,则确定该聚类簇中的该特征为与总体样本分布不相似的特征。

通过以上实施例可以看出,本发明的基于随机抽样的聚类可视化方法至少实现了以下有益效果:

(1)本发明基于统计学中的随机抽样理论,提出了一种对聚类簇与总体样本特征之间的概率分布差异进行定量计算的方法,比起人工判断概率分布的差异更加科学和高效;

(2)根据(1)中描述的差异定量计算结果,过滤掉聚类簇与总体样本之间概率分布差异不大的特征,减少可视化结果中包含的特征数量,重点突出了对聚类结果影响较大的特征,减轻了数据分析的负担。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

基于同一发明构思,本发明实施例还提供了一种基于随机抽样的聚类可视化装置,可以用于实现上述实施例所描述的基于随机抽样的聚类可视化方法,如下面的实施例所述。由于基于随机抽样的聚类可视化装置解决问题的原理与基于随机抽样的聚类可视化方法相似,因此基于随机抽样的聚类可视化装置的实施例可以参见基于随机抽样的聚类可视化方法的实施例,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图3是本发明实施例基于随机抽样的聚类可视化装置的结构框图,如图4所示,本发明实施例基于随机抽样的聚类可视化装置包括:取值概率分布获取单元1、抽样取值概率分布计算单元2、特征kl散度的最大值计算单元3、聚类簇取值概率分布计算单元4、聚类簇特征kl散度计算单元5、分布不相似特征确定单元6和可视化输出单元7。

取值概率分布获取单元1,用于获取总体样本中各特征的取值的概率分布。

抽样取值概率分布计算单元2,用于对所述总体样本执行n次随机抽样,分别计算每次随机抽样中各特征的取值的概率分布。

特征kl散度的最大值计算单元3,用于根据总体样本中各特征的取值的概率分布以及每次随机抽样中各特征的取值的概率分布分别计算每个特征在每次随机抽样和总体样本中的取值的概率分布的kl散度,并确定每个特征的kl散度的最大值。

聚类簇取值概率分布计算单元4,用于获取对所述总体样本进行聚类生成的聚类簇,分别针对每个所述聚类簇计算各特征的取值的概率分布。

聚类簇特征kl散度计算单元5,用于根据每个所述聚类簇对应的各特征的取值的概率分布以及总体样本中各特征的取值的概率分布计算每个特征在每个所述聚类簇和总体样本中的取值的概率分布的kl散度。

分布不相似特征确定单元6,用于根据每个特征在每个所述聚类簇和总体样本中的取值的概率分布的kl散度以及所述每个特征的kl散度的最大值确定每个所述聚类簇中与总体样本分布不相似的特征。

可视化输出单元7,用于根据每个所述聚类簇中与总体样本分布不相似的特征对每个所述聚类簇进行可视化输出。

在本发明实施例中,本发明的基于随机抽样的聚类可视化装置还包括:离散化处理单元。离散化处理单元用于对所述总体样本中的所有连续型特征进行离散化处理,得到连续型特征的离散化取值。

图4是本发明实施例分布不相似特征确定单元的组成结构框图,如图4所示,在本发明的实施例中,分布不相似特征确定单元6包括:判断模块601和确定模块602。

判断模块601,用于判断每个所述聚类簇中每个特征的取值的概率分布和总体样本中该特征的取值的概率分布的kl散度是否大于或等于该特征的kl散度的最大值。

确定模块602,用于当某个聚类簇中的某个特征的取值的概率分布和总体样本中该特征的取值的概率分布的kl散度大于或等于该特征的kl散度的最大值时,确定该聚类簇中的该特征为与总体样本分布不相似的特征。

在本发明实施例中,上述可视化输出单元7,具体用于对每个所述聚类簇中与总体样本分布不相似的特征进行可视化输出。

为了实现上述目的,根据本申请的另一方面,还提供了一种计算机设备。如图5所示,该计算机设备包括存储器、处理器、通信接口以及通信总线,在存储器上存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例方法中的步骤。

处理器可以为中央处理器(centralprocessingunit,cpu)。处理器还可以为其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元,如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及作品数据处理,即实现上述方法实施例中的方法。

存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个单元存储在所述存储器中,当被所述处理器执行时,执行上述实施例中的方法。

上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解,此处不再赘述。

为了实现上述目的,根据本申请的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述基于随机抽样的聚类可视化方法中的步骤。本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)、随机存储记忆体(randomaccessmemory,ram)、快闪存储器(flashmemory)、硬盘(harddiskdrive,缩写:hdd)或固态硬盘(solid-statedrive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1