聚类化支持系统和方法以及支持该方法的装置制造方法

文档序号:6534369阅读:188来源:国知局
聚类化支持系统和方法以及支持该方法的装置制造方法
【专利摘要】本发明涉及聚类化功能支持。公开聚类化支持系统、操作聚类化支持系统的方法和支持该方法的装置,聚类分析支持系统包括:聚类化服务装置,该聚类服务装置被构造成请求分布式处理服务装置基于预定范围内的k值和预设重复数执行k-均值聚类化直至满足预定义的收敛条件为止,如果由分布式处理服务装置计算出k值的中心值,则选择中心值中的最优中心值,通过关于将基于所选择的最优中心值许可的聚类索引的数据应用的指数计算控制最优k值的计算和应用;以及分布式处理服务装置,分布式处理服务装置被构造成根据聚类服务装置的请求基于从聚类服务装置中提供的k值和预设重复数执行k-均值聚类化,计算k值的中心值,向聚类化服务装置提供中心值。
【专利说明】聚类化支持系统和方法以及支持该方法的装置

【技术领域】
[0001] 本发明涉及聚类分析,更具体地,涉及用于支持K-均值聚类化以在分布式处理环 境中处理大数据的聚类分析支持系统和方法,以及支持该聚类分析的装置。

【背景技术】
[0002] 聚类分析,也就是说,聚类化是指对相似数据进行分组。数据是否相似随提前给 定的相似性的定义而变化。当各个数据的值被表示为矢量时,主要用几何距离来确定相似 性。用来确定相似性的几何距离的一个最具有代表性的示例是欧几里得距离(Euclidean distance)。同时,k-均值聚类化(k-meansclustering)是用于将总共η个d维数据分组 成k个组。例如,当二维输入数据存在时,k-均值聚类化表示向各个二维输入数据指派范 围为从1到k的聚类索引的任务。
[0003] 当使用这种k-均值聚类化时,k直接由用户确定,并且聚类化的结果可以依赖于 k而显著变化。因此,在没有关于k值的先验信息或知识的情况下随机地确定该k值,因此 要确定k值是非常困难的,并且k值的错误确定可能会导致不希望的结果。由于k-均值聚 类化是迭代算法,所以大的η(表示数据的数量),或者数据的维度的高阶的d可能需要大量 的执行时间。即使对于相同的k值,依赖于最初确定的中心(center)值,花费用来收敛的 时间,即整个运行时间可以改变或者结果可以改变。这样,传统的k-均值聚类化的效率随 k值输入而不同,并且因此其不容易一般化并且需要熟练的操作员控制,并且即使是熟练的 操作员,不能连续提供恒定结果的可能性也很高。


【发明内容】

[0004] 技术问题
[0005] 本发明旨在提供一种能够以稳定的方式提供合适的聚类化效率的聚类分析支持 系统和方法,以及支持该聚类分析的装置。
[0006] 具体地,本发明旨在提供一种能够在通过利用适合于分布式环境的数据结构而使 k_均值聚类化自动化的同时执行高效k_均值聚类化的聚类分析支持系统和方法。
[0007] 技术方案
[0008] 本发明的一个方面提供一种支持聚类分析的系统,该系统包括聚类分析服务装置 以及分布式处理服务装置。该聚类分析服务装置可以被构造成请求分布式处理服务装置基 于在预定范围内的k值和预设迭代频率执行k_均值聚类化直至满足预定义的收敛条件为 止,并且如果从分布式处理服务装置计算出k值的中心值,则选择所述中心值中的最优中 心值,并且通过关于将基于所选择的最优中心值指派的聚类索引应用于数据的索引计算, 来控制最优k值的计算和应用。分布式处理服务装置可以被构造成在就聚类分析服务装置 的请求下从聚类分析服务装置提供的k值和预设迭代频率执行k_均值聚类化,并且如果k 值的中心值被计算出,则向聚类化分析服务装置提供所述中心值。
[0009] 本发明的另一个方面提供一种用于支持聚类分析的聚类分析服务装置,该聚类分 析服务装置包括装置存储单元、装置输入单元以及装置控制单元。该装置存储单元可以被 构造成存储数据。该装置输入单元可以被构造成生成输入信号,该输入信号与针对所存储 数据的聚类分析而提供的预定范围内的k值、收敛条件以及迭代频率中的至少一方有关。 该装置控制单元可以被构造成控制使得基于k值和迭代频率执行k-均值聚类化并计算k 值的中心值直至满足收敛条件为止,其中,每当数据被更新时执行所述k-均值聚类化。 [0010] 装置存储单元可以存储根据先前的k-均值聚类计算出的先前k值。
[0011] 装置控制单元可以包括数据分配单元、分析结果选择单元、分析索引应用单元以 及最优值更新单元。该数据分配单元可以被构造成分配数据使得对所述数据进行分布式处 理。分析结果选择单元可以被构造成如果k值的中心值被计算出,则选择所计算出的中心 值中的最优中心值。分析索引应用单元可以被构造成执行关于被指派了聚类索引的数据的 k值效率的索引计算,所述聚类索引是通过将具有所述最优中心值的选择的结果应用到所 述数据而得到的。该最优值更新单元可以被构造成基于具有索引计算的最优结果的k值更 新先前存储的k值。
[0012] 装置控制单元可以被构造成多次同时自动执行针对多个k值的中心值的结果计 算并且在每次计算具有不同的初始值。
[0013] 本发明的另一个方面提供一种支持聚类分析的方法,该方法包括以下步骤:由聚 类分析服务装置基于所输入的预定范围内的k值以及迭代频率执行中心值矢量的初始化; 以分布式的方式向分布式处理服务装置的数据节点发送数据和初始化后的中心值矢量; 由所述数据节点基于以分布式的方式发送的所述数据和所述初始化后的中心值矢量执行 k-均值聚类化;由所述数据节点向所述聚类分析服务装置提供分析的结果;由所述聚类分 析服务装置选择所述分析的所述结果中的最优结果并与所述数据节点共享所选择的结果; 由所述数据节点向数据指派通过应用所选择的结果而获得的聚类索引;由所述聚类分析服 务装置对被指派了聚类索引的数据执行索引计算;以及使用具有索引计算的最优结果的值 更新先前存储的k值。
[0014] 所述方法可以进一步包括以下步骤:由所述聚类分析服务装置向所述数据节点发 送采样条件;以及由所述数据节点根据所述采样条件计算数据;以及将计算出的数据提供 到所述聚类分析服务装置。
[0015] 所述方法可以进一步包括以下步骤:由所述聚类分析服务装置,对被指派了由所 述数据节点提供的所述聚类索引的所述数据执行采样。
[0016] 进行索引计算的步骤可以包括:针对各个k值进行聚类索引的计算;以及选择具 有最高聚类索引的k值。
[0017] 进行索引计算的步骤可以进一步包括:将多个索引方法应用到针对每个k值的聚 类索引的计算中,以从所述多个索引方法中选择相对较高的k值。
[0018] 在进行k_均值聚类化的步骤中,可以通过多次同时自动计算出针对多个k值的 k-均值聚类化的结果并且在每次计算具有不同的初始值。
[0019] 本发明的另一个方面提供一种记录执行聚类分析支持方法的程序的计算机可读 记录介质。
[0020] 有益效果
[0021] 正如从所述聚类分析支持系统和方法以及支持该聚类分析的装置中明显的,计算 出具有合适聚类化结果的k值,并且与用户是否进行了输入无关,在k值的预定范围中计算 合适的k值,从而支持稳定的分析效率。
[0022] 因此,本发明提供一种具有高可靠性的聚类化数据。

【专利附图】

【附图说明】
[0023] 图1是例示根据本发明的示例性实施方式的聚类分析支持系统的构造的图。
[0024] 图2是例示根据本发明的示例性实施方式的聚类分析服务装置的构造的详细图。
[0025] 图3是例示根据本发明的中心值的示例的图。
[0026] 图4是例示图2的装置控制单元的详细图。
[0027] 图5是例示最优中心值的选择的图。
[0028] 图6是例示聚类分析索引的计算的示例的图。
[0029] 图7是例示根据本发明的分布式处理服务装置的数据节点的构造的示例的图。
[0030] 图8是例示根据本发明的示例性实施方式的聚类分析支持方法的图。

【具体实施方式】
[0031] 下面将详细描述本发明的示例性实施方式。贯穿本说明书使用相同的标号来表示 相同的元件。在实施方式的说明中,为避免造成本发明的主题模糊,这里将省略相关已知功 能或结构的详细说明。
[0032] 同时,在说明书及其附图中提出的示例性实施方式仅仅是提供用来完善本发明并 帮助本领域技术人员完全理解本发明,因此本发明的范围不受这些实施方式和术语的限 制。因此,对于本领域技术人员而言很明显,在不背离本发明的范围的条件下,可以进行各 种示例性实施方式。
[0033] 图1是例示根据本发明的示例性实施方式的聚类分析支持系统的构造的图。
[0034] 参照图1,聚类分析支持系统10包括至少一个聚类分析服务装置100和分布式处 理服务装置200,该分布式处理服务装置200被构造成为所述聚类分析服务装置100提供项 目搜索功能和购买功能,并且可以进还包括用于在所述聚类分析服务装置100和所述分布 式处理服务装置200之间进行通信连接的通信网络(未示出)。
[0035] 根据本发明的聚类分析支持系统10被设置成使得聚类分析服务装置100向 分布式处理服务装置200的各个数据节点的基于映射化简的映射器(MapReduce-based Mapper)发送收集到的数据和预定范围内的k值,并且每个数据节点对所发送的数据执行 对应于该预定范围内的k值和迭代号码的聚类分析直至满足预定义的收敛条件为止,从而 提供最小测量值。
[0036] 聚类分析支持系统10被设置成如果提供针对预定范围内的相应k值的最小测量 值,则在所述最小测量值中计算出最优中心值,并且将该最优中心值应用到原始数据,从而 支持各个数据的聚类分析。另外,聚类分析支持系统10被设置成设置索引应用来测试聚类 分析的应用效率,并且通过使用具有最有效索引值的k值来执行k值更新。如上所述,根据 本发明的聚类分析支持系统10被设置成同时处理针对预定范围内的k值的聚类分析,并且 对处理后的结果进行互相比较,从而以非常快速且精确的方式获得合适的聚类分析。具体 地,本发明被设置成在执行聚类分析的过程中,相对于预定范围内的k值反复地且自动地 执行聚类分析,从而与用户是否进行了额外的输入无关,通过根据数据更新的自动聚类分 析来支持k值计算和应用。因此,根据本发明的聚类分析支持系统10可以基于稳定可靠的 聚类分析支持各种数据应用。
[0037] 为此,通信网络(未示出)被设置以在聚类分析服务装置100和分布式处理服务 装置200之间形成有线/无线通信信道。也就是说,通信网络(未示出)可以支持聚类分 析服务装置100和分布式处理服务装置200之间的数据传输的信号发送/接收、聚类分析 结果的传递以及聚类分析索引的应用结果的传输。具体地,通信网络(未示出)将关于数 据和预定范围内的k值的信息从聚类分析服务装置100发送到分布式处理服务装置200,并 且将聚类分析的结果从分布式处理服务装置200发送到聚类分析服务装置100。另外,通 信网络(未示出)可以将聚类分析服务装置100选择的特定k值发送到分布式处理服务装 置200以被应用,并且允许分布式处理服务装置200通过使用所选择的k值将预定索引应 用到针对每个数据的聚类分析。
[0038] 聚类分析服务装置100通过使用装置通信单元与通信网络(未示出)连接,并因 此接入与该通信网络(未示出)连接的分布式处理服务装置200。聚类分析服务装置100 可以向分布式处理服务装置200提供数据和预定范围内的k值。预定范围内的k值可以是 在用户输入的预定范围内的自然数。在数据被发送之前,聚类分析服务装置100可以与分 布式处理服务装置200的数据节点共享在预定范围内的输入的k值。聚类分析服务装置 100向分布式处理服务装置200提供收集到的数据。
[0039] 同时,在从分布式处理服务装置200接收到通过向各个数据应用k值而得到的输 出时,聚类分析服务装置100可以在接收到的输出中选择具有最小测量值的中心值信息。 聚类分析服务装置100可以请求分布式处理服务装置200将所选择的中心值信息应用到原 始数据。如果随着分布式处理服务装置200将所选择的中心值信息应用到原始数据聚类索 引被给出,则聚类分析服务装置100可以执行聚类分析索引计算,以检查哪个k值产生最有 效的聚类分析。聚类分析服务装置100可以基于聚类分析索引计算来控制k值更新。下面 将参照图2详细描述聚类分析服务装置100。
[0040] 分布式处理服务装置200包括多个数据节点,同时连接到聚类分析服务装置100, 以基于由所述聚类分析服务装置100提供的数据和预定范围内的k值执行聚类分析。分布 式处理服务装置200可以向聚类分析服务装置100提供聚类分析的结果。然后,分布式处 理服务装置200可以通过将由聚类分析服务装置100提供的所选k值应用到原始数据来执 行聚类分析。
[0041] 根据本发明的聚类分析支持系统10被设置成使得预定范围内的k值在聚类分析 期间被同时应用到数据,从而容易地发现具有合适测量值的k值,并基于所发现的k值执行 有效的聚类分析。
[0042] 图2是例示根据本发明的示例性实施方式的聚类分析服务装置100的构造的详细 图。
[0043] 参照图2,根据本发明的聚类分析服务装置100包括装置通信单元110、装置输入 单元120、装置存储单元150以及装置控制单元160。用于参考,应用于根据本发明的聚类 分析的k-均值聚类化属于当正确答案不存在时应用的无监督学习方法组,因此精确度和 正确答案不能被比较。当提供总共η个d维矢量作为输入时,k-均值聚类化计算出k个中 心,总共η个数据被按照该k个中心分成k个聚类。该计算被迭代地执行,并且找到使下面 的算式1最小化的中心。
[0044]【算式1】

【权利要求】
1. 一种支持聚类分析的系统,该系统包括: 聚类分析服务装置,该聚类分析服务装置被构造成请求分布式处理服务装置基于预定 范围内的k值和预设迭代频率执行k-均值聚类化直至满足预定义的收敛条件为止,并且如 果从所述分布式处理服务装置计算出所述k值的中心值,则选择所述中心值中的最优中心 值,并且通过关于将基于所选择的最优中心值指派的聚类索引应用于数据的索引计算,来 控制最优k值的计算和应用;以及 所述分布式处理服务装置,所述分布式处理服务装置被构造成在所述聚类分析服务装 置的所述请求下基于从所述聚类分析服务装置提供的所述k值和所述预设迭代频率来执 行所述k-均值聚类化,并且如果所述k值的所述中心值被计算出,则向所述聚类化分析服 务装置提供所述中心值。
2. -种支持聚类分析的聚类分析服务装置,该聚类分析服务装置包括: 装置存储单元,该装置存储单元被构造成存储数据; 装置输入单元,该装置输入单元被构造成生成输入信号,该输入信号与针对所存储数 据的聚类分析而提供的预定范围内的k值、收敛条件以及迭代频率中的至少一方有关;以 及 装置控制单元,该装置控制单元被构造成控制使得基于所述k值和所述迭代频率执行k_均值聚类化并计算所述k值的中心值直至满足所述收敛条件为止,其中,每当数据被更 新时执行所述k-均值聚类化。
3.根据权利要求2所述的聚类分析服务装置,其中,所述装置存储单元存储根据先前 k_均值聚类计算的先前k值。
4.根据权利要求3所述的聚类分析服务装置,其中,所述装置控制单元包括: 数据分配单元,该数据分配单元被构造成分配数据使得对所述数据进行分布式处理, 分析结果选择单元,该分析结果选择单元被构造成如果所述k值的中心值被计算出, 则选择所计算出的中心值中的最优中心值; 分析索引应用单元,该分析索引应用单元被构造成执行关于被指派了聚类索引的数据 的k值效率的索引计算,所述聚类索引是通过将具有所述最优中心值的选择的结果应用到 所述数据而得到的;以及 最优值更新单元,该最优值更新单元被构造成基于具有所述索引计算的最优结果的k值更新先前存储的k值。
5.根据权利要求2所述的聚类分析服务装置,其中,所述装置控制单元被构造成多次 同时自动执行针对多个k值的中心值的结果计算并且在每次计算具有不同的初始值。
6. -种用于支持聚类分析的方法,该方法包括以下步骤: 由聚类分析服务装置基于所输入的预定范围内的k值和迭代频率对中心值矢量执行 初始化; 以分布式方式向分布式处理服务装置的数据节点发送数据和初始化后的中心值矢 量; 由所述数据节点基于以分布式方式发送的所述数据和所述初始化后的中心值矢量执 行k-均值聚类化; 由所述数据节点向所述聚类分析服务装置提供分析的结果; 由所述聚类分析服务装置选择分析的结果中的最优结果并且与所述数据节点共享所 选择的结果; 由所述数据节点向数据指派通过应用所选择的结果而获得的聚类索引; 由所述聚类分析服务装置对被指派了所述聚类索引的数据执行索引计算;以及 使用具有索引计算的最优结果的值更新先前存储的k值。
7.根据权利要求6所述的方法,所述方法进一步包括以下步骤: 由所述聚类分析服务装置向所述数据节点发送采样条件;以及 由所述数据节点根据所述采样条件计算数据,并且将计算出的数据提供到所述聚类分 析服务装置。
8. 根据权利要求6所述的方法,所述方法进一步包括以下步骤:由所述聚类分析服务 装置,对被指派了由所述数据节点提供的所述聚类索引的所述数据执行采样。
9.根据权利要求6所述的方法,其中,进行索引计算的步骤包括: 针对每个k值进行聚类索引的计算;以及 选择具有最高聚类索引的k值。
10.根据权利要求9所述的方法,其中,进行索引计算的步骤进一步包括:将多个索引 方法应用到针对每个k值的聚类索引的计算中,以从所述多个索引方法中选择相对较高的 k值。
11. 根据权利要求6所述的方法,其中,在进行k-均值聚类化的步骤中,多次同时自动 计算出针对多个k值的k-均值聚类化的结果并且在每次计算具有不同的初始值。
12. -种计算机可读记录介质,该计算机可读记录介质记录执行权利要求6-11中任一 项所述的方法的程序。
【文档编号】G06F17/00GK104380282SQ201380033471
【公开日】2015年2月25日 申请日期:2013年7月11日 优先权日:2012年9月4日
【发明者】金民成, 尹度永, 李埰炫, 李俊燮 申请人:Sk 普兰尼特有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1