一种混合聚类方法和装置的制造方法

文档序号:8487801阅读:159来源:国知局
一种混合聚类方法和装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘,更特别地,本发明涉及数据挖掘领域中的聚类(Cluster)。【背景技术】
[0002] 数据挖掘是数据库知识发现(Knowledge-Discovery in Databases)中的一个步 骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的 过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、 专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘的方 法包括监督式学习、非监督式学习、关系分组(Affinity Grouping)与购物篮分析(Market Basket Analysis)、聚类(Clustering)与描述。
[0003] 其中,聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子 集,这样让在同一个组别或子集中的成员对象都有相似的一些属性。由聚类所生成的组别 或子集是一组数据对象的集合,这些对象与同一个组别或子集中的对象彼此相似,与其他 组别或子集中的对象相异。
[0004] 传统的聚类已经比较成功的解决了低维数据的聚类问题。但是由于实际应用中数 据的复杂性,在处理许多问题时,现有的算法经常失效,特别是对于高维数据和大型数据的 情况。高维聚类分析已成为聚类分析的一个重要研究方向。同时高维数据聚类也是聚类技 术的难点。随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂 性越来越高,如各种类型的贸易交易数据、Web文档、基因表达数据等,它们的维度(特征) 通常可以达到成百上千维,甚至更高。但是,受"维度效应"的影响,许多在低维数据空间表 现良好的聚类方法运用在高维空间上往往无法获得好的聚类效果。高维数据聚类分析是聚 类分析中一个非常活跃的领域,同时它也是一个具有挑战性的工作。目前,高维数据聚类分 析在市场分析、信息安全、金融、娱乐、反恐等方面都有很广泛的应用。
[0005] 最近几年,局部敏感哈希(Locality-Sensitive Hash, LSH)技术日益兴起并且 被用于聚类。哈希(Hash)本质上是一个映射函数。而与传统哈希技术的关注点是如何 使映射尽可能地随机均匀分布不同(例如,MD5算法保证两个不同文本的MD5签名不同,此 外并不能提供更多额外的信息),局部敏感哈希将两个相似的内容映射为相近的签名,即
【主权项】
1. 一种混合聚类方法,包括: 输入聚类参数; 如果更新类型为全量更新,那么删除聚类结果中对应的组; 输入满足过滤条件的对象,对每个对象进行混合聚类,生成聚类的组名,输出聚类的组 和对象列表; 输入聚类的组和对象列表,丢弃对象数小于最小对象数的组,添加其余的组和对象到 聚类结果中。
2. 根据权利要求1所述的混合聚类方法,其中, 所述聚类参数包括主控参数和算法参数,其中主控参数包括更新类型、BY GROUP特征 变量、minhash特征变量及权重、聚类对象的过滤条件、最小对象数,算法参数包括哈希函数 种子列表、主键数、simhash签名位数。
3. 根据权利要求1或2所述的混合聚类方法,其中, 所述对每个对象进行混合聚类,生成聚类的组名,输出聚类的组名和对象列表包括以 下步骤: 步骤(a):判定BY GROUP特征变量,如果BY GROUP特征变量为空,那么跳到步骤(c); 步骤(b):根据BY GROUP特征变量,来进行BY GROUP聚类,并确定BY GROUP聚类结果 的组名; 步骤(c):判定minhash特征变量,如果minhash特征变量为空,那么跳到步骤(f); 步骤(d):根据simhash签名位数、minhash特征变量及权重,来使用simhash求得对象 的签名; 步骤(e):根据求得的对象的签名,来进行minhash聚类,根据主键数来确定minhash聚 类结果的组名; 步骤(f):将BY GROUP聚类结果的组名和minhash聚类结果的组名组合成聚类的组名; 步骤(g):输出聚类的组名和对象列表。
4. 一种混合聚类装置,包括: 聚类对象管理模块,其向混合聚类执行模块输出满足过滤条件的对象; 聚类参数管理模块,其向混合聚类执行模块输出聚类参数; 混合聚类执行模块,其基于满足过滤条件的对象以及聚类参数,来进行混合聚类,向聚 类结果管理模块输出聚类的组和对象列表; 聚类结果管理模块,其对聚类结果进行管理, 所述混合聚类装置执行以下步骤: 输入聚类参数; 如果更新类型为全量更新,那么删除聚类结果中对应的组; 输入满足过滤条件的对象,对每个对象进行混合聚类,生成聚类的组名,输出聚类的组 和对象列表; 输入聚类的组和对象列表,丢弃对象数小于最小对象数的组,添加其余的组和对象到 聚类结果中。
5. 根据权利要求4所述的混合聚类装置,其中, 所述聚类参数包括主控参数和算法参数,其中主控参数包括更新类型、BY GROUP特征 变量、minhash特征变量及权重、聚类对象的过滤条件、最小对象数,算法参数包括哈希函数 种子列表、主键数、simhash签名位数。
6.根据权利要求4或5所述的混合聚类装置,其中, 所述对每个对象进行混合聚类,生成聚类的组名,输出聚类的组名和对象列表包括以 下步骤: 步骤(a):判定BY GROUP特征变量,如果BY GROUP特征变量为空,那么跳到步骤(c); 步骤(b):根据BY GROUP特征变量,来进行BY GROUP聚类,并确定BY GROUP聚类结果 的组名; 步骤(c):判定minhash特征变量,如果minhash特征变量为空,那么跳到步骤(f); 步骤(d):根据simhash签名位数、minhash特征变量及权重,来使用simhash求得对象 的签名; 步骤(e):根据求得的对象的签名,来进行minhash聚类,根据主键数来确定minhash聚 类结果的组名; 步骤(f):将BY GROUP聚类结果的组名和minhash聚类结果的组名组合成聚类的组名; 步骤(g):输出聚类的组名和对象列表。
【专利摘要】本发明涉及一种混合聚类方法和装置。一种混合聚类方法,包括:输入聚类参数;如果更新类型为全量更新,那么删除聚类结果中对应的组;输入满足过滤条件的对象,对每个对象进行混合聚类,生成聚类的组名,输出聚类的组和对象列表;输入聚类的组和对象列表,丢弃对象数小于最小对象数的组,添加其余的组和对象到聚类结果中。
【IPC分类】G06F17-30
【公开号】CN104809136
【申请号】CN201410040796
【发明人】刘军, 冯兴, 周继恩
【申请人】中国银联股份有限公司
【公开日】2015年7月29日
【申请日】2014年1月28日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1