聚类方法、增量聚类方法及相关装置制造方法

文档序号:6541995阅读:209来源:国知局
聚类方法、增量聚类方法及相关装置制造方法
【专利摘要】本公开实施例公开了一种聚类方法、增量聚类方法及相关装置,所述聚类方法首先采用Rank-Order距离合并类,然后对合并后的类进行拆分,从类中将可能不属于该类的对象划分成单独的类,得到包含多个对象的聚类及包含单个对象的类,该方式提高了聚类结果的精确率,但是召回率有所下降;然后,对得到的多个对象的聚类和包含单个对象的类进行层次聚类,将划分出来的单独的类中可能属于同一个类的对象聚集到对应的类中,从而提高了召回率。
【专利说明】聚类方法、增量聚类方法及相关装置
【技术领域】
[0001]本公开涉数据处理及【技术领域】,特别是涉及一种聚类方法、增量聚类方法及相关
>J-U ρ?α装直。
【背景技术】
[0002]聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,即将对象分类到不同的类(或者簇)的过程,同一个类中的对象有很大的相似性,属于不同类的对象有很大的相异性。
[0003]增量聚类方法是当有一批聚类结果时,新增加一些数据,只对新增的数据进行聚类,并对已有的聚类结果进行增量式修改,不需要对新增数据后的整个数据集进行重新聚类。但是,相关技术中的聚类方法和增量聚类方法均无法同时保证高精确率和高召回率。

【发明内容】

[0004]为克服相关技术中存在的问题,本公开提供一种聚类方法、增量聚类方法及相关
>J-U ρ?α装直。
[0005]为了解决上述技术问题,本公开实施例公开了如下技术方案:
[0006]根据本公开实施例的第一方面,提供一种聚类方法,包括:
[0007]对于类间的Rank-Order距离小于第一距离阈值的类进行迭代合并;根据类内各个对象间的距离获得迭代合并后的类对应的类内聚合度;针对迭代合并后得到每个类,将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类,并更新类的数量;当更新后类的数量比更新前类的数量少时,返回执行对与类间的Rank-Order距离小于第一距离阈值进行类的迭代合并的步骤,直到更新后类的数量与更新前类的数量相同;获取各个类之间的类间距离;对于类间距离小于第二距离阈值的类进行合并;当合并后类的数量小于合并前类的数量时,返回执行获取各个类的类间距离,直到合并后类的数量与合并前类的数量相等。
[0008]结合第一方面,在第一方面的第一种可能的实现方式中,所述类间距离为第一类与第二类之间的距离;所述获取各个类之间的类间距离,采用如下方式:
[0009]获取所述第一类的全部对象与所述第二类的全部对象之间的距离;获取所述距离对应的权重系数,所述权重系数根据所述对象间的相似性确定;根据所述距离及所述距离对应的权重系数,获得所述第一类到所述第二类的第一单向权重距离;获取所述第二类到所述第一类的第二单向权重距离;根据所述第一单向权重距离和所述第二单向权重距离,得到所述第一类与所述第二类的类间距离。
[0010]结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,获取所述距离对应的权重系数,采用如下方式:
[0011]根据样本对象统计得到对象间距离与两个对象是否是同一对象的概率之间的对应关系;根据所述对应关系,确定所述对象间距离与权重系数之间的映射关系,所述权重系数根据所述概率确定。
[0012]结合第一方面的第一种可能的实现方式或第二种可能的实现方式,在第一方面的第三种可能的实现方式中,根据所述距离及所述距离对应的权重系数,获得所述第一类到所述第二类的第一单向权重距离,采用如下方式:
[0013]获取所述第一类内任一对象与所述第二类的全部对象之间相似性最大的距离,以及所述相似性最大的距离对应的第一权重系数;根据所述相似性最大的距离与对应的第一权重系数的乘积,得到所述第一类中的对象与所述第二类的全部对象之间的最小权重距离;获取所述第一类中的对象与所述第二类中除相似性最大的距离对应的对象之外的其它对象之间距离的平均权重距离;根据所述最小权重距离和所述平均权重距离得到所述第一类中的所述对象与所述第二类之间的权重距离;根据所述第一类中的全部对象与所述第二类之间的权重距离,以及所述权重距离对应的权重系数,获得所述第一类到所述第二类的第一单向权重距离。
[0014]结合第一方面,在第一方面的第四种可能的实现方式中,所述根据类内各个对象间的距离获得迭代合并后的类对应的类内聚合度,采用如下方式:
[0015]获取类内各个对象间的距离;根据所述类内对象距离计算所述类内的各个对象间距离的距离平均值;对所述距离平均值进行归一化,得到所述类的类内聚合度。
[0016]结合第一方面,在第一方面的第五种可能的实现方式中,所述针对迭代合并后得到每个类,将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类,并更新类的数量,采用如下方式:
[0017]当所述类内对象间的距离小于所述类内聚合度时,将所述距离对应的对象进行连通标记;根据所述连通标记确定所述类内的连通分量;根据所述连通分量将所述类拆分成新类,并更新类的数量。
[0018]根据本公开实施例的第二方面,提供一种增量聚类方法,所述方法用于在包含m个类和η个单独对象的已有聚类结果基础上,对新增的对象进行聚类,其中,m为正整数,η为不小于O的整数;所述方法包括:
[0019]针对新增的对象,将类间Rank-Order距离小于第一距离阈值的类进行迭代合并;根据类内各个对象间的距离获得迭代合并后的类对应的类内聚合度;针对迭代合并后得到的每个类,将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类,并更新类的数量;当更新后类的数量比更新前类的数量少时,返回执行对与类间的Rank-Order距离小于第一距离阈值进行类的迭代合并的步骤,直到更新后类的数量与更新前类的数量相同,得到第一聚类结果,所述第一聚类结果包含ml个类和nl个单独对象,其中,ml为正整数,nl为不小于O的整数;针对已有的聚类结果及所述第一聚类结果,获取各个类之间的类间距离;将类间距离小于第二距离阈值的类进行合并;当合并后类的数量小于合并前类的数量时,返回执行获取各个类的类间距离,直到合并后类的数量与合并前类的数量相同。
[0020]结合第二方面,在第二方面的第一种可能的实现方式中,所述方法还包括:
[0021]判断新增的对象的数量是否大于阈值;当新增的对象的数量不大于阈值时,执行针对新增的对象,将类间Rank-Order距离小于第一距离阈值的类进行迭代合并的步骤;当新增的对象的数量大于阈值时,将所述新增的对象直接作为第一聚类结果,执行针对已有的聚类结果及所述第一聚类结果,获取各个类之间的类间距离的步骤。[0022]根据本公开实施例的第三方面,提供一种聚类装置,包括:
[0023]迭代合并单元,用于对于类间的Rank-Order距离小于第一距离阈值的类进行迭代合并;
[0024]第一获取单元,用于根据类内各个对象间的距离获得迭代合并后的类对应的类内聚合度;
[0025]划分单元,用于针对迭代合并后得到每个类,将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类,并更新类的数量;
[0026]第一判断单元,用于判断更新后类的数量是否比更新前类的数量少,当更新后类的数量比更新前类的数量少时,所述迭代合并单元执行对于类间的Rank-Order距离小于第一距离阈值进行类的迭代合并,直到更新后类的数量与更新前类的数量相同;
[0027]第二获取单元,用于获取各个类之间的类间距离;
[0028]合并单元,用于对于类间距离小于第二距离阈值的类进行合并;
[0029]第二判断单元,用于判断合并后类的数量是否小于合并前类的数量,当合并后类的数量小于合并前类的数量时,所述第二获取单元执行获取各个类的类间距离,直到合并后类的数量与合并前类的数量相同。
[0030]结合第三方面,在第三方面的第一种可能的实现方式中,所述类间距离为第一类与第二类之间的距离;所述第二获取单元包括:
[0031 ] 第一获取子单元,用于获取所述第一类的全部对象与所述第二类的全部对象之间相似性最大的距离;
[0032]第二获取子单元,用于获取所述距离对应的权重系数,所述权重系数根据所述对象间的相似性确定;
[0033]第三获取子单元,用于根据所述距离,以及所述距离对应的权重系数,获得所述第一类到所述第二类的第一单向权重距离;
[0034]第四获取子单元,用于获取所述第二类到所述第一类的第二单向权重距离;
[0035]第五获取子单元,用于根据所述第一单向权重距离和所述第二单向权重距离,得到所述第一类与所述第二类的类间距离。
[0036]结合第三方面的第一种可能的实现方式,在第三方面的第二种可能的实现方式中,所述第二获取子单元包括:
[0037]统计子单元,用于根据样本对象统计得到对象间距离与两个对象是否是同一对象的概率之间的对应关系;
[0038]权重确定子单元,用于根据所述对应关系,确定所述对象间距离与权重系数之间的映射关系,所述权重系数根据所述概率确定。
[0039]结合第三方面的第一种可能的实现方式或第二种可能的实现方式,在第三方面的第三种可能的实现方式中,所述第三获取子单元包括:
[0040]最小距离获取子单元,用于获取所述第一类内任一对象与所述第二类的全部对象之间相似性最大的距离;
[0041]权重系数获取子单元,用于获取所述相似性最大的距离对应的第一权重系数;
[0042]最小权重距离获取子单元,用于根据所述距离及对应的第一权重系数的乘积,得到所述第一类中的对象与所述第二类的全部对象之间的最小权重距离;[0043]平均权重距离获取子单元,用于获取所述第一类中的对象与所述第二类中除相似性最大的距离对应的对象之外的其它对象之间距离的平均权重距离;
[0044]权重距离获取子单元,用于根据所述最小权重距离和所述平均权重距离得到所述第一类中的所述对象与所述第二类之间的权重距离;
[0045]单向权重距离获取子单元,用于根据所述第一类中的全部对象与所述第二类之间的权重距离,以及所述权重距离对应的权重系数,获得所述第一类到所述第二类的第一单向权重距离。
[0046]结合第三方面,在第三方面的第四种可能的实现方式中,所述划分单元包括:
[0047]第一判断子单元,用于判断所述类内对象间的距离是否小于所述类内聚合度;
[0048]连通标记子单元,用于当所述类内对象间的距离小于所述类内聚合度时,将所述距离对应的对象进行连通标记;
[0049]确定子单元,用于根据所述连通标记确定所述类内的连通分量;
[0050]拆分子单元,用于根据所述连通分量将所述类拆分成新类,并更新类的数量。
[0051]根据本公开实施例的第四方面,提供一种增量聚类装置,所述增量聚类装置用于在包含m个类和η个单独对象的已有聚类结果基础上,对新增的对象进行聚类,其中,m为正整数,η为不小于O的整数;所述装置包括:
[0052]迭代合并单元,用于针对新增的对象,将类间Rank-Order距离小于第一距离阈值的类进行迭代合并;
[0053]第一获取单元,用于根据类内各个对象间的距离获得迭代合并后的类对应的类内聚合度;
[0054]划分单元,用于针对迭代合并后得到的每个类,将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类,并更新类的数量;
[0055]第一判断单元,用于判断更新后类的数量是否比更新前类的数量少,当更新后类的数量比更新前类的数量少时,迭代合并单元执行对类间的Rank-Order距离小于第一距离阈值进行类的迭代合并,直到更新后类的数量与更新前类的数量相同,得到第一聚类结果,所述第一聚类结果包含ml个类和nl个单独对象,其中,ml为正整数,nl为不小于O的整数;
[0056]第二获取单元,用于针对已有的聚类结果及所述第一聚类结果,获取各个类之间的类间距离;
[0057]合并单元,用于将类间距离小于第二距离阈值的类进行合并;
[0058]第二判断单元,用于判断合并后类的数量是否小于合并前类的数量,当合并后类的数量小于合并前类的数量时,返回执行获取各个类的类间距离,直到合并后类的数量与合并前类的数量相等。
[0059]结合第四方面,在第四方面的第一种可能的实现方式中,所述装置还包括:
[0060]第三判断单元,用于判断新增的对象的数量是否大于阈值,当新增的对象的数量大于阈值时,所述迭代合并单元执行针对新增的对象,将类间Rank-Order距离小于第一距离阈值的类进行迭代合并;当新增的对象的数量不大于阈值时,将所述新增的对象直接作为第一聚类结果,第二获取单元执行针对已有的聚类结果及所述第一聚类结果,获取各个类之间的类间距离。[0061]根据本公开实施例的第五方面,提供一种终端设备,包括:
[0062]处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:
[0063]对于类间的Rank-Order距离小于第一距离阈值的类进行迭代合并;根据类内各个对象间的距离获得迭代合并后的类对应的类内聚合度;针对迭代合并后得到每个类,将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类,并更新类的数量;当更新后类的数量比更新前类的数量少时,返回执行对与类间的Rank-Order距离小于第一距离阈值进行类的迭代合并的步骤,直到更新后类的数量与更新前类的数量相同;获取各个类之间的类间距离;对于类间距离小于第二距离阈值的类进行合并;当合并后类的数量小于合并前类的数量时,返回执行获取各个类的类间距离,直到合并后类的数量与合并前类的数量相等。
[0064]根据本公开实施例的第六方面,提供一种终端设备,用于在包含m个类和η个单独对象的已有聚类结果基础上,对新增的对象进行聚类,其中,m为正整数,η为不小于O的整数,所述终端设备包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:
[0065]针对新增的对象,将类间Rank-Order距离小于第一距离阈值的类进行迭代合并;根据类内各个对象间的距离获得迭代合并后的类对应的类内聚合度;针对迭代合并后得到的每个类,将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类,并更新类的数量;当更新后类的数量比更新前类的数量少时,返回执行对与类间的Rank-Order距离小于第一距离阈值进行类的迭代合并的步骤,直到更新后类的数量与更新前类的数量相同,得到第一聚类结果,所述第一聚类结果包含ml个类和nl个单独对象,其中,ml为正整数,nl为不小于O的整数;针对已有的聚类结果及所述第一聚类结果,获取各个类之间的类间距离;将类间距离小于第二距离阈值的类进行合并;当合并后类的数量小于合并前类的数量时,返回执行获取各个类的类间距离,直到合并后类的数量与合并前类的数量相同。
[0066]本公开的实施例提供的技术方案可以包括以下有益效果:首先采用Rank-Order距离合并类,然后对合并后的类进行拆分,从类中将可能不属于该类的对象划分成单独的类,得到包含多个对象的聚类及包含单个对象的类,该方式提高了聚类结果的精确率,但是召回率有所下降;然后,对得到的多个对象的聚类和包含单个对象的类进行层次聚类,将划分出来的单独的类中可能属于同一个类的对象聚集到对应的类中,从而提高了召回率。
[0067]应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
【专利附图】

【附图说明】
[0068]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
[0069]图1是多个对象的序列排序示意图;
[0070]图2是根据一示例性实施例示出的一种聚类方法的流程图;
[0071]图3是根据一示例性实施例示出的图2中的步骤S200的流程图;
[0072]图4是根据另一示例性实施例示出的图2中的步骤S200的流程图;
[0073]图5是根据一示例性实施例示出的图2中的步骤S300的流程图;[0074]图6是根据一示例性实施例示出的类间距离的获取方法的流程图;
[0075]图7是根据一示例性实施例示出的一种获取第一单向权重距离的流程图;
[0076]图8是根据一示例性实施例示出的一种增量聚类方法的流程图;
[0077]图9是根据一示例性实施例示出的另一种增量聚类方法的流程图;
[0078]图10是根据一示例性实施例示出的一种聚类装置的框图;
[0079]图11是根据一示例性实施例示出的一种增量聚类装置的框图;
[0080]图12是根据一示例性实施例示出的一种终端设备的框图;
[0081]图13是根据一示例性实施例示出的一种服务器设备的框图。
[0082]通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
【具体实施方式】
[0083]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0084]在对本公开的示例性实施例进行说明之前,首先介绍Rank-Order距离的相关知识,计算对象间的距离(例如,余弦相似度、欧式距离等),按照距离的大小将各个对象进行重新排序,得到一个序列。假设有η个对象,分别为ip i2、i3、i4、i5、i6……in,以对象I1为基准对象,计算其它各个对象与对象I1之间的距离,并按距离的大小进行排序,得到图1所示的序列O1 ;以对象i2为基准对象,计算其它各个对象与基准对象i2之间的距离,得到图1所示的序列O2。
[0085]根据序列O1中对象I1和i2之间的邻居对象在序列O2中的序号计算,对象I1和i2之间的非对称Rank-Order距离D Ci1, “),具体根据图1的示例,对象ii> i3、i4、i2在O2中的序号分别为5、2、4、0,则根据公式I计算D Ci1, i2):
[0086]
【权利要求】
1.一种聚类方法,其特征在于,包括: 对于类间的Rank-Order距 离小于第一距离阈值的类进行迭代合并; 根据类内各个对象间的距离获得迭代合并后的类对应的类内聚合度; 针对迭代合并后得到每个类,将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类,并更新类的数量; 当更新后类的数量比更新前类的数量少时,返回执行对与类间的Rank-Order距离小于第一距离阈值进行类的迭代合并的步骤,直到更新后类的数量与更新前类的数量相同;获取各个类之间的类间距离; 对于类间距离小于第二距离阈值的类进行合并; 当合并后类的数量小于合并前类的数量时,返回执行获取各个类的类间距离,直到合并后类的数量与合并前类的数量相等。
2.根据权利要求1所述的方法,其特征在于,所述类间距离为第一类与第二类之间的距离;所述获取各个类之间的类间距离,采用如下方式: 获取所述第一类的全部对象与所述第二类的全部对象之间的距离; 获取所述距离对应的权重系数,所述权重系数根据所述对象间的相似性确定; 根据所述距离及所述距离对应的权重系数,获得所述第一类到所述第二类的第一单向权重距离; 获取所述第二类到所述第一类的第二单向权重距离; 根据所述第一单向权重距离和所述第二单向权重距离,得到所述第一类与所述第二类的类间距离。
3.根据权利要求2所述的方法,其特征在于,获取所述距离对应的权重系数,采用如下方式: 根据样本对象统计得到对象间距离与两个对象是否是同一对象的概率之间的对应关系; 根据所述对应关系,确定所述对象间距离与权重系数之间的映射关系,所述权重系数根据所述概率确定。
4.根据权利要求2或3所述的方法,其特征在于,根据所述距离及所述距离对应的权重系数,获得所述第一类到所述第二类的第一单向权重距离,采用如下方式: 获取所述第一类内任一对象与所述第二类的全部对象之间相似性最大的距离,以及所述相似性最大的距离对应的第一权重系数; 根据所述相似性最大的距离与对应的第一权重系数的乘积,得到所述第一类中的对象与所述第二类的全部对象之间的最小权重距离; 获取所述第一类中的对象与所述第二类中除相似性最大的距离对应的对象之外的其它对象之间距离的平均权重距离; 根据所述最小权重距离和所述平均权重距离得到所述第一类中的所述对象与所述第二类之间的权重距离; 根据所述第一类中的全部对象与所述第二类之间的权重距离,以及所述权重距离对应的权重系数,获得所述第一类到所述第二类的第一单向权重距离。
5.根据权利要求1所述的方法,其特征在于,所述根据类内各个对象间的距离获得迭代合并后的类对应的类内聚合度,采用如下方式: 获取类内各个对象间的距离; 根据所述类内对象距离计算所述类内的各个对象间距离的距离平均值; 对所述距离平均值进行归一化,得到所述类的类内聚合度。
6.根据权利要求1所述的方法,其特征在于,所述针对迭代合并后得到每个类,将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类,并更新类的数量,采用如下方式: 当所述类内对象间的距离小于所述类内聚合度时,将所述距离对应的对象进行连通标记; 根据所述连通标记确定所述类内的连通分量; 根据所述连通分量将所述类拆分成新类,并更新类的数量。
7.一种增量聚类方法,其特征在于,所述方法用于在包含m个类和η个单独对象的已有聚类结果基础上,对新增的对象进行聚类,其中,m为正整数,η为不小于O的整数;所述方法包括: 针对新增的对象,将 类间Rank-Order距离小于第一距离阈值的类进行迭代合并; 根据类内各个对象间的距离获得迭代合并后的类对应的类内聚合度; 针对迭代合并后得到的每个类,将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类,并更新类的数量; 当更新后类的数量比更新前类的数量少时,返回执行对与类间的Rank-Order距离小于第一距离阈值进行类的迭代合并的步骤,直到更新后类的数量与更新前类的数量相同,得到第一聚类结果,所述第一聚类结果包含ml个类和nl个单独对象,其中,ml为正整数,nl为不小于O的整数; 针对已有的聚类结果及所述第一聚类结果,获取各个类之间的类间距离; 将类间距离小于第二距离阈值的类进行合并; 当合并后类的数量小于合并前类的数量时,返回执行获取各个类的类间距离,直到合并后类的数量与合并前类的数量相同。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括: 判断新增的对象的数量是否大于阈值; 当新增的对象的数量不大于阈值时,执行针对新增的对象,将类间Rank-Order距离小于第一距离阈值的类进行迭代合并的步骤; 当新增的对象的数量大于阈值时,将所述新增的对象直接作为第一聚类结果,执行针对已有的聚类结果及所述第一聚类结果,获取各个类之间的类间距离的步骤。
9.一种聚类装置,其特征在于,包括: 迭代合并单元,用于对于类间的Rank-Order距离小于第一距离阈值的类进行迭代合并; 第一获取单元,用于根据类内各个对象间的距离获得迭代合并后的类对应的类内聚合度; 划分单元,用于针对迭代合并后得到每个类,将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类,并更新类的数量;第一判断单元,用于判断更新后类的数量是否比更新前类的数量少,当更新后类的数量比更新前类的数量少时,所述迭代合并单元执行对于类间的Rank-Order距离小于第一距离阈值进行类的迭代合并,直到更新后类的数量与更新前类的数量相同; 第二获取单元,用于获取各个类之间的类间距离;
合并单元,用于对于类间距离小于第二距离阈值的类进行合并; 第二判断单元,用于判断合并后类的数量是否小于合并前类的数量,当合并后类的数量小于合并前类的数量时,所述第二获取单元执行获取各个类的类间距离,直到合并后类的数量与合并前类的数量相同。
10.根据权利要求9所述的装置,其特征在于,所述类间距离为第一类与第二类之间的距离;所述第二获取单元包括: 第一获取子单元,用于获取所述第一类的全部对象与所述第二类的全部对象之间相似性最大的距离; 第二获取子单元,用于获取所述距离对应的权重系数,所述权重系数根据所述对象间的相似性确定; 第三获取子单元,用于根据所述距离,以及所述距离对应的权重系数,获得所述第一类到所述第二类的第一单向权重距离; 第四获取子单元,用于获取所述第二类到所述第一类的第二单向权重距离; 第五获取子单元,用于根据所述第一单向权重距离和所述第二单向权重距离,得到所述第一类与所述第二类的类间距离。
11.根据权利要求10所述的装置,其特征在于,所述第二获取子单元包括: 统计子单元,用于根据样本对象统计得到对象间距离与两个对象是否是同一对象的概率之间的对应关系; 权重确定子单元,用于根据所述对应关系,确定所述对象间距离与权重系数之间的映射关系,所述权重系数根据所述概率确定。
12.根据权利要求10或11所述的装置,其特征在于,所述第三获取子单元包括: 最小距离获取子单元,用于获取所述第一类内任一对象与所述第二类的全部对象之间相似性最大的距离; 权重系数获取子单元,用于获取所述相似性最大的距离对应的第一权重系数; 最小权重距离获取子单元,用于根据所述距离及对应的第一权重系数的乘积,得到所述第一类中的对象与所述第二类的全部对象之间的最小权重距离; 平均权重距离获取子单元,用于获取所述第一类中的对象与所述第二类中除相似性最大的距离对应的对象之外的其它对象之间距离的平均权重距离; 权重距离获取子单元,用于根据所述最小权重距离和所述平均权重距离得到所述第一类中的所述对象与所述第二类之间的权重距离; 单向权重距离获取子单元,用于根据所述第一类中的全部对象与所述第二类之间的权重距离,以及所述权重距离对应的权重系数,获得所述第一类到所述第二类的第一单向权重距离。
13.根据权利要求9所述的方法,其特征在于,所述划分单元包括: 第一判断子单元,用于判断所述类内对象间的距离是否小于所述类内聚合度;连通标记子单元,用于当所述类内对象间的距离小于所述类内聚合度时,将所述距离对应的对象进行连通标记; 确定子单元,用于根据所述连通标记确定所述类内的连通分量; 拆分子单元,用于根据所述连通分量将所述类拆分成新类,并更新类的数量。
14.一种增量聚类装置,其特征在于,所述增量聚类装置用于在包含m个类和η个单独对象的已有聚类结果基础上,对新增的对象进行聚类,其中,m为正整数,η为不小于O的整数;所述装置包括: 迭代合并单元,用于针对新增的对象,将类间Rank-Order距离小于第一距离阈值的类进行迭代合并; 第一获取单元,用于根据类内各个对象间的距离获得迭代合并后的类对应的类内聚合度; 划分单元,用于针对迭代合并后得到的每个类,将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类,并更新类的数量; 第一判断单元,用于判断更新后类的数量是否比更新前类的数量少,当更新后类的数量比更新前类的数量少时,迭代合并单元执行对类间的Rank-Order距离小于第一距离阈值进行类的迭代合并,直到更新后类的数量与更新前类的数量相同,得到第一聚类结果,所述第一聚类结果包含ml个类和nl个单独对象,其中,ml为正整数,nl为不小于O的整数;第二获取单元,用于针对已有的聚类结果及所述第一聚类结果,获取各个类之间的类间距离; 合并单元,用于将类间距离小于第二距离阈值的类进行合并; 第二判断单元,用于判断合并后类的数量是否小于合并前类的数量,当合并后类的数量小于合并前类的数量时,返回执行获取各个类的类间距离,直到合并后类的数量与合并前类的数量相等。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括: 第三判断单元,用于判断新增的对象的数量是否大于阈值,当新增的对象的数量大于阈值时,所述迭代合并单元执行针对新增的对象,将类间Rank-Order距离小于第一距离阈值的类进行迭代合并;当新增的对象的数量不大于阈值时,将所述新增的对象直接作为第一聚类结果,第二获取单元执行针对已有的聚类结果及所述第一聚类结果,获取各个类之间的类间距离。
16.一种终端设备,其特征在于,包括: 处理器; 用于存储处理器可执行指令的存储器; 其中,所述处理器被配置为: 对于类间的Rank-Order距离小于第一距离阈值的类进行迭代合并; 根据类内各个对象间的距离获得迭代合并后的类对应的类内聚合度; 针对迭代合并后得到每个类,将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类,并更新类的数量; 当更新后类的数量比更新前类的数量少时,返回执行对与类间的Rank-Order距离小于第一距离阈值进行类的迭代合并的步骤,直到更新后类的数量与更新前类的数量相同;获取各个类之间的类间距离; 对于类间距离小于第二距离阈值的类进行合并; 当合并后类的数量小于合并前类的数量时,返回执行获取各个类的类间距离,直到合并后类的数量与合并前类的数量相等。
17.—种终端设备,其特征在于,用于在包含m个类和η个单独对象的已有聚类结果基础上,对新增的对象进行聚类,其中,m为正整数,η为不小于O的整数,所述终端设备包括:处理器; 用于存储处理器可执行指令的存储器; 其中,所述处理器被配置为: 针对新增的对象,将类间Rank-Order距离小于第一距离阈值的类进行迭代合并; 根据类内各个对象间的距离获得迭代合并后的类对应的类内聚合度; 针对迭代合并后得到的每个类,将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类,并更新类的数量; 当更新后类的数量比更新前类的数量少时,返回执行对与类间的Rank-Order距离小于第一距离阈值进行类的迭代合并的步骤,直到更新后类的数量与更新前类的数量相同,得到第一聚类结果,所 述第一聚类结果包含ml个类和nl个单独对象,其中,ml为正整数,nl为不小于O的整数; 针对已有的聚类结果及所述第一聚类结果,获取各个类之间的类间距离; 将类间距离小于第二距离阈值的类进行合并; 当合并后类的数量小于合并前类的数量时,返回执行获取各个类的类间距离,直到合并后类的数量与合并前类的数量相同。
【文档编号】G06F17/30GK103902689SQ201410117723
【公开日】2014年7月2日 申请日期:2014年3月26日 优先权日:2014年3月26日
【发明者】陈志军, 王琳, 张祺深 申请人:小米科技有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1