分类装置、分类方法以及电子设备的制作方法

文档序号:6489030阅读:581来源:国知局
分类装置、分类方法以及电子设备的制作方法
【专利摘要】本发明提供了分类装置、分类方法以及电子设备,以克服利用传统的基于图的学习方法所获得的测试样本的类别分值不准确的问题。上述分类装置包括:用于对目标样本进行聚类的聚类单元;用于确定与目标样本的每个聚类相关的训练样本的确定单元;用于删除类别分值不准确的训练样本的类别分值的删除单元;以及用于将上述目标样本作为测试样本并根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度来计算上述测试样本的类别分值的计算单元。上述分类方法用于执行能够实现上述分类装置的功能的处理。上述电子设备包括上述分类装置。本发明的上述技术能够应用于信息处理领域。
【专利说明】分类装置、分类方法以及电子设备
【技术领域】
[0001 ] 本发明涉及信息处理领域,尤其涉及一种分类装置、分类方法以及电子设备。
【背景技术】
[0002]作为一种能够有效描述数据之间关系的方法,基于图的学习已经被广泛地应用于诸多领域,比如网页分类、图像检索、视频概念检测等。上述网页分类、图像检索以及视频概念检测等,从广义上都可以看成一个分类过程。需要注意的是,这里所说的图是带权图,它是一种数据关系,而并非真正意义上的图像。
[0003]传统的基于图的学习方法,通常是在某种优化的框架下利用训练样本之间的相似度,通过最优解的解析表达式或者迭代的求解方法,来为每个训练样本计算出一个能够反映其类别属性的类别分值。为了将学习结果推广到测试样本,一般需要基于平滑性约束设计另一个待优化的代价函数。
[0004]然而,在上述传统的基于图的学习方法中,在将学习结果推广到测试样本的过程中,训练样本的类别分值往往保持不变,这使得一些类别分值可能不准确的训练样本会对测试样本类别分值的计算造成负面的影响,也即,使得计算所得的测试样本的类别分值不准确。此外,为了将学习结果推广到测试样本,上述传统的基于图的学习方法通常是依次处理各个测试样本,而完全没有考虑测试样本之间的关系,这也同样有可能使得测试样本的类别分值计算不准确。

【发明内容】

[0005]在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
[0006]鉴于此,本发明提供了一种分类装置、分类方法以及电子设备,以至少解决利用传统的基于图的学习方法所获得的测试样本的类别分值不准确的问题。
[0007]根据本发明的一个方面,提供了一种分类装置,该分类装置包括:聚类单元,其被配置用于对目标样本进行聚类,以获得目标样本的至少一个聚类;确定单元,其被配置用于分别确定与上述目标样本的每个聚类相关的训练样本,其中,上述训练样本中的每一个均具有类别分值;删除单元,其被配置用于针对上述目标样本的每个聚类,获得与该聚类相关的训练样本的类别分值中的最大值和最小值之差,并在上述差大于第一预定阈值时,删除与该聚类相关的训练样本的类别分值;以及计算单元,其被配置用于将上述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得上述测试样本的类别分值。
[0008]根据本发明的另一个方面,还提供了一种分类方法,该分类方法包括:对目标样本进行聚类,以获得上述目标样本的至少一个聚类;分别确定与上述目标样本的每个聚类相关的训练样本,其中,上述训练样本中的每一个均具有类别分值;针对上述目标样本的每个聚类,获得与该聚类相关的训练样本的类别分值中的最大值和最小值之差,并在上述差大于第一预定阈值时,删除与该聚类相关的训练样本的类别分值;以及将上述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得上述测试样本的类别分值。
[0009]根据本发明的另一个方面,还提供了一种电子设备,该电子设备包括如上所述的分类装置。
[0010]上述根据本发明的实施例的分类装置、分类方法以及电子设备,能够至少实现以下益处之一:通过确定类别分值不准确的训练样本并删除这些训练样本的类别分值,使得训练样本能够更加准确地反映数据的真实分布信息;保证了在计算测试样本的类别分值的过程中所使用的训练样本的类别分值的准确性;以及通过在计算过程中引入测试样本之间的相似性关系,使得获得的测试样本的类别分值更加准确。
[0011]通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
【专利附图】

【附图说明】
[0012]本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
[0013]图1是示意性地示出根据本发明的实施例的分类装置的一种示例结构的框图。
[0014]图2A-2C是示意性地示出传统的分类技术在处理测试样本时的基本原理图。
[0015]图2D是示意性地示出根据本发明的实施例的分类装置在处理测试样本时的基本原理图。
[0016]图3是示意性地示出如图1所示的计算单元的一种可能的示例结构的框图。
[0017]图4是示意性地示出根据本发明的实施例的分类装置的另一种示例结构的框图。
[0018]图5是示意性地示出根据本发明的实施例的分类方法的一种示例性处理的流程图。
[0019]图6是示出了可用来实现根据本发明的实施例的分类装置和分类方法的一种可能的信息处理设备的硬件配置的结构简图。
[0020]本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。
【具体实施方式】
[0021]在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0022]在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
[0023]本发明的实施例提供了一种分类装置,该分类装置包括:聚类单元,其被配置用于对目标样本进行聚类,以获得目标样本的至少一个聚类;确定单元,其被配置用于分别确定与上述目标样本的每个聚类相关的训练样本,其中,上述训练样本中的每一个均具有类别分值;删除单元,其被配置用于针对上述目标样本的每个聚类,获得与该聚类相关的训练样本的类别分值中的最大值和最小值之差,并在上述差大于第一预定阈值时,删除与该聚类相关的训练样本的类别分值;以及计算单元,其被配置用于将上述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得上述测试样本的类别分值。
[0024]下面结合图1来详细描述根据本发明的实施例的分类装置的一个示例。
[0025]如图1所示,根据本发明的实施例的分类装置100包括聚类单元110、确定单元120、删除单元130和计算单元140。
[0026]在分类装置100中,聚类单元110用于对目标样本进行聚类,以获得目标样本的至少一个聚类。其中,这里所说的目标样本可以是图像,也可以是视频,还可以是文本、网页等对象。
[0027]在根据本发明的实施例的分类装置的一个具体实现方式中,可以通过聚类单元110对目标样本的聚类处理,来使得每个聚类中的每个目标样本与该聚类下的至少一个其他目标样本的相似度大于第四预定阈值。
[0028]例如,可以采用分级聚类算法来实现上述实现方式中的聚类处理,具体过程如下:al)初始时构建若干个集合,使得每个集合仅包括一个目标样本;a2)计算每两个集合之间的相似度,其中,任两个集合之间的相似度可以定义为该两个集合的元素之间相似度的最大值,即&>?(々= max Sim{a,h)唭中,A和B表示任意两个集合,a和b分别表示两个集
合中的任意元素,Sim(A,B)表示集合A和集合B之间的相似度;a3)在所计算的每两个集合之间的相似度中,判断其中最大的相似度是否大于第四预定阈值,若是,则将上述最大的相似度对应的两个集合(即所有集合中相似度最大的两个集合)合并为一个集合,然后返回执行a2),直至所有集合中的任意两个集合之间的相似度均小于第四预定阈值为止。
[0029]需要说明的是,第四预定阈值可以根据经验值设定,也可以通过试验的方式来确定,这里不再详述。
[0030]此外,如图1所示,确定单元120用于分别确定与目标样本的每个聚类相关的训练样本。其中,训练样本是与目标样本种类相同的对象,例如,训练样本和目标样本可以同是以下对象中的任一种:图像;视频;文本;以及网页等。
[0031]在根据本发明的实施例的分类装置的具体实现方式中,上述“与目标样本的每个聚类相关的训练样本”可以有多种不同的确定方式。
[0032]在一个实现方式中,针对目标样本的每个聚类,确定单元120可以将与该聚类中的至少一个目标样本之间的相似度高于第二预定阈值的训练样本确定为与该聚类相关的训练样本。
[0033]在上述实现方式的一个例子中,假设目标样本的聚类M是聚类单元110对目标样本进行聚类处理之后所得到的任意一个聚类,则针对聚类M,确定单元120可以首先计算每一个训练样本与聚类M中的每个目标样本之间的相似度,然后,将与聚类M中的至少一个目标样本之间的相似度高于上述第二预定阈值的那些训练样本确定为与聚类M相关的训练样本。
[0034]或者,在上述实现方式的其他例子中,针对每一个训练样本来说,确定单元120也可以不必计算这个训练样本与聚类M中的每个目标样本之间的相似度。以训练样本SbS例,当确定单元120所计算的聚类M中的某个目标样本Sa与训练样本Sb之间的相似度高于上述第二预定阈值时,确定单元120则可以不再计算聚类M中剩余的目标样本与训练样本Sb之间的相似度,而直接将训练样本Sb确定为与聚类M相关的其中一个训练样本。
[0035]需要说明的是,训练样本与目标样本之间的相似度可以根据具体情况来选择计算方法。例如,可以采用一些现有的用于计算图像相似度、文本相似度等的相似度计算方法,来分别在训练样本与目标样本是图像、文本以及其他种类对象的情况下实现上述训练样本与目标样本之间的相似度计算。
[0036]此外,需要说明的是,上述第二预定阈值可以根据经验值设定,也可以通过试验的方式来确定,这里不再详述。在一个例子中,第二预定阈值可以设定成与第四预定阈值相同的值。
[0037]在另一个实现方式中,针对目标样本的每个聚类,确定单元120不仅可以将上述与该聚类中的至少一个目标样本之间的相似度高于第二预定阈值的训练样本确定为与该聚类相关的训练样本,还可以将与上述“与该聚类中的至少一个目标样本之间的相似度高于第二预定阈值的训练样本”之间的相似度高于第三预定阈值的那些训练样本也确定为与该聚类相关的训练样本。
[0038]仍以上述目标样本的任一聚类M为例,通过与上文所说方式相类似的方式,确定单元120可以将那些与聚类M中的至少一个目标样本之间的相似度高于上述第二预定阈值的训练样本确定为与聚类M相关的训练样本。为方便起见,下文中将“与聚类M中的至少一个目标样本之间的相似度高于上述第二预定阈值的训练样本”简称为第一类训练样本。除上述第一类训练样本之外,确定单元120还可以将那些与上述第一类训练样本中的任意一个之间的相似度高于上述第三预定阈值的训练样本确定为与聚类M相关的训练样本。同样,为方便起见,下文中将上述“与上述第一类训练样本中的任意一个之间的相似度高于上述第三预定阈值的训练样本”简称为第二类训练样本。由此,在该例子中,“与聚类M相关的训练样本”可以包括第一类训练样本和第二类训练样本。需要说明的是,上述第三预定阈值可以根据经验值设定,也可以通过试验的方式来确定,这里不再详述。
[0039]此外,这里所说的训练样本中的每一个均具有类别分值。需要说明的是,这里所说的类别分值是用于描述其所属样本的类别与预定类别之间的匹配程度的一种度量。换句话说,类别分值可以描述其所属样本的类别符合预定类别的程度。一般地,可以认为类别分值越高,该类别分值所属样本符合预定类别的可能性就越大;相反地,类别分值越低,则该类别分值所属样本符合预定类别的可能性就越小。例如,类别分值通常可以在-1到I之间取值。
[0040]需要说明的是,在一些实施例中,根据训练样本的类别分值的获得方式的不同,训练样本可以分为两类。
[0041]其中,一类训练样本是一般的标注样本。这类标注样本通常具有预定的类别分值,例如,其类别分值可以是由人手工地预先标注的。然而,由于人力所限,这类具有预定类别分值的训练样本通常数量也是有限的。
[0042]此外,另一类训练样本是机器标注样本。这类机器标注样本的类别分值例如可以是在训练阶段(一般的分类器在使用前都需要利用训练样本进行训练的过程)基于上述标注样本的预定类别分值获得的。
[0043]由此,在根据本发明的实施例的分类装置的一些实现方式中,训练样本可以包括以上两类样本,也即,可以包括如上所述的标注样本和机器标注样本。其中,这两类训练样本的类别分值也可以分别采用与上文所述方式相类似的方式获得或确定,这里不再赘述。需要说明的是,在这种情况下,确定单元120所确定的“与目标样本的每个聚类相关的训练样本”可以全部是机器标注样本。
[0044]由此,通过确定单元120的处理可以分别确定与目标样本的每个聚类相关的训练样本。
[0045]根据平滑性假设可知,相似样本的类别分值不应相差太大。因此,如果某两个训练样本(特别是在这两个训练样本是机器标注样本的情况下)分别与某两个目标样本相似,而这两个目标样本彼此也很相似(例如属于如上所述的某一个聚类),那么这两个训练样本的类别分值应该不会彼此相差过大。若情况并非如此,例如,若与某一个聚类下的两个目标样本分别相似的两个训练样本的类别分值之间的差异大于第一预定阈值的话,则可以认为这两个训练样本的类别分值是不准确的,因此,去除这些类别分值来设计推广算法则可以获得更加可靠的结果。
[0046]于是,针对目标样本的每个聚类,删除单元130可以首先计算那些“与该聚类相关的训练样本”的类别分值中的最大值和最小值之差,然后,在所计算的差大于第一预定阈值时,删除这些“与该聚类相关的训练样本”的类别分值。
[0047]例如,以目标样本的任一聚类M为例,如上文所述,通过确定单元120可以确定与聚类M相关的训练样本。然后,删除单元130可以找到与聚类M相关的所有训练样本的类别分值中的最大值和最小值,并计算该最大值和最小值之差(该差大于或等于0),当该差大于上述第一预定阈值时,则将这些与聚类M相关的所有训练样本的类别分值全部删除。
[0048]特别地,在一个优选例子中,在确定单元120所确定的“与该聚类相关的训练样本”全部是机器标注样本的情况下,删除单元130所删除的是这些机器标注样本的类别分值。
[0049]需要说明的是,上述第一预定阈值可以根据经验值设定,也可以通过试验的方式来确定,这里不再详述。
[0050]这样,计算单元140可以利用剩下的训练样本(即除去那些被删除了类别分值的训练样本之外的其他训练样本)的类别分值,通过求解优化问题的方法获得上述目标样本的类别分值,进而可以基于所计算的类别分值来确定其类别。
[0051]在根据本发明的实施例的分类装置的一个实现方式中,计算单元140可以将目标样本作为测试样本,然后根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得测试样本的类别分值。
[0052]需要说明的是,传统的基于图的学习方法通常是依次处理各个测试样本,只考虑了每个测试样本与训练样本之间的关系,而完全没有利用测试样本与测试样本之间的关系。图2A-2C示意性地示出了传统的基于图的学习方法在处理测试样本时采用的基本思想。在图2A-2C以及下文中将要描述的图2D中,“O”表示训练样本(即SBfSB5),“A”表示测试样本(即SAfSA3),其中的连线表示所连对象之间的相似度。
[0053]由图2A-2C可以看出,传统的方法在处理测试样本时只考虑了测试样本与训练样本之间的相似度,也即,分别处理每个测试样本来对其进行分类。需要注意的是,图2A-2C中并未示出测试样本与每个训练样本之间的连线,而是仅示出了与其相似度较高的前几个训练样本与其之间的连线。
[0054]图2D示意性地示出了计算单元140对测试样本的处理思想。通过比较图2D与先前所描述的图2A-2C,可以看出,计算单元140在处理测试样本时不仅考虑了测试样本与训练样本之间的相似度,而且还考虑了测试样本与测试样本之间的相似度(如图2D中SaI与Sa2、Sa2与SA3之间的连线)。
[0055]需要说明的是,图2A-2D中所示出的各个训练样本之间的连线(即训练样本之间的相似度)并非是指在计算测试样本的类别分值的过程中所需要的,而是在一些实施例的训练阶段中,在获得上文所述的机器标注样本的类别分值时所使用的。
[0056]下面结合图3来描述计算单元140的一种可能的示例配置。
[0057]如图3所示,在该示例中,计算单元140可以包括代价函数构造模块310和代价函数求解模块320。
[0058]其中,代价函数构造模块310用于构造能够反映预定的约束条件的代价函数,代价函数求解模块320则用于通过求解该代价函数的最小化问题来获得测试样本的类别分值。
[0059]上述预定的约束条件例如可以包括如下两个条件:相似度越高的测试样本与训练样本的类别分值越接近;以及相似度越高的两个测试样本的类别分值越接近。
[0060]根据以上预定的约束条件,在根据本发明的实施例的分类装置的一个实现方式中,代价函数构造模块310所构造的代价函数可以包括如下函数项或者其变形:
【权利要求】
1.一种分类装置,包括: 聚类单元,其被配置用于对目标样本进行聚类,以获得所述目标样本的至少一个聚类; 确定单元,其被配置用于分别确定与所述目标样本的每个聚类相关的训练样本,其中,所述训练样本中的每一个均具有类别分值; 删除单元,其被配置用于针对所述目标样本的每个聚类,获得与该聚类相关的训练样本的类别分值中的最大值和最小值之差,并在所述差大于第一预定阈值时,删除与该聚类相关的训练样本的类别分值;以及 计算单元,其被配置用于将所述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得所述测试样本的类别分值。
2.根据权利要求1所述的分类装置,其中,所述计算单元包括: 代价函数构造模块,其被配置用于构造反映下述约束条件的代价函数: 相似度越高的测试样本与训练样本的类别分值越接近,以及 相似度越高的两个测试样本的类别分值越接近; 代价函数求解模块,其被配置用于通过求解所述代价函数的最小化问题来获得所述测试样本的类别分值。
3.根据权利要求1或2所述的分类装置,其中,所述训练样本包括具有预定的类别分值的标注样本和类别分值是在`训练阶段基于所述标注样本的类别分值而获得的机器标注样本。
4.根据权利要求3所述的分类装置,其中,所述确定单元所确定的与所述目标样本的每个聚类相关的训练样本是所述机器标注样本。
5.根据权利要求3或4所述的分类装置,其中,所述计算单元被配置成: 将被删除了类别分值的训练样本与所述目标样本一起作为所述测试样本,并基于获得的所述目标样本的类别分值来确定分类结果。
6.根据权利要求3-5中任一所述的分类装置,还包括: 样本更新单元,其被配置用于将新获得类别分值的测试样本作为下次分类中的机器标注样本。
7.根据权利要求1-6中任一所述的分类装置,其中,所述确定单元被配置成: 针对所述目标样本的每个聚类,将与该聚类中的至少一个目标样本之间的相似度高于第二预定阈值的训练样本确定为与该聚类相关的训练样本。
8.根据权利要求7所述的分类装置,其中,所述确定单元还被配置成: 针对所述目标样本的每个聚类,将和所述与该聚类中的至少一个目标样本之间的相似度高于第二预定阈值的训练样本之间的相似度高于第三预定阈值的训练样本确定为与该聚类相关的训练样本。
9.一种分类方法,包括: 对目标样本进行聚类,以获得所述目标样本的至少一个聚类; 分别确定与所述目标样本的每个聚类相关的训练样本,其中,所述训练样本中的每一个均具有类别分值;针对所述目标样本的每个聚类,获得与该聚类相关的训练样本的类别分值中的最大值和最小值之差,并在所述差大于第一预定阈值时,删除与该聚类相关的训练样本的类别分值;以及 将所述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得所述测试样本的类别分值。
10.一种电子设备 ,包括如权利要求1-8中任一所述的分类装置。
【文档编号】G06F17/30GK103679190SQ201210352239
【公开日】2014年3月26日 申请日期:2012年9月20日 优先权日:2012年9月20日
【发明者】李斐, 刘汝杰, 杉村昌彦, 马场孝之, 上原祐介 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1