构建装置和方法、分类装置和方法以及电子设备的制作方法

文档序号:6505180阅读:588来源:国知局
构建装置和方法、分类装置和方法以及电子设备的制作方法
【专利摘要】本发明提供了构建装置和方法、分类装置和方法以及电子设备,以克服传统的分类技术由于没有利用样本的多种特征之间的联系而导致最终的分类性能较差的问题。上述构建装置包括:提取训练样本的多种特征的第一提取单元;以及基于提取的多种特征来训练分类器的构建单元。构建单元在训练时考虑如下第一约束:在与多种特征中的一种特征有关的分类器对训练样本的分类结果的可信度高于第一预定程度的情况下,若与多种特征中的其他一种或其他多种特征有关的分类器对训练样本的分类结果的可信度低于对应的第二预定程度,则增加对与上述其他一种或其他多种特征有关的分类器对训练样本的分类结果的惩罚。本发明的上述技术能够应用于信息处理领域。
【专利说明】构建装置和方法、分类装置和方法以及电子设备

【技术领域】
[0001] 本发明涉及信息处理领域,尤其涉及构建装置和方法、分类装置和方法以及电子 设备。

【背景技术】
[0002] 随着信息技术的发展,信息处理逐渐成为人们工作、生活中一个热门的研究领域。 在信息处理技术中,需要处理的样本往往可以采用多种特征进行描述。例如,网络上的图像 可以使用颜色/纹理特征来描述,也可以使用文本标注进行描述;视频片段可以使用视觉、 听觉以及字幕信息进行描述;植物可以使用花瓣和叶片的特征进行描述。
[0003] 在传统的分类技术(诸如模式识别)等处理中,可以分别基于样本的各种特征构建 多个基本分类器,然后对多个基本分类器的输出往往采用一种线性组合的方式来得到最终 的分类结果。在以上处理过程中,传统的分类技术没有考虑各种特征之间的联系而得到最 终的分类结果,也就是说,当基于某一种特征构建分类器的时候,没有利用基于其它特征构 建的分类器提供的任何信息。因此,传统的分类技术由于在构建分类器(或者利用构建的 分类器进行分类)的过程中没有利用样本的多种特征之间的联系而导致最终的分类性能较 差。


【发明内容】

[0004] 在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本 理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的 关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概 念,以此作为稍后论述的更详细描述的前序。
[0005] 鉴于此,本发明提供了构建装置和方法、分类装置和方法以及电子设备,以至少解 决传统的分类技术由于没有利用样本的多种特征之间的联系而导致最终的分类性能较差 的问题。
[0006] 根据本发明的一个方面,提供了一种用于构建分类器的构建装置,该构建装置包 括:第一提取单元,其被配置用于提取多个训练样本中的每一个的多种特征;以及构建单 元,其被配置用于基于多个训练样本的每一个的多种特征,对与多种特征中的每一种分别 对应的分类器进行训练,以构建包括与多种特征对应的多个分类器的目标分类器;其中,构 建单元在训练的过程中考虑了如下的第一约束:对于多个训练样本中的每一个,在与多种 特征中的一种特征有关的分类器对该训练样本的分类结果的可信度高于第一预定程度的 情况下,若与多种特征中的其他一种或其他多种特征有关的分类器对该训练样本的分类结 果的可信度低于对应的第二预定程度,则增加对与多种特征中的其他一种或其他多种特征 有关的分类器对该训练样本的分类结果的惩罚。
[0007] 根据本发明的另一个方面,还提供了一种分类装置,该分类装置包括:第二提取单 元,其被配置用于提取待测样本的多种特征;以及分类单元,其被配置用于基于待测样本的 多种特征,获得与多种特征有关的多个预定分类器分别对待测样本的分类结果,以确定待 测样本的最终分类结果;其中,多个预定分类器通过如上所述的构建装置而获得。
[0008] 根据本发明的另一个方面,还提供了一种用于构建分类器的构建方法,该构建方 法包括:提取多个训练样本中的每一个的多种特征;以及基于多个训练样本的每一个的多 种特征,对与多种特征中的每一种分别对应的分类器进行训练,以构建包括与多种特征对 应的多个分类器的目标分类器;其中,在训练的过程中考虑了如下的第一约束:对于多个 训练样本中的每一个,在与多种特征中的一种特征有关的分类器对该训练样本的分类结果 的可信度高于第一预定程度的情况下,若与多种特征中的其他一种或其他多种特征有关的 分类器对该训练样本的分类结果的可信度低于对应的第二预定程度,则增加对与多种特征 中的其他一种或其他多种特征有关的分类器对该训练样本的分类结果的惩罚。
[0009] 根据本发明的另一个方面,还提供了一种分类方法,该分类方法包括:提取待测样 本的多种特征;以及基于待测样本的多种特征,获得与多种特征有关的多个预定分类器分 别对待测样本的分类结果,以确定待测样本的最终分类结果;其中,多个预定分类器通过如 上所述的构建方法而获得。
[0010] 根据本发明的另一个方面,还提供了一种电子设备,该电子设备包括如上所述的 构建装置或如上所述的分类装置。
[0011] 根据本发明的又一个方面,还提供了一种存储有机器可读取的指令代码的程序产 品,上述程序产品在执行时能够使上述机器执行如上所述的构建方法或如上所述的分类方 法。
[0012] 此外,根据本发明的其他方面,还提供了 一种计算机可读存储介质,其上存储有如 上所述的程序产品。
[0013] 上述根据本发明实施例的构建装置和方法、分类装置和方法以及电子设备,其在 构建分类器的过程中或者在利用上述分类器进行分类的过程中,由于考虑了样本的多种特 征之间的关系,能够有效地克服传统方法的不足,使得利用该构建装置所构建的分类器进 行分类的结果较为准确、精度较高,分类性能较好。
[0014] 通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优 点将更加明显。

【专利附图】

【附图说明】
[0015] 本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所 有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的 详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本 发明的优选实施例和解释本发明的原理和优点。在附图中:
[0016] 图1是示意性地示出根据本发明的实施例的用于构建分类器的构建装置的一种 示例结构的框图;
[0017] 图2是示出传统的标准SVM分类器的原理的示意图;
[0018] 图3是示意性地示出根据本发明的实施例的分类装置的一种示例结构的框图;
[0019] 图4是示意性地示出根据本发明的实施例的用于构建分类器的构建方法的一种 示例性处理的流程图;
[0020] 图5是示意性地示出根据本发明的实施例的分类方法的一种示例性处理的流程 图;以及
[0021] 图6是示出了可用来实现根据本发明的实施例的用于构建分类器的构建装置和 构建方法、或者根据本发明的实施例的分类装置和分类方法的一种可能的信息处理设备的 硬件配置的结构简图。
[0022] 本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的, 而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以 便有助于提高对本发明实施例的理解。

【具体实施方式】
[0023] 在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施 例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符 合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有 所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开 内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0024] 在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中 仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明 关系不大的其他细节。
[0025] 本发明的实施例提供了一种用于构建分类器的构建装置,该构建装置包括:第一 提取单元,其被配置用于提取多个训练样本中的每一个的多种特征;以及构建单元,其被配 置用于基于多个训练样本的每一个的多种特征,对与多种特征中的每一种分别对应的分类 器进行训练,以构建包括与多种特征对应的多个分类器的目标分类器;其中,构建单元在训 练的过程中考虑了如下的第一约束:对于多个训练样本中的每一个,在与多种特征中的一 种特征有关的分类器对该训练样本的分类结果的可信度高于第一预定程度的情况下,若与 多种特征中的其他一种或其他多种特征有关的分类器对该训练样本的分类结果的可信度 低于对应的第二预定程度,则增加对与多种特征中的其他一种或其他多种特征有关的分类 器对该训练样本的分类结果的惩罚。
[0026] 下面结合图1来详细描述根据本发明的实施例的用于构建分类器的构建装置的 一个示例。
[0027] 如图1所示,根据本发明的实施例的用于构建分类器的构建装置100包括第一提 取单元110以及构建单元120。
[0028] 第一提取单元110用于提取多个训练样本中的每一个的多种特征。
[0029] 在根据本发明的实施例的用于构建分类器的构建装置的一种实现方式中,训练样 本例如可以是包括数字图像、音频和视频等多媒体数据中的至少一种的样本,也可以是实 际应用中能够利用根据本发明的实施例的上述构建装置1〇〇进行处理(例如第一提取单元 110和构建单元120的处理)的其他类型样本(例如植物样本)等。
[0030] 此外,在根据本发明的实施例的用于构建分类器的构建装置的一种实现方式中, 对多个训练样本中的每个训练样本所提取的多种特征可以是至少两种预定特征。其中,在 实际处理中,对于不同类型的训练样本(以及后面将要提到的待测样本)来说,可以选择对 应的预定特征来作为其多种特征。例如,在训练样本(以及后面将要提到的待测样本)为上 文所述的任意一种多媒体数据的情况下,对训练样本(以及后面将要提到的待测样本)所提 取的多种特征中的每一种例如可以是视觉特征(例如颜色特征、和/或纹理特征、和/或文 本描述特征(比如字幕信息)等)、音频特征(例如声音的频率特征、和/或振幅特征、和/或 波形特征)等特征中的任意一种。又如,在训练样本(以及后面将要提到的待测样本)为上 文所述的植物样本的情况下,对训练样本(以及后面将要提到的待测样本)所提取的多种特 征例如可以是花瓣的颜色特征、花瓣的纹理特征、花瓣的数量特征、花瓣的形状特征、叶片 的颜色特征、叶片的纹理特征、叶片的数量特征和叶片的形状特征等中的至少两种。
[0031] 其中,需要说明的是,上述多种特征中的"多种"所对应的数量可以根据预先设定, 例如两种、三种或更多种。在一个例子中,假设训练样本(以及后面将要提到的待测样本)为 某个预定类型的多媒体数据,则可以对每个训练样本分别提取颜色特征、纹理特征和声音 的频率特征这三种特征作为每个训练样本的多种特征。
[0032] 此外,需要说明的是,上述多个训练样本中的每一个均是带类别标签的训练样本。 也就是说,上述多个训练样本中可以包括正例样本和负例样本,其中,正例样本是类别标签 的值为正数的训练样本,而负例样本则是类别标签的值为负数的训练样本。
[0033] 在一个例子中,假设上述多个训练样本所组成的集合可以用ΙΛ,、,…,IN}来 表示,其中,N为上述多个训练样本中所包括的训练样本总数,每个训练样本IJi = 1,2, "·,Ν)对应的类别标签为yi,其中,N为正整数。上述多个训练样本中的每个训练样本 Ii的类别标签L例如可以为1或者-1,即 yi e {-1,1}。也就是说,当训练样本L的类别 标签yi = 1时,表示该训练样本Ii是正例样本;而当训练样本Ii的类别标签yi = -1时, 表示该训练样本Ii是负例样本。
[0034] 这样,通过第一提取单元110的处理可以得到上述多个训练样本中每一个训练样 本的多种特征。然后,构建单元120基于上述多个训练样本的每一个训练样本的多种特征, 对与多种特征中的每一种特征分别对应的分类器进行训练,以构建包括与上述多种特征对 应的多个分类器的目标分类器。
[0035] 在构建单元120进行训练的过程中,其考虑了如下的第一约束:对于多个训练样 本中的每个训练样本,在与上述多种特征中的其中一种特征有关的分类器对该训练样本的 分类结果的可信度高于第一预定程度(例如70%等)的情况下,若与上述多种特征中的其他 一种或其他多种特征有关的分类器对该训练样本的分类结果的可信度低于对应的第二预 定程度(例如30%,或者70%等)的话,则增加对与上述多种特征中的上述其他一种或其他多 种特征有关的分类器对该训练样本的分类结果的惩罚。需要说明的是,第二预定程度小于 或等于第一预定程度。
[0036] 其中,上述第一预定程度和第二预定程度例如可以根据经验来设定,或者也可以 通过试验的方法来确定,这里不再赘述。
[0037] 例如,假设训练样本为视频样本,并且对视频样本提取的特征为字幕特征和音频 特征。若对于某个训练样本来说,通过与字幕特征有关的分类器对之进行分类的结果的可 信度高于第一预定程度(例如70%),而此时通过与音频特征有关的分类器对之进行分类的 结果的可信度却低于第二预定程度(例如70%),则可以增加与音频特征有关的分类器对该 训练样本的分类结果的惩罚。
[0038] 在根据本发明的实施例的构建装置的具体实现方式中,"与上述多种特征对应的 多个分类器"例如可以是SVM (support vector machine,支持向量机)分类器、基于图的学 习的分类器等各种分类器中的任意一种。
[0039] 在根据本发明的实施例的构建装置的一种实现方式中,以"与上述多种特征对应 的多个分类器"为SVM分类器的情况为例,构建单元120在训练中考虑上述第一约束的过程 中,对于多个训练样本中的每个训练样本来说,在与上述多种特征中的其中一种特征有关 的分类器对该训练样本的分类结果的可信度高于第一预定程度的情况下、若与上述多种特 征中的其他一种或其他多种特征有关的分类器对该训练样本的分类结果的可信度低于对 应的第二预定程度的话,则可以增大与上述多种特征中的上述其他一种或其他多种特征有 关的分类器对应于该训练样本的松弛变量,由此实现了 "增加对与上述多种特征中的上述 其他一种或其他多种特征有关的分类器对该训练样本的分类结果的惩罚"。
[0040] 此外,在根据本发明的实施例的构建装置的一种实现方式中,构建单元120在训 练的过程中所考虑的第一约束中还可以包括:对于上述多个训练样本中的每个训练样本, 在增加对与上述多种特征中的上述其他一种或其他多种特征有关的分类器对该训练样本 的分类结果的惩罚的过程中,当与上述多种特征中的上述其中一种特征有关的分类器对该 训练样本的分类结果的可信度越高时,对与上述多种特征中的上述其他一种或其他多种特 征有关的分类器对该训练样本的分类结果的惩罚越严厉。这样,在该实现方式中,对于训练 样本来说,当与一种特征有关的分类器对其分类结果可信度越高时,相当于要求与其他一 种或其他几种特征有关的另外一个或另外几个分类器对该训练样本的分类结果的可信度 也相对较高。
[0041] 例如,假设训练样本为视频样本,并且对视频样本提取的特征为字幕特征和音频 特征。若对于某个训练样本I a和另一个训练样本Ib来说,通过与音频特征有关的分类器对 训练样本Ia进行分类的结果的可信度、以及通过与音频特征有关的分类器对训练样本I b进 行分类的结果的可信度均低于第二预定程度(例如70%)。在这种情况下,假设第一预定程度 也为70%,若通过与字幕特征有关的分类器对训练样本I a进行分类的结果的可信度例如为 80% (高于上述第一预定程度),而通过与字幕特征有关的分类器对训练样本Ib进行分类的 结果的可信度例如为90% (高于上述第一预定程度),则可以使得对与音频特征有关的分类 器对训练样本Ib的分类结果的惩罚比对与音频特征有关的分类器对训练样本I a的分类结 果的惩罚更严厉。
[0042] 此外,在根据本发明的实施例的构建装置的一种实现方式中,以"与上述多种特征 对应的多个分类器"为SVM分类器的情况为例,构建单元120在训练的过程中、在考虑第一 约束时,针对上述多种特征中的每种特征,可以用上述多个训练样本中的每个训练样本到 表示与该种特征有关的分类器的超平面的函数间隔来反映与该种特征有关的分类器对上 述每个训练样本的分类结果的可信度,其中,值越高的函数间隔对应的可信度越高。
[0043] 其中,针对与上述多种特征中的每种特征,对于上述多个训练样本中的每个训练 样本,若该训练样本到表示与该种特征有关的分类器的超平面的函数间隔的值大于对应的 第一预定阈值的话,则可以判定与该种特征有关的分类器对该训练样本的分类结果的可信 度高于第一预定程度。
[0044] 此外,针对与所述多种特征中的每种特征,对于上述多个训练样本中的每个训练 样本,若该训练样本到表示与该种特征有关的分类器的超平面的函数间隔的值小于第二预 定阈值的话,则可以判定与该种特征有关的分类器对该训练样本的分类结果的可信度低于 第二预定程度。
[0045] 其中,上述第一预定阈值和第二预定阈值例如可以根据经验来设定,或者也可以 通过试验的方法来确定,这里不再赘述。
[0046] 为清楚起见,下面结合图2来介绍标准SVM分类器的相关概念。图2示意性地示出 了传统的标准SVM分类器的原理图。如图2所示,图中的方形样本和圆形样本可以是待区 分的两个类别(例如,方形样本和圆形样本中的一种可以是上文所述的正例图像,而另一种 是负例图像),H为表示SVM分类器的超平面,可以用分类函数f (X) = w *x+b表示上述SVM 分类器,并可以用w · x+b = 0来表示上述超平面H。其中,w和b为待求解的SVM参数,而 X则为待分类的样本(训练样本或下文中所说的待测样本)的特征向量。w和X之间的"·" 表示w和X这两个向量的内积。以图2中的圆形样本Pi为例,Pi到超平面Η的函数间隔如 图2中的h所示(S卩Pi在图中纵向上到Η的距离),而Pi到超平面Η的几何间隔如图2中 的屯所示(即Pi到Η的最短距离,相当于Pi到Pi在Η上的投影之间的距离)。这样,在数学 上,可以用f,. =7,(wi + 句表示X对应的待分类的样本到超平面Η的函数间隔,以及可以用

【权利要求】
1. 一种用于构建分类器的构建装置,包括: 第一提取单元,其被配置用于提取多个训练样本中的每一个的多种特征;以及 构建单元,其被配置用于基于所述多个训练样本的每一个的多种特征,对与所述多种 特征中的每一种分别对应的分类器进行训练,以构建包括与所述多种特征对应的多个分类 器的目标分类器; 其中,所述构建单元在所述训练的过程中考虑了如下的第一约束:对于所述多个训练 样本中的每一个,在与所述多种特征中的一种特征有关的分类器对该训练样本的分类结果 的可信度高于第一预定程度的情况下,若与所述多种特征中的其他一种或其他多种特征有 关的分类器对该训练样本的分类结果的可信度低于对应的第二预定程度,则增加对与所述 多种特征中的所述其他一种或其他多种特征有关的分类器对该训练样本的分类结果的惩 罚。
2. 根据权利要求1所述的构建装置,其中,所述构建单元在所述训练的过程中所考虑 的所述第一约束还包括: 对于所述多个训练样本中的每一个,在增加对与所述多种特征中的所述其他一种或其 他多种特征有关的分类器对该训练样本的分类结果的惩罚的过程中,当与所述多种特征中 的一种特征有关的分类器对该训练样本的分类结果的可信度越高时,对与所述多种特征中 的所述其他一种或其他多种特征有关的分类器对该训练样本的分类结果的惩罚越严厉。
3. 根据权利要求1或2所述的构建装置,其中,所述多个分类器中的每个均为支持向量 机分类器。
4. 根据权利要求3所述的构建装置,其中,所述构建单元在所述训练中考虑所述第一 约束的过程中, 针对所述多种特征中的每种特征, 用所述多个训练样本中的每个训练样本到表示与该种特征有关的分类器的超平面的 函数间隔来反映与该种特征有关的分类器对所述每个训练样本的分类结果的可信度,其 中,值越高的函数间隔对应的可信度越高。
5. 根据权利要求3或4所述的构建装置,其中,所述构建单元在所述训练中考虑所述第 一约束的过程中,对于所述多个训练样本中的每一个,在与所述多种特征中的一种特征有 关的分类器对该训练样本的分类结果的可信度高于第一预定程度的情况下,若与所述多种 特征中的其他一种或其他多种特征有关的分类器对该训练样本的分类结果的可信度低于 对应的第二预定程度,则增大与所述多种特征中的所述其他一种或其他多种特征有关的分 类器对应于该训练样本的松弛变量来实现增加对与所述多种特征中的所述其他一种或其 他多种特征有关的分类器对该训练样本的分类结果的惩罚。
6. 根据权利要求3-5中任一项所述的构建装置,其中,所述构建单元在所述训练中考 虑所述第一约束的过程中, 对于所述多个训练样本中的每一个,在与所述多种特征中的一种特征有关的分类器对 该训练样本的分类结果的可信度高于第一预定程度、而与所述多种特征中的其他一种或其 他多种特征有关的分类器对该训练样本的分类结果的可信度低于对应的第二预定程度的 情况下,当与所述多种特征中的一种特征有关的分类器对该训练样本的分类结果的可信度 越高时,令与所述多种特征中的其他一种或其他多种特征有关的分类器对应于该训练样本 的松弛变量越大。
7. -种分类装置,包括: 第二提取单元,其被配置用于提取待测样本的多种特征;以及 分类单元,其被配置用于基于所述待测样本的所述多种特征,获得与所述多种特征有 关的多个预定分类器分别对所述待测样本的分类结果,以确定所述待测样本的最终分类结 果; 其中,所述多个预定分类器通过如权利要求1-6中任一项所述的构建装置而获得。
8. -种用于构建分类器的构建方法,包括: 提取多个训练样本中的每一个的多种特征;以及 基于所述多个训练样本的每一个的多种特征,对与所述多种特征中的每一种分别对应 的分类器进行训练,以构建包括与所述多种特征对应的多个分类器的目标分类器; 其中,在所述训练的过程中考虑了如下的第一约束: 对于所述多个训练样本中的每一个,在与所述多种特征中的一种特征有关的分类器对 该训练样本的分类结果的可信度高于第一预定程度的情况下,若与所述多种特征中的其他 一种或其他多种特征有关的分类器对该训练样本的分类结果的可信度低于对应的第二预 定程度,则增加对与所述多种特征中的所述其他一种或其他多种特征有关的分类器对该训 练样本的分类结果的惩罚。
9. 一种分类方法,包括: 提取待测样本的多种特征;以及 基于所述待测样本的所述多种特征,获得与所述多种特征有关的多个预定分类器分别 对所述待测样本的分类结果,以确定所述待测样本的最终分类结果; 其中,所述多个预定分类器通过如权利要求8所述的构建方法而获得。
10. -种电子设备,包括如权利要求1-6中任一项所述的构建装置或如权利要求7所述 的分类装置。
【文档编号】G06F17/30GK104281569SQ201310270851
【公开日】2015年1月14日 申请日期:2013年7月1日 优先权日:2013年7月1日
【发明者】李斐, 刘汝杰, 石原正树, 马场孝之, 上原祐介 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1