用于构建多级别分类模型的方法和系统的制作方法

文档序号:6586334阅读:226来源:国知局
专利名称:用于构建多级别分类模型的方法和系统的制作方法
技术领域
本发明一般地涉及信息分类,尤其是将信息样本分类到多个类别的多类别 (multi-class)分类和多级别(multi-level)分类。更具体而言,本发明涉及用于构建多级 别分类模型的方法和系统。
背景技术
在传统的多类别信息分类方法中,类别通常是相互独立和无序的。例如,在新闻分 类中,新闻的类别可以包括政治、经济、军事、科学等等。然而,在现实生活中,存在另一种特殊的多类别问题。即,各个类别之间有序关联 并且平滑分布。这种分类问题被称为多级别分类问题。在多级别分类问题中,信息样本被 分类到不同的级别而非不同的类别。例如,在产品评价分类中,用户对产品的评价意见的等 级可以包括差、一般、好、非常好等等。因特网上信息的不断增长使得对信息分类的需求越来越明显。因此,近年来,针对 传统的多类别分类问题已经进行了很多研究。但是,作为一种特殊的多类别问题,对多级别 分类问题的研究尚不充分。下面将简单介绍几个与本发明相关的现有自动信息分类算法的 示例。Chu>S. Sathiya Keerhi 白勺 11 “New Approaches toSupport Vector Ordinal Regression”的论文(参见ICML2005,第145-152页)中,提出了两种用于序回归 (ordinal regression)的监督支持向量方法。该方法用于优化多个有序的尺度阈值,这多 个阈值限定了多个平行的分类超平面。要了解更多细节,请具体参考第7节“发明的详细描 述”。另外,于2008年3月17日递交的美国专利US 7533076B2 (下称“现有技术1 ”)提 出了一种有效的多类别支持向量机分类方法。该方法通过使用一组监督二元支持向量机分 类器将各个数据样本分类到多个类别中。在构建分类模型的过程中,该方法基于各个相邻 级别之间的局部邻接性(local level adjacency)对初始分类模型进行调整。图1示出根 据该现有技术的用于产生和优化分类模型的系统100的结构框图。在图1中,系统100主 要包括分类模型初始化装置101和基于本地级别邻接性的分类模型调整装置102。在信息 分类中,分类模型需要被表示为某种机器可读格式。例如,在该方法中,多级别分类模型由 一系列平行的分类超平面组成,各个超平面具有相应的级别阈值,这些级别阈值指示相邻 级别之间的边界(margin)。在学习分类模型的最初,首先需要生成一初始模型。分类模型 初始化装置101用于基于输入的标注训练数据产生初始分类模型。产生初始分类模型的方 法可以采用本领域技术人员所公知的方法,这里不对此进行赘述。调整装置102用于基于 各个级别之间的局部级别邻接性对所生成的初始分类模型进行调整和优化。在多级别问题 中,级别是顺序相关的,即,级别距离越近则越相似。因此,在该方法中,这种级别关系被表 示为第i级别的阈值必须低于第(i+Ι)级别的阈值。这种表示级别相邻关系的局部级别 邻接性被用于调整已生成的初始分类模型,从而得到优化的分类模型。
再例如,在P. N. M. Belkin 和 V. Sindhwani 的题为 “ManifoldRegularization :A Geometric Framework for Learning from Labeled andUnlabeled Examples,,的论文(参 见 Journal of Machine Learning Research,第 23"_2434 页,2OO6 年)(下称“现有技术 2”)中,提出一种学习一系列半监督多类别分类模型的方法。该方法是一种典型的半监督 学习方法,其核心组件在于“基于样本相似性的分类模型平滑”。图2示出根据该现有技术 的用于产生和优化分类模型的系统200的结构框图。在图2中,系统200包括分类模型初 始化装置201和基于样本相似性的分类模型平滑装置202。在半监督学习情形中,大多数 数据样本是未标注的。就是说,大多数数据样本的类别标签是未知的。但是,这些未标注的 训练数据样本的存在可被用于更好地拟合总体的数据分布内在几何结构。其基于这样的假 设相似的数据样本更可能处于相同的类别中。样本相似性可以根据数据样本的特征来计 算,并随后被用于调整标注数据样本和未标注数据样本上的预测的类别标签。这样一来,这 些类别标签可以根据总体上的数据分布而平滑地变化,从而达到优化分类模型的目的。在多类别分类模型中,并没有考虑到多级别情形下各个级别之间的两两有序关 系。这一点姑且不论,即便是现有技术的多级别分类模型优化方法也不可避免地存在诸多 缺陷。在上述现有技术1的序回归模型优化方法中,仅仅考虑到有限的相邻级别之间的顺 序关系。并且,序回归模型中的输出级别标签是离散的,不能被连续地测量。此外,在诸如 现有技术2之类的半监督学习情形中,没有现有的多级别或序回归方法可以被应用。

发明内容
本发明正是考虑到上述现有技术中存在的问题而研制的。本发明的多级别分类模型优化方案主要包括四种分别用于监督和半监督情形的 分类模型优化功能,即,基于全局级别值间距的分类模型调整功能(第一调整),基于数据 样本序关系的分类模型调整功能(第二调整),基于数据样本相似性的分类模型平滑功能 (第一平滑)和基于级别相似性的分类模型平滑功能(第二平滑)。其中,第一和第二调整 主要应用于监督情形,即,基于标注数据样本,而第一和第二平滑是在第一和第二调整的基 础上引入的,用于使模型可被应用到半监督情形,即,基于标注和未标注数据样本两者。第一调整(即,基于全局级别值间距的分类模型调整)是基于所有分类级别之间 的全局关系对分类模型进行调整的功能。不同于上述现有技术1所记载的仅局限于相邻 级别之间的局部顺序的情形,该第一调整功能利用级别值之间的间距来惩罚全局误分类误 差,从而使得所有级别之间的全局序关系被引入分类模型的调整过程。因此,在使得关于所 有数据样本的总误分类误差最小化的同时,分类模型的全局级别序关系也可以被宏观地优 化。第二调整(即,基于数据样本序关系的分类模型调整)是基于如下考量而设计的 基于多个级别之间序的本质,级别之间的序也可以反映在每个数据样本上。因此,该第二调 整功能被设计成使得每两个标注数据样本之间的序关系,与它们的级别标签所对应的级别 序关系保持一致。从而,级别的序关系可以根据数据样本被微观地进一步优化。第一平滑(即,基于数据样本相似性的分类模型平滑)类似于现有方法,例如上述 现有技术2所描述的方法。在本发明中,标注数据样本和未标注数据样本两者的预测级别 标签都基于它们之间的相似性被平滑。
第二平滑(即,基于级别相似性的分类模型平滑)是根据数据样本的级别相似性 来调整分类模型的功能。在基于样本相似性的第一平滑功能中,仅仅利用了数据分布的内 在几何结构。进一步的,第二平滑被用于对级别分布的内在几何结构建模。基于分类级别之 间的距离以及数据样本属于某一级别的概率,数据样本之间的级别相似性可以被计算。因 此,分类模型可以根据数据样本的级别相似性被进一步优化。从而,预测的级别标签不仅能 够针对总体的数据分布平滑地变化,还可以与级别之间的序关系保持一致。根据不同的实施例,本发明利用上述第一调整、第二调整、第一平滑和第二平滑的 不同组合来优化多级别分类模型。根据本发明第一方面,提供了一种用于构建多级别分类模型的方法,该方法包括 输入标注数据样本;利用标注数据样本生成初始多级别分类模型;以及基于所有级别之间 的全局级别值间距对所述初始多级别分类模型进行优化。在另一实施例中,所述优化步骤 还基于数据样本之间的序关系进行进一步调整。在又一实施例中,所述方法被扩展应用到 半监督情形,其中所述优化步骤还基于数据样本之间的相似性以及级别之间的相似性对分 类模型进行平滑。根据本发明第二方面,提供了一种用于构建多级别分类模型的系统,包括第一输 入装置,用于输入标注数据样本;分类模型初始化装置,用于利用所述标注数据样本生成初 始多级别分类模型;以及分类模型优化装置,用于对所生成的所述初始多级别分类模型进 行优化。在一个实施例中,分类模型优化装置基于所有级别之间的全局级别值间距对初始 多级别分类模型进行调整。在另一实施例中,分类模型优化装置基于所有级别之间的全局 级别值间距以及数据样本之间的序关系对初始多级别分类模型进行调整。在又一实施例 中,所述系统被扩展应用到半监督学习情形。在此情况下,除了基于所有级别之间的全局级 别值间距以及数据样本之间的序关系对初始多级别分类模型进行调整之外,分类模型优化 装置还考虑到数据样本之间的相似性以及级别之间的相似性对初始多级别分类模型进行 平滑,以实现最终优化。本发明的技术优势主要体现在如下几个方面。首先,通过利用级别值和相似性,级别之间的序关系被充分地结合到分类模型中, 从而提高了多级别分类的精确性。其次,由于针对所有级别构建统一的分类功能,因此每个数据样本按照一致的度 量被计算。这样一来,分类器不仅输出离散的级别标签,还输出级别标签据其量化的连续的 度量值,从而使得多级别分类器的输出是可测量的。此外,通过引入两种平滑功能,使得分类模型不仅可以被应用到传统的监督问题, 也可以被应用到在实际信息处理应用中更普遍的半监督问题,从而提高了多级别分类的实 用性。


结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,附图中类似 的标号指示类似的部分,其中图1是示出根据现有技术1的分类模型优化系统100的结构框图;图2是示出根据现有技术2的分类模型优化系统200的结构框图3是示出根据本发明的分类模型优化系统300的结构框图;图4A至图4C分别示出图3所示的分类模型优化系统300的三种不同组合工作方 式的流程图。
具体实施例方式为了描述方便,下面首先给出说明书中将使用的一些基本符号的定义。1 个标注数据样本,记作 Xl= {(Xi,yi)},i = 1,...,1,u 个未标注数据样本,记作 Xu = {(Xi,? )},i = 1+1,···,1+u,其中,y e {rk},k = 1,. . .,K,是第k级别的值,并且K是级别总数目。Ye = {yj,i = 1,...,1表示1个标注数据样本的级别标签向量。本发明要构建 的是统一的预测或分类函数f (称之为级别函数),其针对数据样本X的输出是数值f(x), 即X所属级别值。优化后的级别函数记作f。本发明所提出的分类模型优化方案用于构建多级别分类模型,其将级别之间的序 关系结合到分类模型中。本发明所提出的方法可以被应用到监督和半监督情形两者,作为 示例,其统一的构架可以用下式(1)来表示
权利要求
1.一种用于构建多级别分类模型的方法,包括输入标注数据样本;利用所述标注数据样本生成初始多级别分类模型;以及对所述初始多级别分类模型进行优化,其中,所述优化步骤包括基于所有级别之间的全局级别值间距对所述初始多级别分类 模型进行调整。
2.如权利要求1所述的方法,其中,所述基于全局级别值间距进行调整的步骤包括对所有所述标注数据样本,调整级别分类函数,以使得以下各项之和最小(1)级别分类函数所对应的分类超平面的间距的倒数;( 所有标注数据样本的预测级别标签值与其 已标注的级别标签值的间距的数学和。
3.如权利要求1所述的方法,其中所述优化步骤还包括基于标注数据样本之间的序关 系对所述初始多级别分类模型进行调整。
4.如权利要求3所述的方法,其中,所述基于标注数据样本之间的序关系进行调整的 步骤包括对所有所述标注数据样本,调整级别分类函数,以使得以下各项之和最小(1)级别分 类函数所对应的分类超平面的间距的倒数;( 所有标注数据样本的预测级别标签值与其 已标注的级别标签值的间距的数学和;以及C3)在按照级别标签重新排序后的标注数据样 本序列中,邻接数据样本间预测值的序错误的数学和。
5.如权利要求3所述的方法,该方法被扩展应用到半监督学习情形,所述方法还包括输入未标注数据样本;并且利用所述标注数据样本和所述未标注数据样本生成所述初始多级别分类模型。
6.如权利要求5所述的方法,其中所述优化步骤还包括基于数据样本之间的相似性以 及级别之间的相似性对所述初始多级别分类模型进行平滑。
7.如权利要求6所述的方法,其中所述平滑步骤包括对所有所述标注和未标注数据样本,调整级别分类函数,以使得以下各项之和最小 (1)级别分类函数所对应的分类超平面的间距的倒数;( 所有标准数据样本的预测级别 标签值与其已标注的级别标签值的间距的数学和;C3)在按照级别标签重新排序后的所有 标注数据样本序列中,邻接数据样本间预测值的序错误的数学和;(4)所有标注与未标注 数据样本上,基于样本相似性加权的预测级别标签值间距的数学和;以及(5)所有标注与 未标注数据样本上,基于数据样本的级别相似性加权的预测级别标签值间距的数学和。
8.如权利要求2、4和7中的任何一个所述的方法,其中,所述数学和是绝对值之和、平 方和或高次方和。
9.如权利要求2、4和7中的任何一个所述的方法,还包括对各项数学和分别配置一 个可调整的权重参数,其中,每个所述权重参数取值大于或等于0。
10.如权利要求9所述的方法,其中所述优化步骤使如下等式最小化
11.一种用于构建多级别分类模型的系统,包括 第一输入装置,用于输入标注数据样本;分类模型初始化装置,用于利用所述标注数据样本生成初始多级别分类模型;以及 分类模型优化装置,用于对所生成的所述初始多级别分类模型进行优化, 其中,所述分类模型优化装置基于所有级别之间的全局级别值间距对所述初始多级别 分类模型进行调整。
12.如权利要求11所述的系统,其中所述分类模型优化装置还基于数据样本之间的序 关系对所述初始多级别分类模型进行调整。
13.如权利要求12所述的系统,该系统被扩展应用到半监督学习情形,所述系统还包括第二输入装置,用于输入未标注数据样本;并且所述分类模型初始化装置利用所述标注数据样本和所述未标注数据样本生成所述初 始多级别分类模型。
14.如权利要求13所述的系统,其中所述分类模型优化装置还基于数据样本之间的相 似性以及级别之间的相似性对所述初始多级别分类模型进行平滑。
全文摘要
本发明提供了用于构建多级别分类模型的方法和系统。提出的方法包括输入标注数据样本;利用标注数据样本生成初始多级别分类模型;以及对初始多级别分类模型进行优化,其中,所述优化步骤可以包括基于所有级别之间的全局级别值间距对初始多级别分类模型进行调整。在另一实施例中,优化步骤还包括基于数据样本之间的序关系对初始多级别分类模型进行调整。在又一实施例中,本发明的方法被扩展应用到半监督学习情形,通过参考标注和未标注数据样本两者,可以基于数据样本之间的相似性以及级别之间的相似性对初始多级别分类模型进行进一步平滑。
文档编号G06K9/62GK102117411SQ200910258920
公开日2011年7月6日 申请日期2009年12月30日 优先权日2009年12月30日
发明者杉山高弘, 钱明杰, 陈博, 齐红威 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1