数据分类方法及数据分类装置的制作方法

文档序号:6478566阅读:208来源:国知局
专利名称:数据分类方法及数据分类装置的制作方法
技术领域
本发明涉及数据分类方法及数据分类装置,特别涉及一种通过利用多个分离面能够将已知类别及偏离值同时进行分类的数据分类方法及数据分类装置。该申请基于2007年9月28日申请的日本专利申请2007-253703号。该日本专利申请公开的内容通过参照援引在本申请中。

背景技术
数据分类是在被给出未分类数据的情况下对该数据隶属的类别进行推测的技术,是数据分析最基本的要素之一。特别是利用了类别之间的分离面等、将特征空间分为多个区域的分离面的数据分类技术的模型表现力高。因此,不仅能够应用于以画像数据、蛋白质或遗传因子数据为代表的数据分类,也能够应用于将类别标签作为故障信息的情况下的故障诊断、将因特网或社会网络等网络间的链接的有无作为类别标签的情况下的链接的预测等广泛的问题及数据结构。
利用分离面的数据分类方法较大地分为识别和偏离值分类的2个技术。前者是学习从附带有类别标签的数据将类别分离的分离面,将分类对象数据向已知类别进行分类的技术。后者是将学习数据视为1个类别,学习将学习数据所分布的区域和除此之外的区域分离的分离面,由此,对分类对象数据隶属于该类别还是偏离该类别进行分类的技术。此外,作为同时实施识别和偏离值分类的数据分类方法,作为利用分离面的数据分类方法的组合的方法,能够容易地类推出来的方法有几种。
首先,在与学习数据有关的类别的数量为1的情况下,数据分类为偏离值分类,因此可以想到利用1类别支持向量机(文献5的第8章、文献3)等公知的偏离值分类技术。
接着,在与学习数据有关的类别的数量为2以上的情况下,可以想到,分别针对各类别学习1类别支持向量机等的偏离值分类方法,在将分类对象数据判定为是相对于全部类别的偏离值的情况下,将该分类对象数据作为偏离值,在将1个或多个类别判定为隶属于该类别的情况下,在这些类别的1个或多个中进行分类的方法。
作为与学习数据有关的类别的数量为2个以上的情况下的其他方法,可以想到有如下方法将1类别支持向量机等的偏离值分类方法和利用支持向量机(文献1、文献2、文献6)等的分离面的识别方法组合,首先根据偏离值分类方法统一学习全部类别,接着学习与已知类别有关的识别方法。在该方法中,首先根据偏离值检测方法判定分类对象数据是否是偏离值,在不是偏离值的情况下,根据识别方法对是隶属于已知的哪个类别进行分类。
另一方面,作为利用多个分离面的技术有多类别支持向量机。多类别支持向量机的实现方法有几种,有按照类别的每个组合分别计算2类别的支持向量机而采取按数量多决定的方法和如文献7和文献4中提出的方法那样使多个超空间同时最优化的方法。
以下,列举文献一览。
文献1日本特开2007-115245号公报 文献2日本特开2007-95069号公报 文献3日本特开2005-345154号公报 文献4日本特开2007-52507号公报 文献5Bernhard Scholkopf and Alex Smola.Learning with Kernels、Support Vector Machines、Regularization、Optimization and Beyond.MITPress.2002. 文献6Bernhard Scholkopf、Alex J.Smola、Robert C.Williamson andPeter L.Bartlett.New Support Vector Algorithms.Neural Computation.Vol.12page 1207-1245.2000. 文献7Ioannis Tsochantaridis、Thorsten Joachims、ThomasHofmann、Yasemin Altun.Large Margin Methods for Structured andInterdependent Output Variables.Journal of Machine Learning ResearchVol.6page 1453-1484.2005. 文献8A.L.Yuille and A.Rangarajan.The concave-convexprocedure.Neural Computation.Vol.15page 915-936.2003. 在以往的同时实施识别及偏离值分类的数据分类方法中存在以下的问题。
首先,在通过1类别支持向量机或支持向量机的单一的分离面对数据进行分类的情况下,仅考虑了数据一侧的边界面,而不能够考虑相反侧的边界,因此,存在分类进行得并不缜密的问题。
其理由如图18所示那样,在利用分离超平面(也仅称作“超平面”)的1类别支持向量机中,仅考虑了数据单面的分离边界,而没有考虑相反侧的边界。此外,如图19所示,是因为,在利用分离超球面(也仅称作“超球面”)的1类别支持向量机中,仅考虑了数据外侧的分离边界,而没有考虑内侧的边界。上述问题是其他利用分离面的公知的数据分类装置中共同存在的问题。
此外,在将利用分离面的公知的数据分类技术进行组合的情况下,存在数据分类精度的可靠性低下的问题。
其理由为,在将相对于各类别的偏离值分类进行组合的情况下,独立地对各类别进行处理,而没有考虑类别间的关系。此外,在将偏离值分类和识别组合的情况下,将不同类别当作1个类别,因此偏离值分类的精度下降。上述问题是在采取除了上述组合方法之外的组合方式的情况下也可能产生的问题。
在这些组合公知技术的情况下,虽然利用了多个分离面,但是该多个分离面是被独立地计算而进行利用的,因此与利用一个一个的分离面的情况实质相同。
此外,在以往的利用分离面的数据分类方法中,不存在同时进行偏离值分类和识别的观点,因此,还存在不能够通过相同的模化参数同时进行偏离值分类和识别的问题。
此外,多类别支持向量机虽然利用多个分离面,但是存在不能够进行偏离值分类的问题。
其理由为,在多类别支持向量机中,仅考虑了在已知类别间进行分类的分离面,而没有考虑未知类别和已知类别的边界。换言之,已知类别隔着1个分离面与其他已知类别相邻接,没有考虑到在已知类别之间夹有未知类别的情况。


发明内容
本发明的目的在于提供一种能够以相同的顺序同时进行可靠性高的识别和偏离值分类的数据分类方法及数据分类装置。
本发明的一个实施方式中的数据分类装置具备存储规定多个分离面的信息的分离面集合存储部,所述多个分离面将特征空间分离为与至少1个已知类别分别对应的至少1个已知类别区域和未知类别区域。至少1个已知类别区域的每个通过多个分离面中相互不相交的2个以上的分离面与外部区域相分离。数据分类装置还具备分类部,该分类部通过对能够计算内积的分类对象数据隶属于由存储在分离面存储部中的信息规定的至少1个已知类别区域和未知类别区域中的哪个区域进行计算,来决定分类对象数据的分类。
本发明的一个实施方式中的数据分类方法包括(a)输入能够计算特征空间中的内积的分类对象数据的工序;(b)从分离面存储部输入将特征空间分离为与至少1个已知类别分别对应的至少1个已知类别区域和未知类别区域的多个分离面的工序。至少1个的多个已知类别区域分别通过多个分离面中不相交的2个以上分离面与外部区域相分离。数据分类方法还包括(c)通过计算分类对象数据隶属于至少1个已知类别区域和未知类别区域中的哪个区域,来决定分类对象数据的分类的工序。
本发明的一个实施方式中的分离面集合计算装置具备学习数据存储部,存储有能够计算特征空间中的内积且被分别分类在至少1个已知类别的某个中的多个学习数据;分离面集合计算部,基于存储在学习数据存储部中的多个学习数据及多个学习数据的各自的分类,计算将特征空间分离为与至少1个已知类别分别对应的至少1个已知类别区域和未知类别区域的多个分离面。至少1个已知类别区域的每个通过多个分离面中不相交的2个以上分离面与外部区域相分离。分离面集合计算装置还具备存储有规定多个分离面的信息的分离面集合存储部。
本发明的一个实施方式中的程序使计算机执行具备以下的(a)~(c)的方法。
(a)输入能够计算特征空间中的内积的分类对象数据的工序。
(b)从分离面存储部输入将特征空间分离成与至少1个已知类别分别对应的至少1个已知类别区域和未知类别区域的多个分离面的工序。至少1个的多个已知类别区域的每个通过多个分离面中不相交的2个以上分离面与外部区域相分离。
(c)通过计算分类对象数据隶属于至少1个已知类别区域和未知类别区域中的哪个区域,来决定分类对象数据的分类的工序。
本发明的一个实施方式中的程序使计算机执行具备以下的(a)~(c)的方法。
(a)存储能够计算特征空间中的内积且分别分类到至少1个已知类别的某个中的多个学习数据的工序。
(b)基于存储在学习数据存储部中的多个学习数据及多个学习数据的各自的分类,计算将特征空间分离成与至少1个已知类别分别对应的至少1个已知类别区域和未知类别区域的多个分离面的工序。至少1个已知类别区域的每个通过多个分离面中不相交的2个以上分离面与外部区域相分离。
(c)存储规定多个分离面的信息的工序。
根据本发明,能够以相同的步骤同时进行可靠性高的识别和偏离值分类。能够以相同步骤同时进行识别和偏离值分类的理由在于,基于能够计算内积且被分离在1个以上的已知类别中的特征空间中的多个学习数据及多个学习数据的分类,针对将特征空间分离成与1个以上的已知类别分别对应的1个以上的已知类别区域和未知类别区域的多个分离面,每1个类别计算2个以上且不相交的多个分离面,在对分类未知的、能够计算所述特征空间中的内积的分类对象数据进行分类时,通过计算分类对象数据隶属于由多个分离面分离的1个以上的类别区域和除此之外的未知类别区域的特征空间内的哪个区域,来决定该分类对象数据的分类。此外,作为能够进行可靠性高的数据分类的理由在于,各个已知类别通过2个以上的分离面确定边界,因此,与通过1个分离面确定边界的情况相比,数据分类的可靠性更高。



图1是表示本发明的第一实施方式所涉及的数据分类装置的结构的框图。
图2是本发明的第一实施方式所涉及的利用超平面的数据分类的一例。
图3是本发明的第一实施方式所涉及的利用超球面的数据分类的一例。
图4是本发明的第一实施方式所涉及的规定超平面的数据的存储方法的一例。
图5是本发明的第一实施方式所涉及的规定超球面的数据的存储方法的一例。
图6是表示本发明的第一实施方式所涉及的数据分类装置的处理例的流程图。
图7是表示本发明的第二实施方式所涉及的数据分类装置的结构的框图。
图8是表示本发明的第二实施方式所涉及的分离面集合计算装置的结构的框图。
图9是表示本发明的第三实施方式所涉及的数据分类装置的结构的框图。
图10是表示本发明的第三实施方式所涉及的超平面集合计算装置的结构的框图。
图11是根据本发明的第三实施方式所涉及的数据分类装置,在类别数量为1个的情况下所计算的数据分类的概念图。
图12是根据本发明的第三实施方式所涉及的数据分类装置,在类别数量为2个的情况下所计算的数据分类的概念图。
图13是根据本发明的第三实施方式所涉及的数据分类装置,在类别数量为3个以上的情况下所计算的数据分类的概念图。
图14是不优选在本发明的第三实施方式所涉及的数据分类装置中使用的超平面的说明图。
图15是表示本发明的第四实施方式所涉及的数据分类装置的结构的框图。
图16是表示本发明的第四实施方式所涉及的超球面集合计算装置的结构的框图。
图17是根据本发明的第四实施方式所涉及的数据分类装置计算的数据分类的概念图。
图18是本发明相关的、利用超平面的数据分类技术的例子。
图19是本发明相关的、利用超球面的数据分类技术的例子。

具体实施例方式 接下来,参照附图详细地说明本发明的实施方式。
第一实施方式 参照图1,本发明的第一实施方式所涉及的数据分类装置100具备带偏离值分类功能的数据分类部110、分类结果输出部120、存储装置130和分离面集合存储装置140。数据分类装置100能够通过个人计算机等计算机来实现。在该情况下,带偏离值分类功能的数据分类部110和分类结果输出部120通过CPU等处理装置读出保存在存储装置中的程序、按照上述步骤执行该程序来实现。
该数据分类装置100输入分类对象数据150,通过计算分类对象数据150隶属于由多个分离面分离的1个以上的类别区域(已知类别区域)和除此之外的未知类别区域的特征空间内的哪个区域,来推测是应该将分类对象数据150分类到已知的哪个类别,还是应该分类为偏离值,将该推测结果作为分类结果160输出。
分类对象数据150是分类未知的向量数据。现在将分类对象数据150中包含的属性的数量设为d,将分类对象数据150如式(1)所示那样表示为d维的向量。在式(1)中,在右边括弧的右上方附加的标号′表示倒置(也有时代替标号′使用标号T)。此外,xj表示分类对象数据150的第j号的属性,可以是实数值,也可以是符号值。另外,将x向特征空间映射的映像设为φ,x在特征空间中的像表示为φ(x)。以下,在提到分类对象数据的情况下,指分类对象数据和特征空间中的像中的哪个都可以。
x=(x1,...,xj,...,xd)′ (1) 分离面集合存储装置140存储着对将特征空间分离为与1个以上的已知类别分别对应的1个以上的类别区域和除此之外的未知类别区域的多个分离面进行规定的信息。分离面可以是如图2所示的超平面A-D那样在特征空间上形成平面的面,也可以是如图3所示的超球面E~H那样在特征空间上形成球面的面,除此之外,还可以是超圆柱面、超锥面等。但是,如图2所示的相互平行的超平面A-D、图3所示的同心的超球面E~H那样,需要使多个分离面不相交。另外,在图2中,类别1的区域通过2个超平面A、B、类别2的区域通过2个超平面C、D、图3中的类别3的区域通过2个超球面E、F、类别4的区域通过2个超球面G、H分别确定边界。这样,已知的每1个类别通过2个以上的分离面确定各已知类别的边界。
存储在分离面集合存储装置140中的信息只要是特定分离面的信息即可,什么样的信息都可以。例如,若将特征空间的第i号的基函数设为ψi,则特征空间中的分离面能够利用基函数进行表达。例如,在分离面表示为∑wiψiφ(x)+b=0的超平面的情况下,将基底ψi及基底的权重wi、切片b作为规定超平面的信息进行存储即可。此时,基底ψi在全部的超平面中是共同的,因此例如图4所示,将权重wi和切片b作为表格形式存储在每个超平面中,能够存储共同的基底ψi。另外,在超球面的情况下,若将中心设为c、将半径设为r,则表示为|φ(x)-c|2=r,并且中心c是特征空间内的点,因此表示为c=∑wiψi。因此,将权重wi和半径r如图5所示那样以表格形式保存在每个超球面中,能够预先存储共同的基底ψi。另外,关于基函数,能够利用任意的基函数,但是作为被广泛利用的基底,可以列举出例如x的维空间中的基函数或核函数等。在该情况下,基底彼此的内积已被定义(核函数是指,给出满足特定条件的任意的基函数相关的内积的函数)。
存储装置130中存储有用于根据分类对象数据150与存储在分离面集合存储装置140中的多个分离面之间的位置关系对分类对象数据150进行分类的规则。例如在如图2所示那样根据多个超平面分类数据的情况下,在存储装置130中存储有例如“向超平面A的负方向→偏离值进行分类”、“向超平面C的正方向且超平面D的负方向→类别2进行分类”等的规则。另外,在如图3所示那样根据多个超球面对数据进行分类的情况下,在存储装置130中存储有例如“向超球面E的内侧→偏离值进行分类”、“向超球面G的外侧且超球面H的内侧→类别4进行分类”等的规则。在该例子中说明了超平面和超球面的情况,但是如上所述那样,分离面不限于这两种。作为分离面,也能够利用其它形状的超曲面,也可以组合不同种类的分离面。另外,也可以在存储装置130中存储由带偏离值分类功能的数据分类部110判定的分类结果。
带偏离值分类功能的数据分类部110读入分类对象数据150和与存储在分离面集合存储装置140中的多个分离面有关的信息,计算分类对象数据150与多个分离面之间的位置关系。分离面如上所述那样,例如是超平面、超球面、超圆柱面、超锥面等。关于位置关系,例如在超平面的情况下是指数据在超平面上处于正侧、负侧的哪个位置,在超球面的情况下是指在超球面上位于超球面的内侧、超球面的外侧的哪个位置。根据该位置关系将数据进行分类的规则如上所述那样保存在存储装置130中,带偏离值分类功能的数据分类部110利用位置关系及分类规则对数据进行分类。
分类结果输出部120从带偏离值分类功能的数据分类部110直接接受由带偏离值分类功能的数据分类部110判定的分类结果或者读出在存储装置130中存储的分类结果,进行输出。输出目的地可以是与数据分类装置100连接的显示器等输出装置,也可以是经由网络连接的输出装置或终端装置。
接着,说明本实施方式所涉及的数据分类装置的整体动作。
参照图6,数据分类装置100的带偏离值分类功能的数据分类部110输入包含d个属性的分类对象数据150(S100),并且从分离面集合存储装置150输入多个分离面的信息(S101)。
接着,带偏离值分类功能的数据分类部110利用所输入的分类对象数据150及多个分离面的信息,计算分类对象数据150与多个分离面之间的位置关系(S102)。计算在例如以图2及图4的超平面A作为例子时,针对数据x,计算∑wiAψiφ(x)+bA,能够判定该值的位置关系(根据0、正、负,分别分类为在超平面A上、在超平面A的正侧、超平面A的负侧中的某一个)。另外,在图3及图5的超球面E的情况下也能够判定位置关系(针对数据x,根据|φ(x)-∑wiEψi|2是等于rE、大于rE、还是小于rE,分别分类为在超球面E上、超球面E的外侧、超球面E的内侧中的某一个)。
接着,带偏离值分类功能的数据分类部110读入在存储装置130中存储的分类规则,判定分类对象数据150隶属于哪个类别(S103)。然后,分类结果输出部120输出带偏离值分类功能的数据分类部110的分类结果(S104)。
关于数据分类,已知类别数量为1个或多个,在1个的情况下作为进行偏离值分类的数据分类装置发挥功能。
接着,对本实施方式的效果进行说明。
根据本实施方式,能够以相同的步骤同时进行识别和偏离值分类。其理由在于,计算将特征空间分离为与1个以上的已知类别分别对应的1个以上的类别区域和除此之外的未知类别区域的多个分离面与分类对象数据150之间的位置关系,通过计算分类对象数据150隶属于1个以上的类别区域和除此之外的未知类别区域中的哪个区域,来决定分类对象数据150的分类。
此外,根据本实施方式,能够进行可靠性高的数据分类。其理由在于,各个已知类别通过2个以上的分离面确定边界,因此,与通过1个分离面确定边界的情况相比,数据分类的可靠性更高。
第二实施方式 参照图7,本发明的第二实施方式所涉及的数据分类装置200与图1所示的第一实施方式所涉及的数据分类装置100相比,在代替分离面集合存储装置140具有分离面集合存储装置210这一点、和连接有分离面集合计算装置220这一点不同。
分离面集合计算装置220基于被分类在1个以上的已知类别中的多个学习数据及其分类计算多个分离面。多个分离面将特征空间分离成与1个以上的已知类别分别对应的1个以上的类别区域和除此之外的未知类别区域。1个以上的类别区域的每个通过该多个分离面中不相交的2个以上分离面与其他区域相分离。另外,分离面集合存储装置210是用于存储由分离面集合计算装置220计算出的规定多个分离面的信息的装置。
如图8所示,分离面集合计算装置220具备分离面集合最优化部221、存储装置222和分离面集合输出部223。分离面集合最优化部221从学习数据存储装置224输入学习用的数据。分离面集合输出部223输出最优化后的分离面集合225。
学习数据存储装置224中存储有具有与分类对象数据150相同属性的数据xi、数据xi所隶属的类别标签yi的组的集合。在此,i作为学习数据的指数,N作为规定的整数,学习数据被输入i=1、…、N为止。
分离面集合最优化部221计算使对学习数据的分类误差的最小化、分离面集合复杂性的最小化及各类别区域大小的最小化同时最优化的多个分离面。关于所利用的多个分离面,预先将作为候选的分离面的组合向存储装置222进行存储,在进行最优化时,从存储装置222读入上述分离面的候选进行利用即可。或者也可以是,通过对任意的分离面的组合进行最优化来选择最优的分离面集合。
分类误差可以利用任意的误差,作为例子能够举出误分类数据数量、针对误分类数据的平方损失、针对误分类数据的绝对值损失、针对误分类数据的节点损失(hinge loss)等。
分离面集合的复杂性能够利用任意的复杂性的基准。作为例子,若将第j号的分离面设为fj,则能够举出fj的L1复杂性|fj|、L2复杂性|fj|2、L∞复杂性|fj|∞等。在此,fj的L1复杂性、L2复杂性、L∞复杂性是表示函数(分离面)范数(大小)的量。就向量v=(v1、…、vn)而言,L1复杂性是指∑|vi|,L2复杂性是指∑vi2,L∞复杂性是max|vi|。
关于各类别区域的大小,例如在图2所示的类别1的情况下为由超平面A和超平面B夹着的区域的大小、例如在图3所示的类别3的情况下为由超球面E和超球面F夹着的区域的大小。为了表示这些大小而能够利用任意的基准。
一般而言,越增大分离面的复杂性针对学习数据的分类误差就越小,但是这将造成对学习数据的过学习,从而导致降低对未知的分类数据的分类精度。因此,为了学习在较小地保持分离面的复杂性的状态下减小分类误差的分离面,选择使两者的和(还加上各类别区域的大小的基准之后的和)最小的分离面集合。
接下来,对本实施方式的动作进行说明。
本实施方式的动作大体分为分离面集合计算装置220进行的分离面的计算处理和利用该计算出的分离面进行的分类对象数据150的分类处理。
在分离面集合计算装置220进行的分离面的计算处理中,通过分离面集合最优化部221从学习数据存储装置224读入分类已知的学习数据,计算使针对该学习数据的分类误差的最小化、分离面集合的复杂性的最小化及各类别区域的大小的最小化同时最优化的多个分离面,将其存储于存储装置222。接着,通过分离面集合输出部223从存储装置222读出规定多个分离面的数据,并作为分离面集合225存储在分离面集合存储装置210中。
本实施方式的数据分类装置200的动作与图1所示的第一实施方式所涉及的数据分类装置100的动作基本相同。
根据这样的本实施方式,能够得到与第一实施方式相同的效果,同时,能够用由分离面集合计算装置220计算出的最新的多个分离面来置换在分离面集合存储装置210中存储的多个分离面,能够得到不但充实学习数据而且提高性能的效果。
第三实施方式 参照图9,本发明的第三实施方式所涉及的数据分类装置300与图7所示的第二实施方式所涉及的数据分类装置200相比,在具有超平面集合存储装置310代替分离面集合存储装置210这一点和连接有超平面集合计算装置320代替分离面集合计算装置220这一点不同。
超平面集合计算装置320基于被分类为1个以上的已知类别中的多个学习数据及其分类,对将特征空间分离成与1个以上的已知类别分别对应的1个以上的类别区域和除此之外的未知类别区域的多个超平面进行计算。1个以上的类别区域分别通过该多个分离面中不相交的2个以上分离面与其他区域相分离。此外,超平面集合存储装置310是用于存储由超平面集合计算装置320计算出的规定多个超平面的信息的装置。
参照图10,超平面集合计算装置320具备超平面集合最优化部321、存储装置222、数学规划问题计算装置322、超平面集合输出部323。超平面集合最优化部321从学习数据存储装置224输入学习用的数据。超平面集合输出部323输出最优化后的超平面集合324。即,超平面集合计算装置320为了进行数据分类而计算多个互相平行的超平面。因此,在本实施方式的数据分类装置300中,如图2所示,通过平行的超平面分割各类别的区域,由此实现数据分类。
以下,关于超平面的具体的计算步骤,以几个例子为基础进行说明。
将从学习数据存储装置224输入的数据相关的类别的指数设为j=1、…、C(C为1以上的整数)。在以下,将xij设为隶属于第j号的类别的第i号数据,将隶属于各类别的学习数据的数量设为Nj。特征空间中的超平面作为关于某个权重w及切片b满足wTφ(x)+b=0的点的集合来进行表述。在此,设定f(x)=wTφ(x)。现在,超平面平行,因此权重w是共同的,所以针对w及第j号的类别的超平面的切片bj+及bi-通过超平面集合最优化部321被最优化。
另外,在φ(x)为线性的情况下,特征空间是与学习数据(及分类对象数据)相同维数的向量空间。φ(x)为非线性的情况下,特征空间是与将学习数据(及分类对象数据)进行非线性变换之后的向量数据相同维数的向量空间。
作为用于最优化的基准,通过同时最优化以下3个条件,来计算针对w和各j的bj+即bj-,所述3个条件为 (a)分类误差最小化 (b)f(x)的复杂性最小化 (c)各已知类别区域的大小最小化。
也可以是,除了上述3个条件之外,最优化下述2个条件中的1个或者同时最优化双方,由此来计算针对w和各j的bj+即bj-,所述2个条件为 (d)原点周围的未知区域的大小最大化 (e)各类别的区域不重叠(或者各类别区域的重叠的最小化)。
关于(c)的基准,针对超平面使各已知类别的区域的大小最小化。由此,要求从两面紧贴地按压各类别区域。
(d)的基准对各超平面要求使原点附近成为未知类别的区域。这是因为,可以想到学习数据覆盖空间的补空间的数据隶属于未知类别,但是在将该数据向学习数据的覆盖空间进行投影的情况下,必然被投影于原点。例如考虑3维的情况。如学习数据全部表示为a(1,0,0)+b(0,1,0)那样,假设学习数据仅分布在第1维和第2维中。在该情况下,分布在第3维的未知类别的数据c(0,0,1)在第1维中和第2维中的成分为0,因此,必然相对于数据的覆盖空间投影在原点。
下面举出几个同时最优化(a)至(e)的多个基准的具体例子。
C=1的情况 在从学习数据存储装置224输入的数据相关的类别唯一的情况,计算出互相平行的2个超平面。这样的2个超平面通过求解作为例子的(2)式所示的最优化问题而求出。
subject to 在(2)式中,(a)至(d)的基准作为(a)第2项、(b)第1项、(c)第3项、(d)第4项进行表示。关于(e)的基准,在1类别的情况下没有必要进行考虑。v0及v1是用于决定在哪个基准上施加权重的参数,是大于0小于1的实数值。根据(2)式计算出来的2个超平面是图11所示那样的超平面。以下,对(2)式中的目的函数及制约条件进行说明。
式(2)的目的函数中的第1项是最优化的基准(b)所必需的项,若作为复杂性采用L2复杂性,则f(x)的L2复杂性被这样计算。第2项是最优化的基准(a)所必需的项,ξi1+和ξi1-是用于表示误差的松弛变量。第3项是最优化的基准(c)所需的项,由于有b1-≤w′φ(xi1)≤b1+,因此通过将b1--b1+设定得较小,来使包含已知类别的区域最小化。第4项是最优化的基准(d)所必需的项。使原点周围的未知区域的大小最大化意思是指使已知区域远离原点。因此,通过使已知区域的中心(b1--b1+)/2远离原点来实现(d)的基准。
式(2)的制约条件中的、w′φ(xi1)-b1+≤ξi1+、w′φ(xi1)-b1-≥-ξi1-、ξi1+≥0、ξi1-≥0具有下述意义。即,如图11所示,隶属于类别1的数据需要进入b1+和b1-之间(也就是说,b1-≤w′φ(xi1)≤b1+),但是,没有进入的部分作为误差进行计数。b1+≥b1-是使b1-≤w′(xi1)≤b1+成立的必要的制约条件。b1-≥0是用于将原点区域设为未知区域的必要的制约条件。也就是说,这是因为,若没有b1-≥0的制约条件,就有可能成为b1-≤0≤b1-。另外,代替b1-≥0,b1+≤0也可以。
(2)式是标准的凸2维规划问题,通过超平面集合最优化部321及数学规划问题计算装置322计算出最佳答案。
另外,在特征空间为非线性,向特征空间的映像φ没有被明确地给出的情况下,一般不能够直接求解(2)式。但是,在特征空间中的内积作为核函数进行定义的情况下,通过求解(2)式的对偶问题能够计算出超平面。
(2)式的对偶问题通过(3)式那样导入拉格朗日的待定乘数,得到(4)式。
subject to 拉格朗日的待定乘数为αi1+、αi1-、μ0、μ1、γ1+、γ1-、δ。但是,k(xi1,xi′1)=φ(xi1)Tφ(xi′1)为特征空间的内积,在对偶问题中不管φ(x)为什么函数,只要能够计算其内积φ(xi1)Tφ(xi′1)就能够进行求解。(4)式所表示的对偶问题也是凸2维规划问题。
对于对偶问题,权重w表示为(5)式,因此,f(x)=wTφ(x)由(6)式表示。在解出了对偶问题的情况下,所存储的内容不是图4的wi和b的组,而是αi和b的组。
C=2的情况 在从学习数据存储装置224输入的数据相关的类别为2个的情况下,针对各类别计算平行的2个超平面。这样的多个超平面能够通过求解作为例子的(7)式所示的最优化问题计算出来。
subject to 在(7)式中,(a)至(e)的基准表现为(a)第2项、(b)第1项、(c)第3项、(d)第4项。关于(e)的基准,由于自动地满足b1-≥b2-,因此明显没有必要进行考虑。v0、v1及v2是决定在哪个基准上施加权重的参数,是大于0小于1的实数值。通过(7)式计算出来的多个超平面是如图12所示那样的超平面。以下,对(7)式中的目的函数及制约条件进行补充说明。
式(7)的目的函数中的第4项是最优化的基准(e)所必需的项,附带有绝对值标号的理由是,j=2时b2-、b2+均为负。式(7)的制约条件中的0≥b2+是为了使有2个类别的双方都不横跨原点0的制约条件。也就是说,为了避免b1-≤0≤b1+、b2-≤0≤b2+这样的状沉,能够考虑到接下来的3种情况。即。两个类别在正侧(即、0≤b1-且0≤b2-)、两个类别在负侧(即、b1+≤0且b2+≤0)、各类别夹着原点0相互在相反的一侧。式(7)是采用了最后的情况。
与C=1的情况相同,(7)式是凸2维规划问题。另外,利用与得到(2)式至(4)式相同的步骤导出对偶问题,也能够通过解出对偶问题进行最优化。(7)式的对偶问题也是凸2维规划问题。
C≥3的情况 在从学习数据存储装置224输入的数据相关的类别为3个以上的一般情况下,为了计算平行的多个超平面的组,可以想到,对输入的类别的任意的2个组合实施C=2的情况时的最优化,利用所得到的多个超平面的组采取多数决定。
另外,通过求解例如(8)式所示的最优化问题,也能够计算平行的多个超平面的组。
subject to 在(8)式中,(a)至(e)的基准表现为(a)第2项、(b)第1项、(c)第3项、(d)第4项。关于(e)的基准,通过关于φ的制约条件进行表现。以下,对(8)式中的目的函数及制约条件进行补充说明。
在式(2)及式(7)所示的1类别及2类别的情况下已经决定了特征空间中的类别的区域的顺序,因此,能够以使各类别的区域远离原点的方式实现基准(e)。但是,一般而言,在多类别时,如何设置类别的区域的顺序不是显而易见的。作为一个方案,可以想到用全部的组合进行求解的方法,但是,存在计算量多的缺点。基于(8)式的最优化不存在组合的考虑,能够自动地决定为最佳的顺序。
为此,首先如图13所示,将原点周围的未知类别的区域设为b0-和b0+所夹的区域,作为这样设定的制约条件,使b0+≥0、0≥b0-,利用目的函数的第4项使该区域最大化(第4项的符号为负,目的函数最小化,因此该区域成为最大化)。
接着,需要有用于使已知类别的区域(及原点周围的未知类别区域)如图14所示那样不能重迭的制约。这样的制约在各类别的区域的顺序与原点之间的位置关系被明确地决定的情况下,能够如b1-≤0、b2-≥0、b2+≤b3-那样、明确地写出作为顺序不重复的制约。在考虑整个组合的情况下附带这样的制约条件,但是,(8)式是以事先不知道顺序为前提的,因此,不能够写明这样的制约。因此,通过bj-≥bk+-ψjk-、bj+≤bk-+ψjk+、ψjk-ψjk+=0及bj-≥b0+-ψj0-、b0-≤bj++ψj0+、ψj0-ψj0+=0这样的制约条件,来实施已知类别的区域(及原点周围的未知类别区域)不能重迭的制约。
另外,关于bj-≥bk+-ψjk-,在bj-≥bk+成立的情况下(即、类别j在类别k的正方向上),ψjk-=0。相反,关于bj+≤bk-+ψjk+,在bj+≤bk-成立的情况下(即、类别j在类别k的负方向上),ψjk+=0。为了使类别间没有重复,不得不需要使bj-≥bk+-或者bj+≤bk-,因此需要ψjk-=0成立或者ψjk+=0成立。因此,通过ψj0-ψj0+=0这样的制约,能够实施各类别没有重复的制约。
与ψj0-、ψj0+有关的制约条件表示与原点周围的区域和已知类别的区域有关的相同的制约。
接着,对本实施方式的动作进行说明。
本实施方式的动作大体分为超平面集合计算装置320进行的超平面的计算处理和利用该计算出的超平面进行的分类对象数据150的分类处理。
在超平面集合计算装置320进行的超平面的计算处理中,通过超平面集合最优化部321从学习数据存储装置224读入分类已知的学习数据,计算同时最优化针对该学习数据的分类误差的最小化、超平面集合的复杂性的最小化及各类别区域的大小的最小化的多个超平面,并存储于存储装置222。接着,通过超平面集合输出部323从存储装置222读出规定多个超平面的数据,并作为超平面集合324存储在超平面集合存储装置310中。
本实施方式的数据分类装置300的动作与图1所示的第一实施方式所涉及的数据分类装置100的动作基本相同。
根据这样的本实施方式,能够得到与第一实施方式相同的效果,同时,能够用由超平面集合计算装置320计算出的最新的多个超平面来置换在超平面集合存储装置310中存储的多个超平面,能够得到不但充实学习数据并且提高性能的效果。
第四实施方式 参照图15,本发明的第四实施方式所涉及的数据分类装置400与图7所示的第二实施方式所涉及的数据分类装置200相比,在具有超球面集合存储装置410代替分离面集合存储装置210这一点和连接有超球面集合计算装置420代替分离面集合计算装置220这一点不同。
超球面集合计算装置420基于被分类为1个以上的已知类别中的多个学习数据及其分类,针对将特征空间分离为与1个以上的已知类别分别对应的1个以上的类别区域和除此之外的未知类别区域的多个超球面,对每1类别计算2个以上且互相同心的多个超球面。另外,超球面集合存储装置410是用于存储规定由超球面集合计算装置420计算出的多个超球面的信息的装置。
参照图16,超球面集合计算装置420具备超球面集合最优化部421、存储装置222、数学规划问题计算装置422和超球面集合输出部423,从学习数据存储装置224输入学习用的数据,输出最优化后的超球面集合424。即,超球面集合计算装置420为了进行数据分类计算多个同心的超球面。因此,在本实施方式的数据分类装置400中,如图3所示,通过同心的超球面分割各类别的区域,由此来实现数据分类。
以下,关于超球面的具体的计算步骤,以几个例子为基础进行说明。
将从学习数据存储装置224输入的数据相关的类别的指数设为j=1、…、C。以下,将xij设为隶属于第j号的类别的第1号的数据,将隶属于各类别的学习数据的数量设为Nj。若将超球面的中心设为c、半径设为r,则超球面可以写成|φ(x)-c|2=r。现在,超球面同心,因此,中心c在各类别中是共同的,所以,c及第j号的类别的外侧的半径rj+及内侧的半径rj-通过超球面集合最优化部421被最优化。
作为用于最优化的基准,通过同时最优化以下的3个条件,计算针对c和各j的rj+及rj-。
(a′)分类误差最小化; (b′)c的复杂性最小化; (c′)各已知类别区域的大小的最小化。
另外,也可以是,除了上述条件以外,还对下述2个条件中的一个或同时对双方进行最优化,由此计算针对c和各j的rj+及rj-。所述2个条件是 (d′)原点周围的未知区域的大小最大化; (e′)各类别的区域不重叠。
同时最优化(a′)至(e′)的多个基准的具体例子例如能够举出式(9)。式(9)不管类别是几个都能够适用,但是以知道类别的顺序为前提。
subject to 在图17中示出通过式(9)计算出来的超球面集合的一例。式(9)是将目的函数及制约条件的凹部分和凸部分相加的形式,因此利用concave-convex Procedure(参照文献8)等能够高效地计算最佳答案。以下,对式(9)中的目的函数及制约条件进行说明。
式(9)的目的函数中的第1项由于是类别j的区域的外半径-内半径的形式,是最优化的基准(c′)所必需的项。第2项相当于式(7)的第2项,是最优化的基准(a′)所必需的项。第3项是最优化的基准(d′)所必需的项。其理由如下所述。
首先,根据制约条件的c2≤min{rj-}2,实施原点位于最小的超球面的内侧的制约。这是因为,c2是原点与超球面的中心之间的距离,min{rj-}2是超球面的中心与最内侧的超球面之间的距离距離(即半径)。也就是说,最内侧的球的内部为原点周围的未知区域。因此,通过较大地设定min{rj-}2,实现基准(d′)。
基准(b′)在式(9)的目的函数中没有明确地被包含,而暗含在制约条件之中。基准(e′)通过rj+≥rj-和rj+1-≥rj+制约。
接着,对本实施方式的动作进行说明。
本实施方式的动作大体具有超球面集合计算装置420进行的超球面的计算处理和利用该计算出的超球面进行的分类对象数据150的分类处理。
在超球面集合计算装置420进行的超球面的计算处理中,超球面集合最优化部421从学习数据存储装置224读入分类已知的学习数据,计算同时最优化针对该学习数据的分类误差的最小化、超球面集合的复杂性的最小化及各类别区域的大小的最小化的多个超球面,并存储于存储装置222。接着,超球面集合输出部323从存储装置222读出规定多个超球面的数据,并作为超球面集合424存储在超球面集合存储装置410中。
本实施方式的数据分类装置400的动作与图1所示的第一实施方式所涉及的数据分类装置100的动作基本相同。
根据这样的本实施方式,能够得到与第一实施方式相同的效果,同时,能够用由超球面集合计算装置420计算出的最新的多个超球面置换在超球面集合存储装置410中存储的多个超球面。因此,能够得到不但充实学习数据而且提高性能的效果。
以上对本发明的实施方式进行了说明,但是本发明不限于以上的实施方式,能够进行其他各种的附加变更。此外,本发明的数据分类装置不但能够硬件地实施其具有的功能,并且能够通过计算机和程序进行实施。程序记录在磁盘或半导体存储器等的计算机可读记录媒体中进行提供,在计算机开启时等被计算机读取,通过控制该计算机的动作,使该计算机作为所述的各实施方式中的数据分类装置、分离面集合计算装置、超平面集合计算装置、超球面集合计算装置发挥功能,执行所述的处理。
权利要求
1.一种数据分类装置,其特征在于,具备
分离面集合存储部,存储有对将特征空间分离为与至少1个已知类别分别对应的至少1个已知类别区域和未知类别区域的多个分离面进行规定的信息,其中,所述至少1个已知类别区域的每个通过所述多个分离面中不相交的2个以上分离面与外部区域相分离;以及
分类部,通过对能够计算内积的分类对象数据隶属于在所述分离面存储部中存储的所述信息所规定所述至少1个已知类别区域和所述未知类别区域中的哪个区域进行计算,来决定所述分类对象数据的分类。
2.根据权利要求1所述的数据分类装置,其特征在于,还具备
分离面集合计算部,基于能够计算所述特征空间中的内积且分别被分类到所述至少1个已知类别中的某个类别中的多个学习数据及所述多个学习数据的各自的分类,计算多个分离面,将规定所述多个分离面的信息存储在所述分离面集合存储部中。
3.根据权利要求2所述的数据分类装置,其特征在于,
所述分离面集合计算部以针对所述多个学习数据的分类误差的最小化、所述多个分离面各自的复杂性的最小化及所述至少1个已知类别区域的大小的最小化分别作为最优化目的来计算所述多个分离面。
4.根据权利要求3所述的数据分类装置,其特征在于,
所述分离面集合计算部还以原点周围的所述未知类别区域的大小的最大化作为最优化目的之一。
5.根据权利要求3所述的数据分类装置,其特征在于,
所述分离面集合计算部还以所述至少1个已知类别区域相互之间的重叠的最小化作为最优化目的之一。
6.根据权利要求1~5中任一项所述的数据分类装置,其特征在于,
所述多个分离面分别形成为在所述特征空间上展开的超平面。
7.根据权利要求1~5中任一项所述的数据分类装置,其特征在于,
所述多个分离面分别形成为在所述特征空间上封闭的超平面。
8.根据权利要求1~7中任一项所述的数据分类装置,其特征在于,
所述特征空间是与所述学习数据及所述分类对象数据维数相同的向量空间。
9.根据权利要求1~7中任一项所述的数据分类装置,其特征在于,
所述特征空间是通过对所述学习数据及所述分类对象数据进行非线性变换而被赋予了特征的空间。
10.一种数据分类方法,其特征在于,包括
(a)输入能够计算特征空间中的内积的分类对象数据的工序;
(b)从分离面存储部输入将特征空间分离为与至少1个已知类别分别对应的至少1个已知类别区域和未知类别区域的多个分离面的工序,其中,所述至少1个的多个已知类别区域分别通过所述多个分离面中的不相交的2个以上分离面与外部区域相分离;以及
(c)通过计算所述分类对象数据隶属于至少1个已知类别区域和所述未知类别区域中的哪个区域,来决定所述分类对象数据的分类的工序。
11.根据权利要求10所述的数据分类方法,其特征在于,还包括
(d)基于能够计算所述特征空间中的内积且被分别分类在所述至少1个已知类别的某个中的多个学习数据及所述多个学习数据的各自的分类,计算所述多个分离面,将规定所述多个分离面的信息存储在所述分离面集合存储部中的工序。
12.根据权利要求11所述的数据分类方法,其特征在于,
在所述工序(d)中,以针对所述多个学习数据的分类误差的最小化、所述多个分离面各自的复杂性的最小化及所述至少1个已知类别区域的最小化分别作为最优化目的来计算所述多个分离面。
13.根据权利要求12所述的数据分类方法,其特征在于,
在所述工序(d)中,还以原点周围的所述未知类别区域的大小的最大化作为最优化目的之一。
14.根据权利要求12所述的数据分类方法,其特征在于,
在所述工序(d)中,还以所述至少1个已知类别区域相互之间的重叠的最小化作为最优化目的之一。
15.一种分离面集合计算装置,其特征在于,具备
学习数据存储部,存储能够计算存储特征空间中的内积且被分别分类到至少1个已知类别的某个中的多个学习数据;
分离面集合计算部,基于存储在所述学习数据存储部中的所述多个学习数据及所述多个学习数据各自的分类,计算将所述特征空间分离为与所述至少1个已知类别分别对应的至少1个已知类别区域和未知类别区域的多个分离面,其中,所述至少1个已知类别区域的每个通过所述多个分离面中不相交的2个以上分离面与外部区域相分离;以及
分离面集合存储部,存储规定所述多个分离面的信息。
16.根据权利要求15所述的分离面集合计算装置,其特征在于,
所述分离面集合计算部以针对所述多个学习数据的分类误差的最小化、所述多个分离面各自的复杂性的最小化及所述至少1个已知类别区域的大小的最小化分别作为最优化目的来计算所述多个分离面。
17.根据权利要求16所述的分离面集合计算装置,其特征在于,
所述分离面集合计算部还以原点周围的所述未知类别区域的大小的最大化作为最优化目的之一。
18.根据权利要求16所述的分离面集合计算装置,其特征在于,
所述分离面集合计算部还以所述至少1个已知类别区域相互之间的重叠的最小化作为最优化目的之一。
19.一种程序,用于使计算机执行具备下述工序的方法,所述工序为
(a)输入能够计算特征空间中的内积的分类对象数据的工序;
(b)从分离面存储部输入将特征空间分离为与至少1个已知类别分别对应的至少1个已知类别区域和未知类别区域的多个分离面的工序,其中,所述至少1个的多个已知类别区域的每个通过所述多个分离面中不相交的2个以上分离面与外部区域相分离;以及
(c)通过计算所述分类对象数据隶属于至少1个已知类别区域和所述未知类别区域中的哪个区域,来决定所述分类对象数据的分类的工序。
20.根据权利要求19所述的程序,其特征在于,使计算机执行的方法还包括
(d)基于能够计算所述特征空间中的内积且被分别分类在所述至少1个已知类别的某个中的多个学习数据及所述多个学习数据的各自的分类,计算所述多个分离面,将规定所述多个分离面的信息存储在所述分离面集合存储部中的工序。
21.根据权利要求20所述的程序,其特征在于,
在所述工序(d)中,以针对所述多个学习数据的分类误差的最小化、所述多个分离面各自的复杂性的最小化及所述至少1个已知类别区域的最小化分别作为最优化目的来计算所述多个分离面。
22.根据权利要求21所述的程序,其特征在于,
在所述工序(d)中,还以原点周围的所述未知类别区域的大小的最大化作为最优化目的之一。
23.如权利要求21所述的程序,其特征在于,
在所述工序(d)中,还以所述至少1个已知类别区域相互之间的重叠的最小化作为最优化目的之一。
24.一种程序,使计算机执行具备以下工序的方法,所述工序为
(a)存储能够计算特征空间中的内积且分别被分类在至少1个已知类别的某个中的多个学习数据的工序;
(b)基于存储在所述学习数据存储部中的所述多个学习数据及所述多个学习数据的各自的分类,计算将所述特征空间分离为与所述至少1个已知类别分别对应的至少1个已知类别区域和未知类别区域的多个分离面的工序,其中,所述至少1个已知类别区域的每个通过所述多个分离面中不相交的2个以上分离面与外部区域相分离;以及
(c)存储规定所述多个分离面的信息的工序。
25.根据权利要求24所述的程序,其特征在于,
在所述(c)计算工序中,所述分离面集合计算部以针对所述多个学习数据的分类误差的最小化、所述多个分离面各自的复杂性的最小化及所述至少1个已知类别区域的大小的最小化分别作为最优化目的来计算所述多个分离面。
全文摘要
分离面集合存储部存储有规定将特征空间分离为与至少1个已知类别分别对应的至少1个已知类别区域和未知区域的多个分离面的信息。各已知类别区域通过不相交的2个以上分离面而分离。数据分类装置通过计算能够计算特征空间中的内积的分类对象数据隶属于至少1个已知类别区域和未知类别区域中的哪个区域,来决定分类对象数据的分类。提供能够在相同的步骤中同时进行可靠性高的识别和偏离值分类的数据分类方法和数据分类装置。
文档编号G06N3/00GK101809574SQ20088010949
公开日2010年8月18日 申请日期2008年4月21日 优先权日2007年9月28日
发明者藤卷辽平 申请人:日本电气株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1