一种半监督的特征变换方法和装置制造方法

文档序号:6487868阅读:137来源:国知局
一种半监督的特征变换方法和装置制造方法
【专利摘要】本发明实施例提供一种半监督的特征变换方法和装置,其中,所述方法包括:根据预定的标签数据集中的各个标签数据的标签向量和特征向量,确定每一个标签数据与其他标签数据的关系Wll;根据预定的非标签数据集中的各个非标签数据的特征向量,确定每一个非标签数据与其他非标签数据的关系Wuu;根据所述预定的标签数据集中的各个标签数据的标签向量和特征向量,以及所述预定的非标签数据集中的各个非标签数据的特征向量,确定每一个标签数据与每一个非标签数据的关系Wlu;根据所述Wll、Wuu以及Wlu;确定特征变换矩阵,根据该特征变换矩阵进行半监督的特征变换。通过本发明实施例的方法和装置,提高了特征变换的效率,得到了更有效的特征变换结果。
【专利说明】一种半监督的特征变换方法和装置
【技术领域】
[0001]本发明涉及特征变换,尤其涉及一种半监督的特征变换方法和装置。
【背景技术】
[0002]特征变换是数据分类的关键技术。在数据分类任务中,数据,如图像或文本,通常都是在环绕欧氏空间的子流形上采样得到的,它们的原始特征不适合于在欧氏空间上分析。此外,数据原始特征经常具有较高维度,分类方法将会遇到维数灾(参考文献I)。因此为了得到较好的数据分类结果,一般都需要预先进行特征变换。
[0003]然而,大多数特征变换方法需要大量的标签数据,而获取如此多的标签数据费时费力;相比之下,非标签数据更容易获得,利用这些非标签数据以得到更好的特征变换技术显得越来越为重要。
[0004]基于子空间的半监督局部保持投影方法(Subspace sem1-supervised localitypreserving projection, SSLPP)是最近提出的一种半监督局部保持特征变换方法(参考文献2)。它首先在所有数据上找到一个子空间,然后在子空间上利用标签数据的原始特征和标签信息构建一个标签相邻无向图,并利用所有数据的原始特征和标签数据的标签信息构建一个完全相邻无向图,最后最小化标签相邻无向图和完全相邻无向图的拉普拉斯项以求得投影变换矩阵。
[0005]然而,发明人在实现本发明的过程中发现,上述方法并没有充分考虑标签数据与非标签数据之间的相互关系,而且它也不适用于多标签数据。
[0006]参考文献1.R.Bellman and R.Kalaba.0n adaptive control processes, IRETransactions on Automatic Control,vol.4,1959.[0007]参考文献2.W.Υ.Yang, S.W.Zhang, and W.Liang.A graph based subspacesem1-supervised learning framework for dimensionality reduction,664—677,2008.[0008]应该注意,上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的【背景技术】部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

【发明内容】

[0009]本发明实施例的主要目的在于提供一种半监督的特征变换方法,以提高特征变换的效率,得到更有效的特征变换结果。
[0010]本发明实施例的上述目的是通过如下技术方案实现的:
[0011]根据本发明实施例的第一方面,提供了一种半监督的特征变换方法,其中,所述方法包括:
[0012]第一确定步骤,其根据预定的标签数据集中的各个标签数据的标签向量和特征向量,确定每一个标签数据与其他标签数据的关系W11 ;
[0013]第二确定步骤,其根据预定的非标签数据集中的各个非标签数据的特征向量,确定每一个非标签数据与其他非标签数据的关系Wuu ;
[0014]第三确定步骤,其根据所述预定的标签数据集中的各个标签数据的标签向量和特征向量,以及所述预定的非标签数据集中的各个非标签数据的特征向量,确定每一个标签数据与每一个非标签数据的关系Wlu ;
[0015]特征变换步骤,其根据所述Wn、Wuu以及Wlu,确定特征变换矩阵,根据该特征变换矩阵进行半监督的特征变换。
[0016]根据本发明实施例的第二方面,提供了一种特征变换装置,其中,所述特征变换装置包括:
[0017]第一确定单元,其根据预定的标签数据集中的各个标签数据的标签向量和特征向量,确定每一个标签数据与其他标签数据的关系W11 ;
[0018]第二确定单元,其根据预定的非标签数据集中的各个非标签数据的特征向量,确定每一个非标签数据与其他非标签数据的关系Wuu ;
[0019]第三确定单元,其根据所述预定的标签数据集中的各个标签数据的标签向量和特征向量,以及所述预定的非标签数据集中的各个非标签数据的特征向量,确定每一个标签数据与每一个非标签数据的关系Wlu ;
[0020]特征变换单元,其根据所述Wn、Wuu以及Wlu,确定特征变换矩阵,根据该特征变换矩阵进行半监督的特征变换。
[0021]根据本发明实施例的第三方面,提供了一种分类器,其中,所述分类器包括前述的特征变换装置。
[0022]通过本发明实施例的方法和装置,在特征变换过程中,能保持标签数据中的判别信息,非标签数据中隐含的内在几何结构以及标签数据和非标签数据之间的相互作用,同时考虑了多标签数据中存在的标签关联,由此提高了特征变换的效率,得到了更有效的特征变换结果。
[0023]参照后文的说明和附图,详细公开了本发明的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
[0024]针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
[0025]应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
【专利附图】

【附图说明】
[0026]参照以下的附图可以更好地理解本发明的很多方面。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大或缩小。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。此外,在附图中,类似的标号表示几个附图中对应的部件,并可用于指示多于一种实施方式中使用的对应部件。
[0027]在附图中:[0028]图1是本发明实施例的特征变换方法的流程图;
[0029]图2是图1的方法中确定标签数据和标签数据之间的关系的方法流程图;
[0030]图3是图1的方法中确定非标签数据和非标签数据之间的关系的方法流程图;
[0031]图4是图1的方法中确定标签数据和非标签数据之间的关系的方法流程图;
[0032]图5是图1的方法中确定特征变换矩阵的方法流程图;
[0033]图6是本发明实施例的特征变换装置的组成示意图; [0034]图7是图6中第一确定单元的组成示意图;
[0035]图8是图6中第二确定单元的组成示意图;
[0036]图9是图6中第三确定单元的组成示意图;
[0037]图10是图6中特征变换单元的组成示意图。
【具体实施方式】
[0038]参照附图,通过下面的说明书,本发明实施例的前述以及其它特征将变得明显。这些实施方式只是示例性的,不是对本发明的限制。为了使本领域的技术人员能够容易地理解本发明的原理和实施方式,本发明实施例以半监督的局部保持投影特征变换方法为例进行说明,但可以理解,本发明实施例并不限于上述局部保持投影特征变换,涉及半监督的特征变换方法均包含于本发明的保护范围。下面参照附图对本发明的优选实施方式进行说明。
[0039]实施例1
[0040]本发明实施例提供了一种半监督的特征变换方法。图1是该方法的流程图,请参照图1,该方法包括:
[0041]第一确定步骤101,其根据预定的标签数据集中的各个标签数据的标签向量和特征向量,确定每一个标签数据与其他标签数据的关系W11 ;
[0042]第二确定步骤102,其根据预定的非标签数据集中的各个非标签数据的特征向量,确定每一个非标签数据与其他非标签数据的关系Wuu ;
[0043]第三确定步骤103,其根据所述预定的标签数据集中的各个标签数据的标签向量和特征向量,以及所述预定的非标签数据集中的各个非标签数据的特征向量,确定每一个标签数据与每一个非标签数据的关系Wlu ;
[0044]特征变换步骤104,其根据所述W11Juu以及Wlu,确定特征变换矩阵,根据该特征变换矩阵进行半监督的特征变换。
[0045]在本实施例中,给定标签数据集L=Kx1, Y1), (x2, y2),..., (X1, Y1)! ( |L|=1)以及非标签数据集U= {x1+1, x1+2,…,x1+u} ( I U=u),其中Xi是一个d维特征向量,它表示第i个数据的原始特征,Yi是一个k维的标签向量(通过O或I表示),它表示第i个数据的标签信息。本发明实施例基于该给定的标签数据集和非标签数据集,通过步骤101确定标签数据与标签数据之间的关系,通过步骤102确定非标签数据与非标签数据之间的关系,通过步骤103确定标签数据与非标签数据之间的关系,通过步骤104求解约束的局部线性保持投影矩阵。由此,在原始特征空间X上找到了一个最优的线性投影矩阵W,基于该W即可进行半监督的局部保持投影的特征变换。
[0046]在本实施例中,为了简化说明,将给定的标签数据集中的数据称为标签数据,将给定的非标签数据集中的数据称为非标签数据。其中,如前所述,每一个标签数据包含了特征向量和标签向量,每一个非标签数据仅包含特征向量。另外,前述标签数据也可以是多标签数据,多标签数据包含多个标签向量。因此,在以下的说明中,若无特殊说明,标签数据是指给定的标签数据集中的标签数据,非标签数据是指给定的非标签数据集中的非标签数据。
[0047]在本实施例中,各步骤编号的连续性并不代表各步骤的执行顺序,例如,步骤101、102和103可以顺序执行,也可以同时进行,在获得了三个关系矩阵后,再通过步骤104确定特征变换矩阵并实施特征变换。
[0048]在步骤101中,确定标签数据和标签数据的关系可以通过图2的方法来实现,请参照图2,该方法包括:
[0049]步骤201:确定每一个标签数据的相关标签数据;
[0050]其中,每一个标签数据的相关标签数据是指与该标签数据相关的标签数据,可以通过计算标签相似度来确定。
[0051]例如,对于每一个标签数据,先根据标签数据的标签向量,计算该标签数据(称为当前标签数据,下同)和各个其他标签数据之间的标签相似度;如果某个其他标签数据与该标签数据的标签相似度大于预定门限,则确定该其他标签数据是该标签数据的相关标签数据。也即,将标签相似度大于预定门限的其他标签数据作为该标签数据的相关标签数据。由此,可以确定每一个标签数据的相关标签数据。另外,由于标签相似度大于预定门限的其他标签数据可能有多个,因此,该标签数据的相关标签数据也可能有多个,在以下的说明中,也称为相关标签数据集。
[0052]其中,如果该标 签数据为多标签数据,则可以根据标签数据的标签向量和先验标签关联矩阵,计算该标签数据和各个其他标签数据之间的标签相似度。
[0053]在一个实施例中,对于任意两个标签数据i和j,它们之间的标签相似度S1, ,j可以根据以下公式计算:
[0054]S1;iJ=y/ ^yj(I)
[0055]其中,yi是第i个标签数据的标签向量,&是第j个标签数据的标签向量,C是k*k的标签关联矩阵。对于单标签数据,C=I,对于多标签数据,C可以是单位矩阵I,即标签之间没有关联,也可以通过以下公式计算:
[0056]
【权利要求】
1.一种半监督的特征变换方法,其中,所述方法包括: 第一确定步骤,其根据预定的标签数据集中的各个标签数据的标签向量和特征向量,确定每一个标签数据与其他标签数据的关系W11 ; 第二确定步骤,其根据预定的非标签数据集中的各个非标签数据的特征向量,确定每一个非标签数据与其他非标签数据的关系Wuu ; 第三确定步骤,其根据所述预定的标签数据集中的各个标签数据的标签向量和特征向量,以及所述预定的非标签数据集中的各个非标签数据的特征向量,确定每一个标签数据与每一个非标签数据的关系Wlu ; 特征变换步骤,其根据所述Wn、wuu以及wlu,确定特征变换矩阵,根据该特征变换矩阵进行半监督的特征变换。
2.根据权利要求1所述的方法,其中,所述第一确定步骤包括: 确定每一个标签数据的相关标签数据; 从所述每一个标签数据的相关标签数据中选择第一预定数量的相关标签数据作为当前标签数据的最相关的标签数据; 根据所述每一个标签数据及其最相关的标签数据,确定所述每一个标签数据与其他标签数据的关系W11。
3.根据权利要求2所述的方法,其中,确定每一个标签数据的相关标签数据的步骤包括: 根据标签数据的标签向量,或者`根据标签数据的标签向量和先验标签关联矩阵,计算当前标签数据和各个其他标签数据之间的标签相似度; 如果所述标签相似度大于预定门限,则确定所述其他标签数据是该当前标签数据的相关标签数据。
4.根据权利要求2所述的方法,其中,从所述每一个标签数据的相关标签数据中选择第一预定数量的相关标签数据作为当前标签数据的最相关的标签数据的步骤包括: 根据该当前标签数据的相关标签数据与该当前标签数据的距离,对该当前标签数据的相关标签数据进行排序; 选择距离最短的第一预定数量的相关标签数据作为该当前标签数据的最相关标签数据。
5.根据权利要求1所述的方法,其中,所述第二确定步骤包括: 确定每一个非标签数据的第二预定数量的最近的非标签数据; 根据每一个非标签数据及其最近的非标签数据,确定所述每一个非标签数据与其他非标签数据的关系Wuu。
6.根据权利要求1所述的方法,其中,所述第三确定步骤包括: 确定每一个标签数据的第三预定数量的最近的非标签数据; 根据每一个标签数据及其最近的非标签数据,确定所述每一个标签数据与每一个非标签数据的关系Wlu。
7.根据权利要求6所述的方法,其中,所述第三确定步骤还包括: 对于每一个非标签数据,如果与该非标签数据相关的两个标签数据之间的标签相似度大于预定门限,则对所述关系Wlu中该非标签数据分别与该两个标签数据的关系进行增强处理。
8.根据权利要求1所述的方法,其中,所述特征变换步骤包括: 基于局部保持投影方法,利用所述W11形成初始目标函数; 在所述初始目标函数上加入所述Wuu和所述Wlu所形成的正则项,形成目标函数; 根据以上目标函数确定特征变换矩阵,根据该特征变换矩阵进行半监督的特征变换。
9.一种特征变换装置,其中,所述特征变换装置包括: 第一确定单元,其根据预定的标签数据集中的各个标签数据的标签向量和特征向量,确定每一个标签数据与其他标签数据的关系W11 ; 第二确定单元,其根据预定的非标签数据集中的各个非标签数据的特征向量,确定每一个非标签数据与其他非标签数据的关系Wuu ; 第三确定单元,其根据所述预定的标签数据集中的各个标签数据的标签向量和特征向量,以及所述预定的非标签数据集中的各个非标签数据的特征向量,确定每一个标签数据与每一个非标签数据的关系Wlu ; 特征变换单元,其根据所述Wn、wuu以及wlu,确定特征变换矩阵,根据该特征变换矩阵进行半监督的特征变换。
10.一种分类器,其中,所述分类器包括权利要求9所述的特征变换装置。
【文档编号】G06F17/30GK103593357SQ201210290343
【公开日】2014年2月19日 申请日期:2012年8月15日 优先权日:2012年8月15日
【发明者】刘曦, 刘汝杰 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1