领域自适应模式识别方法及系统的制作方法

文档序号:6535136阅读:220来源:国知局
领域自适应模式识别方法及系统的制作方法
【专利摘要】本申请公开了一种领域自适应模式识别方法,该方法通过将源域样本表示为目标域样本的线性组合来将其转换到目标域上,然后利用转换后的样本训练监督模型,并利用训练好的监督模型来进行目标域上的模式识别。该方法在源域与目标域的公共子空间中求解所述线性组合系数,保证了源域到目标域转换的可靠性和稳定性;同时,在原始样本空间应用所求得的重构系数进行目标域化,保留了目标域特定的信息,更有利于目标域上识别模型的学习。该方法既能有效利用源域与目标域共性以建立源域到目标域迁移的桥梁,又能充分挖掘目标域的特性,进一步提升目标域上任务的性能。
【专利说明】领域自适应模式识别方法及系统
【技术领域】
[0001]本发明属于模式识别领域,尤其涉及无监督领域自适应技术。
【背景技术】
[0002]模式识别的重要任务之一是实现对特定物体或现象的辨认、分类和解释。其中统计模式识别方法是模式识别技术的主流方法之一。基于统计的分类方法,通常需要在大量的训练数据上学习模型,然后将其应用到测试数据上。当测试数据与训练数据具有相同的分布时,这是一种非常有效的方法。然而在实际当中通常会出现测试数据与训练数据的分布不相同的情况,从而使得在训练数据上学习的模型性能下降。
[0003]领域自适应(domain adaptation)技术正是为了解决“训练数据与测试数据分布不同导致的模型性能下降”这一问题而提出来的。通常将目标任务所在的域称为目标域,与目标域相关但不同的训练数据所在的域称为源域。在无监督领域自适应场景下,源域上的训练数据是有类别标注信息的,而目标域上的训练数据通常是没有类别标注信息的。由于源域与目标域分布不同,直接将源域上得到的模型应用到目标域上通常无法得到令人满意的性能,因而领域自适应技术旨在将源域的监督信息迁移到目标域上,以提升目标域上任务的性能。
[0004]领域自适应的关键在于如何在两个分布不同的领域(即源域和目标域)之间建立起信息迁移的桥梁,大致包含三类技术方法。较为简单的场景下,源域和目标域具有相同的支撑集(support),则可以通过对源域的数据进行重采样以使得重采样之后的源域与目标域具有相同的分布。较复杂的场景下,可以采用在源域和目标域之间共享模型参数的方法来将源域的监督知识迁移到目标域上,但这类方法通常需要一定的先验知识来设计模型共享的形式。一种更易于操作且行之有效的方法则是直接建模源域与目标域之间的共性,如学习可以降低领域差异的公共特征表示或共同子空间。这类方法只考虑了利用源域与目标域的共性来实现源域知识到目标域的迁移,但没有考虑目标域的特性,对于目标域上的任务并不是最优的。

【发明内容】

[0005]因此,本发明的目的在于克服上述现有技术的缺陷,提供一种新的领域自适应模式识别方法,以提升目标域上任务的性能。
[0006]本发明的目的是通过以下技术方案实现的:
[0007]—方面,本发明提供了一种领域自适应模式识别方法,所述方法包括:
[0008]步骤I)通过将源域样本表示为目标域样本的线性组合来将其转换到目标域上,其中用于所述线性组合的系数是在源域样本与目标域样本的公共子空间中得到;
[0009]步骤2)利用转换后的样本训练监督模型,并利用训练好的监督模型来进行目标域上的模式识别。
[0010]上述方法中,所述步骤I)可包括:[0011]步骤1-1)获取源域样本与目标域样本的公共子空间;
[0012]步骤1-2)在该公共子空间中求解用于由公共子空间中目标域数据重构公共子空间中每个源域数据的线性组合系数;
[0013]步骤1-3)根据所述线性组合系数将源域样本表示为目标域样本的线性组合,从而源域样本转换到目标域上。
[0014]上述方法中,所述步骤1-1)获取所述公共子空间的目标函数可以为最大化源域与目标域的散度的同时最小化源域与目标域相互重构的误差。
[0015]上述方法中,所述步骤1-2)可包括:
[0016]a)将源域样本投影到公共子空间,以得到公共子空间中源域数据;
[0017]b)将目标域样本投影到公共子空间,以得到公共子空间中目标域数据;
[0018]c)将公共子空间中源域数据的每一个样本表示为公共子空间中目标域数据的线性组合;
[0019]d)基于公共子空间中源域数据和公共子空间中目标域数据求解所述线性组合系数。
[0020]上述方法中,所述步骤d)中所述线性组合系数可以是通过最小二乘回归法、稀疏表示法或者底秩表示法进行求解得到的。
[0021]又一方面,本发明提供了一种领域自适应模式识别系统,该系统包括:
[0022]样本转换模块,用于通过将源域样本表示为目标域样本的线性组合来将其转换到目标域上,其中用于所述线性组合的系数是在源域样本与目标域样本的公共子空间中得到;
[0023]模式识别模块,用于利用转换后的样本训练监督模型,并利用训练好的监督模型来进行目标域上的模式识别。
[0024]上述系统中,所述样本转换模块可以被配置为:
[0025]获取源域样本与目标域样本的公共子空间;
[0026]在该公共子空间中求解用于由公共子空间中目标域数据重构公共子空间中每个源域数据的线性组合系数;
[0027]根据所述线性组合系数将源域样本表示为目标域样本的线性组合,从而源域样本转换到目标域上。
[0028]上述系统中,获取所述公共子空间的目标函数可以为最大化源域与目标域的散度的同时最小化源域与目标域相互重构的误差。
[0029]上述系统中,所述样本转换模块还可被配置为:
[0030]将源域样本投影到公共子空间,以得到公共子空间中的源域数据;
[0031]将目标域样本投影到公共子空间,以得到公共子空间中的目标域数据;
[0032]将公共子空间中每一个源域数据表示为公共子空间中目标域数据的线性组合;
[0033]基于公共子空间中源域数据和公共子空间中目标域数据求解所述线性组合系数。
[0034]与现有技术相比,本发明的优势在于:
[0035]通过将源域样本表示为目标域样本的线性组合从而将其转换到目标域上,实现了源域的监督知识到目标域的迁移。其中目标域化的线性组合系数是在源域与目标域的公共子空间中得到,从而保证了重构系数的稳定性和可靠性;同时,在原始样本空间应用求得的重构系数进行目标域化,保留了目标域特定的信息,更有利于目标域上识别模型的学习。该方法既能有效利用源域与目标域共性以建立源域到目标域迁移的桥梁,又能充分挖掘目标域的特性,进一步提升目标域上任务的性能。
【专利附图】

【附图说明】
[0036]以下参照附图对本发明实施例作进一步说明,其中:
[0037]图1为根据本发明实施例的无监督领域自适应模式识别方法的流程示意图。
【具体实施方式】
[0038]为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0039]图1给出了根据本发明实施例的领域自适应模式识别方法的流程示意图。该方法主要包括下列步骤:步骤1)将源域样本转换到目标域上;步骤2)利用转换后的样本训练监督模型,并利用训练好的监督模型来进行目标域上的模式识别。
[0040]现参考图1,在步骤1)将源域样本转换到目标域上。该过程也称为源域样本的目标域化。在一个实施例中,通过将源域样本表示为目标域样本的线性组合从而将其转换到目标域上,以实现源域的监督知识到目标域的迁移。其中,用于所述线性组合的系数是在源域与目标域的公共子空间中得到。结合图1而言,源域与目标域既有共性的部分(称为公共部分)也有各自特异性的部分(称为特定部分)。共性部分所在的子空间可称为公共子空间。首先,例如,可通过两个投影矩阵Ws和Wt分别将源域数据Xs和目标域数据Xt投影到一个公共子空间中,即Zs = WjXs, Zt = Wt7X,其中zs、Zt为源域数据和目标域数据在公共子空间中的表示(下文也可以分别称为公共子空间中源域数据和公共子空间中目标域数据)。获取源域与目标域的公共子空间实际上就是求取源域和目标域到公共子空间的投影矩阵1和1。可以采用很多方式来获得源域与目标域的公共子空间。例如,可以通过最大化源域和目标域的散度同时最小化相互重构的误差、学习公共特征表示等方法得到源域与目标域的公共子空间。
[0041]获得了源域与目标域的公共子空间,也就可以获得源域数据集和目标域数据集在公共子空间中的表示Zs、Zt。接着,可以在公共子空间中将源域数据集Zs表示为目标域数据集Zt的线性组合,例如,Zf ≈ ZtVf,其中Zf表示公共子空间中第i个源域数据;vf表示第i个源域数据相应的线性组合系数,其实际上是一个多维向量,该向量的维数为目标域数据的个数。然后,基于公共空间中的源域数据集Zs和目标域数据集zt,求解用来目标域化源域数据的线性组合系数,得到每个源域数据对应的线性组合系数,例如,最终求解得到的第i个源域数据相应的线性组合系数为Vf*。由于在公共子空间的源域数据集Zs与目标域数据集Zt具有相同的分布,所以任意的可重构以及线性表示方法如最小二乘回归、稀疏表示、底秩表示等,都可以用来基于已知zs、Zt求解该线性组合的系数,也就是获得在公共子空间中目标域数据重构源域数据的线性组合系数。最后,根据在公共子空间中所获得的线性组合系数,将原始的源域样本表示为原始目标域样本的线性组合,从而将源域样本转换到目标域上,即得到目标域化的源域样本。例如,如图1所示,将原始的第i个源域样本转换到目标域上,得到目标域化的第i个源域数据
【权利要求】
1.一种领域自适应模式识别方法,所述方法包括: 步骤I)通过将源域样本表示为目标域样本的线性组合来将其转换到目标域上,其中用于所述线性组合的系数是在源域样本与目标域样本的公共子空间中得到; 步骤2)利用转换后的样本训练监督模型,并利用训练好的监督模型来进行目标域上的模式识别。
2.根据权利要求1的方法,所述步骤I)中包括: 步骤1-1)获取源域样本与目标域样本的公共子空间; 步骤1-2)在该公共子空间中求解用于由公共子空间中目标域数据重构公共子空间中每个源域数据的线性组合系数; 步骤1-3)根据所述线性组合系数将源域样本表示为目标域样本的线性组合,从而源域样本转换到目标域上。
3.根据权利要求2所述的方法,所述步骤1-1)获取所述公共子空间的目标函数为最大化源域与目标域的散度的同时最小化源域与目标域相互重构的误差。
4.根据权利要求2所述的方法,所述步骤1-2)包括: a)将源域样本投影到公共子空间,以得到公共子空间中的源域数据; b)将目标域样本投影到公共子空间,以得到公共子空间中的目标域数据; c)将公共子空间中源域数据的每一个样本表示为公共子空间中目标域数据的线性组合; d)基于公共子空间中源域数据和公共子空间中目标域数据求解所述线性组合系数。
5.根据权利要求4所述的方法,所述步骤d)中所述线性组合系数是通过最小二乘回归法、稀疏表示法或者底秩表示法进行求解得到的。
6.一种领域自适应模式识别系统,所述系统包括: 样本转换模块,用于通过将源域样本表示为目标域样本的线性组合来将其转换到目标域上,其中用于所述线性组合的系数是在源域样本与目标域样本的公共子空间中得到;模式识别模块,用于利用转换后的样本训练监督模型,并利用训练好的监督模型来进行目标域上的模式识别。
7.根据权利要求1的系统,所述样本转换模块被配置为: 获取源域样本与目标域样本的公共子空间; 在该公共子空间中求解用于由公共子空间中目标域数据重构公共子空间中每个源域数据的线性组合系数; 根据所述线性组合系数将源域样本表示为目标域样本的线性组合,从而源域样本转换到目标域上。
8.根据权利要求7所述的系统,其中获取所述公共子空间的目标函数为最大化源域与目标域的散度的同时最小化源域与目标域相互重构的误差。
9.根据权利要求7的系统,其中,所述样本转换模块还被配置为: 将源域样本投影到公共子空间,以得到公共子空间中的源域数据; 将目标域样本投影到公共子空间,以得到公共子空间中的目标域数据; 将公共子空间中每一个源域数据表示为公共子空间中目标域数据的线性组合; 基于公共子空间中源域数据和公共子空间中目标域数据求解所述线性组合系数。
【文档编号】G06K9/66GK103729648SQ201410006653
【公开日】2014年4月16日 申请日期:2014年1月7日 优先权日:2014年1月7日
【发明者】阚美娜, 山世光, 吴俊婷, 陈熙霖 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1