一种域适应学习的最优核组合选择方法

文档序号:6523151阅读:222来源:国知局
一种域适应学习的最优核组合选择方法
【专利摘要】本发明涉及一种域适应学习的最优核组合选择方法。在实际应用场景中,通常由于缺少足够的具有标签的样本,以至于不能够训练一个鲁棒的分类器。但是,可以利用已经进行了标签的大量样本来帮助目标域中的数据来训练分类器。本发明将辅助域与目标域的样本映射到高维空间中通过假设检验的方法判断两样本服从同一分布的概率,同时,用支持向量机对辅助域与目标域的数据进行经验结构风险最小化。在建模过程中,本发明采取的是多核支持向量机。因此,可以构建一个以核组合参数的目标函数,最后可以通过最优化方法解该目标函数。然后会得到一个分类器,可以对目标域的数据进行分类。
【专利说明】一种域适应学习的最优核组合选择方法
发明领域
[0001]本发明属于跨域学习领域中的一种最优核组合选择算法,具体讲,是在两个样本 域不同分布并且其中一个样本的标签数据稀少的基础上,通过核组合方法利用辅助域的数 据在目标域中训练一个分类器。
【背景技术】
[0002]传统的机器学习方法通常假设训练数据与测试数据服从同一分布。但是对于很多 实际的应用,非常困难获取足够的具有标签的样本来训练一个鲁棒的分类器。最近,很多研 究者关注跨域学习的问题,也就是说通过利用辅助域的数据(已标签)来帮助目标域(少量 标签,但不足以训练一个鲁棒的分类器)训练一个分类器,但是目标域与辅助域的并不服从 同一分布。
[0003]为了充分利用目标域与辅助域的标签数据,Daume提出了一个feature replication方法来用增强feature。这种扩展feature的方法通过构造一个支持向量机 核函数来执行。Yang等人提出了自适应向量机方法来进行跨域学习,并且成功将这个方法 用于视觉概念分类。主要是通过辅助域的分类器来适配新的分类器。Jiang等人提出了跨 域支持向量机通过用k最邻近方法来对每一个标签数据定义一个权重,然后通过不断调整 权重来训练分类器。
[0004]这些方法共同的一个不足是,这些方法没有充分利用目标域中没有标签的数据, 没有标签的数据可以用来提升分类器的性能。一个共同的观察,这些方法都利用了支持向 量机、支持向量机的变体以及相应的核方法,将目标域与辅助域的源数据映射到特征空间 来获得一个鲁棒的分类器,同时最小化目标域与辅助域之间的不匹配程度。分类器的性能 严重的依赖于核函数以及相关参数的选择。在本发明中,我们提出了一个方法在跨域学习 中进行最优核组合的选择。

【发明内容】

[0005]本发明的目的是在于为了克服传统机器学习目标域样本标签数据稀少的情况下, 不足以用目标域中的标签样本训练鲁棒的分类器。我们通过域适应方法,充分利用大量标 签的辅助域数据为目标域训练一个鲁棒的分类器,应用于目标域数据的分类工作。在跨域 学习过程中,需要用到相应的核函数组合,而本发明实现了一种方法用来求解得到一组最 优的核函数组合。
[0006]为实现上述目标,本创新发明的技术解决方案如下:
[0007]—种域适应学习的最优核组合选择方法,其特征在于包括以下步骤:
[0008]步骤1、将辅助域与目标域的样本映射到高维空间中通过假设检验的方法判断两 样本服从同一分布的概率,同时,用支持向量机对辅助域与目标域的数据进行经验结构风 险最小化。
[0009]注:辅助域,即与目标样本相似的具有大量标签的样本域。目标域,即我们需要对该样本域训练一个分类器,而该样本域没有足够的标签样本来训练一个鲁棒的分类器。
[0010]本发明采用流行的20NeWSgrOUS数据库进行实验,改数据库共有六个主要的类别与20种不同的新闻组,每一个新闻组属于不同的主题。具体采取的辅助域与目标域样本如下:
【权利要求】
1.一种域适应学习的最优核组合选择方法,其特征在于包括以下步骤:步骤1、将辅助域与目标域的样本映射到高维空间中通过假设检验的方法判断两样本服从同一分布的概率,同时,用支持向量机对辅助域与目标域的数据进行经验结构风险最小化;步骤2、构建以多核系数为参数的目标函数,将求解出核组合系数,并且能够得到分类器的参数,目标函数具体如下:
【文档编号】G06F17/30GK103605813SQ201310669455
【公开日】2014年2月26日 申请日期:2013年12月10日 优先权日:2013年12月10日
【发明者】董乐, 全品杰, 封宁, 吕娜 申请人:电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1