一种基于特征选择的多示例多标签学习方法及系统的制作方法

文档序号:9327457阅读:234来源:国知局
一种基于特征选择的多示例多标签学习方法及系统的制作方法
【技术领域】
[0001] 本发明涉及模式识别以及机器学习领域,具体涉及一种基于特征选择的多示例多 标签学习方法及系统。
【背景技术】
[0002] 多示例学习由于其独有的特性成为了与监督学习、非监督学习以及强化学习并列 的第四类机器学习框架,并成功应用于图像分类和标注、文本分类、目标跟踪、医疗图像辅 助识别、计算机安全、Web页面检索、人脸识别等领域。
[0003] 目前,关于多示例学习主要分为多示例单标签学习以及多示例多标签学习。
[0004] 多示例单标签学习,样本被表示为由多个示例组成的包,每个包被标记为正或负。 若一个包中至少有一个示例为正,则该包为正包;若包中所有示例均为负,则该包为负包。 然而在现实应用中,由于样本语义的多样性,样本通常关联多类标签,每个包需要被标记为 多个标签,此时,多示例单标签学习框架不再适用。
[0005] 多示例多标签学习,每一个标签对应包中的哪些示例是未知的,并且并非所有的 示例对标签的标注都起作用,因此包中的无用示例将会降低包特征的判别性,对标注过程 造成一定的干扰。如何有效地剔除这些干扰示例,保留判别性强的示例是提高包的标签预 测准确率的关键。当前,有两种方法来解决该问题,一种可以将多示例多标签问题退化为多 示例单标签问题,用基于示例选择的多示例单标签方法来解决多示例多标签问题,但是该 类方法中各标签的预测相互独立,将导致标签关联信息的丢失。另一种方法是直接基于多 示例多标签进行示例选择,然后进行多标签同时预测,目前已有的方法是KISAR算法,该方 法可以在选择出关键示例的同时较好的兼顾标签之间的相互关系,但是,KISAR算法中关键 示例的选择采用的是聚类的方法,易受噪声影响,聚类中心作为关键示例缺少针对性,另外 分类器对聚类个数比较敏感,易导致分类器的不稳定。

【发明内容】

[0006] 本发明所要解决的技术问题是提供一种基于特征选择的多示例多标签学习方法 及系统,利用多示例多标签的已知数据集剔除对包的特征判别无用的干扰示例,保留了判 别性强的代表性示例,学习得到一个准确率更高的基于标签相关性的分类器,从而预测多 示例多标签的未知样本的标签集。
[0007] 本发明解决上述技术问题的技术方案如下:
[0008] -方面,本发明提供了一种基于特征选择的多示例多标签学习方法,所述方法包 括:
[0009] S1、将多示例多标签的已知数据集中所有的包特征映射到由已知数据集中所有的 示例组成的投影示例参考空间,得到包的特征向量;
[0010] S2、根据体现了包与投影示例关系的所述包的特征向量,采用基于I2il范数约束的 特征选择方法剔除掉所述投影示例参考空间中对包的标签标注无效的包的特征对应的投 影示例,进而得到由代表性投影示例集组成的代表性投影示例参考空间;
[0011] S3、将所述多示例多标签的已知数据集中所有的包重新特征映射到所述代表性投 影示例参考空间,得到包的新的特征向量;
[0012] S4、根据所述包的新的特征向量构造出一个线性决策函数,并采用兼顾标签相关 性的优化算法训练出基于标签相关性的分类器。
[0013] 另一方面,本发明提供了一种基于特征选择的多示例多标签学习系统,所述系统 包括:
[0014] 已知数据集存放单元,用于存放多示例多标签的已知数据集;
[0015] 第一特征映射单元,用于将所述多示例多标签的已知数据集中所有的包特征映射 至Ij由已知数据集中所有的示例组成的投影示例参考空间,得到包的特征向量;
[0016] 特征选择单元,用于根据体现了包与投影示例关系的所述包的特征向量,采用基 于Iiu范数约束的特征选择方法剔除掉所述投影示例参考空间中对包的标签标注无效的包 的特征对应的投影示例,进而得到由代表性投影示例集组成的代表性投影示例参考空间;
[0017] 第二特征映射单元,用于将所述多示例多标签的已知数据集中所有的包重新特征 映射到所述代表性投影示例参考空间,得到包的新的特征向量;
[0018] 标签相关性分类器单元,用于根据所述包的新的特征向量构造出一个线性决策函 数,并采用兼顾标签相关性的优化算法,训练出基于标签相关性的分类器。
[0019] 本发明提供了一种基于特征选择的多示例多标签学习方法及系统,将已知数据集 中所有的包特征映射到由已知数据集中所有的示例组成的投影示例参考空间得到表示每 个包的特征向量,然后采用基于U 1范数约束的特征选择方法剔除掉对包的特征判别无用 的投影示例,保留了判别性强的代表性投影示例,组成代表性投影示例参考空间,这是提高 包的标签预测准确率的关键;再将所有的包重新特征映射到所述代表性投影示例参考空 间,得到所述包的新的特征向量,最后兼顾标签相关性的优化算法训练出分类器,这种方式 兼顾了标签之间的相关性,增加了标注的可用信息,进一步提高标注效果,能更好的对标签 进行预测。通过本发明可以实现对未知样本中包的标签识别,提高了预测未知样本中包的 标签的准确率。
【附图说明】
[0020] 图1为本发明实施例1的一种基于特征选择的多示例多标签学习方法流程图;
[0021] 图2为本发明实施例2的一种采用基于特征选择的多示例多标签学习方法预测多 示例多标签的未知样本的标签集的方法流程图;
[0022] 图3为本发明实施例3的一种基于特征选择的多示例多标签学习系统示意图;
[0023] 图4为本发明实施例4的一种采用基于特征选择的多示例多标签学习系统预测多 示例多标签的未知样本的标签集的系统示意图。
【具体实施方式】
[0024] 以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并 非用于限定本发明的范围。
[0025] 实施例1、一种基于特征选择的多示例多标签学习方法。下面结合图1对本实施例 提供的方法进行详细说明。
[0026] 参见图1,S1、将多示例多标签的已知数据集中所有的包特征映射到由已知数据集 中所有的示例组成的投影示例参考空间,得到包的特征向量。
[0027] 具体的,多示例多标签的已知数据集具体包括:已知数据集中的包以及包的个 数、已知每个包中的示例以及示例个数、已知表示每个示例的特征向量、已知每个包对应 的标签集以及所有包对应的标签集合,其中,所述多示例多标签的已知数据集具体表示为 {(X1, Y1),(x2, Y2),…,(X1, Y1),…,(Xni, YJ},其中,岑=k,t为已知数据集中包Χι中的n 1 个示例,1=[71,1,71,2,一,7 1^,一,71>]1为包乂1对应的标签集,7 1^为标签集¥1中第七个 标签的标签值,b为标签类别总个数,m为包的个数。
[0028] 将包Xj.征映射到投影示例参考空间X中的一个投影示例z上,可以得到包X ; 在投影示例z上的一维特征值,表示为:
[0030] 其中,S (z,X1)为包X1到投影示例z的相似性距离,X ^为包X i中的示例。
[0031 ] 将包征映射到投影示例参考空间X中的所有投影示例上,得到包X ;的d维 特征向量Φ (Xi),表示为:

「0〇331 其中,",馬)为包&到投影示例参考空间X中示例心,》,"的相似性距离, Ii1为包X冲的示例个数。
[0034] 将已知数据集中所有包特征映射到投影示例参考空间X中的所有投影示例上, 得到已知数据集中所有包的特征集合为{Φ (X1), Φ (X2),…,Φ (X1),…,Φ (Xni)},已知所有 包的特征集合对应的标签集合为{Yi,Y2,…,Y 1,…,YJ。
[0035] S2、根据体现了包与投影示例关系的所述包的特征向量,采用基于I2il范数约束的 特征选择方法剔除掉所述投影示例参考空间中对所述包的标签标注无效的包的特征对应 的投影示例,进而得到由代表性投影示例集组成的代表性投影示例参考空间。
[0036] 具体的,采用所述所有包的特征集合{Φ (X1), Φ (X2),…,Φ (X1),…,Φ (Xni)}线性 拟合所有包的特征集合对应的标签集合{Yi,Y2,…,Y 1,…,YJ,并用U1范式约束的特征选 择方法保留对包的标签标注贡献较大的包的特征,摒弃无用的包的特征,得到一个特征选 择目标函数,所述特征选择目标函数表示为:
[0038] 其中,
b残差,所述残差没有选用I2范数的平方,可以减小异 常值的比重,同时具有旋转不变性,鲁棒性更好;γ I |W| U1为正则化项,其中,γ为平衡参 数,在分类和拟合问题中,通常用来避免过拟合问题,W为样本拟合系数,对所述样本拟合系 数W采用了 1211范数约束,具体计算如下:
[0040] 其中,Wlj为矩阵W的i行j列元素,W1表示矩阵W的第i行的行向量。所述I |W| I 2ι1 范式可以在所有包的特征集合{Φ (X1), Φ (χ2),…,Φ (X1),…,Φ (XJ}线性拟合所有包的 特征集合对应的标签集合(Y1, Y2,…,Y1,…,YJ的时候,通过对W行向量之间的I1范式约 束,尽可能将无用特征对应的拟合系数约束为零;而对W列向量的I 2范式的约束则保证所 有包的特征约束是同时的,即如果某特征拟合系数被约束为零,则所有包的该特征拟合系 数会被同时约束为零,有效的实现了特征选择,而且选择出的特征适用于所有标签的特点, 兼顾了标签之间的相互关系。
[0041] 将所有包的特征矩阵表示为X =[ Φ (X1),Φ (X2),…,Φ (Xni) ] e Rdxm,所有包的特 征矩阵对应的标签矩阵表示为Y = [Y1, Y2,…,YJTe Rmxb,所述特征选择目标函数可整理为 新的特征
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1