一种基于特征选择的多示例多标签学习方法及系统的制作方法_4

文档序号:9327457阅读:来源:国知局
择的多示例多标签学习方法,其特征在于,所 述步骤S2具体包括: 521、 采用所述所有包的特征集合{> (X1),巾(X2),…,巾(X1),…,巾(XJ}线性拟合所 有包的特征集合对应的标签集合(Y1,Y2,…,Y1,…,YJ,并用I2il范式约束的特征选择方法 保留对包的标签标注贡献较大的包的特征,摒弃无用的包的特征,得到一个特征选择目标 函数; 522、 采用迭代算法对所述特征选择目标函数进行求解,得到求解结果; 523、 根据所述求解结果剔除所述投影示例参考空间中对所述包的标签标注无效的包 的特征对应的投影示例; 524、 将对包的标签标注有效的包的特征对应的投影示例选择为代表性投影示例,代 表性投影示例集组成代表性投影示例参考空间a,其中,所述代表性投影示例集表示为 G=,Q为代表性投影示例的个数,cP为代表性投影示例。4. 如权利要求3所述的一种基于特征选择的多示例多标签学习方法,其特征在于,所 述步骤S4具体包括: 541、 将步骤S3中所述包的新的特征向量表示为供PQ,所述舛<)为q维特征向量, 根据包的新的特征向量糾尤)构造出一个线性决策函数ft,表示为./;=以3(岑).,.其中, & = …,I」表示为线性决策函数矩阵,所述包&对应的标签集乙中每一个标签七均 对应一个线性决策函数ft; 542、 定义一个标签相关性矩阵G,其中,Ge[0,l]bxb,b为标签类别总个数,所述标签 相关性矩阵G为对称矩阵,当标签t和标签^是相关的,矩阵G中第t行$列的值以及第$行 t列的值为1,否则为0 ; 543、 根据所述线性决策函数ft以及所述标签相关性矩阵G,构造出一个分类器目标函 数; 544、 根据构造的分类器目标函数,采用迭代优化的方法求得所述线性决策函数匕中Vt 的值,完成基于标签相关性的分类器Jr=RW(A)的训练。5. -种采用如权利要求1-4任一项所述的一种基于特征选择的多示例多标签学习方 法预测多示例多标签的未知样本的标签集的方法,其特征在于,所述方法包括: 551、 将待预测的多示例多标签的未知样本中的全部未知包特征映射到由代表性投影组成的代表性投影示例参考空间a中,进而获得全部未知包的特征集 合,其中,未知包Pi特征映射后得到q维特征向量也(Pi); 552、 将未知包P1特征映射后得到的q维特征向量it(P1)带入基于标签相关性的分类 器义中替代舛不),其中,线性决策函数矩阵V, =|vu,v,.2,…,V」为已知,进而可 以获得未知包P1对应的标签集Yi中每一个标签t对应的线性决策函数ft的值; 553、 根据所述线性决策函数ft的值确定未知包是否标记有所述ft对应的标签t,若所 述ft的值为正值,表示未知包标记有所述ft对应的标签t,标签值ylt= +1 ;若所述ft的值 为负值,表示未知包没有标记所述ft对应的标签t,标签值ylt= -1 ;根据标签值ylt的值得 到多示例多标签的未知样本中每个未知包P1对应的标签集Y1= [yiil,yli2,…,ylit,…]T,进 而可以得到未知样本中全部未知包的特征集合对应的标签集合(Y1,Y2,…,Y1,…}。6. -种基于特征选择的多示例多标签学习系统,其特征在于,所述系统包括: 已知数据集存放单元,用于存放多示例多标签的已知数据集; 第一特征映射单元,用于将所述多示例多标签的已知数据集中所有的包特征映射到由 已知数据集中所有的示例组成的投影示例参考空间,得到包的特征向量; 特征选择单元,用于根据体现了包与投影示例关系的所述包的特征向量,采用基于U1 范数约束的特征选择方法剔除掉所述投影示例参考空间中对包的标签标注无效的包的特 征对应的投影示例,进而得到由代表性投影示例集组成的代表性投影示例参考空间; 第二特征映射单元,用于将所述多示例多标签的已知数据集中所有的包重新特征映射 到所述代表性投影示例参考空间,得到包的新的特征向量; 标签相关性分类器单元,用于根据所述包的新的特征向量构造出一个线性决策函数, 并采用兼顾标签相关性的优化算法训练出基于标签相关性的分类器。7. 如权利要求6所述的一种基于特征选择的多示例多标签学习系统,其特征在于, 所述多示例多标签的已知数据集具体包括:已知数据集中的包以及包的个数、已知每个包 中的示例以及示例个数、已知表示每个示例的特征向量、已知每个包对应的标签集以及所 有包对应的标签集合,所述多示例多标签的已知数据集具体表示为((LY1), (X2,Y2),… ,(X1,Y1),…,(Xni,YJ},其中,=k^为已知数据集中包X1中的ni个示例,Y1 = Ly1,i,Y1,2,…,Y1,t,…,Y1,JT为包X#应的标签集,y11为标签集Yi中第t个标签的标签值,b为标签类别总个数,m为包的个数; 所述第一特征映射单元,用于将多示例多标签的已知数据集中所有的包特征映射到由 已知数据集中所有的示例组成的投影示例参考空间,得到包的特征向量具体包括: 将包Xj#征映射到投影示例参考空间X中的一个投影示例,得到包X;的一维特征值; 将包Xj.征映射到投影示例参考空间X中的所有投影示例,得到包X;的d维特征向量 (X1); 将已知数据集中所有包特征映射到投影示例参考空间X中的所有投影示例,得到已 知数据集中所有包的特征集合(X1),巾(X2),…,巾(Xni) },已知所有包的特征集合对应的 标签集合为(Y1,Y2,…,YJ。8. 如权利要求7所述的一种基于特征选择的多示例多标签学习系统,其特征在于,所 述特征选择单元进一步包括: 目标函数获得模块,用于采用所述所有包的特征集合(X1),巾(X2),…,巾(XJ}线性 拟合所有包的特征集合对应的标签集合(Y1,Y2,…,YJ,并用I2il范式约束的特征选择方法 保留对包的标签标注贡献较大的包的特征,摒弃无用的包的特征,得到一个特征选择目标 函数; 目标函数求解模块,用于采用迭代算法对所述特征选择目标函数进行求解,得到求解 结果; 剔除投影示例模块,用于根据所述求解结果剔除所述投影示例参考空间中对所述包的 标签标注无效的包的特征对应的投影示例; 参考空间获得模块,用于将对包的标签标注有效的包的特征对应的投影示例选择为代 表性投影示例,代表性投影示例集组成代表性投影示例参考空间a,其中,所述代表性投影q为代表性投影示例的个数,Cp为代表性投影示例。9. 如权利要求8所述的一种基于特征选择的多示例多标签学习系统,其特征在于,所 述标签相关性分类器单元进一步包括: 线性决策函数模块,用于根据第二特征映射单元得到的包的新的q维特征向量辦JQ构造出一个线性决策函数ft,表示为/, =v,(Z/),其中,V, =[vu,v,.2,…,V,.」表示为线性决 策函数矩阵,所述包X1对应的标签集Yi中每一个标签t均对应一个线性决策函数ft; 相关性矩阵定义模块,用于定义一个标签相关性矩阵G,其中,GE[0,l]bxb,b为标签 类别总个数,所述标签相关性矩阵G为对称矩阵,当标签t和标签$是相关的,矩阵中第t行 [列的值以及第丨行t列的值为1,否则为0 ; 分类器目标函数模块,用于根据所述线性决策函数ft以及所述标签相关性矩阵G,构造 出一个分类器目标函数; 标签相关性分类器获得模块,用于根据构造的分类器目标函数,采用迭代优化的方法 求得所述线性决策函数匕中Vt的值,完成基于标签相关性的分类器/, =v,J的训练。10. -种采用如权利要求6-9任一项所述的一种基于特征选择的多示例多标签学习系 统预测多示例多标签的未知样本的标签集的系统,其特征在于,所述系统包括: 未知样本存放单元,用于存放待预测的多示例多标签的未知样本; 第三特征映射单元,用于将待预测的多示例多标签的未知样本中的全部未知包特征映 射到由代表性投影示例集C= 组成的代表性投影示例参考空间a中,进而获得全部 未知包的特征集合,其中,未知包Pj.征映射后得到q维特征向量it(P1); 分类器预测单元,用于将未知包P1特征映射后得到的q维特征向量^ (P1)带入基于标 签相关性的分类器乂: =v,(X,)中替代供(?),其中,线性决策函数矩阵K=[vu,w.,vMj 为已知,进而可以获得未知包?,对应的标签集Y1中每一个标签t对应的线性决策函数1的 值; 确定单元,用于根据所述分类器预测单元中所述线性决策函数ft的值确定未知包是否 标记有所述ft对应的标签t,若所述ft的值为正值,表示未知包标记有所述ft对应的标签 t,标签值ylt= +1 ;若所述ft的值为负值,表示未知包没有标记所述ft对应的标签t,标签 值ylt= -1 ; 输出样本标签单元,用于根据所述确定单元中标签值ylt的值得到多示例多标签的未 知样本中每个未知包Pi对应的标签集Yi=[yyii2,…,yiit,…]T,进而可以得到未知样本 中全部未知包的特征集合对应的标签集合(Y1,Y2,…,Y1,…}。
【专利摘要】本发明公开了一种基于特征选择的多示例多标签学习方法及系统,其中,所述方法包括:将已知数据集中所有的包特征映射到由已知数据集中所有示例组成的投影示例参考空间,得到包的特征向量;采用基于l2,1范数约束的特征选择方法剔除掉投影示例参考空间中对包的标签标注无效的包的特征对应的投影示例,进而得到代表性投影示例参考空间;将包重新特征映射到代表性投影示例参考空间,得到包的新的特征向量;根据包的新的特征向量构造出一个线性决策函数,并采用兼顾标签相关性的优化算法训练出基于标签相关性的分类器。通过本发明提供的方法,利用已知数据集学习得到一个基于标签相关性的分类器,从而预测未知样本的标签集,提高了标签预测的准确率。
【IPC分类】G06K9/62
【公开号】CN105046284
【申请号】CN201510551304
【发明人】邹海林, 陈彤彤, 柳婵娟, 丁昕苗
【申请人】鲁东大学
【公开日】2015年11月11日
【申请日】2015年8月31日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1