一种多标签主动学习分类方法及系统的制作方法

文档序号:8905498阅读:457来源:国知局
一种多标签主动学习分类方法及系统的制作方法
【技术领域】
[0001] 本发明设及机器学习技术领域,更具体地说,设及一种多标签主动学习分类方法 及系统。
【背景技术】
[0002] 随着信息技术的发展,多标签数据分类技术的重要性逐渐突显,W至于对应的多 标签数据分类技术的应用也在不断增加,例如,图像视频的语义标注、生物基因功能分类、 文本分类等。作为一种多义性对象的建模工具,多标签学习是一种更符合真实客观世界规 律的学习方法,在此框架下,每个对象不再对应唯一的标签,多标签学习的目的是为未见的 对象赋予合适的标签集。由于多标签分类问题的复杂性,在构建分类器模型时需要耗费发 亮的时间和精力来收集带标签的样本。但在真实世界中,我们能够获取的标注数据是非常 少的,而且像在多标签学习框架下,每个对象都对应多个标签,依据与此便增加了获取标注 数据的难度。
[0003] 现有的多标签数据分类技术在获取标注数据的过程中仅仅考虑了单个待测样本 标签的不确定性,但并没有设及到待测样本标签间的不确定性,W至于在对标注后的待标 注样本标签进行标注时,影响了标注的准确性,进行影响了分类器分类的准确率。
[0004] 综上所述,如何提供一种分类准确率高的分类器,是目前本领域技术人员亟待解 决的问题。

【发明内容】

[0005] 有鉴于此,本发明的目的是提供一种多标签主动学习分类方法及系统,W提高分 类准确率。
[0006] 为了实现上述目的,本发明提供如下技术方案:
[0007] 一方面,本发明提供了一种多标签主动学习分类方法,包括:
[000引分别采用对数似然获取已标注样本标签对的似然度及采用滴的方式获取待标注 样本标签对的不确定性;
[0009] 分别计算多个相同样本的不同标签间的化距离及多个所述不同标签间的权重因 子;
[0010] 将每个所述化距离和与之相应的所述权重因子进行乘法运算,获取相应的结果, 将多个所述结果进行相加,获取与待标注样本标签对相关的待标注样本标签对的化距离 和,采用所述化距离和确定交叉标签不确定性;
[0011] 确定待标注样本标签对的最终不确定性;所述待标注样本标签对的最终不确定性 为依据所述交叉标签不确定性和所述待标注样本标签对的不确定性确定的;
[0012] 依据所述似然度和所述待标注样本标签对的最终不确定性获取得分函数,并依据 所述得分函数确定最优待标注样本标签对,并对所述最优待标注样本标签对进行标注;
[0013] 将标注完成的所述最优待标注标签对添加到样本标签对训练集W获取新的所述 样本标签对训练集,并采用新的所述样本标签对训练集训练分类器。
[0014] 优选的,所述分别采用对数似然获取已标注样本标签对的似然度及采用滴的方式 获取待标注样本标签对的不确定性前所述方法还包括:
[0015] 构建样本标签树,所述样本标签树是依据所述样本标签对训练集训练获取的。
[0016] 优选的,所述计算多个所述不同标签间的权重因子包括:
[0017] 定义标签距离矩阵;所述标签距离矩阵为通过所述样本标签树获取的;
[0018] 定义共现矩阵;所述共现矩阵为通过所述样本标签对训练集中的所述样本标签对 构建的;
[0019] 依据所述标签距离矩阵和所述共现矩阵构建代价标签矩阵,并采用所述代价标签 矩阵获取每个所述待标注样本标签对的权重因子。
[0020] 优选的,所述依据所述标签距离矩阵和所述共现矩阵构建代价标签矩阵,并采用 所述代价标签矩阵获取每个所述待标注样本标签对的权重因子包括:
[0021] 计算所述共现矩阵中任意两个位置处所述待标注样本标签对的内积和,获取所述 任意两个位置处所述待标注样本标签对出现的频率,并依据所述频率构建共现频率矩阵;
[0022] 结合所述标签距离矩阵和所述共现频率矩阵按照下式获取每个所述待标注样本 标签的权重因子:
[002引 5。日=0。日.5。0
[0024] 其中,a与P分别表示任意两个待标注样本标签;是标签a和标签P之间 的距离;Sa,p是标签a和标签P共同出现的频率。
[0025] 另一方面,本发明还提供了一种多标签主动学习分类系统,包括:
[0026] 第一获取模块,用于分别采用对数似然获取已标注样本标签对的似然度及采用滴 的方式获取待标注样本标签对的不确定性;
[0027] 计算模块,用于分别计算多个相同样本的不同标签间的化距离及多个所述不同 标签间的权重因子;
[002引第二获取模块,用于将每个所述化距离和与之相应的所述权重因子进行乘法运 算,获取相应的结果,将多个所述结果进行相加,获取与待标注样本标签对相关的待标注样 本标签对的化距离和,采用所述化距离和确定交叉标签不确定性;
[0029] 第一确定模块,用于确定待标注样本标签对的最终不确定性;所述待标注样本标 签对的最终不确定性为依据所述交叉标签不确定性和所述待标注样本标签对的不确定性 确定的;
[0030] 第二确定模块,用于依据所述似然度和所述待标注样本标签对的最终不确定性获 取得分函数,并依据所述得分函数确定最优待标注样本标签对,并对所述最优待标注样本 标签对进行标注;
[0031] 训练模块,用于将标注完成的所述最优待标注标签对添加到样本标签对训练集W 获取新的所述样本标签对训练集,并采用新的所述样本标签对训练集训练分类器。
[0032] 优选的,所述系统还包括:
[0033] 构建模块,用于构建样本标签树,所述样本标签树是依据所述样本标签对训练集 训练获取的。
[0034] 优选的,计算模块包括:
[0035] 第一定义单元,用于定义标签距离矩阵;所述标签距离矩阵为通过所述样本标签 树获取的;
[0036] 第二定义单元,用于定义共现矩阵;所述共现矩阵为通过所述样本标签对训练集 中的所述样本标签构建的;
[0037] 构建单元,用于依据所述标签距离矩阵和所述共现矩阵构建代价标签矩阵,并采 用所述代价标签矩阵获取每个所述待标注样本标签对的权重因子。
[003引优选的,所述构建单元包括:
[0039] 计算单元,用于计算所述共现矩阵中任意两个位置处所述待标注样本标签对的内 积和,获取所述任意两个位置处所述待标注样本标签对出现的频率,并依据所述频率构建 共现频率矩阵;
[0040] 获取单元,用于结合所述标签距离矩阵和所述共现频率矩阵按照下式获取每个所 述待标注样本标签的权重因子:
[0041] 5。日=C。日?Sap
[0042] 其中,a与P分别表示任意两个待标注样本标签;是标签a和标签P之间 的距离;Sa,p是标签a和标签P共同出现的频率。
[0043] 与现有技术相比,本发明的优点如下:
[0044] 本发明提供了一种多标签主动学习分类方法及系统,首先,分别采用对数似然获 取已标注样本标签对的似然度及采用滴的方式获取待标注样本标签对的不确定性;其次, 通过化距离和权重因子的关系获取化距离和W确定交叉标签不确定性;再者,根据交叉标 签不确定性和待标注样本标签对的不确定性确定待标注样本标签对的最终不确定性,最后 依据似然度和待标注样本标签对的最终不确定性确定得分函数,并依据得分函数确定最优 待标注样本标签对,并对最优待标注样本标签对进行标注;最后将标注完成的最优待标注 标签对添加到样本标签对训练集W获取新的样本标签对训练集,并采用样本标签对训练集 训练分类器。与现有技术相比,本发明提供的多标签主动学习分类方法及系统,通过综合交 叉标签不确定性和待标注样本标签对的不确定性确定待标注样本标签对的最终不确定性, 进而依据待标注样本标签对的最终不确定性和似然度获取最优的待标注样本标签对,并对 最优待标注样本标签对进行标注;最后将标注完成的最优待标注标签对添加到样本标签对 训练集W获取新的样本标签对训练集,并采用样本标签对训练集训练分类器,进而有效的 提高了分类的准确率。
【附图说明】
[0045] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据 提供的附图获得其他的附图。
[0046] 图1为本发明实施例提供一种多标签主动学习分类方法的流程图;
[0047] 图2为本发明实施例提供另一种多标签主动学习分类方法的流程图
[0048] 图3为本发明实施例提供的一种样本标签树的示意图;
[0049] 图4为本发明实施例提供一种多标签主动学习分类系统的结构示意图;
[0化0] 图5为本发明实施例提供另一种多标签主动学习分类系统的结构示意图
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1