一种多标签主动学习分类方法及系统的制作方法

文档序号：8905498阅读：457来源：国知局

一种多标签主动学习分类方法及系统的制作方法
【技术领域】
[0001] 本发明设及机器学习技术领域，更具体地说，设及一种多标签主动学习分类方法及系统。
【背景技术】
[0002] 随着信息技术的发展，多标签数据分类技术的重要性逐渐突显，W至于对应的多标签数据分类技术的应用也在不断增加，例如，图像视频的语义标注、生物基因功能分类、文本分类等。作为一种多义性对象的建模工具，多标签学习是一种更符合真实客观世界规律的学习方法，在此框架下，每个对象不再对应唯一的标签，多标签学习的目的是为未见的对象赋予合适的标签集。由于多标签分类问题的复杂性，在构建分类器模型时需要耗费发亮的时间和精力来收集带标签的样本。但在真实世界中，我们能够获取的标注数据是非常少的，而且像在多标签学习框架下，每个对象都对应多个标签，依据与此便增加了获取标注数据的难度。
[0003] 现有的多标签数据分类技术在获取标注数据的过程中仅仅考虑了单个待测样本标签的不确定性，但并没有设及到待测样本标签间的不确定性，W至于在对标注后的待标注样本标签进行标注时，影响了标注的准确性，进行影响了分类器分类的准确率。
[0004] 综上所述，如何提供一种分类准确率高的分类器，是目前本领域技术人员亟待解决的问题。

【发明内容】

[0005] 有鉴于此，本发明的目的是提供一种多标签主动学习分类方法及系统，W提高分类准确率。
[0006] 为了实现上述目的，本发明提供如下技术方案：
[0007] 一方面，本发明提供了一种多标签主动学习分类方法，包括：
[000引分别采用对数似然获取已标注样本标签对的似然度及采用滴的方式获取待标注样本标签对的不确定性；
[0009] 分别计算多个相同样本的不同标签间的化距离及多个所述不同标签间的权重因子；
[0010] 将每个所述化距离和与之相应的所述权重因子进行乘法运算，获取相应的结果，将多个所述结果进行相加，获取与待标注样本标签对相关的待标注样本标签对的化距离和，采用所述化距离和确定交叉标签不确定性；
[0011] 确定待标注样本标签对的最终不确定性；所述待标注样本标签对的最终不确定性为依据所述交叉标签不确定性和所述待标注样本标签对的不确定性确定的；
[0012] 依据所述似然度和所述待标注样本标签对的最终不确定性获取得分函数，并依据所述得分函数确定最优待标注样本标签对，并对所述最优待标注样本标签对进行标注；
[0013] 将标注完成的所述最优待标注标签对添加到样本标签对训练集W获取新的所述样本标签对训练集，并采用新的所述样本标签对训练集训练分类器。
[0014] 优选的，所述分别采用对数似然获取已标注样本标签对的似然度及采用滴的方式获取待标注样本标签对的不确定性前所述方法还包括：
[0015] 构建样本标签树，所述样本标签树是依据所述样本标签对训练集训练获取的。
[0016] 优选的，所述计算多个所述不同标签间的权重因子包括：
[0017] 定义标签距离矩阵；所述标签距离矩阵为通过所述样本标签树获取的；
[0018] 定义共现矩阵；所述共现矩阵为通过所述样本标签对训练集中的所述样本标签对构建的；
[0019] 依据所述标签距离矩阵和所述共现矩阵构建代价标签矩阵，并采用所述代价标签矩阵获取每个所述待标注样本标签对的权重因子。
[0020] 优选的，所述依据所述标签距离矩阵和所述共现矩阵构建代价标签矩阵，并采用所述代价标签矩阵获取每个所述待标注样本标签对的权重因子包括：
[0021] 计算所述共现矩阵中任意两个位置处所述待标注样本标签对的内积和，获取所述任意两个位置处所述待标注样本标签对出现的频率，并依据所述频率构建共现频率矩阵；
[0022] 结合所述标签距离矩阵和所述共现频率矩阵按照下式获取每个所述待标注样本标签的权重因子：
[002引 5。日=0。日.5。0
[0024] 其中，a与P分别表示任意两个待标注样本标签；是标签a和标签P之间的距离；Sa，p是标签a和标签P共同出现的频率。
[0025] 另一方面，本发明还提供了一种多标签主动学习分类系统，包括：
[0026] 第一获取模块，用于分别采用对数似然获取已标注样本标签对的似然度及采用滴的方式获取待标注样本标签对的不确定性；
[0027] 计算模块，用于分别计算多个相同样本的不同标签间的化距离及多个所述不同标签间的权重因子；
[002引第二获取模块，用于将每个所述化距离和与之相应的所述权重因子进行乘法运算，获取相应的结果，将多个所述结果进行相加，获取与待标注样本标签对相关的待标注样本标签对的化距离和，采用所述化距离和确定交叉标签不确定性；
[0029] 第一确定模块，用于确定待标注样本标签对的最终不确定性；所述待标注样本标签对的最终不确定性为依据所述交叉标签不确定性和所述待标注样本标签对的不确定性确定的；
[0030] 第二确定模块，用于依据所述似然度和所述待标注样本标签对的最终不确定性获取得分函数，并依据所述得分函数确定最优待标注样本标签对，并对所述最优待标注样本标签对进行标注；
[0031] 训练模块，用于将标注完成的所述最优待标注标签对添加到样本标签对训练集W 获取新的所述样本标签对训练集，并采用新的所述样本标签对训练集训练分类器。
[0032] 优选的，所述系统还包括：
[0033] 构建模块，用于构建样本标签树，所述样本标签树是依据所述样本标签对训练集训练获取的。
[0034] 优选的，计算模块包括：
[0035] 第一定义单元，用于定义标签距离矩阵；所述标签距离矩阵为通过所述样本标签树获取的；
[0036] 第二定义单元，用于定义共现矩阵；所述共现矩阵为通过所述样本标签对训练集中的所述样本标签构建的；
[0037] 构建单元，用于依据所述标签距离矩阵和所述共现矩阵构建代价标签矩阵，并采用所述代价标签矩阵获取每个所述待标注样本标签对的权重因子。
[003引优选的，所述构建单元包括：
[0039] 计算单元，用于计算所述共现矩阵中任意两个位置处所述待标注样本标签对的内积和，获取所述任意两个位置处所述待标注样本标签对出现的频率，并依据所述频率构建共现频率矩阵；
[0040] 获取单元，用于结合所述标签距离矩阵和所述共现频率矩阵按照下式获取每个所述待标注样本标签的权重因子：
[0041] 5。日=C。日?Sap
[0042] 其中，a与P分别表示任意两个待标注样本标签；是标签a和标签P之间的距离；Sa，p是标签a和标签P共同出现的频率。
[0043] 与现有技术相比，本发明的优点如下：
[0044] 本发明提供了一种多标签主动学习分类方法及系统，首先，分别采用对数似然获取已标注样本标签对的似然度及采用滴的方式获取待标注样本标签对的不确定性；其次，通过化距离和权重因子的关系获取化距离和W确定交叉标签不确定性；再者，根据交叉标签不确定性和待标注样本标签对的不确定性确定待标注样本标签对的最终不确定性，最后依据似然度和待标注样本标签对的最终不确定性确定得分函数，并依据得分函数确定最优待标注样本标签对，并对最优待标注样本标签对进行标注；最后将标注完成的最优待标注标签对添加到样本标签对训练集W获取新的样本标签对训练集，并采用样本标签对训练集训练分类器。与现有技术相比，本发明提供的多标签主动学习分类方法及系统，通过综合交叉标签不确定性和待标注样本标签对的不确定性确定待标注样本标签对的最终不确定性，进而依据待标注样本标签对的最终不确定性和似然度获取最优的待标注样本标签对，并对最优待标注样本标签对进行标注；最后将标注完成的最优待标注标签对添加到样本标签对训练集W获取新的样本标签对训练集，并采用样本标签对训练集训练分类器，进而有效的提高了分类的准确率。
【附图说明】
[0045] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可W根据提供的附图获得其他的附图。
[0046] 图1为本发明实施例提供一种多标签主动学习分类方法的流程图；
[0047] 图2为本发明实施例提供另一种多标签主动学习分类方法的流程图
[0048] 图3为本发明实施例提供的一种样本标签树的示意图；
[0049] 图4为本发明实施例提供一种多标签主动学习分类系统的结构示意图；
[0化0] 图5为本发明实施例提供另一种多标签主动学习分类系统的结构示意图

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵朋朋;焦阳;吴健;崔志明;
技术所有人：苏州大学张家港工业技术研究院;
我是此专利的发明人

上一篇：一种大容量usim海量存储器的发行系统及其发行方法
上一篇：一种两阶段的基于差分进化和模糊c-均值的聚类算法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。