一种多标签分类方法及装置的制造方法

文档序号:8299156阅读:214来源:国知局
一种多标签分类方法及装置的制造方法
【技术领域】
[0001]本发明涉及数据处理技术领域,特别涉及一种多标签分类方法及装置。
【背景技术】
[0002]在大数据挖掘领域,分类问题占有很大比例。在待分类对象具有明确的、单一的语义时,现有的分类算法已经比较成熟。然而,在很多分类问题中,一个样例可能同时具有多个不同的标签,这类问题称为多标签分类问题。例如,一个网页可能同时拥有多个主题,一篇专利可能归属于多个领域。
[0003]现有的多标签分类方法中,从标签的相关性出发处理多标签分类问题,将前面的单标签分类的结果添加到样例的属性中,为后面的多标签分类提供信息。
[0004]现有技术中,标签的信息是顺序传递的,前面的分类结果的好坏将对后面分类造成很大影响。而现有技术中并不能保证前面的分类结果的正确率,导致整个分类结果的正确率较低。

【发明内容】

[0005]有鉴于此,本发明提供了一种多标签分类方法及装置,能够提高多标签分类的正确率。
[0006]一方面,本发明提供了一种多标签分类方法,包括:
[0007]Al:对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序;
[0008]A2:按照标签顺序对每个标签对应的分类器进行排序;
[0009]A3:通过排序后的分类器对待分类数据进行分类。
[0010]进一步地,所述Al,包括:
[0011]S1:根据训练样本的属性将所有训练样本聚类为第一类和第二类;
[0012]S2:分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量,以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量;
[0013]S3:根据每个标签对应的第一数量、第二数量、第三数量和第四数量,计算每个标签的划分正确率;
[0014]S4:记录划分正确率最大的标签;
[0015]S5:判断未记录的标签的数量是否为1,如果是,则执行步骤S7,否则,执行步骤S6 ;
[0016]S6:将当前记录的标签添加到训练样本的属性中,返回SI ;
[0017]S7:记录最后一个标签,按照记录的先后顺序给标签排序。
[0018]进一步地,所述S3,包括:
[0019]按照公式一计算每个标签的划分正确率,其中,公式一为:
[0020]Ci= (Is i0-ti01 +1 Sn-tn I) /n X 100 %,Ci 为标签 i 的划分正确率,s η 为标签 i 对应的第一数量,tn为标签i对应的第二数量,s i(l为标签i对应的第三数量,t i(l为标签i对应的第四数量,η为样本的总量。
[0021]另一方面,本发明提供了一种多标签分类装置,包括:
[0022]排序单元,用于对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序;
[0023]训练单元,用于按照标签顺序对每个标签对应的分类器进行排序;
[0024]分类单元,用于通过排序后的分类器对待分类数据进行分类。
[0025]进一步地,所述排序单元,包括:
[0026]聚类子单元,用于根据训练样本的属性将所有训练样本聚类为第一类和第二类;
[0027]第一计算子单元,用于分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量,以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量;
[0028]第二计算子单元,用于根据每个标签对应的第一数量、第二数量、第三数量和第四数量,计算每个标签的划分正确率;
[0029]记录子单元,用于记录划分正确率最大的标签;
[0030]判断子单元,用于判断未记录的标签的数量是否为1,当判断结果为是时,通知排序子单元,当判断结果为否时,,执行步骤S6 ;
[0031]添加子单元,用于将当前记录的标签添加到训练样本的属性中,通知所述聚类子单元;
[0032]排序子单元,用于记录最后一个标签,按照记录的先后顺序给标签排序。
[0033]进一步地,所述第二计算子单元,用于按照公式一计算每个标签的划分正确率,其中,公式一为:
[0034]Ci= (|s i0-ti01 +1 sn-tn I) /n X 100 %,Ci 为标签 i 的划分正确率,s η 为标签 i 对应的第一数量,tn为标签i对应的第二数量,s i(l为标签i对应的第三数量,t i(l为标签i对应的第四数量,η为样本的总量。
[0035]通过本发明实施例提供的一种多标签分类方法及装置,根据训练样本对应的标签的划分正确率对标签进行排序,按照标签顺序对每个标签对应的分类器进行排序,这样能够保证前面分类器的分类结果的正确率较高,从而保障标签信息能够在最大程度上正确的向后传递,提高了多标签分类的正确率。
【附图说明】
[0036]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]图1是本发明一实施例提供的一种多标签分类方法的流程图;
[0038]图2是本发明一实施例提供的另一种多标签分类方法的流程图
[0039]图3是本发明一实施例提供的一种多标签分类装置的示意图;
[0040]图4是本发明一实施例提供的另一种多标签分类装置的示意图。
【具体实施方式】
[0041]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0042]如图1所示,本发明实施例提供了一种多标签分类方法,该方法可以包括以下步骤:
[0043]Al:对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序;
[0044]A2:按照标签顺序对每个标签对应的分类器进行排序;
[0045]A3:通过排序后的分类器对待分类数据进行分类。
[0046]通过本发明实施例提供的一种多标签分类方法,根据训练样本对应的标签的划分正确率对标签进行排序,按照标签顺序对每个标签对应的分类器进行排序,这样能够保证前面分类器的分类结果的正确率较高,从而保障标签信息能够在最大程度上正确的向后传递,提高了多标签分类的正确率。
[0047]在一种可能的实现方式中,所述Al,包括:
[0048]S1:根据训练样本的属性将所有训练样本聚类为第一类和第二类;
[0049]S2:分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量,以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量;
[0050]S3:根据每个标签对应的第一数量、第二数量、第三数量和第四数量,计算每个标签的划分正确率;
[0051]S4:记录划分正确率最大的标签;
[0052]S5:判断未记录的标签的数量是否为1,如果是,则执行步骤S7,否则,执行步骤S6 ;
[0053]S6:将当前记录的标签添加到训练样本的属性中,返回SI ;
[0054]S7:记录最后一个标签,按照记录的先后顺序给标签排序。
[0055]其中,所述S3,包括:
[0056]按照公式一计算每个标签的划分正确率,其中,公式一为:
[0057]Ci= (|s i0-ti01 +1 sn-tn I) /n X 100 %,Ci 为标签 i 的划分正确率,s η 为标签 i 对应的第一数量,tn为标签i对应的第二数量,s i(l为标签i对应的第三数量,t i(l为标签i对应的第四数量,η为样本的总量。
[0058]为使本发明的目的、技术方案和优点更加清楚,下面结合附图及具体实施例对本发明作进一步地详细描述。
[0059]如图2所示,本发明实施例提供了一种多标签分类方法,假设包含η个训练样本的训练集为X = Rd,每个训练样本可以表示为X = Ix1, X2,…,xd},假设所有训练样本对应m个标签,标签列表表示为L = (I1, I2,…,IJ,当训练样本X的标签为Ig时,X的标签I g的值为1,X的其他标签的值为O,其中,X为训练集,#为每个训练样本对应的属性的个数为d。
[0060]该方法可以包括以下步骤:
[0061]B1:根据训练样本的属性将所有训练样本聚类为第一类和第二类;
[0062]举例来说,可以通过k-means算法,根据训练样本的属性将所有训练样本聚类为第一类和第二类。具体地,对训练集进行k-means聚类,k = 2,得到两类,分别是S,T。
[0063]B2:分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量,以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量;
[0064]举例来说,统计每个未记录标签在S,T中为值I的个数sn,tn,在S,T中为值O的个数si(l,ti(l,其中,Sil即为标签i对应的第一数量,t η即为标签i对应的第二数量,Sitl即为标签i对应的第三数量,ti(l即为标签i对应的第四数量。
[0065]B3:根据每个标签对应的第一数量、第二
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1