一种多标签分类方法及装置的制造方法_2

文档序号：8299156阅读：来源：国知局

数量、第三数量和第四数量，计算每个标签的划分正确率；
[0066]按照公式一计算每个标签的划分正确率，其中，公式一为:
[0067]Ci= (|s i0-ti01 +1 sn-tn I) /n X 100 %，Ci 为标签 i 的划分正确率，s η 为标签 i 对应的第一数量，tn为标签i对应的第二数量，s i(l标签i对应的第三数量，t i(l标签i对应的第四数量，η为样本的总量。
[0068]Β4:记录划分正确率最大的标签；
[0069]Β5:判断未记录的标签的数量是否为1，如果是，则执行步骤Β7，否则，执行步骤Β6 ；
[0070]Β6:将当前记录的标签添加到训练样本的属性中，返回BI ；
[0071]具体地，将已记录的标签的值作为样本的属性添加到X中，例如，当已经记录的标签有I1, I2,…，Ij,则新的训练集就有d+j个属性，新的训练集可以表示为X = Rd+J,训练样例可以表示为X = {Xi, X2,…，xd，li, I2,…，Ijl。
[0072]B7:记录最后一个标签，按照记录的先后顺序给标签排序。
[0073]B8:按照标签顺序对每个标签对应的分类器进行排序；
[0074]具体地，可以按照排好顺序的标签列表L = (I1, I2,…，IJ对每个标签对应的分类器进行排序。
[0075]B9:通过排序后的分类器对待分类数据进行分类。
[0076]具体地，可以按照分类器链算法，通过排序后的分类器对待分类数据进行分类。
[0077]如图3、图4所示，本发明实施例提供了一种……。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图3所示，为本发明实施例……所在设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图4所示，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的一种多标签分类装置，包括:
[0078]排序单元401，用于对训练样本进行聚类，并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序；
[0079]训练单元402，用于按照标签顺序对每个标签对应的分类器进行排序；
[0080]分类单元403，用于通过排序后的分类器对待分类数据进行分类。
[0081]在一种可能的实现方式中，所述排序单元401，包括:
[0082]聚类子单元，用于根据训练样本的属性将所有训练样本聚类为第一类和第二类；
[0083]第一计算子单元，用于分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量，以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量；
[0084]第二计算子单元，用于根据每个标签对应的第一数量、第二数量、第三数量和第四数量，计算每个标签的划分正确率；
[0085]记录子单元，用于记录划分正确率最大的标签；
[0086]判断子单元，用于判断未记录的标签的数量是否为1，当判断结果为是时，通知排序子单元，当判断结果为否时，，执行步骤S6 ；
[0087]添加子单元，用于将当前记录的标签添加到训练样本的属性中，通知所述聚类子单元;
[0088]排序子单元，用于记录最后一个标签，按照记录的先后顺序给标签排序。
[0089]其中，所述第二计算子单元，用于按照公式一计算每个标签的划分正确率，其中，公式一为:
[0090]Ci= (Is i0-ti01 +1 Sn-tn I) /n X 100 %，Ci 为标签 i 的划分正确率，s η 为标签 i 对应的第一数量，tn为标签i对应的第二数量，s i(l为标签i对应的第三数量，t i(l为标签i对应的第四数量，η为样本的总量。
[0091]上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。
[0092]本发明实施例提供了一种多标签分类方法及装置，具有如下有益效果:
[0093]通过本发明实施例提供的一种多标签分类方法及装置，根据训练样本对应的标签的划分正确率对标签进行排序，按照标签顺序对每个标签对应的分类器进行排序，这样能够保证前面分类器的分类结果的正确率较高，从而保障标签信息能够在最大程度上正确的向后传递，提高了多标签分类的正确率。
[0094]需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
[0095]本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
[0096]最后需要说明的是:以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。
【主权项】
1.一种多标签分类方法，其特征在于，包括: Al:对训练样本进行聚类，并根据聚类后每个训练样本对应的标签的划分正确率对标签进彳T排序； A2:按照标签顺序对每个标签对应的分类器进行排序； A3:通过排序后的分类器对待分类数据进行分类。
2.根据权利要求1所述的方法，其特征在于，所述Al，包括: S1:根据训练样本的属性将所有训练样本聚类为第一类和第二类； S2:分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量，以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量; 53:根据每个标签对应的第一数量、第二数量、第三数量和第四数量，计算每个标签的划分正确率； 54:记录划分正确率最大的标签； 55:判断未记录的标签的数量是否为1，如果是，则执行步骤S7，否则，执行步骤S6 ; 56:将当前记录的标签添加到训练样本的属性中，返回SI ; 57:记录最后一个标签，按照记录的先后顺序给标签排序。
3.根据权利要求2所述的方法，其特征在于，所述S3，包括: 按照公式一计算每个标签的划分正确率，其中，公式一为: Ci= (|s i0-ti01 +1 sn-tn I) /n X 100 %，Ci为标签i的划分正确率，S η为标签i对应的第一数量，tn为标签i对应的第二数量，s i(l为标签i对应的第三数量，t i(l为标签i对应的第四数量，η为样本的总量。
4.一种多标签分类装置，其特征在于，包括: 排序单元，用于对训练样本进行聚类，并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序；训练单元，用于按照标签顺序对每个标签对应的分类器进行排序；分类单元，用于通过排序后的分类器对待分类数据进行分类。
5.根据权利要求4所述的装置，其特征在于，所述排序单元，包括: 聚类子单元，用于根据训练样本的属性将所有训练样本聚类为第一类和第二类；第一计算子单元，用于分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量，以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量；第二计算子单元，用于根据每个标签对应的第一数量、第二数量、第三数量和第四数量，计算每个标签的划分正确率；记录子单元，用于记录划分正确率最大的标签；判断子单元，用于判断未记录的标签的数量是否为1，当判断结果为是时，通知排序子单元，当判断结果为否时，，执行步骤S6 ；添加子单元，用于将当前记录的标签添加到训练样本的属性中，通知所述聚类子单元; 排序子单元，用于记录最后一个标签，按照记录的先后顺序给标签排序。
6.根据权利要求5所述的装置，其特征在于，所述第二计算子单元，用于按照公式一计算每个标签的划分正确率，其中，公式一为: Ci= (|s i0-ti01 +1 sn-tn I) /n X 100 %，Ci为标签i的划分正确率，S η为标签i对应的第一数量，tn为标签i对应的第二数量，s i(l为标签i对应的第三数量，t i(l为标签i对应的第四数量，η为样本的总量。
【专利摘要】本发明提供了一种多标签分类方法及装置，该方法包括：A1：对训练样本进行聚类，并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序；A2：按照标签顺序对每个标签对应的分类器进行排序；A3：通过排序后的分类器对待分类数据进行分类。本发明提供的一种多标签分类方法及装置，能够提高多标签分类的正确率。
【IPC分类】G06F17-30
【公开号】CN104615730
【申请号】CN201510068195
【发明人】范莹, 于治楼, 梁华勇
【申请人】浪潮集团有限公司
【公开日】2015年5月13日
【申请日】2015年2月9日

完整全部详细技术资料下载

当前第2页1 2