一种不完全标注数据的多标签分类处理方法及装置与流程

文档序号:24119317发布日期:2021-02-27 15:42阅读:67来源:国知局
一种不完全标注数据的多标签分类处理方法及装置与流程

[0001]
本发明涉及数据分类技术领域,尤其涉及一种不完全标注数据的多标签分类处理方法及装置。


背景技术:

[0002]
传统的数据分类问题中,各个类别的数据具有较为显著的类别特征,不同类别之间没有重合度,即同一个数据不能同时具有两个类别的特征。因此在理论上存在分类超曲面,使得不同类别的数据分别分布在被分类超曲面分割的不同区域中。
[0003]
在某些应用领域中,由于具体场景和数据标识的方法,导致不同类别的数据具有一定的重合度,不同类别的数据分布既存在公共部分,又具有类别独有的数据。例如在网络安全领域,不同ip地址接收的流量数据代表用户的行为分布,由于用户的业务具有独特性,不同业务的用户会产生不同的流量分布。这些用户在终端中会产生一些公共操作。在采集用户数据的过程中,采集特定ip地址的数据会产生自动的标签,即该ip地址的用户,如果将用户作为类别,通过用户产生的流量数据对用户进行识别是分类问题,一些用户由于相同的用户行为而导致不同ip地址(不同类别)的流量数据具有重合度。
[0004]
传统的分类方法无法鉴别不同类别的公共部分,所以传统的多标签分类方法对具有数据重合的标签分类的实用性较低。


技术实现要素:

[0005]
鉴于上述的分析,本发明实施例旨在提供一种不完全标注数据的多标签分类处理方法及装置,用以解决现有的多标签分类方法对具有数据重合的标签分类的实用性较低的问题。
[0006]
一方面,本发明实施例提供了一种不完全标注数据的多标签分类处理方法,包括下述步骤:
[0007]
获取训练数据集,所述训练数据集包括多个训练数据向量及其对应的标签类别向量;
[0008]
基于所述训练数据集对神经网络进行参数训练,得到训练好的神经网络;其中,所述神经网络包括输入层、中间层和输出层;
[0009]
对所述训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构;
[0010]
将待分类的不完全标注数据输入所述神经网络的最优网络结构,得到所述待分类的不完全标注数据对应的所有标签类别向量。
[0011]
进一步,对所述训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构,包括下述步骤:
[0012]
对所述训练好的神经网络中间层的输出进行聚类,得到每一个训练数据向量对应的马氏距离;
[0013]
基于所述马氏距离计算每一个训练数据向量的类别相似度;
[0014]
判断所述类别相似度是否满足终止条件,若是,结束训练,所述训练好的神经网络即为神经网络的最优网络结构;若否,更新标签类别向量,并基于训练数据向量及更新后的标签类别向量重新训练神经网络的参数,直至训练数据向量的类别相似度满足终止条件,得到神经网络的最优网络结构。
[0015]
进一步,基于gmm聚类方法对所述训练好的神经网络中间层的输出进行聚类,得到每一个训练数据向量对应的马氏距离。
[0016]
进一步,所述类别相似度的计算公式为:
[0017][0018]
式中,表示类别相似度,表示训练数据向量对应的马氏距离,j∈[1,n],其中,n为训练数据的个数,i∈[1,m],m表示训练数据的类别数。
[0019]
进一步,所述终止条件的计算公式为:
[0020]
|y
j-s
j
|<τ
[0021]
式中,y
j
表示训练数据向量对应的标签类别向量,τ为给定阈值。
[0022]
进一步,所述更新后的标签类别向量的计算公式为:
[0023]
y

j
=(1-w)
·
y
j
+w
·
s
j
[0024]
式中,y

j
表示更新后的标签类别向量,w为类别相似度对应的权重。
[0025]
另一方面,本发明实施例提供了一种不完全标注数据的多标签分类处理装置,包括:
[0026]
训练数据集获得模块,用于获取训练数据集,所述训练数据集包括多个训练数据向量及其对应的标签类别向量;
[0027]
参数训练模块,用于根据所述训练数据集对神经网络进行参数训练,得到训练好的神经网络;其中,所述神经网络包括输入层、中间层和输出层;
[0028]
聚类模块,用于对所述训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构;
[0029]
结果获得模块,用于将待分类的不完全标注数据输入所述神经网络的最优网络结构,得到待分类的不完全标注数据对应的所有标签类别向量。
[0030]
进一步,所述聚类模块用于:
[0031]
对所述训练好的神经网络中间层的输出进行聚类,得到每一个训练数据向量对应的马氏距离;
[0032]
基于所述马氏距离计算每一个训练数据向量的类别相似度;
[0033]
判断所述类别相似度是否满足终止条件,若是,结束训练,所述训练好的神经网络即为神经网络的最优网络结构;若否,更新标签类别向量,并基于训练数据向量及更新后的
标签类别向量重新训练神经网络的参数,直至训练数据向量的类别相似度满足终止条件,得到神经网络的最优网络结构。
[0034]
进一步,所述聚类模块根据gmm聚类方法得到每一个训练数据向量对应的马氏距离。
[0035]
进一步,所述类别相似度的计算公式为:
[0036][0037]
式中,表示类别相似度,表示训练数据向量对应的马氏距离,j∈[1,n],其中,n为训练数据的个数,i∈[1,m],m表示训练数据的类别数。
[0038]
与现有技术相比,本发明至少可实现如下有益效果之一:
[0039]
1、一种不完全标注数据的多标签分类处理方法,通过训练数据集对神经网络进行训练,得到训练好的神经网络,接着基于gmm聚类方法对训练好的神经网络的中间层的输出进行聚类,得到训练数据向量对应的马氏距离,并依据马氏距离计算类别相似度,并判断该类别相似度是否满足终止条件,满足时训练好的神经网络即为神经网络的最优网络结构,不满足终止条件时,更新标签类别向量,并利用训练数据向量和更新后的标签类别向量重新训练神经网络,直至类别相似度满足终止条件,对应得到神经网络的最优网络结构,最后将待分类的不完全标注数据输入神经网络的最优网络结构,得到待分类的不完全标注数据对应的所有标签类别向量,简单易行,易于实施,实现了不完全标注数据的分类,具有较高的实用性。
[0040]
2、通过获得训练数据集,为后期进行神经网络的训练提供了技术支撑和依据,同时,为后期更新标签类别向量提供便利。
[0041]
3、通过gmm聚类方法对神经网络中间层的输出进行聚类,以得到马氏距离,并依据马氏距离计算类别相似度,最后根据类别相似度是否满足终止条件判断是否终止训练,以得到神经网络的最优网络结构,方法新颖,易于实施,同时,采用神经网络提高了标签分类的精确度。
[0042]
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
[0043]
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
[0044]
图1为一个实施例中多标签分类处理方法原理图;
[0045]
图2为一个实施例中不完全标注数据的多标签分类处理方法流程图;
[0046]
图3为另一个实施例中不完全标注数据的多标签分类处理装置结构图;
[0047]
附图标记:
[0048]
100-训练数据集获得模块,200-参数训练模块,300-聚类模块,400-结果获得模块。
具体实施方式
[0049]
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
[0050]
在网络安全领域,不同ip地址接收的流量数据代表用户的行为分布,由于用户的业务具有独特性,不同业务的用户会产生不同的流量分布。这些用户在终端中会产生一些公共操作。在采集用户数据的过程中,采集特定ip地址的数据会产生自动的标签,即该ip地址的用户,如果将用户作为类别,通过用户产生的流量数据对用户进行识别属于分类问题,一些用户由于相同的用户行为而导致不同ip地址(不同类别)的流量数据具有重合度。传统的多标签分类方法无法直接适用于具有数据重合的分类问题。为此,本申请提出了一种不完全标注数据的多标签分类处理方法及装置,如图1所示,通过训练数据集对神经网络进行训练,得到训练好的神经网络,接着基于gmm聚类方法对训练好的神经网络的中间层的输出进行聚类,得到训练数据向量对应的马氏距离,并依据马氏距离计算类别相似度,并判断该类别相似度是否满足终止条件,满足时训练好的神经网络即为神经网络的最优网络结构,不满足终止条件时,更新标签类别向量,并利用训练数据向量和更新后的标签类别向量重新训练神经网络,直至类别相似度满足终止条件,对应得到神经网络的最优网络结构,最后将待分类的不完全标注数据输入神经网络的最优网络结构中,得到待分类的不完全标注数据对应的所有标签类别向量,简单易行,易于实施,实现了不完全标注数据的分类,具有较高的实用性。
[0051]
本发明的一个具体实施例,公开了一种不完全标注数据的多标签分类处理方法,如图2所示,包括下述步骤s1~s3。
[0052]
步骤s1、获取训练数据集,训练数据集包括多个训练数据向量及其对应的标签类别向量。具体地,对于训练数据集{(x
j
,y
j
)}
n
,x
j
∈r
n
表示训练数据向量,y
j
∈r
m
表示训练数据的标签类别向量,j∈[1,n],n为训练数据的个数,m表示训练数据的类别数。
[0053]
示例性地,以网络安全领域为例,在对不同ip地址接收的流量数据进行标签分类时,对于训练数据集(x
j
,y
j
),x
j
表示不同ip地址接收的流量数据,可以通过网络协议解析获得;y
j
表示不同ip地址接收的流量数据对应的所属用户。可采用本申请中的多标签分类方法实现对不同ip地址接收的流量数据的多标签分类。
[0054]
通过获得训练数据集,为后期进行神经网络的训练提供了技术支撑和依据,同时,为后期更新标签类别向量提供便利。
[0055]
步骤s2、基于训练数据集对神经网络进行参数训练,得到训练好的神经网络。具体来说,神经网络包括输入层、中间层和输出层。设定神经网络记作f(x,θ)=(f1(x,θ),...,f
m
(x,θ)),其中,x表示输入数据,θ表示神经网络的参数。本申请中主要通过训练数据集和交叉熵损失函数对神经网络进行训练,以得到训练好的神经网络。
[0056]
步骤s3、对训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网
络结构。具体来说,给定输入数据神经网络中间层中的输出记作对训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构,包括下述步骤:
[0057]
步骤s31、基于gmm聚类方法对训练好的神经网络中间层的输出进行聚类,得到每一个训练数据向量的马氏距离。gmm聚类方法包括下述步骤:
[0058]
首先进行参数初始化:神经网络中间层的输出为j∈[1,n],n为训练数据的个数,i∈[1,m],m表示训练数据的类别数。设定聚类个数k,迭代次数l=1,阈值ε>0,随机赋值聚类中心的初始值为、类方差的初始值为及类比例的初始值为同时,1≤k≤k,其中,k为聚类个数的最大值,使得类方差的初始值正定,类比例的初始值并且计算神经网络中间层的输出关于聚类中心的置信度γ
i
(j,k):
[0059][0060]
其中,表示后验概率。
[0061]
计算聚类中心类方差和类比例
[0062][0063][0064]
其中,表示的转置;
[0065][0066]
当同时满足条件时,定义并进行下述步骤;当不满足条件令l=l+1重新进行迭代计算聚类中心类方差和类比例直至满足上述条件并进行下述步骤。
[0067]
对每一个根据公式计算得到最大置信度对应的聚类
个数进而得到初始马氏距离的计算公式为:
[0068][0069]
式中,为初始马氏距离,为最大置信度对应的聚类个数,为最大置信度对应的聚类中心。
[0070]
给定整数i,i属于x
j
的类别则记作i∈y
j
,否则记作在本申请中,第i类训练数据表示集合记作则通过下述方式获得马氏距离
[0071][0072][0073]
步骤s32、基于马氏距离计算每一个训练数据向量的类别相似度。详细地,类别相似度的计算公式为:
[0074][0075]
式中,表示类别相似度,表示训练数据向量对应的马氏距离,j∈[1,n],其中,n为训练数据的个数,i∈[1,m],m表示训练数据的类别数。
[0076]
步骤s33、判断类别相似度是否满足终止条件,其中,终止条件的计算公式为:
[0077]
|y
j-s
j
|<τ
[0078]
式中,y
j
表示训练数据向量对应的标签类别向量,τ为给定阈值。
[0079]
若类别相似度满足终止条件,结束训练,训练好的神经网络即为神经网络的最优网络结构;若类别相似度不满足终止条件,基于下述公式更新标签类别向量,并重新将训练数据向量及更新后的标签类别向量组成训练样本集,对神经网络的参数进行训练,得到训练好的神经网络后,对训练后的神经网络中间层的输出进行聚类,直至类别相似度满足终止条件,得到神经网络的最优网络结构,其中,更新后的标签类别向量的计算公式为:
[0080]
y

j
=(1-w)
·
y
j
+w
·
s
j
[0081]
式中,y

j
表示更新后的标签类别向量,w为类别相似度对应的权重,其中,w∈[0,1],本实施例中取w=0.1。
[0082]
通过gmm聚类方法对神经网络中间层的输出进行聚类,以得到马氏距离,并依据马氏距离计算类别相似度,最后根据类别相似度是否满足终止条件判断是否终止训练,以得到对应的神经网络的最优网络结构,方法新颖,易于实施,同时,采用神经网络提高了标签
分类的精确度。
[0083]
步骤s4、将待分类的不完全标注数据输入神经网络的最优网络结构,得到待分类的不完全标注数据对应的所有标签类别向量。具体地,基于步骤s3得到神经网络的最优网络结构后,可将待分类的不完全标注数据输入神经网络的最优网络结构,得到待分类的不完全标注数据对应的所有标签类别向量。
[0084]
与现有技术相比,本实施例提供的不完全标注数据的多标签分类处理方法,通过训练数据集对神经网络进行训练,得到训练好的神经网络,接着采用gmm聚类方法对训练好的神经网络中间层的输出进行聚类,得到训练数据向量对应的马氏距离,并依据马氏距离计算类别相似度,并判断该类别相似度是否满足终止条件,以得到神经网络的最优网络结构,最后将待分类的不完全标注数据输入神经网络的最优网络结构中,得到待分类的不完全标注数据对应的所有标签类别向量,简单易行,易于实施,实现了不完全标注数据的分类,具有较高的实用性。
[0085]
本发明的另一个具体实施例,公开了一种不完全标注数据的多标签分类处理装置,如图3所示,包括训练数据集获得模块100,用于获取训练数据集,训练数据集包括多个训练数据向量及其对应的标签类别向量;参数训练模块200,用于根据训练数据集对神经网络进行参数训练,得到训练好的神经网络;其中,神经网络包括输入层、中间层和输出层;聚类模块300,用于对训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构;结果获得模块400,用于将待分类的不完全标注数据输入所述神经网络的最优网络结构,得到待分类的不完全标注数据对应的所有标签类别向量。
[0086]
由于不完全标注数据的多标签分类处理装置的实现原理与前述不完全标注数据的多标签分类处理方法的实现原理相似,故这里不再赘述。
[0087]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1