无标签数据的处理方法、系统、介质及终端与流程

文档序号：21281257发布日期：2020-06-27 00:21阅读：来源：国知局

技术特征：

1.一种无标签数据的处理方法，其特征在于，包括以下步骤：

获取数据集；所述数据集中包括异常数据和无标签数据；

计算所述无标签数据的离群分数；

计算所述无标签数据的异常相似分数；

基于所述离群分数和所述异常相似分数，对所述无标签数据进行分类；

获取经分类后的无标签数据的可靠性权重。

2.根据权利要求1所述的无标签数据的处理方法，其特征在于，计算所述无标签数据的离群分数包括：采用局部异常因子算法计算所述离群分数；计算公式为：

其中，o_score(x)表示无标签数据x的离群分数；无标签数据x＝r^d，r^d表示数据空间，d表示无标签数据的特征维度；lof(x)表示无标签数据x通过局部异常因子算法计算得到的结果。

3.根据权利要求1所述的无标签数据的处理方法，其特征在于，计算所述无标签数据的异常相似分数包括以下步骤：

对所述异常数据进行聚类，产生至少一异常簇，并获取所述异常簇的中心数据；

计算所述无标签数据与所述中心数据的距离；

基于所述距离，获取所述异常相似分数。

4.根据权利要求3所述的无标签数据的处理方法，其特征在于，

计算所述无标签数据与所述中心数据的距离的计算公式为：

其中，ui表示第i个异常簇的中心数据；e_d(x,ui)表示无标签数据x与中心数据ui之间的距离；无标签数据x＝r^d，r^d表示数据空间，d表示无标签数据的特征维度；j的值从1取到d；

基于所述距离，获取所述异常相似分数的计算公式为：

其中，s_score(x)表示无标签数据x的异常相似分数；k表示异常簇的数量。

5.根据权利要求1所述的无标签数据的处理方法，其特征在于，基于所述离群分数和所述异常相似分数，对所述无标签数据进行分类包括以下步骤：

基于所述离群分数和所述异常相似分数，计算所述无标签数据的最终分数；

获取分类阈值；

基于所述最终分数和所述分类阈值，对所述无标签数据进行分类。

6.根据权利要求1所述的无标签数据的处理方法，其特征在于，获取经分类后的无标签数据的可靠性权重包括以下步骤：

对经分类后的无标签数据进行聚类，以产生聚类结果；所述聚类结果包括至少一伪标签簇；

计算所述伪标签簇的标签熵；

基于所述标签熵，计算所述伪标签簇的可靠性权重，以获取经分类后的无标签数据的可靠性权重。

7.根据权利要求6所述的无标签数据的处理方法，其特征在于，

计算所述伪标签簇的标签熵的计算公式为：

记聚类结果为u＝{u1,u2,……ut}；t表示伪标签簇的个数；ui表示第i个伪标签簇，i的值从1取到t；n(ui)表示第i个伪标签簇中伪标签数据的个数；ns(ui)表示第i个伪标签簇中属于类别s的伪标签数据的个数，s∈{-1,+1}；-1表示正常数据；+1表示异常数据；h(ui)表示第i个伪标签簇的标签熵；

基于所述标签熵，计算所述伪标签簇的可靠性权重的计算公式为：

w(ui)＝1-h(ui)

其中，w(ui)表示第i个伪标签簇的可靠性权重；

所述伪标签簇中伪标签数据的可靠性权重与该伪标签簇的可靠性权重相等。

8.一种无标签数据的处理系统，其特征在于，包括：第一获取模块、第一计算模块、第二计算模块、分类标签模块和第二获取模块；

所述第一获取模块用于获取数据集；所述数据集中包括异常数据和无标签数据；

所述第一计算模块用于计算所述无标签数据的离群分数；

所述第二计算模块用于计算所述无标签数据的异常相似分数；

所述分类标签模块用于基于所述离群分数和所述异常相似分数，对所述无标签数据进行分类；

所述第二获取模块用于获取经分类后的无标签数据的可靠性权重。

9.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的无标签数据的处理方法。

10.一种终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1至7中任一项所述的无标签数据的处理方法。

技术总结
本发明提供一种无标签数据的处理方法、系统、介质及终端；所述处理方法包括以下步骤：获取数据集；数据集中包括异常数据和无标签数据；计算无标签数据的离群分数；计算无标签数据的异常相似分数；基于离群分数和异常相似分数，对无标签数据进行分类；获取经分类后的无标签数据的可靠性权重；本发明综合离群性和异常相似性，对无标签数据进行分类，以获取分类后添加了伪标签的伪标签数据，并通过衡量伪标签数据的可靠性权重，实现了对无标签数据的有效处理，为无标签数据的正确识别提供了双重保障；利用原有正常数据、异常数据及添加了伪标签的伪标签数据训练无标签数据分类网络，有效提高了无标签数据分类网络的分类性能。

技术研发人员：蒋昌俊;闫春钢;丁志军;刘关俊;张亚英;耿俊美
受保护的技术使用者：同济大学
技术研发日：2020.02.21
技术公布日：2020.06.26

完整全部详细技术资料下载

当前第2页1 2