一种样本类别标签纠正方法及装置与流程

文档序号：13137741阅读：219来源：国知局

本申请涉及标签纠错技术领域，更具体地说，涉及一种样本类别标签纠正方法及装置。

背景技术：

在数据分析建模领域，我们首先需要保证训练数据的准确性，基于准确的训练数据训练得到的模型才能够为后续使用。

一般的数据建模学习由监督学习、非监督学习和半监督学习等组成。监督学习通常用于解决分类问题，主要过程是利用训练数据集学习一个模型，再用模型对测试样本集进行预测。在这个过程中首先需要准备训练数据集，而训练数据集往往需要事先标注出输出的观测值，对分类来说，标注出的观测值就是训练样本的类别标签。

初始状态下，训练样本的类别标签一般是人工通过先验知识标注的。而人工标注的类别标签存在一定的错误，导致训练样本的类别标签不准确。为此亟需一种训练样本类别标签的纠正方案，以提升训练样本类别标签的准确度。

技术实现要素：

有鉴于此，本申请提供了一种样本类别标签纠正方法及装置，以提升训练样本类别标签的准确度。

为了实现上述目的，现提出的方案如下：

一种样本类别标签纠正方法，包括：

对第一样本集合和第二样本集合分别进行聚类，所述第一样本集合聚类后得到至少一个第一聚类簇，所述第二样本集合聚类后得到至少一个第二聚类簇；

其中，所述第一样本集合中各第一样本的类别标签为第一类别标签，所述第二样本集合中各第二样本的类别标签为第二类别标签，所述第一类别标签的可信度大于所述第二类别标签的可信度；

确定所述第一聚类簇和所述第二聚类簇间的距离；

根据所述第一聚类簇和所述第二聚类簇间的距离，确定满足设定距离条件的目标聚类簇对，目标聚类簇对包含所述至少一个第一聚类簇中的一个第一聚类簇，和所述至少一个第二聚类簇中的一个第二聚类簇；

将所述目标聚类簇对中，第二聚类簇中各第二样本的类别标签从所述第二类别标签修改为可信度高的所述第一类别标签。

一种样本类别标签纠正装置，包括：

聚类单元，用于对第一样本集合和第二样本集合分别进行聚类，所述第一样本集合聚类后得到至少一个第一聚类簇，所述第二样本集合聚类后得到至少一个第二聚类簇；其中，所述第一样本集合中各第一样本的类别标签为第一类别标签，所述第二样本集合中各第二样本的类别标签为第二类别标签，所述第一类别标签的可信度大于所述第二类别标签的可信度；

聚类簇距离确定单元，用于确定所述第一聚类簇和所述第二聚类簇间的距离；

目标聚类簇对确定单元，用于根据所述第一聚类簇和所述第二聚类簇间的距离，确定满足设定距离条件的目标聚类簇对，目标聚类簇对包含所述至少一个第一聚类簇中的一个第一聚类簇，和所述至少一个第二聚类簇中的一个第二聚类簇；

标签纠正单元，用于将所述目标聚类簇对中，第二聚类簇中各第二样本的类别标签从所述第二类别标签修改为可信度高的所述第一类别标签。

本申请实施例提供的样本类别标签纠正方法，对第一样本集合和第二样本集合分别进行聚类，第一样本集合聚类后得到至少一个第一聚类簇，第二样本集合聚类后得到至少一个第二聚类簇；其中，第一样本集合中各第一样本的类别标签为第一类别标签，第二样本集合中各第二样本的类别标签为第二类别标签，根据先验知识可以确定第一类别标签的可信度大于第二类别标签的可信度；确定第一聚类簇和第二聚类簇间的距离；根据第一聚类簇和第二聚类簇间的距离，确定满足设定距离条件的目标聚类簇对，目标聚类簇对包含一个第一聚类簇和一个第二聚类簇；将目标聚类簇对中，第二聚类簇中各第二样本的类别标签从第二类别标签修改为可信度高的第一类别标签。本申请基于不同类别间距离越大越好的聚类思想，挑选出距离满足设定距离条件的目标聚类簇对，该目标聚类簇对中存在类别标签错误的样本，因此，根据先验知识得到的第一类别标签的可信度大于第二类别标签的可信度，将目标聚类簇中第二样本的类别标签，从第二类别标签修改为可信度高的第一类别标签，实现了对样本类别标签的纠正，提升了样本类别标签的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种服务器的硬件结构示意图；

图2为本申请实施例公开的一种样本类别标签纠正方法流程图；

图3为本申请实施例公开的一种聚类方法流程图；

图4为本申请实施例公开的另一种样本类别标签纠正方法流程图；

图5为本申请实施例公开的一种样本类别标签纠正装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本案发明人为了提升样本类别标签的准确度，做了多方案的尝试，如：聘请多名领域专家对样本的分类标签进行投票，根据投票结果确定最终的样本类别标签，以实现对样本类别标签的纠正。

但是，实际应用过程中，该方法会耗费大量的人力资源及时间生成。为此，本案发明人继续探索其它可实施性方案。

最终，本案发明人基于“不同类别间的距离越大越好”的聚类思想，使用聚类的方法来解决样本分类标签纠正的问题，并取得很好的效果。接下来，对本申请的样本类别标签纠正方案进行介绍。

本实施例提供的样本类别标签纠正方法基于服务器，该服务器的硬件结构可以是电脑、笔记本等。在介绍本申请的样本类别标签纠正方法之前，首先介绍一下服务器的硬件结构。如图1所示，该服务器可以包括：

处理器1，通信接口2，存储器3，通信总线4，和显示屏5；

其中处理器1、通信接口2、存储器3和显示屏5通过通信总线4完成相互间的通信。

接下来，我们结合服务器硬件结构，对本申请的样本类别标签纠正方法进行介绍，如图2所示，该方法包括：

步骤s200、对第一样本集合和第二样本集合分别进行聚类，所述第一样本集合聚类后得到至少一个第一聚类簇，所述第二样本集合聚类后得到至少一个第二聚类簇；

其中，所述第一样本集合中各第一样本的类别标签为第一类别标签，所述第二样本集合中各第二样本的类别标签为第二类别标签。

第一类别标签和第二类别标签均是预先为样本设定的类别标签。根据先验知识可以确定出两个类别标签的可信度的高低，本实施例为了便于表述，定义第一类别标签的可信度大于第二类别标签的可信度。

具体实施时，可以通过服务器的通信接口2来获取第一样本集合和第二样本集合。对于聚类的算法可以预先存储在存储器3中。运算时，由处理器1通过通信总线4在存储器3中读取聚类算法，并利用读取的聚类算法对第一样本集合和第二样本集合分别进行聚类。

可选的，上述通信接口2可以为通信模块的接口，如gsm模块的接口。

可选的，处理器1可能是一个中央处理器cpu，或者是特定集成电路asic(applicationspecificintegratedcircuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

步骤s210、确定所述第一聚类簇和所述第二聚类簇间的距离；

具体地，第一聚类簇可以是一个或多个，第二聚类簇也可以是一个或多个。若第一聚类簇和第二聚类簇均为一个时，可以直接计算第一聚类簇和第二聚类簇的距离。若第一聚类簇和/或第二聚类簇为多个时，则需要计算每一个第一聚类簇与各个第二聚类簇间的距离。

以第一聚类簇为p个、第二聚类簇为q个为例，总共需要计算p*q个距离。

对于第一聚类簇和第二聚类簇的距离，可以是先确定第一聚类簇的中心点以及第二聚类簇的中心点，进而计算两个中心点的距离，距离可以是欧氏距离，除此之外，还可以选择曼哈顿距离、马氏距离、夹角余弦距离、相关系数、标准化欧氏距离等等距离衡量方法。

对于第一聚类簇的中心点，可以是根据第一聚类簇中各个样本数据取均值计算得到。同理针对第二聚类簇的中心点。

具体实施时，可以由处理器1调取存储器3中存储的距离算法，进而按照距离算法计算所述第一聚类簇和所述第二聚类簇间的距离。

步骤s220、根据所述第一聚类簇和所述第二聚类簇间的距离，确定满足设定距离条件的目标聚类簇对；

其中，目标聚类簇对包含所述至少一个第一聚类簇中的一个第一聚类簇，和所述至少一个第二聚类簇中的一个第二聚类簇。

根据设定距离条件的不同，目标聚类簇对的个数可以是一个或多个。设定距离条件可以包括两个聚类簇的距离阈值，或者是距离按照大小排序后指定序位的距离所对应的目标聚类簇对。

具体实施时，设定距离条件可以预先存储在存储器3中，运算时，由处理器1调取设定距离条件，进而根据设定距离条件以及第一聚类簇和第二聚类簇间的距离，确定出目标聚类簇对。

步骤s230、将所述目标聚类簇对中，第二聚类簇中各第二样本的类别标签从所述第二类别标签修改为可信度高的所述第一类别标签。

具体地，对于上述确定出的目标聚类簇对，由于其距离满足设定距离条件，因此本申请确定其中有一个聚类簇的类别标签是错误的。进一步，由于先验知识确定出第一类别标签的可信度高于第二类别标签的可信度，因此，将所述目标聚类簇对中，第二聚类簇中各第二样本的类别标签从所述第二类别标签修改为可信度高的所述第一类别标签。

具体实施时，对于修改后样本的类别标签可以通过显示屏5进行展示。

需要说明的是，本申请上述实施例以样本包含两个类别标签的情况进行的说明。对于多类别标签的情况，可以转化为两个类别标签的情况。处理方式如下：

首先根据先验知识判断多类别标签中哪一个类别标签标注的可信度最大，取出这个可信度最大的类别标签的样本作为第一样本，其它类别标签的样本作为第二样本，这样处理后就分成了第一样本集合和第二样本集合两类数据。再使用上述实施例中的方案进行类别标签的纠正，可以将第二样本集合中错误的类别标签纠正为第一样本的类别标签。

在确定第二样本集合中本该标注为第一样本的类别标签的类别标签均已经被纠正后，将剩余的第二样本集合作为新的对象，根据先验知识，从中选取可信度最高的类别标签对应的样本，作为新的第一样本，剩余样本作为新的第二样本，重复执行类别标签纠正过程。迭代直至对多类别标签中各个类别标签均完成纠正后结束。

接下来本申请实施例对上述步骤s200，对第一样本集合和第二样本集合分别进行聚类的过程进行介绍，参见图3。

如图3所示，聚类过程可以包括：

步骤s300、计算第一样本集合聚类簇的个数x1；

x1＝m1/m11

其中，m1为所述第一样本集合包含的样本数量，m11为设定的第一样本单次期望调整数量。m11可以由用户设定。

步骤s310、计算第二样本集合聚类簇的个数x2；

x2＝m2/m21

其中，m2为所述第二样本集合包含的样本数量，m21为设定的第二样本单次期望调整数量。m21可以由用户设定。

步骤s320、按照计算得到的第一样本集合聚类簇的个数x1、第二样本集合聚类簇的个数x2，分别对第一样本集合和第二样本集合进行聚类。

具体地，在聚类时可以使用kmeans聚类算法、层次聚类算法或基于密度的聚类算法dbscan(density-basedspatialclusteringofapplicationswithnoise)等。

参见图4，图4为本申请实施例公开的另一种样本类别标签纠正方法流程图。

如图4所示，该方法包括：

步骤s400、对第一样本集合和第二样本集合分别进行聚类，所述第一样本集合聚类后得到至少一个第一聚类簇，所述第二样本集合聚类后得到至少一个第二聚类簇；

其中，所述第一样本集合中各第一样本的类别标签为第一类别标签，所述第二样本集合中各第二样本的类别标签为第二类别标签。

步骤s410、确定所述第一聚类簇和所述第二聚类簇间的距离；

步骤s420、根据所述第一聚类簇和所述第二聚类簇间的距离，确定满足设定距离条件的目标聚类簇对；

其中，目标聚类簇对包含所述至少一个第一聚类簇中的一个第一聚类簇，和所述至少一个第二聚类簇中的一个第二聚类簇。

步骤s430、将所述目标聚类簇对中，第二聚类簇中各第二样本的类别标签从所述第二类别标签修改为可信度高的所述第一类别标签；

步骤s440、对类别标签修改为第一类别标签的样本的位置进行调整，以将其从所述第二样本集合中删除，并加入所述第一样本集合；

具体地，定义类别标签修改的第二样本为目标第二样本，则本步骤中，在所述第二样本集合中删除目标第二样本，并在第一样本集合中添加目标第二样本。

步骤s450、计算位置调整后的第一样本集合与第二样本集合的距离；

具体地，计算添加了目标第二样本后的第一样本集合，与删除了目标第二样本后的第二样本集合的距离。

在计算两个样本集合的距离是，可以是先确定两个样本集合各自的中心点，进而计算两个中心点的距离，距离可以是欧氏距离，除此之外，还可以选择曼哈顿距离、马氏距离、夹角余弦距离、相关系数、标准化欧氏距离等等距离衡量方法。

对于样本集合的中心点，可以是根据样本集合中各个样本数据取均值计算得到。

步骤s460、判断计算得到的距离是否大于位置调整前的第一样本集合与第二样本集合的距离；若是，执行步骤s470，若否，执行步骤s480；

步骤s470、将位置调整后的第一样本集合作为新的第一样本集合，将位置调整后的第二样本集合作为新的第二样本集合，触发执行步骤s400；

步骤s480、将类别标签修改后的样本的类别标签还原为所述第二类别标签。

具体地，本实施例中，在对类别标签进行修改后，通过计算调整后第一样本集合和第二样本集合的距离，判断相比于调整前的距离是否增加，如果增加了，代表上述类别标签修改过程是有效的，可以迭代对调整后的第一样本集合和第二样本集合进行聚类操作，如果距离未增加，则代表上述类别标签修改过程是无效的，可以将类别标签修改后的样本的类别标签还原为第二类别标签，进而退出结束。

接下来的实施例中，对上述根据第一聚类簇和第二聚类簇间的距离，确定满足设定距离条件的目标聚类簇对的过程进行介绍。

一种可选的实施方式：

首先，按照距离值由小至大的顺序，对所述第一聚类簇和所述第二聚类簇间的距离进行排序；

其次，确定排序处于前指定序位的各距离所分别对应的目标聚类簇对。

其中，指定序位可以由用户设定，例如为排序中第一个或前若干个。

为了便于理解，现举例说明：

假设第一样本集合聚类后得到聚类簇a1和a2，第二样本集合聚类后得到聚类簇b1、b2和b3。假设指定序位第一个。

其中，各个聚类簇间的距离如下：

a1与b1的距离l1、a1与b2的距离l2、a1与b3的距离l3、a2与b1的距离l4、a2与b2的距离l5、a2与b3的距离l6。

按照距离由小至大排序：

l1<l2<l3<l4<l5<l6

则确定排序中第一个距离l1对应的目标聚类簇对：a1和b1。

当然，除了上述方式之外还可以存在其它可选的实施方式，例如：

本申请预先设定距离阈值，进而在确定了第一聚类簇和所述第二聚类簇间的距离之后，确定距离值小于设定距离阈值的各距离所分别对应的目标聚类簇对。

为了便于理解，现举例说明：

假设第一样本集合聚类后得到聚类簇a1和a2，第二样本集合聚类后得到聚类簇b1、b2和b3。设定距离阈值为lx。

其中，各个聚类簇间的距离如下：

a1与b1的距离l1、a1与b2的距离l2、a1与b3的距离l3、a2与b1的距离l4、a2与b2的距离l5、a2与b3的距离l6。

各个距离与设定距离阈值lx的大小关系如下：

l1<l2<lx<l3<l4<l5<l6

因此，确定小于lx的两个距离l1、l2分别对应的目标聚类簇对：a1和b1、a1和b2。

为了对本申请方案的有效性进行验证，通过下述实验说明。

在我们某次二分类建模任务中，首先负样本即恶意样本相比正样本更易被标注，那就表示我们标注的负样本可信度大于正样本。之后我们将负样本作为第一样本，将正样本作为第二样本，使用本申请的方法对第二样本进行类别标签纠正。

利用类别标签纠正后的样本对模型进行训练，得到第一训练模型。同时，利用未经过类别标签纠正的样本对模型进行训练，得到第二训练模型

进一步，分别使用第一训练模型和第二训练模型对实验样本进行分类。发现，相比于第二训练模型，第一训练模型得到的分类准确度提升了5％，从而说明了本申请方案的有效性。

下面对本申请实施例提供的样本类别标签纠正装置进行描述，下文描述的样本类别标签纠正装置与上文描述的样本类别标签纠正方法可相互对应参照。

参见图5，图5为本申请实施例公开的一种样本类别标签纠正装置结构示意图。

如图5所示，该装置包括：

聚类单元51，用于对第一样本集合和第二样本集合分别进行聚类，所述第一样本集合聚类后得到至少一个第一聚类簇，所述第二样本集合聚类后得到至少一个第二聚类簇；其中，所述第一样本集合中各第一样本的类别标签为第一类别标签，所述第二样本集合中各第二样本的类别标签为第二类别标签，所述第一类别标签的可信度大于所述第二类别标签的可信度；

其中，第一类别标签和第二类别标签均是预先为样本设定的类别标签。根据先验知识可以确定出两个类别标签的可信度的高低，本实施例为了便于表述，定义第一类别标签的可信度大于第二类别标签的可信度。

聚类簇距离确定单元52，用于确定所述第一聚类簇和所述第二聚类簇间的距离；

对于第一聚类簇的中心点，可以是根据第一聚类簇中各个样本数据取均值计算得到。同理针对第二聚类簇的中心点。

目标聚类簇对确定单元53，用于根据所述第一聚类簇和所述第二聚类簇间的距离，确定满足设定距离条件的目标聚类簇对，目标聚类簇对包含所述至少一个第一聚类簇中的一个第一聚类簇，和所述至少一个第二聚类簇中的一个第二聚类簇；

标签纠正单元54，用于将所述目标聚类簇对中，第二聚类簇中各第二样本的类别标签从所述第二类别标签修改为可信度高的所述第一类别标签。

本申请实施例提供的样本类别标签纠正装置，挑选出距离满足设定距离条件的目标聚类簇对，该目标聚类簇对中存在类别标签错误的样本，因此，根据先验知识得到的第一类别标签的可信度大于第二类别标签的可信度，将目标聚类簇中第二样本的类别标签，从第二类别标签修改为可信度高的第一类别标签，实现了对样本类别标签的纠正，提升了样本类别标签的准确度。

可选的，本申请装置还可以包括：

样本位置调整单元，用于对类别标签修改为第一类别标签的样本的位置进行调整，以将其从所述第二样本集合中删除，并加入所述第一样本集合；

样本距离判断单元，用于计算位置调整后的第一样本集合与第二样本集合的距离，并判断计算得到的距离是否大于位置调整前的第一样本集合与第二样本集合的距离；

样本集合确定单元，用于在所述样本距离判断单元的判断结果为是时，将位置调整后的第一样本集合作为新的第一样本集合，将位置调整后的第二样本集合作为新的第二样本集合，触发执行所述聚类单元；

标签还原单元，用于在所述样本距离判断单元的判断结果为否时，将类别标签修改后的样本的类别标签还原为所述第二类别标签。

可选的，本申请示例了两种不同结构的目标聚类簇对确定单元，分别如下：

第一，目标聚类簇对确定单元可以包括：

距离排序单元，用于按照距离值由小至大的顺序，对所述第一聚类簇和所述第二聚类簇间的距离进行排序；

序位选取单元，用于确定排序处于前指定序位的各距离所分别对应的目标聚类簇对。

第二，目标聚类簇对确定单元可以包括：

阈值选取单元，用于确定距离值小于设定距离阈值的各距离所分别对应的目标聚类簇对。

可选的，本申请实施例公开了聚类单元的一种可选结构，其可以包括：

第一聚类子单元，用于计算第一样本集合聚类簇的个数x1：

x1＝m1/m11

其中，m1为所述第一样本集合包含的样本数量，m11为设定的第一样本单次期望调整数量；

第二聚类子单元，用于计算第二样本集合聚类簇的个数x2：

x2＝m2/m21

其中，m2为所述第二样本集合包含的样本数量，m21为设定的第二样本单次期望调整数量；

第三聚类子单元，用于按照计算得到的第一样本集合聚类簇的个数x1、第二样本集合聚类簇的个数x2，分别对第一样本集合和第二样本集合进行聚类。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金洪波;金欢;潘安群
技术所有人：腾讯科技(深圳)有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。