用于数据增强的方法和装置与流程

文档序号：18167743发布日期：2019-07-13 09:43阅读：419来源：国知局

本发明涉及机器学习领域，尤其涉及用于数据增强的方法和装置。

背景技术：

数据增强是机器学习领域中的用于增加有效训练样本的数量的技术，其目的在于提高机器学习模型的分类能力。

目前，在给定训练样本之后，工程师通常根据自己的经验选择数据增强模型来对该训练样本进行数据增强处理。有时利用被数据增强处理后的训练样本所训练得到的机器学习模型的分类能力具有很大的提升，这表明数据增强的效果良好。但是，有时利用被数据增强处理后的训练样本所训练得到的机器学习模型的分类能力具有较低的提升甚至负提升，这表明数据增强的效果很差。

因此，现有的数据增强处理并不能总是确保数据增强的良好效果。

技术实现要素：

本发明的实施例提供用于数据增强的方法和装置，其能够有效确保数据增强的良好效果。

按照本发明的实施例的一种用于数据增强的方法，包括：利用指定训练样本集中的各个训练样本所包含的属性值，计算所述指定训练样本集的特征值；根据所计算的特征值，确定所述指定训练样本集所属的特征类型；至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息，获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型；以及，利用所获得的数据增强模型，对所述指定训练样本集进行数据增强处理。

按照本发明的实施例的一种用于数据增强的装置，包括：计算模块，用于利用指定训练样本集中的各个训练样本所包含的属性值，计算所述指定训练样本集的特征值；确定模块，用于根据所计算的特征值，确定所述指定训练样本集所属的特征类型；获得模块，用于至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息，获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型；以及，处理模块，用于利用所获得的数据增强模型，对所述指定训练样本集进行数据增强处理。

按照本发明的实施例的一种计算设备，包括：处理器；以及，存储器，其上存储有可执行指令，其中，所述可执行指令当被执行时使得所述处理器执行前述的方法。

按照本发明的实施例的一种机器可读介质，其上存储有可执行指令，其中，所述可执行指令当被执行时使得机器执行前述的方法。

本发明的实施例的方案根据训练样本的特征值来选择适用于对训练样本进行数据增强处理的数据增强模型，使得所选择的数据增强模型总是与训练样本的特征相匹配的，从而利用被所选择的数据增强模型处理后的训练样本训练得到的机器学习模型的分类能力总是具有较大提升，因此，与现有技术相比，本发明的实施例的方案能够有效确保数据增强的良好效果。

附图说明

本发明的特征和优点通过以下结合附图的描述将变得更加显而易见。

图1示出了按照本发明的一个实施例的用于数据增强的方法的总体流程图。

图2示出了按照本发明的一个实施例的用于数据增强的方法的流程图。

图3示出了按照本发明的一个实施例的用于数据增强的装置的示意图。

图4示出了按照本发明的一个实施例的计算设备的示意图。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。例如，所描述的方法可以按照与所描述的顺序不同的顺序来执行，以及各个步骤可以被添加、省略或者组合。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

发明人经过大量研究发现，不同的训练样本具有不同的特征，如果选用的数据增强模型与训练样本的特征相匹配，则利用被所选用的数据增强模型处理后的训练样本训练得到的机器学习模型的分类能力具有较大提升，相反，如果选用的数据增强模型与训练样本的特征不匹配，则利用被所选用的数据增强模型处理后的训练样本训练得到的机器学习模型的分类能力具有较低提升甚至负提升。

基于以上发现，本发明的实施例的方案根据训练样本的特征来选择用于对训练样本进行数据增强处理的数据增强模型，以有效确保数据增强的良好效果。

图1示出了按照本发明的一个实施例的用于数据增强的方法的总体流程图。图1所示的方法100可以由任何合适的计算设备来实现，该计算设备可以包括但不局限于服务器、台式计算机、笔记本电脑或平板电脑等。

如图1所示，在方框102，对欲进行数据增强处理的训练样本集t中的各个训练样本进行数据预处理。

这里，数据预处理可以例如但不局限于包括数据标准化、数据归一化、数据正规化、数据二值化、数据缺值处理、数据离群点处理和/或数据类型中的一种或多种。

在方框106，计算训练样本集t的多个子特征值，其中，每一个子特征值是利用训练样本集t中的所有训练样本的其中一个属性的属性值计算的。该多个子特征值的数量与训练样本集t中的训练样本所包括的属性的数量相同。该多个子特征值构成训练样本集t的特征值，其表征训练样本集t的特性。

这里，该多个子特征值可以例如但不局限于属于均值、方差、协方差、范围、四分位距、偏度或峰度等。该范围例如可以是训练样本集中的所有训练样本的同一属性的最大属性值与最小属性值之差。均值、方差、协方差、四分位距、偏度和峰度的定义对于本领域技术人员是公知，在此省略对其的详细描述。

在方框110，根据训练样本集t的该多个子特征值，对训练样本集t进行聚类处理以将其聚类到已存在的多个簇的其中一个簇中。其中，该多个簇中的每一个簇包括至少一个其它训练样本集，该至少一个其它训练样本集各自也被计算了多个子特征值。

在方框114，根据聚类结果，确定训练样本集t所属的特征类型。例如但不局限于，当训练样本集t被聚类到该多个簇中的第一簇时将训练样本集t所属的特征类型确定为第一特征类型，当训练样本集t被聚类到该多个簇中的第二簇时将训练样本集t所属的特征类型确定为第二特征类型，依次类推。

在方框118，检查训练样本集t所包括的训练样本是否是文本类型。

在方框122，根据训练样本集t所属的特征类型、方框118的检查结果和所存储的用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息in，获取适用于对训练样本集t进行数据增强处理的数据增强模型o。

在本实施例中，数据增强模型包括两种类型：伪标签增强类型和翻译法增强类型。

伪标签增强类型的数据增强模型可用于对非文本类型和文本类型的训练样本进行数据增强处理。伪标签增强类型的数据增强模型例如但不局限于包括lightgbm模型、xgboost模型、gbdt(梯度提升树)模型、rnn(循环神经网络)模型、cnn(卷积神经网络)模型、gru(门循环单元)模型和lstm(长短期记忆网络)模型，其中，lightgbm模型和xgboost模型属于树模型，gbdt模型属于随机森林模型，以及，rnn模型、cnn模型、gru模型和lstm模型属于神经网络模型。

翻译法增强类型的数据增强模型仅可用于对文本类型的训练样本进行数据增强处理。翻译法增强类型的数据增强模型首先将属于其中一种语言li的训练样本翻译成属于另一种语言lj的数据，然后再将翻译得到的属于语言lj的数据翻译回来属于语言li的数据作为新的训练样本。翻译法增强类型的数据增强模型例如但不局限于包括rnn模型、cnn模型、gru模型和lstm模型等。

在本实施例中，信息in记载各个数据增强模型对于属于不同特征类型的训练样本的模型提升效果，其中，任一数据增强模型对于属于任一特征类型的训练样本的模型提升效果表示与第一机器学习模型相比，第二机器学习模型的分类能力的提升程度，第一机器学习模型是利用未经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型，以及，第二机器学习模型是利用已经过所述任一数据增强模型处理过的属于所述任一特征类型的相同训练样本训练得到的模型。

其中，如果方框118的检查结果表明训练样本集t所包括的训练样本是文本类型，则所获取的数据增强模型o是信息in所指示的所有翻译法增强类型和伪标签增强类型的数据增强模型中的其对属于在方框114确定的特征类型的训练样本的模型提升效果最大的那个数据增强模型。如果方框118的检查结果表明训练样本集t所包括的训练样本是非文本类型，则所获取的数据增强模型o是信息in所指示的所有伪标签增强类型的数据增强模型中的其对属于在方框114确定的特征类型的训练样本的模型提升效果最大的那个数据增强模型。

在方框126，利用所获取的数据增强模型o对训练样本集t进行数据增强处理，以获得已进行数据增强的训练样本集t。

具体地，首先基于在方框106计算的训练样本集t的子特征值来设置所获取的数据增强模型的参数。然后，针对所获取的数据增强模型o是伪标签增强类型还是翻译法增强类型进行不同的操作。

其中，如果所获取的数据增强模型o是伪标签增强类型，则首先利用训练样本集t中的其标签相对比较准确的那些训练样本来训练所获取的数据增强模型o，然后将训练样本集t中的其标签相对比较不准确的那些训练样本中的每一个训练样本输入所获取的经过训练的数据增强模型o并用该数据增强模型o所输出的相应标签替换该训练样本的原标签，经过这样的处理后，训练样本集t中的其标签相对比较不准确的那些训练样本的标签也变成相对比较准确，这相当于增加了可用的训练样本。

其中，如果所获取的数据增强模型o是翻译法增强类型，则将训练样本集t中的各个训练样本依次输入所获取的经过训练的数据增强模型o，该数据增强模型o针对输入的每一个训练样本输出一个新的训练样本，从而得到更多的训练样本。

在获得已进行数据增强的训练样本集t之后，用户利用其来训练得到相应的机器学习模型m1。此外，用户也利用没有经过数据增强的训练样本集t训练得到机器学习模型m2。用户测量机器学习模型m1和m2各自的分类能力，并计算所测量的机器学习模型m1的分类能力与所测量的机器学习模型m2的分类能力的差值，作为所获取的数据增强模型o对于训练样本集t的模型提升效果。

在方框130，接收用户反馈的所获取的数据增强模型o对于训练样本集t的模型提升效果。

在方框134，利用所接收的模型提升效果，更新所存储的信息in中记载的所获取的数据增强模型o对于属于训练样本集t所属的特征类型的训练样本的模型提升效果。

例如，可以将所存储的信息in中记载的所获取的数据增强模型o对于属于训练样本集t所属的特征类型的训练样本的模型提升效果更新为所接收的模型提升效果。

又例如，可以首先计算在方框130接收的模型提升效果和以前接收的数据增强模型o对于属于训练样本集t所属的特征类型的训练样本的模型提升效果的平均模型提升效果，然后将所存储的信息in中记载的所获取的数据增强模型o对于属于训练样本集t所属的特征类型的训练样本的模型提升效果更新为该平均模型提升效果。

从以上的描述可以看出，本实施例的方案根据训练样本的特征值来选择适用于对训练样本进行数据增强处理的数据增强模型，使得所选择的数据增强模型总是与训练样本的特征相匹配的，从而利用被所选择的数据增强模型处理后的训练样本训练得到的机器学习模型的分类能力总是具有较大提升，因此，本实施例的方案能够有效确保数据增强的良好效果。

此外，本实施例的方案还提供反馈机制来更新各个数据增强模型对属于各种增强模型的训练样本的模型提升效果，从而，数据增强模型与什么特征的训练样本相匹配的信息是最新和最准确的，这能确保选择用于对训练样本进行数据增强处理的数据增强模型总是与训练样本的特征最匹配的。

其它变型

本领域技术人员将理解，虽然在上面的实施例中，方法100包括方框102以对训练样本进行数据预处理，然而，本发明并不局限于此。在本发明的其它一些实施例中，例如但不局限于，如果训练样本事先已经被数据预处理，则方法100也可以不包括方框102。

本领域技术人员将理解，虽然在上面的实施例中，方法100包括方框130-134，然而，本发明并不局限于此。在本发明的其它一些实施例中，方法100也可以不包括方框130-134。

本领域技术人员将理解，虽然在上面的实施例中，信息in记载的是各个数据增强模型对于属于不同特征类型的训练样本的模型提升效果，然而，本发明并不局限于此。在本发明的其它一些实施例中，信息in记载的也可以是各个数据增强模型各自最适于对其进行数据增强处理的训练样本所属的特征类型。

本领域技术人员将理解，虽然在上面的实施例中，数据增强模型包括伪标签增强类型和翻译法增强类型两种类型，然而，本发明并不局限于此。在本发明的其它一些实施例中，数据增强模型也可以仅是伪标签增强类型和翻译法增强类型中的其中一种，在这种情况下，方方法100不包括方框118。或者，数据增强模型也可以包括至少一种其他类型的数据增强模型以及伪标签增强类型和翻译法增强类型中的至少一种。或者，数据增强模型包括除了伪标签增强类型和翻译法增强类型之外的至少一种其他类型的数据增强模型。

本领域技术人员将理解，虽然在上面的实施例中，通过根据训练样本集t的多个子特征值来将训练样本集t的聚类到已存在的多个簇的其中一个簇中并根据聚类结果确定训练样本集t所属的特征类型，然而，本发明并不局限于此。在本发明的其它一些实施例中，也可以使用任何其他合适的方式来根据训练样本集t的多个子特征值确定训练样本集t所属的特征类型。

本领域技术人员将理解，虽然在上面的实施例中，训练样本集t的特征值包括多个子特征值，每一个子特征值是利用训练样本集t中的所有训练样本的其中一个属性的属性值计算的，然而，本发明并不局限于此。在本发明的其它一些实施例中，训练样本集t的特征值也可以利用其他任何合适的方式来计算。

图2示出了按照本发明的一个实施例的用于数据增强的方法的流程图。图2所示的方法可以由任何合适的计算设备来实现，该计算设备可以包括但不局限于服务器、台式计算机、笔记本电脑或平板电脑等。

如图2所示，方法200可以包括，在方框202，利用指定训练样本集中的各个训练样本所包含的属性值，计算所述指定训练样本集的特征值。

方法200还可以包括，在方框204，根据所计算的特征值，确定所述指定训练样本集所属的特征类型。

方法200还可以包括，在方框206，至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息，获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型。

方法200还可以包括，在方框208，利用所获得的数据增强模型，对所述指定训练样本集进行数据增强处理。

在一个方面，所述信息记载所述各个数据增强模型对于属于不同特征类型的训练样本的模型提升效果，其中，任一数据增强模型对于属于任一特征类型的训练样本的模型提升效果表示与第一机器学习模型相比，第二机器学习模型的分类能力的提升程度，所述第一机器学习模型是利用未经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型，以及，所述第二机器学习模型是利用已经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型，以及，所获得的数据增强模型是所述各个数据增强模型中的其对于属于所确定的特征类型的训练样本的模型提升效果最大的那个数据增强模型。

在另一个方面，方法200还可以包括：获取用户反馈的所获得的数据增强模型对于所述指定训练样本集的模型提升效果；以及，利用所获取的模型提升效果，更新所述信息中包括的所获取的数据增强模型对属于所确定的特征类型的训练样本的模型提升效果。

在又一个方面，所述特征值包括多个子特征值，每一个子特征值是利用所述指定训练样本集的所有训练样本中的其中一个属性的属性值计算的，以及，方框204包括：对所述多个子特征值进行聚类；以及，根据聚类结果，判定所述指定训练样本集所属的特征类型。

在再一个方面，方法200还可以包括：检查所述指定训练样本集中的各个训练样本是否是文本类型，其中，所获得的数据增强模型是基于检查结果、所确定的特征类型和所述信息而确定的。

图3示出了按照本发明的一个实施例的用于数据增强的装置的示意图。图3所示的装置300可以利用软件、硬件或软硬件结合的方式来实现。装置300例如可以安装在计算设备中。

如图3所示，装置300可以包括计算模块302、确定模块304、获得模块306和处理模块308。计算模块320用于利用指定训练样本集中的各个训练样本所包含的属性值，计算所述指定训练样本集的特征值。确定模块304用于根据所计算的特征值，确定所述指定训练样本集所属的特征类型。获得模块306用于至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息，获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型。处理模块308用于利用所获得的数据增强模型，对所述指定训练样本集进行数据增强处理。

在另一个方面，装置300还包括：获取模块，用于获取用户反馈的所获得的数据增强模型对于所述指定训练样本集的模型提升效果；以及，更新模块，用于利用所获取的模型提升效果，更新所述信息中包括的所获取的数据增强模型对属于所确定的特征类型的训练样本的模型提升效果。

在又一个方面，所述特征值包括多个子特征值，每一个子特征值是利用所述指定训练样本集的所有训练样本中的其中一个属性的属性值计算的，以及，确定模块304包括：聚类模块，用于对所述多个子特征值进行聚类；以及，判定模块，用于根据聚类结果，判定所述指定训练样本集所属的特征类型。

在再一个方面，装置300还可以包括检查模块，用于检查所述指定训练样本集中的各个训练样本是否是文本类型，其中，所获得的数据增强模型是基于检查结果、所确定的特征类型和所述信息而确定的。

图4示出了按照本发明的一个实施例的计算设备的示意图。如图4所示，计算设备400可以包括处理器402和存储器404，其中，存储器404上存储有可执行指令，其中，所述可执行指令当被执行时使得处理器402执行图1所示的方法100或图2所示的方法200。

本发明的实施例还提供一种机器可读介质，其上存储有可执行指令，其中，所述可执行指令当被执行时使得机器执行图1所示的方法100或图2所示的方法200。

上面结合附图阐述的具体实施方式描述了示例性实施例，但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：易灿;袁锦程;许辽萨;王维强
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。