分类模型训练方法、装置、终端设备及存储介质与流程

文档序号:25584311发布日期:2021-06-22 16:49阅读:115来源:国知局
分类模型训练方法、装置、终端设备及存储介质与流程

本申请属于人工智能技术领域,尤其涉及一种分类模型训练方法、装置、终端设备及存储介质。



背景技术:

随着深度学习技术的发展,人们可以通过使用深度学习的方法,训练得到用于分类的神经网络模型,以处理文本分类或图像分类等机器分类问题。通常地,为使训练得到的神经网络模型在进行分类时获得较高的准确率,需要大量的标注样本数据进行模型训练。在此过程中,不仅需要采集大量的样本数据,还需要通过人工标注的方式对采集到的样本数据进行标注,得到用于训练神经网络模型的标注样本数据。

然而,对大量的样本数据进行标注,将耗费大量的时间以及人力。若通过少量的标注样本数据直接进行模型训练,则其生成的神经网络模型的分类准确率低。



技术实现要素:

本申请实施例提供了一种分类模型训练方法、装置、终端设备及存储介质,可以解决在通过少量的标注样本数据直接进行模型训练时,其生成的神经网络模型分类准确率低的问题。

第一方面,本申请实施例提供了一种分类模型训练方法,包括:

基于第一训练数据进行模型训练,得到初始分类模型,所述第一训练数据包括第一训练样本和所述第一训练样本对应的第一样本类别;

获取未标注样本类别的第二训练样本,并对所述第二训练样本进行回译处理,得到回译第二训练样本;

输入所述回译第二训练样本至所述初始分类模型,得到所述回译第二训练样本对应的目标第二样本类别;

将所述第一训练数据作为第一目标训练数据,将所述第二训练样本和所述目标第二样本类别作为第二目标训练数据,以及将所述回译第二训练样本和所述目标第二样本类别作为第三目标训练数据进行综合训练,得到目标分类模型。

在一实施例中,所述对所述第二训练样本进行回译处理,得到回译第二训练样本,包括:

确定所述第二训练样本的样本语言;

利用第一翻译接口,将所述第二训练样本翻译成预设语言的第二训练样本;

利用第二翻译接口,将所述预设语言的第二训练样本,回译成与所述样本语言相同的回译第二训练样本。

在一实施例中,所述输入所述回译第二训练样本至所述初始分类模型,得到所述回译第二训练样本对应的目标第二样本类别,包括:

输入所述回译第二训练样本至所述初始分类模型,得到所述回译第二训练样本对应的回译第二样本类别;

确定所述回译第二样本类别对应的回译类别权重值;

根据预设的加权公式和所述回译类别权重值,对所述回译第二样本类别进行加权处理,得到所述目标第二样本类别。

在一实施例中,所述根据预设的加权公式和所述回译类别权重值,对所述回译第二样本类别进行加权处理,得到目标第二样本类别,包括:

输入所述未标注样本类别的第二训练样本至所述初始分类模型,得到所述第二训练样本对应的初始第二样本类别;

确定所述初始第二样本类别对应的预设权重值;

根据所述预设的加权公式、所述回译类别权重值和所述预设权重值,对所述回译第二样本类别和所述初始第二样本类别进行加权处理,得到所述目标第二样本类别。

在一实施例中,在所述根据预设的加权公式和所述回译类别权重值,对所述回译第二样本类别进行加权处理,得到所述目标第二样本类别之后,还包括:

采用预设的正则表达式,对所述目标第二样本类别进行正则化处理,得到最终用于进行综合训练的目标第二样本类别。

在一实施例中,将所述第一训练数据作为第一目标训练数据,将所述第二训练样本和所述目标第二样本类别作为第二目标训练数据,以及将所述回译第二训练样本和所述目标第二样本类别作为第三目标训练数据进行综合训练,得到目标分类模型中,包括:

从所述第一目标训练数据、所述第二目标训练数据和所述第三目标训练数据中多次随机抽取至少两个目标训练数据;

针对任意一次随机抽取的所述至少两个目标训练数据,对所述至少两个目标训练数据分别进行随机加权处理,得到新的目标训练数据;

基于多次得到的所述新的目标训练数据进行训练,生成所述目标分类模型。

在一实施例中,所述至少两个目标训练数据中,每个目标训练数据分别包括目标训练样本和所述目标训练样本对应的目标样本类别;

所述针对任意一次随机抽取的所述至少两个目标训练数据,对所述至少两个目标训练数据分别进行随机加权处理,得到新的目标训练数据中,包括:

根据正太分布公式,对所述至少两个目标训练数据中的目标训练样本进行加权求和,得到新的目标训练样本;以及,

根据所述正太分布公式,对所述两个目标训练数据中的目标样本类别进行加权求和,得到新的目标样本类别;

将所述新的目标训练样本和所述新的目标样本类别作为所述新的目标训练数据。

第二方面,本申请实施例提供了一种分类模型训练装置,包括:

第一训练模块,用于基于第一训练数据进行模型训练,得到初始分类模型,所述第一训练数据包括第一训练样本和所述第一训练样本对应的第一样本类别;

回译模块,用于获取未标注样本类别的第二训练样本,并对所述第二训练样本进行回译处理,得到回译第二训练样本;

输入模块,用于输入所述回译第二训练样本至所述初始分类模型,得到所述回译第二训练样本对应的目标第二样本类别;

第二训练模块,用于将所述第一训练数据作为第一目标训练数据,将所述第二训练样本和所述目标第二样本类别作为第二目标训练数据,以及将所述回译第二训练样本和所述目标第二样本类别作为第三目标训练数据进行综合训练,得到目标分类模型。

第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面任一项所述的方法。

第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的方法。

本申请实施例与现有技术相比存在的有益效果是:终端设备可先根据已标注样本类别的第一训练数据训练初始分类模型,而后将未标注类别的第二训练样本进行回译处理,得到大量的回译第二训练样本,以实现数据增强。之后,通过初始分类模型识别回译第二训练样本,得到第二训练样本对应的目标第二样本类别。最后,基于第一训练数据,第二训练样本和目标第二样本类别组成的第二目标训练数据,以及回译第二训练样本和目标第二样本类别组成的第三目标训练数据,生成大量有标注的训练数据进行综合训练,得到目标分类模型。以此,终端设备不仅能够减少标注大量数据所需要的时间和人力成本,且同时可基于少量标注的训练数据进行训练,得到分类准确率较高的目标分类模型。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种分类模型训练方法的实现流程图;

图2是本申请一实施例提供的一种分类模型训练方法的s102的一种实现方式示意图;

图3是本申请一实施例提供的一种分类模型训练方法的s103的一种实现方式示意图;

图4是本申请一实施例提供的一种分类模型训练方法的s1033的一种实现方式示意图;

图5是本申请一实施例提供的一种分类模型训练方法的s104的一种实现方式示意图;

图6是本申请一实施例提供的一种分类模型训练方法的s1042的一种实现方式示意图;

图7是本申请一实施例提供的一种分类模型训练装置的结构框图;

图8是本申请一实施例提供的一种终端设备的结构框图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。

应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

本申请实施例提供的分类模型训练方法可以应用于平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobilepersonalcomputer,umpc)、上网本等终端设备上,本申请实施例对终端设备的具体类型不作任何限制。

请参阅图1,图1示出了本申请实施例提供的一种分类模型训练方法的实现流程图,该方法包括如下步骤:

s101、基于第一训练数据进行模型训练,得到初始分类模型,所述第一训练数据包括第一训练样本和所述第一训练样本对应的第一样本类别。

在一实施例中,上述第一训练数据为已知标注类别的训练数据,其数量可少于正常训练分类模型所需的训练数据的数量。上述初始分类模型可以为表情分类模型、文本分类模型,在本实施例中,对初始分类模型的具体用途不作限定。为便于解释,本实施例以文本分类模型进行说明。

示例性的,上述第一训练样本可以为第一训练文本,包括但不限于新闻、论文等形式的文本。其中,第一样本类别为对应的第一训练样本的类别。例如,第一样本类别包括但不限于第一训练样本属于物理学科类、语言学科类等类别。需要说明的是,第一训练数据通常包括多个第一训练样本,基于此,每个第一训练样本均对应有第一样本类别。具体的,第一训练数据可以用如下表达式进行表示:l=(xm,ym),其中,1≤m≤n,其中,n为第一训练样本的数量,m为第m个第一训练样本,xm为第m个第一训练样本的样本特征,ym为第m个第一训练样本的第一样本类别。

s102、获取未标注样本类别的第二训练样本,并对所述第二训练样本进行回译处理,得到回译第二训练样本。

在一实施例中,上述第二训练样本也可以与第一训练样本类似,包括但不限于新闻、论文等形式的文本。其中,需要说明的是,该第二训练样本预先并未被标注对应的样本类别。可以理解的是,本实施例的目的之一还可包括:利用未标注类别的第二训练样本训练分类模型,以提高对未标注类别的第二训练样本的利用,且可基于少量的标注样本数据进行模型训练,得到分类准确率高的分类模型。其中,第二训练样本可以以u={xu}进行表示。

需要补充的是,上述第一训练样本和第二训练样本均可以为预先存储在终端设备内部指定存储路径下的文本。其中,第二训练样本也可以为终端设备从网络中进行爬取的训练样本,对此不作限定。

在一实施例中,上述回译处理为将第二训练样本翻译成其他语言的文本,而后将该其他语言的文本再回译成原始语言的文本。示例性的,若第二训练样本为中文语言的文本,可先利用汉译英技术,将第二训练样本翻译成英文的第二训练样本。而后,利用英译汉技术,对英文版的第二训练样本进行回译,得到回译第二训练样本。

可以理解的是,上述第二训练样本的数量也为多个,对第二训练样本进行回译处理,即为对每个第二训练样本进行回译处理。然而,需要特别说明的是,对每个第二训练样本进行上述回译处理处理过程中,一个第二训练样本可先翻译成多种不同语言的多个训练样本,而后,对每种不同语言的训练样本进行回时,可得到多个回译第二训练样本。即对一个第二训练样本进行回译处理后,可得到至少一个回译第二训练样本,以此可对第二训练样本进行数据增强。

示例性的,对第i个第二训练样本xu,i进行回译,求可得到多个回译第二训练样本xu,i,j,j=1,2,..,k,其中,k表示为将第二训练样本翻译为k种语言的文本,而后对k中语言的文本进行回译,得到k中回译第二训练样本;xu,i,j为对第i个第二训练样本进行回译处理时,得到属于第j种语言的回译第二训练样本。

s103、输入所述回译第二训练样本至所述初始分类模型,得到所述回译第二训练样本对应的目标第二样本类别。

在一实施例中,上述初始分类模型为基于上述少量的第一训练数据进行训练得到的分类模型,其可对回译第二训练样本进行分类识别,可得到每个回译第二训练样本对应的回译第二样本类别。此时,因初始分类模型也是基于已标注类别的第一训练数据进行训练得到的模型,其具有一定的分类的准确率。基于此,终端设备也可将该回译第二样本类别,确定为回译第二训练样本对应的目标第二样本类别。

需要说明的是,对于同一个第二训练样本进行回译得到的多个回译第二训练样本,其在被初始分类模型进行识别时,通常多个回译第二训练样本分别对应的回译第二样本类别应当相同。即对于一个第二训练样本对应的多个上述回译第二训练样本xu,i,j,j=1,2,..,k进行模型识别后,可分别得到k个回译第二样本类别,且k个回译第二样本类别基本相同。其中,回译第二样本类别可以以p(xu,i,j)进行表示,具体的,其表示为k个回译第二样本类别中,第j个回译第二训练样本的回译第二样本类别。

然而,需要补充的是,一个第二训练样本可对应得到多个回译第二训练样本,且每个回译第二训练样本对应的回译第二样本类别也可能不同。基于此,为统一该第二训练样本中每个回译第二训练样本对应的回译第二样本类别,终端设备可对该每个回译第二样本类别进行处理,得到一个目标样本类别。即针对任一第二训练样本,其虽然可得到多个回译第二训练样本,但最终每个回译第二训练样本对应的样本类别只有一个(即目标样本类别)。

示例性的,针对任一第二训练样本进行回译处理得到的多个回译第二样本类别,终端设备可确定每个回译第二样本类别对应的回译类别权重值。而后,根据预设的加权公式和回译类别权重值,对回译第二样本类别进行加权处理,得到目标第二样本类别。

s104、将所述第一训练数据作为第一目标训练数据,将所述第二训练样本和所述目标第二样本类别作为第二目标训练数据,以及将所述回译第二训练样本和所述目标第二样本类别作为第三目标训练数据进行综合训练,得到目标分类模型。

在一实施例中,上述进行综合训练可以为将第一目标训练数据、第二目标训练数据以及第三目标训练数据进行随机组合,得到新的训练数据,并根据新的训练数据进行模型训练得到目标分类模型。其中,对模型进行训练的过程为现有技术,对此不进行详细描述。

在一实施例中,上述第一训练数据l为已知样本类别的训练数据。上述第二目标训练数据中,第二训练样本经过上述s102-s103处理后,每个回译第二训练样均对应为相同的目标第二样本类别。此时,终端设备可将该目标第二样本类别作为第二训练样本对应的样本类别,其可以u1进行表示。具体的,u1={xu,y'u},其中,y'u为第二训练样本对应的目标第二样本类别。另外,上述s103中已说明将目标第二样本类别,确定为一个第二训练样本对应的每个回译第二训练样本的类别。因此,终端设备可将回译第二训练样本和目标第二样本类别作为第三目标训练数据。具体的,u2={xu,k,y'u},其中,xu,k表示为第二训练样本xu进行回译后,得到的回译第二训练样本集合。

在本实施例中,终端设备可先根据已标注样本类别的第一训练数据训练初始分类模型,而后将未标注类别的第二训练样本进行回译处理,得到大量的回译第二训练样本,以实现数据增强。之后,通过初始分类模型识别回译第二训练样本得到第二训练样本对应的目标第二样本类别。最后,基于第一训练数据,第二训练样本和目标第二样本类别组成的第二目标训练数据,以及回译第二训练样本和目标第二样本类别组成的第三目标训练数据,生成大量有标注的训练数据进行综合训练,得到目标分类模型。以此,终端设备不仅能够减少标注大量数据所需要的时间和人力成本,且同时能够训练得到分类准确率较高的目标分类模型。

参照图2,在一实施例中,在s102对所述第二训练样本进行回译处理,得到回译第二训练样本中,具体包括如下子步骤s1021-1024,详述如下:

s1021、确定所述第二训练样本的样本语言。

s1022、利用第一翻译接口,将所述第二训练样本翻译成预设语言的第二训练样本。

s1023、利用第二翻译接口,将所述预设语言的第二训练样本,回译成与所述样本语言相同的回译第二训练样本。

在一实施例中,上述第一翻译接口、第二翻译接口均为语言翻译接口,其为已有的开放接口。终端设备可通过翻译接口对第二训练样本进行准确翻译。示例性的,翻译接口可以为百度翻译接口或者谷歌翻译接口,其可用于将中文语言的第二训练样本翻译为英文的第二训练样本,然后再将英文的第二训练样本回译成中文的回译第二训练样本。此时,将中文语言的第二训练样本翻译为英文的第二训练样本的接口为第一翻译接口,将英文语言的第二训练样本回译成中文的第二训练样本的接口即为第二翻译接口。

在一实施例中,上述预设语言可以为终端设备内部预先设置的多种语言,且对于每种语言均预先配置有相应的第一翻译接口以及第二翻译接口以供调用。

参照图3,在一实施例中,在s103输入所述回译第二训练样本至所述初始分类模型,得到所述回译第二训练样本对应的目标第二样本类别中,具体包括如下子步骤s1031-1033,详述如下:

s1031、输入所述回译第二训练样本至所述初始分类模型,得到所述回译第二训练样本对应的回译第二样本类别。

在一实施例中,上述回译第二样本类别具体已在上述s103中进行解释,具体可参照对p(xu,i,j)的说明,对此不再进行解释。

s1032、确定所述回译第二样本类别对应的回译类别权重值。

在一实施例中,上述s1023中已说明终端设备预先存储有多种预设语言,以及每种语言对应的翻译接口。基于此,对于每种预设语言的回译第二样本类别,终端设备还可预先对每种翻译接口(每种预设语言)设置对应的回译类别权重值。因此,终端设备可先确定回译第二样本类别的回译第二样本,以及确定该回译第二样本进行回译处理时所对应调用的翻译接口,以此确定回译第二样本类别对应的回译类别权重值。

s1033、根据预设的加权公式和所述回译类别权重值,对所述回译第二样本类别进行加权处理,得到所述目标第二样本类别。

在一实施例中,上述预设的加权公式具体可以表示为:

其中,yui表示为对第i个第二训练样本进行上述s102-s103处理后的目标第二样本类别;xui表示为第i个第二训练样本的样本特征;xuij为第i个第二训练样本进行回译处理后的多个回译第二训练样本中,第j个回译第二训练样本的样本特征;p(xu,i,j)为第j个回译第二训练样本的回译第二样本类别;wj为第j个回译第二训练样本的权重;k可以为回译第二训练样本的数量(即预设语言的数量)。

需要说明的是,因每个回译第二训练样本在被初始分类模型进行识别时,其样本分类的准确率可能不一致。基于此,用户可根据实际情况预先在终端设备内部设置不同语言回译后的回译第二训练样本的权重值w,以使目标第二样本类别更接近与第二训练样本的真实类别。即不同翻译接口对应的回译类别权重值可相同,也可不同,对此不作限定。

参照图4,在一实施例中,在s1033根据预设的加权公式和所述回译类别权重值,对所述回译第二样本类别进行加权处理,得到目标第二样本类别中,具体包括如下子步骤s10331-10333,详述如下:

s10331、输入所述未标注样本类别的第二训练样本至所述初始分类模型,得到所述第二训练样本对应的初始第二样本类别。

在一实施例中,因回译第二训练样本是基于第二训练样本进行回译处理得到,基于此,确定回译第二训练样本对应的目标第二样本类别时,还需考虑原始的第二训练样本的样本类别。因此,终端设备可将第二训练样本输入至初始分类模型中,得到第二训练样本对应的初始第二样本类别。

s10332、确定所述初始第二样本类别对应的预设权重值。

在一实施例中,上述初始第二样本类别的对应的预设权重值也可为终端设备内部预先设置的数值。需要说明的是,针对任一第二训练样本,其在输入初始分类模型得到初始第二样本类别后,其预设权重值均一致。即每个第二训练样本所使用的预设权重值均相同。

s10333、根据所述预设的加权公式、所述回译类别权重值和所述预设权重值,对所述回译第二样本类别和所述初始第二样本类别进行加权处理,得到所述目标第二样本类别。

在一实施例中,上述预设的加权公式此时可具体为:

其中,,w0为第二训练样本对应的权重值(即第二训练样本类别对应的预设权重值),p(xu,i)为初始分类模型预测第i个第二训练样本的初始第二样本类别;另外,yui、xuij、p(xu,i,j)、wj、k均已在上述s1033中进行解释,对此不再进行说明。

示例性的,上述初始分类模型在进行样本类别预测时,得到预测结果通常为向量,该向量表示为该样本属于哪一类别的概率值。具体的,若上述初始分类模型为二分类的预测模型,其预测结果应为[y1,y2],其中,y1表示初始分类模型预测样本为第一类的概率值,y2表示表示初始分类模型预测样本为第二类的概率值,且y1+y2=1。基于此,对上述加权处理的计算公式可简化为:

其中,ys为终端设备最终确定第i个第二训练样本属于第一类的概率,yz为终端设备最终确定第i个第二训练样本属于第二类的概率。需要补充的是,对于上述初始分类模型输出的两个类别的概率,终端设备通常只将概率最大的类别确定为训练样本的分类类别(即目标第二样本类别)。即从ys与yz中,确定最大值对应的分类类别为目标第二样本类别。

需要补充的是,初始分类模型预测第二训练样本的初始第二样本类别,通常更接近于第二训练样本的实际样本类别。基于此,在进行加权求和的过程中,终端设备可设置初始第二样本类别的预设权重值w0,大于其余回译第二样本类别对应的权重值wj。进而,可使终端设备得到的目标第二样本类别更接近于实际样本类别。

在一实施例中,在s1033根据预设的加权公式和所述回译类别权重值,对所述回译第二样本类别进行加权处理,得到目标第二样本类别之后,还包括如下步骤,详述如下:

采用预设的正则表达式,对所述目标第二样本类别进行正则化处理,得到最终用于进行综合训练的目标第二样本类别。

在一实施例中,上述已说明第二训练样本u={xu}的数量为多个,基于此,得到的目标第二样本类别的数量也将具有多个。然而,为了避免上述多个目标第二样本类别的分布过于一致,以至于在基于第二训练样本和目标第二样本类别进行模型训练时,使最终的目标分类模型出现过拟合或欠拟合的问题。

基于此,终端设备需对上述目标第二样本类别进行正则化处理,以控制多个目标第二样本类别的分布,避免各个目标第二样本类别出现较大的取值。即可以理解的是,在经过上述s10333中的加权处理后,目标第二样本类别yui中ys与yz的数值和可能大于1。因此,上述正则化处理也可认为是对上述yui进行归一化处理,以使得内部的ys,yz的和为1。

具体的,上述正则表达式具体可为:

其中,t表示预先设置的超参数,yui已在上述进行解释,对此不再进行说明,yu,i,已在上述进行解释说明。基于此,终端设备可得到正则化处理后的第i个第二训练样本最终的目标第二样本类别(即上述分别属于第一类的概率以及属于第二类别的概率)。之后,终端设备可确定两个类别分别对应的概率的最大值,并将最大值对应的类别确定目标第二样本类别。

参照图5,在一实施例中,在s104将所述第一训练数据作为第一目标训练数据,将所述第二训练样本和所述目标第二样本类别作为第二目标训练数据,以及将所述回译第二训练样本和所述目标第二样本类别作为第三目标训练数据进行综合训练,得到目标分类模型中,具体包括如下子步骤s1041-1043,详述如下:

s1041、从所述第一目标训练数据、所述第二目标训练数据和所述第三目标训练数据中多次随机抽取至少两个目标训练数据。

s1042、针对任意一次随机抽取的所述至少两个目标训练数据,对所述至少两个目标训练数据分别进行随机加权处理,得到新的目标训练数据。

在一实施例中,上述第一目标训练数据、第二目标训练数据和第三目标训练数据均分别包括相应的训练样本以及训练样本对应的样本类别。基于此,上述每个目标训练数据均可参与模型训练。然而,上述目标第二样本类别是基于初始分类模型进行预测后的结果,并进行上述处理后确定得到,可认为该目标第二样本类别的准确率可能还比较低。因此,为了提高目标训练数据中目标训练样本与目标样本类别相匹配的准确率,可对上述目标训练数据进行随机加权处理,得到新的目标训练数据。

示例性的,第一目标训练数据、第二目标训练数据和第三目标训练数据均分别包括多个训练样本和对应的样本类别。因此,终端设备可从多个训练样本和对应的样本类别中,随机确定至少两个训练样本,并对其进行随机加权处理得到新的训练样本;以及,终端设备在确定至少两个训练样本后,将该至少两个训练样本分别对应的样本类别进行随机加权处理,得到新的样本类别。此时,新的训练样本和新的样本类别即为新的目标训练数据。

s1043、基于多次得到的所述新的目标训练数据进行训练,生成所述目标分类模型。

在一实施例中,上述s104中已说明使用目标训练数据进行模型训练的过程为现有技术,对此不再进行描述。

参照图6,在一实施例中,所述至少两个目标训练数据中,每个目标训练数据分别包括目标训练样本和所述目标训练样本对应的目标样本类别;在s1042针对任意一次随机抽取的所述至少两个目标训练数据,对所述至少两个目标训练数据分别进行随机加权处理,得到新的目标训练数据中,具体包括如下子步骤s10421-10423,详述如下:

s10421、根据正太分布公式,对所述至少两个目标训练数据中的目标训练样本进行加权求和,得到新的目标训练样本。以及,

s10422、根据所述正太分布公式,对所述两个目标训练数据中的目标样本类别进行加权求和,得到新的目标样本类别。

s10423、将所述新的目标训练样本和所述新的目标样本类别作为所述新的目标训练数据。

在一实施例中,基于上述正太分布公式对至少两个目标训练数据进行加权求和时,所赋予每个目标训练数据参与公式计算的权值均服从正太分布。具体的,正太分布可以看作一个概率(权值)的概率分布,用于在不知道每个目标训练数据的具体权值时,根据正太分布随机赋予每个目标训练数据所有权值出现的可能性大小。进而,终端设备可使生成的新的目标训练数据更具有客观性,以使根据新的目标训练数据生成的目标分类模型的分类准确率较高。

具体的,对于上述三种目标训练数据的集合,可从任意集合中随机确定至少两个目标训练数据。示例性的,以每次随机抽取两个目标训练数据为例。此时,该目标训练数据可以同时为一个集合中的任意两个目标训练数据,也可以为两个集合中的任意一个目标训练数据,对此不作限定。之后,在确定两个目标训练数据后,例如,对于目标训练数据a=(x1,y1)和目标训练数据b=(x2,y2),可通过如下正太分布公式进行计算:

a'~beta(λ,λ);(3)

a=max(a',1-a');(4);

其中,a'为根据正太分布随机赋予的权值,其服从正常分布λ;x1为初始分类模型处理目标训练样本a时得到的样本特征,以及x2为初始分类模型处理目标训练样本b时得到的样本特征;y1为上述目标训练样本a的目标样本类别,y2为上述目标训练样本b的目标样本类别。以此,终端设备可根据上述得到新的目标训练数据。上述公式(3)和上述公式(4)的意义在于:当基于正太分布确定λ的取值后,即确定了a'的取值。此时,终端设备可选取公式3中a'和1-a'中的取最大值,作为a值参与上述公式(1)和公式(2)的计算,得到新的目标训练数据。

请参阅图7,图7是本申请实施例提供的一种分类模型训练装置的结构框图。本实施例中分类模型训练装置包括的各模块用于执行图1至图6对应的实施例中的各步骤。具体请参阅图1至图6以及图1至图6所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图7,分类模型训练装置700包括:第一训练模块710、回译模块720、输入模块730以及第二训练模块740,其中:

第一训练模块710,用于基于第一训练数据进行模型训练,得到初始分类模型,所述第一训练数据包括第一训练样本和所述第一训练样本对应的第一样本类别。

回译模块720,用于获取未标注样本类别的第二训练样本,并对所述第二训练样本进行回译处理,得到回译第二训练样本。

输入模块730,用于输入所述回译第二训练样本至所述初始分类模型,得到所述回译第二训练样本对应的目标第二样本类别。

第二训练模块740,用于将所述第一训练数据作为第一目标训练数据,将所述第二训练样本和所述目标第二样本类别作为第二目标训练数据,以及将所述回译第二训练样本和所述目标第二样本类别作为第三目标训练数据进行综合训练,得到目标分类模型。

在一实施例中,回译模块720还用于:

确定所述第二训练样本的样本语言;利用第一翻译接口,将所述第二训练样本翻译成预设语言的第二训练样本;利用第二翻译接口,将所述预设语言的第二训练样本,回译成与所述样本语言相同的回译第二训练样本。

在一实施例中,输入模块730还用于:

输入所述回译第二训练样本至所述初始分类模型,得到所述回译第二训练样本对应的回译第二样本类别;确定所述回译第二样本类别对应的回译类别权重值;根据预设的加权公式和所述回译类别权重值,对所述回译第二样本类别进行加权处理,得到所述目标第二样本类别。

在一实施例中,输入模块730还用于:

输入所述未标注样本类别的第二训练样本至所述初始分类模型,得到所述第二训练样本对应的初始第二样本类别;确定所述初始第二样本类别对应的预设权重值;根据所述预设的加权公式、所述回译类别权重值和所述预设权重值,对所述回译第二样本类别和所述初始第二样本类别进行加权处理,得到所述目标第二样本类别。

在一实施例中,分类模型训练装置700还包括以下模块,具体的:

正则化处理模块,用于采用预设的正则表达式,对所述目标第二样本类别进行正则化处理,得到最终用于进行综合训练的目标第二样本类别。

在一实施例中,第二训练模块740还用于:

从所述第一目标训练数据、所述第二目标训练数据和所述第三目标训练数据中多次随机抽取至少两个目标训练数据;针对任意一次随机抽取的所述至少两个目标训练数据,对所述至少两个目标训练数据分别进行随机加权处理,得到新的目标训练数据;基于多次得到的所述新的目标训练数据进行训练,生成所述目标分类模型。

在一实施例中,所述至少两个目标训练数据中,每个目标训练数据分别包括目标训练样本和所述目标训练样本对应的目标样本类别;第二训练模块740还用于:

根据正太分布公式,对所述至少两个目标训练数据中的目标训练样本进行加权求和,得到新的目标训练样本;以及,根据所述正太分布公式,对所述两个目标训练数据中的目标样本类别进行加权求和,得到新的目标样本类别;将所述新的目标训练样本和所述新的目标样本类别作为所述新的目标训练数据。

当理解的是,图7示出的分类模型训练装置的结构框图中,各单元/模块用于执行图1至图6对应的实施例中的各步骤,而对于图1至图6对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1至图6以及图1至图6所对应的实施例中的相关描述,此处不再赘述。

图8是本申请另一实施例提供的一种终端设备的结构框图。如图8所示,该实施例的终端设备800包括:处理器810、存储器820以及存储在存储器820中并可在处理器810运行的计算机程序830,例如分类模型训练方法的程序。处理器810执行计算机程序830时实现上述各个分类模型训练方法各实施例中的步骤,例如图1所示的s101至s104。或者,处理器810执行计算机程序830时实现上述图7对应的实施例中各模块的功能,例如,图7所示的模块710至740的功能,具体请参阅图7对应的实施例中的相关描述。

示例性的,计算机程序830可以被分割成一个或多个单元,一个或者多个单元被存储在存储器820中,并由处理器810执行,以完成本申请。一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序830在终端设备800中的执行过程。

终端设备800可包括,但不仅限于,处理器810、存储器820。本领域技术人员可以理解,图8仅仅是终端设备800的示例,并不构成对终端设备800的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器810可以是中央处理单元,还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器820可以是终端设备800的内部存储单元,例如终端设备800的硬盘或内存。存储器820也可以是终端设备800的外部存储设备,例如终端设备800上配备的插接式硬盘,智能存储卡,闪存卡等。进一步地,存储器820还可以既包括终端设备800的内部存储单元也包括外部存储设备。

本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1