文本分类模型训练、分类方法和系统及数据处理系统与流程

文档序号:26050683发布日期:2021-07-27 15:25阅读:105来源:国知局
文本分类模型训练、分类方法和系统及数据处理系统与流程

本公开涉及数据处理技术领域,特别是一种文本分类模型训练、分类方法和系统及数据处理系统。



背景技术:

用户评论是许多互联网网站的基本功能之一。根据用户的评论内容,能够方便的获得用户的反馈意见,并进行调整。

由于用户评论的输入量巨大,通过人工甄别的方式越来越难以支持,因此需要借助机器自动识别的方式提高甄别效率。在识别过程中,通常将评价内容分为好评、差评和中评。

相关技术中,可以通过设定预定规则的方式来识别评论的类别,例如将含有“垃圾”、“糟糕”等字眼的评论判定为差评。

另外,还有引入机器学习或深度学习算法(例如rnn(recurrentneuralnetwork,循环神经网络)/lstm((longshort-termmemory,长短期记忆网络)/bilstm(bi-directionallongshort-termmemory,双向长短时记忆循环神经网络)等),通过监督学习来识别的方式,给模型输入大量的样本进行训练后,其能够识别一般的好评或差评;或者可以引入预训练语言模型(例如word2vec(wordtovector,词向向量)/bert(bidirectionalencoderrepresentationsfromtransformers,基于转换器的双向编码表征)/gpt(generativepre-trainedtransformer,生成性预训练变换器)等),带来大规模语料的语义常识,再输入大量的样本进行微调(finetune),得到能够识别好评/差评的最终模型。



技术实现要素:

本公开的一个目的在于在保证文本分类准确度的基础上,降低文本分类模型训练过程中所需的数据量。

根据本公开的一些实施例的一个方面,提出一种文本分类模型训练方法,包括:在每轮训练中,

基于待训练的文本分类模型确定未标注样本集中每条样本的分类估计值,获取估计标注样本集;通过待训练的编码器获取已标注样本集的文本的向量,和估计标注样本集的文本的向量;根据已标注样本集中每条已标注样本的文本的向量和已标注样本的类别标识,获取混合已标注样本集;根据混合已标注样本集、估计标注样本集的样本的文本的向量和分类估计值,以及估计混合系数,获取混合样本集;将混合已标注样本集和混合样本集输入前馈神经网络,并根据基于损失函数获取的损失值调整待训练的编码器、待训练的文本分类模型和前馈神经网络的参数;当训练轮数达到预定次数时,获取文本分类模型。

在一些实施例中,文本分类模型训练方法还包括:在将样本集输入待训练的编码器前,根据已标注样本扩充已标注样本集,直至已标注样本集中的样本量与未标注样本集的样本量相等。

在一些实施例中,已标注样本集中的每条已标注样本包括原样本的文本、原样本的增强样本的文本和原样本文本的类别标识。

在一些实施例中,原样本的增强样本包括第一增强样本或第二增强样本中的至少一种;第一增强样本的文本为将原样本的文本进行同义词替换生成;第二增强样本的文本为将原样本的文本翻译成第二语言再翻译回原语言后生成。

在一些实施例中,文本分类模型训练方法还包括:预先根据已标注类别的原样本生成已标注样本集。

在一些实施例中,通过待训练的编码器获取已标注样本集的文本的向量,和估计标注样本集的文本的向量包括:将已标注样本集和估计标注样本集中的样本的文本以预定批量尺寸为单位,分批次输入待训练的编码器,获取每个批次的已标注样本集的文本的向量和估计标注样本集的文本的向量;获取混合已标注样本集和获取混合样本集包括:获取每个批次的混合已标注样本集和对应批次的混合样本集;将调整待训练的编码器、待训练的文本分类模型和前馈神经网络的参数包括:分别将每个批次的混合已标注样本集和混合样本集输入前馈神经网络,并根据基于损失函数获取的损失值调整待训练的编码器、待训练的文本分类模型和前馈神经网络的参数,直至处理完成当前训练轮次中全部批次的混合已标注样本集和混合样本集。

在一些实施例中,文本分类模型训练方法还包括:在扩充已标注样本集后,根据预定批量尺寸,在扩充后的已标注样本集和估计标注样本集中分别的顺次提取原样本的文本、增强样本的文本和估计标注样本的文本,其中,已标注样本包括原样本的文本、原样本的增强样本的文本;根据原样本的文本、增强样本的文本和估计标注样本的文本生成待编码文本向量,待编码文本向量包括原样本维度、增强样本维度和估计标注样本维度,每个维度的样本文本的数量符合预定批量尺寸;根据预定文本长度上限裁剪待编码文本向量中的文本;获取每个批次的已标注样本集的文本的向量和估计标注样本集的文本的向量包括:将裁剪后的待编码文本向量输入待训练的编码器,获取当前批次的文本编码向量;提取文本编码向量中的原样本维度和增强样本维度的元素,获取已标注样本集的向量;提取文本编码向量中的估计标注样本维度的元素,获取估计标注样本集的向量。

在一些实施例中,根据已标注样本集中每条已标注样本的文本的向量和已标注样本的类别标识,获取混合已标注样本集包括:根据已标注样本集的每条已标注样本的文本的向量中,原样本对应的编码和增强样本对应的编码,以及增强混合系数,获取混合已标注样本编码;根据混合已标注样本编码和原样本对应的编码,获取混合已标注样本集的向量;根据混合已标注样本集的向量,和对应的原样本的类别标识,获取混合已标注样本集。

在一些实施例中,获取混合已标注样本编码包括:将增强混合系数作为增强样本对应的编码的权重,与原样本对应的编码相加,获取混合已标注样本编码。

在一些实施例中,根据混合已标注样本集、估计标注样本集的样本的文本的向量和分类估计值,以及估计混合系数,获取混合样本集包括:根据估计标注样本集的文本的向量和估计标注样本的类别标识,获取编码估计标注样本集;针对编码估计标注样本集的向量中的每条样本:分别随机提取混合已标注样本集中一条样本;以第一估计混合系数作为编码估计标注样本集中样本的权重,第二估计混合系数作为提取的混合已标注样本集中样本的权重,分别计算文本的向量和类别标识的加权和,获取混合样本集的样本,其中,第一估计混合系数与第二估计混合系数为1。

在一些实施例中,文本分类模型训练方法还包括:在完成每轮训练后,以预定比例增大第一估计混合系数。

在一些实施例中,将混合已标注样本集和混合样本集输入前馈神经网络,并根据基于损失函数获取的损失值调整待训练的编码器、待训练的文本分类模型和前馈神经网络的参数包括:将混合已标注样本集和混合样本集输入前馈神经网络,通过全连接层输出处理结果;将处理结果输入损失函数,获取损失值。

在一些实施例中,将处理结果输入损失函数,获取损失值包括:根据基于混合已标注样本集的处理结果获取交叉熵损失,作为第一损失值;根据基于混合样本集的处理结果获取均方误差损失,作为第二损失值;根据预定损失值权重获取第一损失值和第二损失值的加权值,作为损失值。

在一些实施例中,类别标识包括情感类别标识。

根据本公开的一些实施例的一个方面,提出一种文本分类方法,包括:将待分类的文本输入文本分类模型,其中,文本分类模型为根据上文中提到的任意一种文本分类模型训练方法训练生成;将文本分类模型输出的分类估计值作为待分类的文本的类别。

根据本公开的一些实施例的一个方面,提出一种文本分类模型训练系统,包括:估计样本集获取单元,被配置为在每轮训练中,基于待训练的文本分类模型确定未标注样本集中每条样本的分类估计值,获取估计标注样本集;向量获取单元,被配置为通过待训练的编码器获取已标注样本集的文本的向量,和估计标注样本集的文本的向量;混合单元,被配置为根据已标注样本集中每条已标注样本的文本的向量和已标注样本的类别标识,获取混合已标注样本集;根据混合已标注样本集、估计标注样本集的样本的文本的向量和分类估计值,以及估计混合系数,获取混合样本集;参数调整单元,被配置为将混合已标注样本集和混合样本集输入前馈神经网络,并根据基于损失函数获取的损失值调整待训练的编码器、待训练的文本分类模型和前馈神经网络的参数;模型获取单元,被配置为当训练轮数达到预定次数时,获取文本分类模型。

根据本公开的一些实施例的一个方面,提出一种文本分类系统,包括:文本输入单元,被配置为将待分类的文本输入文本分类模型,其中,文本分类模型为根据上文中任意一种文本分类模型训练方法训练生成;类别确定单元,被配置为将文本分类模型输出的分类估计值作为待分类的文本的类别。

根据本公开的一些实施例的一个方面,提出一种数据处理系统,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行上文中提到的任意一种方法。

根据本公开的一些实施例的一个方面,提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上文中提到的任意一种方法的步骤。

附图说明

此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:

图1为本公开的文本分类模型训练方法的一些实施例的流程图。

图2为本公开的文本分类模型训练方法中的每轮单个批次数据处理的一些实施例的流程图。

图3为本公开的文本分类模型训练方法中参数调整的一些实施例的流程图。

图4为本公开的文本分类方法的一些实施例的流程图。

图5为本公开的文本分类模型训练系统的一些实施例的示意图。

图6为本公开的文本分类系统的一些实施例的示意图。

图7为本公开的数据处理系统的一些实施例的示意图。

图8为本公开的数据处理系统的另一些实施例的示意图。

具体实施方式

下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。

本公开的文本分类模型训练方法的一些实施例的流程图如图1所示。

在步骤101中,在当前轮次的训练中,基于待训练的文本分类模型,确定未标注样本集中每条样本u的分类估计值yu,获取估计标注样本集,估计标注样本集中每一样本为(u,yu)。未标注样本集中的样本即未标注样本所属类别的样本,未标注样本集中样本的数量可以远大于已标注样本集中样本的数量。

类别可以为情感类别,则标识包括情感类别标识,例如差评为0,中评为1,好评为2;或者好评为2,中评为1,差评为0等。分类估计值即待训练的文本分类模型估计的样本对应的类别标识,如估计值为0,1,2中的任意一种。

在一些实施例中,待训练的文本分类模型为机器学习模型,可以预先使用公开的中文情感分析数据集作为迁移学习训练样本进行训练,例如用公开的中文微博情感分析中的数据进行训练,从而实现通用的基础训练,降低后续训练所需的轮数,提高训练效率。

在步骤102中,通过待训练的编码器获取已标注样本集的文本的向量,和估计标注样本集的文本的向量。在一些实施例中,已标注样本集可以通过将抽取的原样本通过人工标注的方式生成。

在一些实施例中,已标注样本集可以为对已标注的原样本执行增强运算后,生成的样本集。在一些实施例中,增强运算可以包括同义词替换。在一些实施例中,增强运算可以包括将样本的文本翻译为第二语言,如英语,再翻译回原语言。

在一些实施例中,已标注样本集中的每条已标注样本包括原样本的文本、原样本的增强样本的文本和原样本文本的类别标识。例如,原样本的文本为s,增强样本为s1,原样本的类别标识为ys,则已标注样本集中的样本为(s,s1,ys)。在一些实施例中,每条已标注样本中可以包括两个增强样本的文本,分别通过不同的增强运算生成,例如已标注样本集中的样本为(s,s1,s2,ys)。

在一些实施例中,可以将已标注样本集进行随机混排,例如利用tensorflow的tensorflow.random.shuffle函数执行随机混排,增加已标注样本集中样本次序的随机性,降低训练偏差。

在步骤103中,根据已标注样本集中每条已标注样本的文本的向量和每条已标注样本的类别标识,获取混合已标注样本集。

在一些实施例中,混合已标注样本集可以为包括原样本的文本的向量和原样本的类别标识,以及增强样本的文本的向量和增强样本的类别标识的集合。

在一些实施例中,可以将已标注样本集中的文本向量相互混合,生成混合已标注样本集中的样本的文本。在一些实施例中,混合已标注样本集中可以包括已标注样本中原样本的文本向量,以及将原样本的文本向量和其对应的增强样本的文本向量的加权和,其中,增强混合系数即为增强样本的文本的向量的权重。

在步骤104中,根据混合已标注样本集、估计标注样本集的文本的向量和估计混合系数,以及分类估计值,获取混合样本集。在一些实施例中,估计混合系数可以包括第一估计混合系数和第二估计混合系数,分别作为混合已标注样本集中样本的权重和估计标注样本集的权重,分别获得文本向量的加权和以及类别标识的加权和,作为混合样本集中的样本。在一些实施例中,可以从混合已标注样本集中随机抽取样本,与估计标注样本集的文本的向量以及类别标识进行混合。

在步骤105中,将混合已标注样本集和混合样本集输入前馈神经网络,并根据基于损失函数获取的损失值调整待训练的编码器、待训练的文本分类模型和前馈神经网络的参数。

在步骤106中,判断训练轮数是否达到预定次数。在一些实施例中,可以设定训练轮数为n(n为预设正整数),当前轮次标识为i。当i≤n时,执行i=i+1,并重新获取一个批次的样本,执行步骤101。若i>n,则执行步骤107。

在步骤107中,待训练的文本分类模型训练完成,获得训练完成的文本分类模型。在一些实施例中,在第1轮次的训练中,待训练的文本分类模型记为模型m0;在第i个轮次的训练中,待训练的文本分类模型记为模型mi-1,则在训练完成时,模型为mn。mn即为所需的文本分类模型。

通过这样的方法,能够基于少量的已标注样本,通过与未标注样本的混合分析,实现对文本分类模型的循环训练,在保证训练完成的文本分类模型的准确度的基础上,降低文本分类模型训练过程中所需的已标注样本数量需求,从而减少人工标注需求,提高模型训练的效率;在已标注样本缺乏的情况下,提高文本分类模型的准确度。

在一些实施例中,在开始如步骤101中所示的当前轮次的训练之前,可以预先根据仅包括原样本和其类别标识的样本集s生成包括原样本的文本、增强样本的文本和类比标识的已标注样本集s’。

在一些实施例中,对原样本的文本进行同义词替换。例如将“目前用着可以,容量大随便下载保存信息,充电快”替换为“现在用着不错,容量大随便下载储存数据,充电迅速”。在一些实施例中,可以采用公开的汉语同义词词典,例如“哈工大同义词词林”,对原样本的文本进行同义词替换,得到增强样本的文本。

在一些实施例中,还可以对原样本的文本进行两次翻译,从原语言翻译为第二语言,再译回原语言,将译回的文本作为增强样本的文本。例如将中文译为英文后再译回中文。例如将“东西不错,性价比高,快递很快”译为“it'sgood,cost-effectiveandfastdelivery”,然后回译为汉语“很好,性价比高,交货快”。在一些实施例中,可以采用任意机器翻译引擎,例如使用apertium翻译引擎。

在一些实施例中,可以同时采用上文中的两种方式进行样本增强运算,分别生成第一增强样本的文本s1和第二增强样本的文本s2,生成已标注样本集合s’中的样本(s,s1,s2,ys)。

通过这样的方法,能够通过增强样本运算的方式,以较少的运算量扩充已标注的样本量,降低手动标注样本类别的需求量,提高模型训练效率。

在一些实施例中,在上述步骤101与102之间,可以根据已标注样本扩充已标注样本集,直至已标注样本集中的样本量与未标注样本集的样本量相等。在一些实施例中,扩充方法可以为从已标注样本集里依次取出样本,并增补至已标注样本集的尾部,直至已标注样本集中的样本量与未标注样本集的样本量相等。

通过这样的方法,能够提高有限的已标注的样本的利用率,提高后续数据处理的便捷度和可靠度。

在一些实施例中,在每个轮次中,可以将样本分批输入待训练的编码器,降低编码器的数据处理负担。本公开的文本分类模型训练方法中的每轮单个批次数据处理的一些实施例的流程图如图2所示。

在步骤201中,根据预定批量尺寸b,在扩充后的已标注样本集和估计标注样本集中分别的顺次提取原样本的文本、增强样本的文本和估计标注样本的文本。批量尺寸指单批次中的样本数量,也可以称为批量大小。在一些实施例中,可以使用批采样(batchsample)的方式进行样本提取。在一些实施例中,在分批次提取文本前,根据已标注样本扩充已标注样本集,直至已标注样本集中的样本量与未标注样本集的样本量相等,从而能够保证已标注样本集与未标注样本集中的样本同步提取、同步结束提取,降低数据处理发生故障的概率。假设从已标注样本集中取出的本批次样本为(ys),从u′中取出的本批次样本为(yu),其中均为一个批量的样本文本,即它们均包括b个文本;ys、yu分别为标注和估计的b个类别标识(0/1/2)。

在步骤202中,根据提取出的原样本的文本s、增强样本的文本(以存在第一增强样本和第二增强样本为例,即s1,s2)和估计标注样本的文本u,生成待编码文本t。在一些实施例中,每种文本的数量符合预定批量尺寸b(在一些实施例中,b可以为16),则提取出原样本的文本向量增强样本的文本和估计标注样本的文本对其进行拼接(如采用tensorflow的concat函数,以增加向量维度的方式将文本向量合成为一个向量),生成当前批次的待编码文本向量的尺寸为4b。

在步骤203中,将当前批次的待编码文本向量输入待训练的编码器,获取已标注样本集的文本的向量,包括原样本的文本的向量x以及增强样本的文本的向量,如x1、x2,还可以获取估计标注样本集的文本的向量xu。在一些实施例中,待训练的编码器可以为待训练的bert编码器。

在一些实施例中,当待编码文本向量经过待训练的编码器后,可以生成分别由原样本文本、增强样本的文本的向量以及估计标注样本的文本的向量的编码结果构成的向量,如(x,x1,x2,xu),将其按照维度拆分为原样本维度x、增强样本维度x1、x2,以及估计标注样本维度xu。

在一些实施例中,在将待编码文本向量输入待训练的编码器之前,还可以先进行预处理,如根据预定文本长度上限裁剪待编码文本向量中的文本。以包含4*b条文本为例,经过裁剪,即将每条文本长度超过l的部分全部舍弃(假设l=512);随后将作为一个64样本的小批量输入到编码器。对每条样本的文本,编码器均会输出编码结果。在一些实施例中,编码器设置为将每个文本编码为d维向量,例如设d=768。

在步骤204中,获取当前批次的混合已标注样本集和混合样本集。

在一些实施例中,可以根据已标注样本集中每条已标注样本的文本的向量和增强混合系数,以及每条样本的类别标识,获取混合已标注样本集。在一些实施例中,混合已标注样本集中的文本向量,可以包括已标注样本中原样本的文本向量,以及将原样本的文本向量和其对应的增强样本的文本向量的加权和,其中,增强混合系数即为增强样本的文本的向量的权重。

在一些实施例中,可以根据原样本对应的向量x和增强样本对应的向量x1、x2,以及增强混合系数μ,获取混合已标注样本编码x1’、x2’,例如,将增强混合系数作为增强样本对应的向量的权重,与原样本对应的向量相加,获取对应条目的混合已标注样本向量,即

x1’=x+μx1;

x2’=x+μx2;

进而根据混合已标注样本向量和原样本对应的向量,获取混合已标注样本集的向量(x,x1’、x2’);将混合已标注样本集的向量结合对应的原样本的类别标识y,获取混合已标注样本集((x,ys),(x1’,ys),(x2’,ys))。通过这样的运算后,混合已标注样本集中样本的数量为3b,将其简写为(xs’,ys),其中的向量为(xs’,ys)。在一些实施例中,针对已标注样本集中每条已标注样本的文本的向量中,原样本对应的编码x和增强样本对应的编码x1、x2,以及增强混合系数μ,获取混合已标注样本编码x1’、x2’,如x1’=x+μx1,x2’=x+μx2;获取混合已标注样本集中,对应的同一条原样本存在三条样本,分别为(x,ys),(x1’,ys)和(x2’,ys)。

发明人发现,在样本增强过程中,大部分情况下增强样本与原样本的文本的合理分类能够保持一致,但在个别情况下会发生扭曲甚至翻转。例如某充电宝的评论“太惊人了,充电很多”译英后为“it'samazing.it'salotofcharging”,再回译就变成了“太神奇了,收费很高”,原样本是好评,增强样本的合理分类则会变成差评。这样的增强样本会对后续分析造成不良影响。

通过上文中实施例的方法,能够克服样本增强过程中可能发生的语义扭曲甚至翻转的操作,参数μ为可变超参,μ越大,则增强样本对模型效果的干扰越强;而μ越小,则样本增强的作用越弱。在一些实施例中,可以设μ为0.5,从而在利用增强样本进行样本扩充的基础上,降低可能发生的语义扭转造成的负面影响,提高训练后模型的准确度。

在一些实施例中,在通过上文中任意一项的方式获得混合已标注样本集的基础上,可以进一步的将混合已标注样本集中的样本,与估计标注样本集的文本的向量及其估计标注样本的类别标识混合,获得混合样本集。

在一些实施例中,根据估计标注样本集的文本的向量xu和估计标注样本的类别标识yu,获取编码估计标注样本集(xu,yu),估计标注样本集(xu,yu)中包括b个样本。进而针对编码估计标注样本集的向量中的每条样本(xu,yu),分别随机提取混合已标注样本集(xs’,ys)中一条样本(xs’,ys),(xs’,ys)中包括3b个样本。以第一估计混合系数λ作为编码估计标注样本集中样本的权重,第二估计混合系数(1-λ)作为提取的混合已标注样本集中样本的权重,分别计算文本的向量和类别标识的加权和,即根据公式:

xu’=λxu+(1-λ)xs’

yu’=λyu+(1-λ)ys’

获取混合样本集的样本(xu’,yu’)。通过对(xu,yu)中每条样本的混合处理,得到混合样本集(xu’,yu’)。

在一些实施例中,第一估计混合系数λ为可变超参数,当λ越大,混合样本越趋近于估计标注样本;当λ越小,混合样本越趋近于已标注样本。在一些实施例中,可以根据经验人工设定λ。

在另一些实施例中,λ可以为动态值,在完成每轮训练后,以预定比例增大第一估计混合系数。例如,在i较小的训练早期,比如第一二轮训练时,模型的准确率很低,估计标注样本的正确率较差,则设定λ较小,以使得混合样本更接近于已标注样本;随着i增大,文本分类模型的准确率逐渐升高,则增大λ,使估计标注样本逐渐发挥作用,加强模型的泛化能力。在一些实施例中,可以设第i轮的λ值为λi,则有λi=λ(i-1)*η,例如指定λ1=0.1,η=1.1。

通过这样的方法,能够通过估计混合系数的调整达到避免准确率差的样本对训练造成过多干扰,且逐渐提高泛化能力,提高训练的效率。

通过步骤204中的操作,获得混合已标注样本集(xs’,ys),和混合样本集(xu’,yu’),其中,且ys的取值为整数0、1、2之一;其中yu′取值为0到2的实数。

在步骤205中,将混合已标注样本集和混合样本集输入前馈神经网络,并根据基于损失函数获取的损失值调整待训练的编码器、待训练的文本分类模型和前馈神经网络的参数。

在一些实施例中,设(xs′,ys)经前馈神经网络后输出为(xs+′,ys),输入(xu′,yu′)后输出为(xu+′,yy′)。将输出的(xs+′,ys)和(xu+′,yu′)输入损失函数中,得到损失值,将损失值进行反向传播,调整待训练的编码器、待训练的文本分类模型和前馈神经网络的参数。

在步骤206中,判断是否已提取出已标注样本集和估计标注样本集中的全部的样本。若已提取出已标注样本集和估计标注样本集中的全部的样本,则当前轮次的训练流程结束;否则,执行步骤201,接续前一循环中的文本提取进度,提取样本集中后续的样本的文本。

通过这样的方法,能够分批次的提取样本文本进行处理,通过多批次的处理实现充分利用样本数据;降低每次处理的数据量,降低各环节的运行负担,提高训练的可靠度和效率。

本公开的文本分类模型训练方法中参数调整部分的一些实施例的流程图如图3所示。在一些实施例中,下文中所示的参数调整可以为上文步骤205的详细展开。

在步骤301中,将混合已标注样本集和混合样本集输入前馈神经网络,通过全连接层输出处理结果。

在一些实施例中,假设样本特征为x,在输入前馈神经网络后,首先经过一个全联接层:y1=relu(ω1x+b1),其中relu(rectifiedlinearunit,线性整流函数)又称修正线性单元,是一种人工神经网络中常用的激活函数;为实数矩阵。在一些实施例中,设d=2048;其后再经过一个全联接层y2=ω2y1+b2,其中前馈神经网络能够加强非线性特征,并增强迁移学习后的bert对实际任务的适配能力。设(xs′,ys)经前馈神经网络后输出为(xs+′,ys),输入(xu′,yu′)后输出为(xu+′,yu′)。

后续可以并行执行步骤302和步骤303。

在步骤302中,根据基于混合已标注样本集的处理结果获取交叉熵损失,作为第一损失值。在一些实施例中,可以将前馈神经网络基于混合已标注样本集的处理结果输入softmax层,获取交叉熵损失,作为第一损失值losss。

在步骤303中,根据基于混合样本集的处理结果获取均方误差损失,作为第二损失值。在一些实施例中,可以将基于混合样本集的处理结果输入线性回归层,获取均方误差损失,作为第二损失值lossu。

由于yu′由上述步骤204中方法计算生成,其每一项的取值可能为非整数,例如类别标识为0、1、2的情况下,yu′中每一项的取值可以为0到2之间的实数,因此(xu+,yu′)的损失函数由均方误差定义,保证能够对yu′中的信息量进行有效处理。

在步骤304中,根据预定损失值权重获取第一损失值和第二损失值的加权值,作为损失值。在一些实施例中,在获得losss和lossu后,可以基于公式:

loss=δ*lossu+(1-δ)*losss

获得损失值loss,其中,δ为lossu的权重,(1-δ)为losss的权重。在一些实施例中,δ为超参数,决定模型训练中未标注样本的影响,可以根据经验进行设定,或在使用过程中根据效果调整。在一些实施例中,δ可以取值0.25。

在步骤305中,将损失值loss进行反向传播,调整待训练的编码器、待训练的文本分类模型和前馈神经网络的参数。

通过这样的方法,能够考虑到混合样本集中样本的类别标识非整数的问题,通过选择合适的损失函数对类别标识进行有效利用;另外,能够通过δ的设定,灵活调整未标注样本在训练过程中产生的影响,便于用户根据效率和准确度需求自由调整,提高可控性。

本公开的文本分类方法的一些实施例的流程图如图4所示。

在步骤401中,将待分类的文本输入文本分类模型。文本分类模型mn为通过上文中任意一种文本分类模型的训练方法生成。

在步骤402中,将文本分类模型输出的分类估计值作为待分类的文本的类别。在一些实施例中,类别可以为情感类别,则标识包括情感类别标识,例如差评为0,中评为1,好评为2;或者好评为2,中评为1,差评为0等。

通过这样的方法,采用基于少量的已标注样本训练的文本分类模型进行文本分类,能够在保证准确度的基础上,降低执行分类前准备过程中的样本需求量,提高训练效率;在已标注样本数量较少的情况下,能够提高文本分类的准确度。

本公开的文本分类模型训练系统的一些实施例的示意图如图5所示。

估计样本集获取单元501能够在每一轮次的训练中,基于待训练的文本分类模型,确定未标注样本集中每条样本u的分类估计值yu,获取估计标注样本集,估计标注样本集中每一样本为(u,yu)。未标注样本集中的样本即未标注样本所属类别的样本,未标注样本集中样本的数量可以远大于已标注样本集中样本的数量。

向量获取单元502能够通过待训练的编码器获取已标注样本集的文本的向量,和估计标注样本集的文本的向量。在一些实施例中,已标注样本集可以通过将抽取的原样本通过人工标注的方式生成。在一些实施例中,已标注样本集可以为对已标注的原样本执行增强运算后,生成的样本集。在一些实施例中,增强运算可以包括同义词替换。在一些实施例中,增强运算可以包括将样本的文本翻译为第二语言,如英语,再翻译回原语言。

混合单元503,能够生成混合已标注样本集和混合样本集。在一些实施例中,根据已标注样本集中每条已标注样本的文本的向量和每条已标注样本的类别标识,获取混合已标注样本集。在一些实施例中,混合已标注样本集可以为包括原样本的文本的向量和原样本的类别标识,以及增强样本的文本的向量和增强样本的类别标识的集合。进一步的,根据混合已标注样本集、估计标注样本集的文本的向量和估计混合系数,以及分类估计值,获取混合样本集。。

参数调整单元504能够将混合已标注样本集和混合样本集输入前馈神经网络,并根据基于损失函数获取的损失值调整待训练的编码器、待训练的文本分类模型和前馈神经网络的参数。

模型获取单元505能够在训练轮数达到预定次数的情况下,获得训练完成的文本分类模型。在一些实施例中,在第1轮次的训练中,待训练的文本分类模型记为模型m0;在第i个轮次的训练中,待训练的文本分类模型记为模型mi-1,则在训练完成时,模型为mn。mn即为所需的文本分类模型。

这样的文本分类模型训练系统能够基于少量的已标注样本,通过与未标注样本的混合分析,实现对文本分类模型的循环训练,在保证训练完成的文本分类模型的准确度的基础上,降低文本分类模型训练过程中所需的已标注样本数量需求,从而减少人工标注需求,提高模型训练的效率;在已标注样本缺乏的情况下,提高文本分类模型的准确度。

在一些实施例中,文本分类模型训练系统中还可以包括样本扩充单元,能够在向量获取单元502将样本集输入待训练的编码器前,根据已标注样本扩充已标注样本集,直至已标注样本集中的样本量与未标注样本集的样本量相等。

这样的文本分类模型训练系统能够提高有限的已标注的样本的利用率,能够保证已标注样本集与未标注样本集中的样本同步提取、同步结束提取,降低数据处理发生故障的概率,提高后续数据处理的便捷度和可靠度。

在一些实施例中,文本分类模型训练系统中还可以包括样本增强单元,能够预先根据仅包括原样本和其类别标识的样本集s,生成包括原样本的文本、增强样本的文本和类比标识的已标注样本集s’。在一些实施例中,样本增强单元能够对原样本的文本进行同义词替换,得到增强样本的文本s1。在一些实施例中,样本增强单元还可以对原样本的文本进行两次翻译,从原语言翻译为第二语言,再译回原语言,将译回的文本作为增强样本的文本s2。在一些实施例中,样本增强单元可以同时采用上文中的两种方式进行样本增强运算,分别生成第一增强样本的文本s1和第二增强样本的文本s2,生成已标注样本集合s’中的样本(s,s1,s2,ys)。

这样的文本分类模型训练系统能够通过增强样本运算的方式,以较少的运算量扩充已标注的样本量,降低手动标注样本类别的需求量,提高模型训练效率。

在一些实施例中,文本分类模型训练系统还可以包括:批量提取单元,能够在扩充已标注样本集后,根据预定批量尺寸,在扩充后的已标注样本集和估计标注样本集中分别的顺次提取原样本的文本、增强样本的文本和估计标注样本的文本;根据原样本的文本、增强样本的文本和估计标注样本的文本生成待编码文本向量,待编码文本向量包括原样本维度、增强样本维度和估计标注样本维度,每个维度的样本文本的数量符合预定批量尺寸;根据预定文本长度上限裁剪待编码文本向量中的文本。

这样的文本分类模型训练系统能够分批次的提取样本文本进行处理,通过多批次的处理实现充分利用样本数据;降低每次处理的数据量,降低各环节的运行负担,提高训练的可靠度和效率。

在一些实施例中,文本分类模型训练系统还可以包括系数调整单元,能够在完成每轮训练后,以预定比例增大第一估计混合系数。例如,在i较的早期,比如第一二轮训练时,模型的准确率很低,估计标注样本的正确率较差,则设定λ较小,以使得混合样本更接近于已标注样本;随着i增大,模型的准确率逐渐升高,则增大λ,使估计标注样本逐渐发挥作用,加强模型的泛化能力。在一些实施例中,可以设第i轮的λ值为λi,则有λi=λ(i-1)*η,例如指定λ1=0.1,η=1.1。

这样的文本分类模型训练系统能够通过估计混合系数的调整达到避免准确率差的样本对训练造成过多干扰,且逐渐提高泛化能力,提高训练的效率。

本公开的文本分类系统的一些实施例的示意图如图6所示。

文本输入单元601能够将待分类的文本输入文本分类模型。文本分类模型mn为通过上文中任意一种文本分类模型的训练方法,或采用上文中任意一种文本分类模型训练系统生成。

类别确定单元602能够将文本分类模型输出的分类估计值作为待分类的文本的类别。

这样的文本训练系统能够采用基于少量的已标注样本训练的文本分类模型进行文本分类,能够在保证准确度的基础上,降低执行分类前准备过程中的样本需求量,提高训练效率;在已标注样本数量较少的情况下,能够提高文本分类的准确度。

本公开数据处理系统的一个实施例的结构示意图如图7所示。数据处理系统包括存储器701和处理器702。其中:存储器701可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储上文中文本分类模型训练方法或文本分类方法的对应实施例中的指令。处理器702耦接至存储器701,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器702用于执行存储器中存储的指令,能够降低执行分类前准备过程中的样本需求量,提高训练效率;在已标注样本数量较少的情况下,能够提高文本分类的准确度。

在一个实施例中,还可以如图8所示,数据处理系统800包括存储器801和处理器802。处理器802通过bus总线803耦合至存储器801。该数据处理系统800还可以通过存储接口804连接至外部存储装置805以便调用外部数据,还可以通过网络接口806连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。

在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够降低执行分类前准备过程中的样本需求量,提高训练效率;在已标注样本数量较少的情况下,能够提高文本分类的准确度。

在另一个实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现文本分类模型训练方法或文本分类方法对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

最后应当说明的是:以上实施例仅用以说明本公开的技术方案而非对其限制;尽管参照较佳实施例对本公开进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本公开的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本公开技术方案的精神,其均应涵盖在本公开请求保护的技术方案范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1