一种文本分类模型的训练方法、装置、设备以及可读介质与流程

文档序号:25280429发布日期:2021-06-01 17:26阅读:76来源:国知局
一种文本分类模型的训练方法、装置、设备以及可读介质与流程

本发明涉及人工智能领域,尤其涉及一种文本分类模型的训练方法、装置、设备以及可读介质。



背景技术:

随着文本信息的增长,文本分类已经成为处理文本信息的关键技术,在各个领域得到广泛的应用。例如,在人机对话领域,计算机设备可以接收到的用户说出的询问语句,对询问语句对应的文本信息进行分类,确定文本信息对应的分类之后,依据相应的分类,自动对用户的询问语句进行解答,并且可以推送相关的信息等等。而目前,对文本信息进行分类的方法中,最常见的是通过训练好的深度学习模型进行预测。其中,训练深度学习模型需要大量的有标注的语料。但是,由于线上的文本信息更新速度较快,若使用之前的模型,则效果不好。

解决方案一般是将日志中大量未标注的数据取出,等待标注团队标注完成,使用新的数据重新训练模型,得到更新参数后的模型,进而使用更新参数后的模型进行分类。但是,人工标注大量的语料效率低,导致业务迭代速度慢。



技术实现要素:

本发明实施例提供一种文本分类模型的训练方法、装置、设备以及可读介质,可以提高模型训练的效率,从而提高业务迭代的速度。

第一方面,本申请实施例提供了一种文本分类模型的训练方法,包括:

获取初始分类模型的训练样本集,所述训练样本集包括有标记样本集和无标记样本集,所述有标记样本集包括多个第一文本数据,每个第一文本数据携带有类别标签,所述无标记样本集包括多个第二文本数据;

对所述无标记样本集中的每个第二文本数据进行文本增强处理,得到增强的无标记文本数据;

将所述有标记样本集、所述无标记样本集和所述增强的无标记文本数据分别输入所述初始分类模型,得到所述有标记样本集中每个第一文本数据的预测类别标签的第一概率分布、所述无标记样本集中每个第二文本数据的预测类别标签的第二概率分布、以及所述增强的无标记文本数据的预测类别标签的第三概率分布;

根据所述第一概率分布、所述第二概率分布和所述第三概率分布,确定第一损失函数,并根据所述第一损失函数和所述训练样本集,对所述初始分类模型进行迭代训练;

当所述第一损失函数满足训练结束条件时,确定所述第一损失函数满足训练结束条件时的初始分类模型为目标文本分类模型。

进一步地,所述根据所述第一概率分布、所述第二概率分布和所述第三概率分布,确定第一损失函数,包括:

根据预设的交叉熵计算所述第一概率分布和所述有标记样本集中每个第一文本数据对应的预设概率分布的第一差异度,并根据所述第一差异度确定第二损失函数;

根据所述预设的交叉熵计算所述第二概率分布和所述第三概率分布之间的第二差异度,并根据所述第二差异度确定第三损失函数;

根据所述第二损失函数和所述第三损失函数,确定所述第一损失函数。

进一步地,所述根据所述第二损失函数和所述第三损失函数,确定所述第一损失函数,包括:

根据预设的第一比例系数和所述第二损失函数,计算所述第一比例系数和所述第二损失函数的积,得到第一结果,所述第一比例系数为正数;

根据预设的第二比例系数和所述第三损失函数,计算所述第二比例系数和所述第三损失函数的积,得到第二结果,所述第二比例系数为正数;

确定所述第一结果与所述第二结果的和为所述第一损失函数。

进一步地,所述根据所述预设的交叉熵计算所述第二概率分布和所述第三概率分布之间的第二差异度,并根据所述第二差异度确定第三损失函数之后,所述方法还包括:

在所述第三损失函数小于预设阈值的情况下,将所述第三概率分布中的最大概率对应的类别标签确定为所述增强的无标记文本数据对应的类别标签;

将所述增强的无标记文本数据和所述第三概率分布中的最大概率对应的类别标签加入所述有标记样本集;

根据加入所述增强的无标记文本数据和所述第三概率分布中的最大概率对应的类别标签后的有标记样本集,对所述初始分类模型进行训练。

进一步地,所述第二文本数据包括第一语言文本数据;所述对所述无标记样本集中的每个第二文本数据进行文本增强处理,得到增强的无标记文本数据,包括:

对所述第一语言文本数据进行语言转换处理,得到第二语言文本数据;

随机抽取所述第二语言文本数据中的单词,并根据预设单词与同义词的对应关系从预设的同义词集合中获取与所述单词对应的同义词,以及利用所述同义词替换所述第二语言文本数据中的所述单词;

将替换后的第二语言文本数据进行语言转换处理,得到更新后的第一语言文本数据,并确定所述更新后的第一语言文本数据为所述增强的无标记文本数据。

进一步地,所述第二文本数据包括第一语言文本数据;所述对所述无标记样本集中的每个第二文本数据进行文本增强处理,得到增强的无标记文本数据,包括:

对所述第一语言文本数据进行语言转换处理,得到第二语言文本数据;

获取所述第二语言文本数据中出现频次大于预设频次阈值的m个单词,m为大于或等于1的整数;

根据预设单词与同义词的对应关系从预设的同义词集合中获取与所述m个单词中每个单词对应的同义词,并利用所述m个单词中每个单词对应的同义词替换所述第二语言文本数据中的所述m个单词中的每个单词;

将替换后的第二语言文本数据进行语言转换处理,得到更新后的第一语言文本数据,并确定所述更新后的第一语言文本数据为所述增强的无标记文本数据。

进一步地,所述训练结束条件为连续n次训练得到的第一损失函数中,相邻两次训练得到的第一损失函数的差值小于预设差值阈值的次数大于或等于预设次数阈值,其中,n为大于2的整数。

第二方面,本申请实施例提供了一种文本分类模型的训练装置,包括:

获取单元,用于获取初始分类模型的训练样本集,所述训练样本集包括有标记样本集和无标记样本集,所述有标记样本集包括多个第一文本数据,每个第一文本数据携带有类别标签,所述无标记样本集包括多个第二文本数据;

增强单元,用于对所述无标记样本集中的每个第二文本数据进行文本增强处理,得到增强的无标记文本数据;

输入单元,用于将所述有标记样本集、所述无标记样本集和所述增强的无标记文本数据分别输入所述初始分类模型,得到所述有标记样本集中每个第一文本数据的预测类别标签的第一概率分布、所述无标记样本集中每个第二文本数据的预测类别标签的第二概率分布、以及所述增强的无标记文本数据的预测类别标签的第三概率分布;

第一确定单元,用于根据所述第一概率分布、所述第二概率分布和所述第三概率分布,确定第一损失函数,并根据所述第一损失函数和所述训练样本集,对所述初始分类模型进行迭代训练;

第二确定单元,用于当所述第一损失函数满足训练结束条件时,确定所述第一损失函数满足训练结束条件时的初始分类模型为目标文本分类模型。

进一步地,所述第一确定单元,具体用于:

根据预设的交叉熵计算所述第一概率分布和所述有标记样本集中每个第一文本数据对应的预设概率分布的第一差异度,并根据所述第一差异度确定第二损失函数;

根据所述预设的交叉熵计算所述第二概率分布和所述第三概率分布之间的第二差异度,并根据所述第二差异度确定第三损失函数;

根据所述第二损失函数和所述第三损失函数,确定所述第一损失函数。

进一步地,所述第一确定单元,具体用于:

根据预设的第一比例系数和所述第二损失函数,计算所述第一比例系数和所述第二损失函数的积,得到第一结果,所述第一比例系数为正数;

根据预设的第二比例系数和所述第三损失函数,计算所述第二比例系数和所述第三损失函数的积,得到第二结果,所述第二比例系数为正数;

确定所述第一结果与所述第二结果的和为所述第一损失函数。

进一步地,所述根据所述预设的交叉熵计算所述第二概率分布和所述第三概率分布之间的第二差异度,并根据所述第二差异度确定第三损失函数之后,所述装置还包括:

第三确定单元,用于在所述第三损失函数小于预设阈值的情况下,将所述第三概率分布中的最大概率对应的类别标签确定为所述增强的无标记文本数据对应的类别标签;

加入单元,用于将所述增强的无标记文本数据和所述第三概率分布中的最大概率对应的类别标签加入所述有标记样本集;

训练单元,用于根据加入所述增强的无标记文本数据和所述第三概率分布中的最大概率对应的类别标签后的有标记样本集,对所述初始分类模型进行训练。

进一步地,所述第二文本数据包括第一语言文本数据;所述增强单元,具体用于:

对所述第一语言文本数据进行语言转换处理,得到第二语言文本数据;

随机抽取所述第二语言文本数据中的单词,并根据预设单词与同义词的对应关系从预设的同义词集合中获取与所述单词对应的同义词,以及利用所述同义词替换所述第二语言文本数据中的所述单词;

将替换后的第二语言文本数据进行语言转换处理,得到更新后的第一语言文本数据,并确定所述更新后的第一语言文本数据为所述增强的无标记文本数据。

进一步地,所述第二文本数据包括第一语言文本数据;所述增强单元,具体用于:

对所述第一语言文本数据进行语言转换处理,得到第二语言文本数据;

获取所述第二语言文本数据中出现频次大于预设频次阈值的m个单词,m为大于或等于1的整数;

根据预设单词与同义词的对应关系从预设的同义词集合中获取与所述m个单词中每个单词对应的同义词,并利用所述m个单词中每个单词对应的同义词替换所述第二语言文本数据中的所述m个单词中的每个单词;

将替换后的第二语言文本数据进行语言转换处理,得到更新后的第一语言文本数据,并确定所述更新后的第一语言文本数据为所述增强的无标记文本数据。

进一步地,所述训练结束条件为连续n次训练得到的第一损失函数中,相邻两次训练得到的第一损失函数的差值小于预设差值阈值的次数大于或等于预设次数阈值,其中,n为大于2的整数。

第三方面,本申请实施例提供一种计算机设备,该计算机设备包括存储器和处理器、收发器;上述处理器分别与上述存储器和上述收发器相连,其中,上述存储器存储有计算机程序代码,上述处理器和上述收发器用于调用上述程序代码,执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,当所述计算机程序被计算机设备运行时,实现如第一方面的任一种可能的实现方式所公开的文本分类模型的训练方法。

在本申请实施例中,通过获取的初始分类模型的训练样本集,训练样本集包括有标记样本集和无标记样本集,对无标记样本集中的每个第二文本数据进行增强处理,得到增强的无标记文本数据,将有标记样本集、无标记样本集和增强的无标记文本数据输入初始分类模型中,分别得到预测的有标记样本集中每个第一文本数据的类别标签的第一概率分布、每个第二文本数据的类别标签的第二概率分布以及增强的无标记文本数据的类别标签的第三概率分布;进而根据三个概率分布确定第一损失函数,根据第一损失函数和训练样本集对初始分类模型进行训练,在训练得到的第一损失函数满足训练结束条件时,确定此时的初始分类模型为目标文本分类模型。可见,使用无标记样本集对文本分类模型进行训练,减少人工标注成本,提高模型训练的效率,从而提高业务迭代的速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种文本分类模型的训练方法的流程示意图;

图2是本申请实施例提供的一种文本分类模型的训练方法的另一流程示意图;

图3是本申请实施例提供的一种文本分类模型的训练方法的时序示意图;

图4本发明实施例提供的一种文本分类模型的训练装置的结构示意图;

图5本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合附图1-附图3对本申请实施例提供的一种文本分类模型的训练方法进行示意性说明。

请参见图1,图1是本申请实施例提供的一种文本分类模型的训练方法的流程示意图。如图1所示,上述方法可以包括:

101、获取初始分类模型的训练样本集,上述训练样本集包括有标记样本集和无标记样本集,上述有标记样本集包括多个第一文本数据,每个第一文本数据携带有类别标签,上述无标记样本集包括多个第二文本数据。

在本申请实施例中,训练样本集中的各训练样本为用于对初始分类模型训练的文本数据。

其中,训练样本集包括有标记样本集和无标记样本集,有标记样本集中包括多个第一文本数据,每个第一文本数据携带类别标签,该类别标签表征了相对应的第一文本数据的真实文本类别。无标记样本集中包括多个第二文本数据,每个第二文本数据不携带类别标签,即无标记样本集中的各个第二文本数据的真实文本类别未知。

其中,上述类别标签所表征的真实文本类别的具体分类,可基于实际应用场景需求确定,在此不做限制。例如,上述类别标签可表征情感类别(积极、消极以及中性等),或者表征保险业务中不同的业务类型等。

上述训练样本集的获取方式在本申请实施例中也不做限制,如基于大数据等方式从互联网获取相关领域的文本数据,并对部分文本数据进行类别标注以将文本数据分为有标记样本集和无标记样本集。

例如,对于人工智能(artificialintelligence,ai)面谈的场景,ai面谈是通过机器人模拟人工对候选保险业务员进行面试,机器人会根据固定的问题剧本问候选人问题,通过候选人的回答做意图识别,然后根据意图识别结果在剧本中找到下一个分支节点。其中,训练样本可以从ai与候选保险业务员之间的对话日志中进行获取,进而可以减少人力资源的工作量,提升招聘保险业务员的效率。

102、对上述无标记样本集中的每个第二文本数据进行文本增强处理,得到增强的无标记文本数据。

在一种可能的实现方式中,将无标记样本集中的多个第一文本数据进行增强处理。具体的,该无标记样本集中的多个第一文本数据包括第一语言文本数据,可以将对第一语言文本数据进行语言转换处理,得到第二语言文本数据,接着随机抽取第二语言文本数据中的单词,根据预设的单词与同义词的对应关系从预设的同义词集合中获取与抽取的单词对应的同义词,以及使用同义词替换第二语言文本数据中抽取的单词。进一步将替换后的第二语言文本数据进行语言转换处理,转换为第一语言文本数据,得到更新后的第一语言文本数据,将更新后的第一语言文本数据确定为增强的无标记文本数据。

示例性的,第一语言为中文,第二语言为英文,第一文本数据包括中文文本数据,将中文文本数据翻译成英文文本数据,从英文文本数据中随机抽取单词,并根据预设的单词与同义词的对应关系从预设的同义词集合中获取与抽取到的单词的同义词,并使用该同义词替换抽取到的单词,进而将替换后的英文文本数据翻译回中文文本数据,即得到更新后的中文文本数据,将更新后的中文文本数据作为增强的无标记文本数据。

在另一种可能的实现方式中,对无标记样本集中的每个第二文本数据进行文本增强处理还可以将第一语言的文本数据进行语言转换处理,得到第二语言的文本数据,进而可以对第二语言文本数据中出现频次大于预设频次阈值的m个单词进行同义词替换处理。根据预设单词与同义词的对应关系从预设的同义词集合中获取与上述m个单词中每个单词对应的同义词,使用m个单词中每个单词对应的同义词替换上述第二语言文本数据中的m个单词,从而可以得到替换后的第二语言文本数据,进而将第二语言文本数据进行语言转换处理,得到更新后的第一语言文本数据,将更新后的第一语言文本数据确定为增强的无标记文本数据。其中,m为正整数。

示例性的,还是以第一语言为中文,第二语言为英文,m为2为例进行讲解,先将将中文文本数据翻译成英文文本数据,从英文文本数据中获取出现频次大于预设频次阈值的2个单词,并根据预设的单词与同义词的对应关系从预设的同义词集合中获取与这2个单词分别对应的同义词,并使用该同义词同时替换这2个单词,进而将替换后的英文文本数据翻译回中文文本数据,得到更新后的中文文本数据,将更新后的中文文本数据作为增强的无标记文本数据。

可选的,还可以将得到的更新后的第一语言文本数据与已有的无标记样本集中的第二文本数据进行比对,去除增强的无标记文本数据中与第二文本数据重复的文本数据。

由于现有的翻译方式在翻译-回译的过程中会出现翻译偏差,即在不改变文本语义的情况下改变文本的用词,因此基于回译和同义词替换的方式,可在不改变第二文本数据的语义的情况下,达到文本增强的目的。

103、将上述有标记样本集、上述无标记样本集和上述增强的无标记文本数据分别输入上述初始分类模型,得到上述有标记样本集中每个第一文本数据的预测类别标签的第一概率分布、上述无标记样本集中每个第二文本数据的预测类别标签的第二概率分布、以及上述增强的无标记文本数据的预测类别标签的第三概率分布。

具体的,本申请实施例中,初始分类模型为基于神经网络的初始分类模型或者分类结构,包括但不限于基于卷积神经网络(convolutionalneuralnetworks,cnn)、循环神经网络(recurrentneuralnetworks,rnn)、长短期记忆模型循环神经网络(long-shorttermmemory,lstm)、门控循环单元(gatedrecurrentunit,gru)的初始分类模型以及基于变形金刚的双向编码器表示(bidirectionalencoderrepresentationsfromtransformers,bert)模型等,具体可基于实际应用场景需求确定,在此不做限制。对初始分类模型的训练方法主要包括有监督学习的训练过程和无标记学习的训练过程。换句话说,在每次对该初始分类模型的训练过程中,同时采用有标记样本集和无标记样本集的文本数据进行模型训练。

其中,将有标记样本集中每个第一文本数据输入初始分类模型中,通过初始分类模型得到每个第一文本数据的预测类别标签。对于任一第一文本数据,将该第一文本数据输入初始分类模型中,可以得到该第一文本数据对应的预测类别标签的第一概率分布,该第一概率分布表示该第一文本数据的预测类别标签为各类别标签的概率,进而可以根据概率分布确定该第一文本数据的预测类别标签。例如,以二分类为例,类别标签包括a和b,则通过初始分类模型输出的第一文本数据对应的预测类别标签的第一概率分布可以是(0.6,0.4)。表示预测的类别标签为a的概率为0.6,预测的类别标签为b的概率为0.4。

将无标记样本集中的每个第二文本数据输入初始分类模型中,通过初始分类模型输出每个第二文本数据的预测类别标签。对于任一第二文本数据,将该第二文本数据输入初始分类模型中,得到该第二文本数据对应的预测类别标签的第二概率分布。

同理,将增强的无标记文本数据也输入初始分类模型中,通过初始分类模型输出增强的无标记文本数据对应预测类别标签的第三概率分布。

104、根据上述第一概率分布、上述第二概率分布和上述第三概率分布,确定第一损失函数,并根据上述第一损失函数和上述训练样本集,对上述初始分类模型进行迭代训练。

本申请实施例中,损失函数用于估量模型的预测值与真实值的不一致程度。本申请中的损失函数为使用不同的概率分布计算出的预测值与真实值的差异度的值。

在一种可能的实现方式中,每个第一文本数据携带类别标签,即为已知预设的概率分布。示例性的,还是以二分类为例,某一第一文本数据携带的标签为a,则该第一文本数据的预设概率分布为(1,0)。则可以将预测得到的第一概率分布和预设的概率分布之间的差异,确定有监督的学习训练过程的损失函数(supervisedcross-entropyloss),即第二损失函数。第二损失函数可以为第一概率分布与预设的概率分布之间的交叉熵(supervisedcross-entropyloss)。其中,第二损失函数表征了第一文本数据的真实类别标签和预测的类别标签之间的差异。第二损失函数越大,第一文本数据的真实文本类型和预测文本类别之间的差异越大,则说明训练过程中的初始分类模型的分类效果越差。

进一步的,可以根据第二概率分布和第三概率分布的之间的差异,确定无监督的学习训练过程的损失函数(unsupervisedconsistencyloss),即第三损失函数。第三损失函数也可以为第二概率分布与第三概率分布之间的交叉熵。从而根据有监督学习的第二损失函数和无监督学习的第三损失函数,确定第一损失函数。进而,基于第一损失函数和训练样本集对初始分类模型进行迭代训练。

105、当上述第一损失函数满足训练结束条件时,确定上述第一损失函数满足训练结束条件时的初始分类模型为目标文本分类模型。

在一种可能的实现方式中,基于第一损失函数和训练集对初始分类模型进行迭代训练的过程中,通过反向传播机制不断调整初始分类模型的相关模型参数,直到训练得到的第一训练损失满足训练结束条件时训练结束,将训练结束时的初始分类模型确定为目标文本分类模型。

在一种可能的实现方式中,训练结束条件可以为连续n次训练得到的第一训练损失函数中,相邻两次训练得到的第一训练损失函数的差值小于预设差值阈值的次数大于或等于预设次数阈值。其中,n为大于2的整数。此时,说明初始分类模型的分类性能趋于稳定,因此,可以结束训练。

可选的,还可以通过主动学习的方式将当前无标记训练样本集中的部分第二文本数据进行标记,并将标记后的第二文本数据加入至有标记样本集进行下一次的训练。

可选的,还可以对有标记样本集中的多个第一文本数据进行文本增强处理,增加有标记的训练样本的数量,即增强第一文本数据的数量。具体的,文本增强的方式可以包括但不限于回译(backtranslation)、词频-逆向文件频率(tf-idfwordreplacement)单词的替换以及随机替换(randaugment)。其中,回译为将有标记样本集中的有标记样本翻译为第二语言的文本(假设有标记样本集中的第一文本数据为第一语言),再对第二语言的文本回译至第一语言,得到相对应的增强训练样本。例如,回译为将第一文本数据从中文翻译成英文,然后在将翻译后的第一文本数据从英文翻译回中文,翻译回中文的第一文本数据即可作为增强后的有标记文本数据。词频-逆向文件频率单词的替换可以是将文本信息中,高频词的文本信息进行替换。其中,替换的方式可以是同义词替换。随机替换可以是对文本信息中的随机抽取一个词,然后在该词的同义词集合中随机选择一个,插入原句子中的随机位置。

在本申请实施例中,通过获取的初始分类模型的训练样本集,训练样本集包括有标记样本集和无标记样本集,对无标记样本集中的每个第二文本数据进行增强处理,得到增强的无标记文本数据,将有标记样本集、无标记样本集和增强的无标记文本数据输入初始分类模型中,分别得到预测的有标记样本集中每个第一文本数据的类别标签的第一概率分布、每个第二文本数据的类别标签的第二概率分布以及增强的无标记文本数据的类别标签的第三概率分布;进而根据三个概率分布确定第一损失函数,根据第一损失函数和训练样本集对初始分类模型进行训练,在训练得到的第一损失函数满足训练结束条件时,确定此时的初始分类模型为目标文本分类模型。可见,使用无标记样本集对文本分类模型进行训练,减少人工标注成本,提高模型训练的效率,从而提高业务迭代的速度。

请参见图2,图2是本申请实施例提供的一种文本分类模型的训练方法的另一流程示意图。如图2所示,上述方法可以包括:

201、根据预设的交叉熵计算上述第一概率分布和上述有标记样本集中每个第一文本数据对应的预设概率分布的第一差异度,并根据上述第一差异度确定第二损失函数。

在一种可能的实现方式中,计算第一概率分布与预设的概率分布之间的第一差异度,可以计算第一概率分布与预设的概率分布之间的交叉熵。其中,交叉熵的计算可以如公式1所示。

loss2=crossentropy(p(y’|xlabeled),y)公式1

其中,loss2表示第二损失函数,crossentropy表示交叉熵,p(y|xlabeled)表示第一文本数据(xlabeled)对应的预测类别标签y’的概率分布,y表示该第一文本数据携带的类别标签。

202、根据上述预设的交叉熵计算上述第二概率分布和上述第三概率分布之间的第二差异度,并根据上述第二差异度确定第三损失函数。

在一种可能的实现方式中,将第二文本数据记为xunlabeled,将增强的无标记文本数据记为则将无标记样本集中的多个第二文本数据xunlabeled输入初始分类模型,得到第二文本数据xunlabeled对应于预测文本类别y的概率分布p(y|xunlabeled),将增强的无标记文本数据输入初始分类模型得到增强的无标记文本数据对应于预测文本类别y的概率分布

由于增强的无标记文本数据的语义与第二文本数据xunlabeled的语义相同,因此在初始分类模型的分类具有高准确性的情况下,增强的无标记文本数据的语义与第二文本数据xunlabeled对应于预测类别标签y概率分布相同或者相似。基于此,可基于概率分布p(y|xunlabeled)和之间的相似度来衡量初始网络模型在训练过程中的稳定性,即将概率分布p(y|xunlabeled)和之间的第二差异度作为第三损失函数。其中,第三损失函数越小,概率分布p(y|xunlabeled)和之间的相似度越大,初始分类模型分类的准确性越高。

可选的,上述第一差异度和第二差异度还可以根据预设的相对熵来计算。以计算第三损失函数为例,第二概率分布和第三概率分布的相对熵的计算可以如公式2所示。

其中,loss3表示第三损失函数,kl表示相对熵,也可以叫kl散度(kullback-leiblerdivergence)。

203、根据上述第二损失函数和上述第三损失函数,确定上述第一损失函数。

在一种可能的实现方式中,根据预设的第一比例系数和第二损失函数,计算第一比例系数和第二损失函数的积,得到第一结果,根据预设的第二比例系数和第三损失函数,计算第二比例系数和第三损失函数的积,得到第二结果。其中,第一比例系数和第二比例系数可以是预先设置好的,均为正数。进而,确定第一结果与第二结果的和为第一损失函数。

具体的,第一比例系数记为a,第二比例系数记为b,则第一损失函数loss1的计算可以如公式3所示。

loss1=loss2*a+loss3*b公式3

可选的,还可以设置预设的第一比例系数和第二比例系数的和等于1,即a+b=1。

在本申请实施例中,通过获取的初始分类模型的训练样本集,训练样本集包括有标记样本集和无标记样本集,对无标记样本集中的每个第二文本数据进行增强处理,得到增强的无标记文本数据,将有标记样本集、无标记样本集和增强的无标记文本数据输入初始分类模型中,分别得到预测的有标记样本集中每个第一文本数据的类别标签的第一概率分布、每个第二文本数据的类别标签的第二概率分布以及增强的无标记文本数据的类别标签的第三概率分布;进而根据三个概率分布确定第一损失函数,根据第一损失函数和训练样本集对初始分类模型进行训练,在训练得到的第一损失函数满足训练结束条件时,确定此时的初始分类模型为目标文本分类模型。可见,使用无标记样本集对文本分类模型进行训练,减少人工标注成本,提高模型训练的效率,从而提高业务迭代的速度。

请参阅图3,图3是本申请实施例提供的一种文本分类模型的训练方法的时序示意图。如图3所示,本申请中的文本分类模型的训练方法主要包括有监督学习的训练过程(左半部分)以及无监督学习的训练过程(右半部分)。其中,有监督学习的训练过程是基于有标记样本集进行训练的,无监督学习的训练过程是基于无标记样本集进行训练的。换句话说,在每次对初始分类模型的训练过程中,同时采用携带类别标签的第一文本数据和未携带类别标签的第二文本数据进行模型训练。

在训练的过程中,将有标记样本集中的各个第一文本数据将输入初始分类模型,通过初始分类模型得到各个第一文本数据的预测文本类别。对于任一第一文本数据输入初始分类模型中,可以得到该第一文本数据预测类别标签的第一概率分布,进而根据第一概率分布和该第一文本数据的预设概率分布的第一差异度,计算出第二损失函数。

在训练的过程中,将无标记样本集中各个第二文本数据进行文本增强处理,得到增强的无标记文本数据。进而,基于第二文本数据和增强的无标记文本数据对初始分类模型进行训练,将各个第二文本数据和增强的无标记文本数据输入初始分类模型中,分别得到每个第二文本数据的预测类别标签的第二概率分布,和增强的无标记文本数据的预测类别标签的第三概率分布。进而根据第二概率分布和第三概率分布的第二差异度确定第三损失函数。进而确定第二损失函数和第三损失函数的和第三损失函数的和为第一损失函数。进一步,可以在确定第一损失函数时,为第二损失函数和第三损失函数增强两个比例系数。

进而可以判断得到的第一损失函数是否满足训练结束条件,确定第一损失函数不满足训练结束条件时,通过反向传播机制不断调整初始分类模型的模型参数。直到训练得到的第一损失函数满足训练结束条件,将满足训练结束条件时的初始分类模型确定为目标文本分类模型。

进一步的,可以获取待分类文本,基于目标文本分类模型对待分类文本进行分类。具体的,对待分类文本进行文本分类时,需要先确定待分类文本中各词的词向量,将各词的词向量作为输入特征输入目标文本分类模型。接着,目标文本分类模型对输入特征进行处理后,可得到待分类文本对应于预测类别标签的概率分布,该概率分布表示待分类文本的预测类别标签为各类别标签的概率,进而可以将最高概率对应的文本类别确定为待分类文本的预测类别标签。

示例性的,在机器人模拟人工对候选保险业务员进行面试的场景中,可以应用目标文本分类模型对接收到的候选人的回答中的文本信息进行分类,根据分类后在剧本中找到下一个分支节点,进一步对候选人进行提问和判断。

可选的,还可以将候选人回答中的文本信息的类别标签上传至管理人员,由管理人员判断该候选人是否录用。

请参阅图4,图4是本申请实施例提供的一种文本分类模型的训练装置的结构示意图。该文本分类模型的训练装置400包括:

获取单元401,用于获取初始分类模型的训练样本集,上述训练样本集包括有标记样本集和无标记样本集,上述有标记样本集包括多个第一文本数据,每个第一文本数据携带有类别标签,上述无标记样本集包括多个第二文本数据;

增强单元402,用于对上述无标记样本集中的每个第二文本数据进行文本增强处理,得到增强的无标记文本数据;

输入单元403,用于将上述有标记样本集、上述无标记样本集和上述增强的无标记文本数据分别输入上述初始分类模型,得到上述有标记样本集中每个第一文本数据的预测类别标签的第一概率分布、上述无标记样本集中每个第二文本数据的预测类别标签的第二概率分布、以及上述增强的无标记文本数据的预测类别标签的第三概率分布;

第一确定单元404,用于根据上述第一概率分布、上述第二概率分布和上述第三概率分布,确定第一损失函数,并根据上述第一损失函数和上述训练样本集,对上述初始分类模型进行迭代训练;

第二确定单元405,用于当上述第一损失函数满足训练结束条件时,确定上述第一损失函数满足训练结束条件时的初始分类模型为目标文本分类模型。

进一步地,上述第一确定单元404,具体用于:

根据预设的交叉熵计算上述第一概率分布和上述有标记样本集中每个第一文本数据对应的预设概率分布的第一差异度,并根据上述第一差异度确定第二损失函数;

根据上述预设的交叉熵计算上述第二概率分布和上述第三概率分布之间的第二差异度,并根据上述第二差异度确定第三损失函数;

根据上述第二损失函数和上述第三损失函数,确定上述第一损失函数。

进一步地,上述第一确定单元404,具体用于:

根据预设的第一比例系数和上述第二损失函数,计算上述第一比例系数和上述第二损失函数的积,得到第一结果,上述第一比例系数为正数;

根据预设的第二比例系数和上述第三损失函数,计算上述第二比例系数和上述第三损失函数的积,得到第二结果,上述第二比例系数为正数;

确定上述第一结果与上述第二结果的和为上述第一损失函数。

进一步地,上述根据上述预设的交叉熵计算上述第二概率分布和上述第三概率分布之间的第二差异度,并根据上述第二差异度确定第三损失函数之后,上述装置400还包括:

第三确定单元406,用于在上述第三损失函数小于预设阈值的情况下,将上述第三概率分布中的最大概率对应的类别标签确定为上述增强的无标记文本数据对应的类别标签;

加入单元407,用于将上述增强的无标记文本数据和上述第三概率分布中的最大概率对应的类别标签加入上述有标记样本集;

训练单元408,用于根据加入上述增强的无标记文本数据和上述第三概率分布中的最大概率对应的类别标签后的有标记样本集,对上述初始分类模型进行训练。

进一步地,上述第二文本数据包括第一语言文本数据;上述增强单元402,具体用于:

对上述第一语言文本数据进行语言转换处理,得到第二语言文本数据;

随机抽取上述第二语言文本数据中的单词,并根据预设单词与同义词的对应关系从预设的同义词集合中获取与上述单词对应的同义词,以及利用上述同义词替换上述第二语言文本数据中的上述单词;

将替换后的第二语言文本数据进行语言转换处理,得到更新后的第一语言文本数据,并确定上述更新后的第一语言文本数据为上述增强的无标记文本数据。

进一步地,上述第二文本数据包括第一语言文本数据;上述增强单元402,具体用于:

对上述第一语言文本数据进行语言转换处理,得到第二语言文本数据;

获取上述第二语言文本数据中出现频次大于预设频次阈值的m个单词,m为大于或等于1的整数;

根据预设单词与同义词的对应关系从预设的同义词集合中获取与上述m个单词中每个单词对应的同义词,并利用上述m个单词中每个单词对应的同义词替换上述第二语言文本数据中的上述m个单词中的每个单词;

将替换后的第二语言文本数据进行语言转换处理,得到更新后的第一语言文本数据,并确定上述更新后的第一语言文本数据为上述增强的无标记文本数据。

进一步地,上述训练结束条件为连续n次训练得到的第一损失函数中,相邻两次训练得到的第一损失函数的差值小于预设差值阈值的次数大于或等于预设次数阈值,其中,n为大于2的整数。

有关上述获取单元401、增强单元402、输入单元403、第一确定单元404、第二确定单元405、第三确定单元406、加入单元407和训练单元408详细的描述可以直接参考上述图1至图3所示的方法实施例中的相关描述直接得到,这里不加赘述。

在本申请实施例中,通过获取的初始分类模型的训练样本集,训练样本集包括有标记样本集和无标记样本集,对无标记样本集中的每个第二文本数据进行增强处理,得到增强的无标记文本数据,将有标记样本集、无标记样本集和增强的无标记文本数据输入初始分类模型中,分别得到预测的有标记样本集中每个第一文本数据的类别标签的第一概率分布、每个第二文本数据的类别标签的第二概率分布以及增强的无标记文本数据的类别标签的第三概率分布;进而根据三个概率分布确定第一损失函数,根据第一损失函数和训练样本集对初始分类模型进行训练,在训练得到的第一损失函数满足训练结束条件时,确定此时的初始分类模型为目标文本分类模型。可见,使用无标记样本集对文本分类模型进行训练,减少人工标注成本,提高模型训练的效率,从而提高业务迭代的速度。

请参阅图5,图5是本申请实施例一种计算机设备的结构示意图,如图5所示,本申请实施例中的计算机设备500可以包括:

处理器501,收发器502,和存储器505,此外,上述计算机设备500还可以包括:用户接口504,和至少一个通信总线503。其中,通信总线503用于实现这些组件之间的连接通信。其中,用户接口504可以包括显示屏(display)、键盘(keyboard),存储器505可以是高速ram存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器505可选的还可以是至少一个位于远离前述处理器501和前述收发器502的存储装置。如图5所示,作为一种计算机存储介质的存储器505中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图5所示的计算机设备500中,收发器502可提供网络通讯功能,以使服务器间可进行通信;而用户接口505主要用于为用户提供输入的接口;而处理器501可以用于调用存储器505中存储的设备控制应用程序,执行如下操作:

上述处理器501,用于获取初始分类模型的训练样本集,上述训练样本集包括有标记样本集和无标记样本集,上述有标记样本集包括多个第一文本数据,每个第一文本数据携带有类别标签,上述无标记样本集包括多个第二文本数据;对上述无标记样本集中的每个第二文本数据进行文本增强处理,得到增强的无标记文本数据;将上述有标记样本集、上述无标记样本集和上述增强的无标记文本数据分别输入上述初始分类模型,得到上述有标记样本集中每个第一文本数据的预测类别标签的第一概率分布、上述无标记样本集中每个第二文本数据的预测类别标签的第二概率分布、以及上述增强的无标记文本数据的预测类别标签的第三概率分布;根据上述第一概率分布、上述第二概率分布和上述第三概率分布,确定第一损失函数,并根据上述第一损失函数和上述训练样本集,对上述初始分类模型进行迭代训练;当上述第一损失函数满足训练结束条件时,确定上述第一损失函数满足训练结束条件时的初始分类模型为目标文本分类模型。

在一种可能的实现方式中,上述处理器501根据上述第一概率分布、上述第二概率分布和上述第三概率分布,确定第一损失函数,具体用于:

根据预设的交叉熵计算上述第一概率分布和上述有标记样本集中每个第一文本数据对应的预设概率分布的第一差异度,并根据上述第一差异度确定第二损失函数;根据上述预设的交叉熵计算上述第二概率分布和上述第三概率分布之间的第二差异度,并根据上述第二差异度确定第三损失函数;根据上述第二损失函数和上述第三损失函数,确定上述第一损失函数。

在一种可能的实现方式中,上述处理器501根据上述第二损失函数和上述第三损失函数,确定上述第一损失函数,具体用于:

根据预设的第一比例系数和上述第二损失函数,计算上述第一比例系数和上述第二损失函数的积,得到第一结果,上述第一比例系数为正数;根据预设的第二比例系数和上述第三损失函数,计算上述第二比例系数和上述第三损失函数的积,得到第二结果,上述第二比例系数为正数;确定上述第一结果与上述第二结果的和为上述第一损失函数。

在一种可能的实现方式中,上述处理器501根据上述预设的交叉熵计算上述第二概率分布和上述第三概率分布之间的第二差异度,并根据上述第二差异度确定第三损失函数之后,上述处理器501还用于:

在上述第三损失函数小于预设阈值的情况下,将上述第三概率分布中的最大概率对应的类别标签确定为上述增强的无标记文本数据对应的类别标签;将上述增强的无标记文本数据和上述第三概率分布中的最大概率对应的类别标签加入上述有标记样本集;根据加入上述增强的无标记文本数据和上述第三概率分布中的最大概率对应的类别标签后的有标记样本集,对上述初始分类模型进行训练。

在一种可能的实现方式中,上述第二文本数据包括第一语言文本数据;上述处理器501对上述无标记样本集中的每个第二文本数据进行文本增强处理,得到增强的无标记文本数据,具体用于:

对上述第一语言文本数据进行语言转换处理,得到第二语言文本数据;随机抽取上述第二语言文本数据中的单词,并根据预设单词与同义词的对应关系从预设的同义词集合中获取与上述单词对应的同义词,以及利用上述同义词替换上述第二语言文本数据中的上述单词;将替换后的第二语言文本数据进行语言转换处理,得到更新后的第一语言文本数据,并确定上述更新后的第一语言文本数据为上述增强的无标记文本数据。

在一种可能的实现方式中,上述第二文本数据包括第一语言文本数据;上述处理器501对上述无标记样本集中的每个第二文本数据进行文本增强处理,得到增强的无标记文本数据,具体用于:

对上述第一语言文本数据进行语言转换处理,得到第二语言文本数据;获取上述第二语言文本数据中出现频次大于预设频次阈值的m个单词,m为大于或等于1的整数;根据预设单词与同义词的对应关系从预设的同义词集合中获取与上述m个单词中每个单词对应的同义词,并利用上述m个单词中每个单词对应的同义词替换上述第二语言文本数据中的上述m个单词中的每个单词;将替换后的第二语言文本数据进行语言转换处理,得到更新后的第一语言文本数据,并确定上述更新后的第一语言文本数据为上述增强的无标记文本数据。

在一种可能的实现方式中,上述训练结束条件为连续n次训练得到的第一损失函数中,相邻两次训练得到的第一损失函数的差值小于预设差值阈值的次数大于或等于预设次数阈值,其中,n为大于2的整数。

应当理解,在一些可行的实施方式中,上述处理器501可以是中央处理单元(centralprocessingunit,cpu),该处理器501还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器505可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器505的一部分还可以包括非易失性随机存取存储器。

具体实现中,上述计算机设备500可通过其内置的各个功能模块执行如上述图1至图3中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。

在本申请实施例中,通过获取的初始分类模型的训练样本集,训练样本集包括有标记样本集和无标记样本集,对无标记样本集中的每个第二文本数据进行增强处理,得到增强的无标记文本数据,将有标记样本集、无标记样本集和增强的无标记文本数据输入初始分类模型中,分别得到预测的有标记样本集中每个第一文本数据的类别标签的第一概率分布、每个第二文本数据的类别标签的第二概率分布以及增强的无标记文本数据的类别标签的第三概率分布;进而根据三个概率分布确定第一损失函数,根据第一损失函数和训练样本集对初始分类模型进行训练,在训练得到的第一损失函数满足训练结束条件时,确定此时的初始分类模型为目标文本分类模型。可见,使用无标记样本集对文本分类模型进行训练,减少人工标注成本,提高模型训练的效率,从而提高业务迭代的速度。

此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的计算机设备所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图1或图3任一个所对应实施例中的对任一方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序指令相关的硬件来完成,上述的程序可存储于一计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

需要强调的是,为进一步保证上述数据的私密和安全性,上述数据还可以存储于一区块链的节点中。其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1