文本处理模型训练方法、装置、计算机设备及存储介质与流程

文档序号:29623469发布日期:2022-04-13 13:51阅读:66来源:国知局
文本处理模型训练方法、装置、计算机设备及存储介质与流程

1.本技术涉及人工智能技术领域,具体涉及一种文本处理模型训练方法、装置、计算机设备及存储介质,该存储介质为计算机可读存储介质。


背景技术:

2.当前,大多数文本业务场景要用到文本处理模型对文本进行处理。在对文本处理模型进行训练的过程中需要用到训练样本。训练样本中如果存在相关文本信息,可以认为训练数据中存在大量同质化的文本信息,同质化是指训练样本中存在相同或相似的文本信息。
3.例如,将训练数据集分为a子集和b子集,该训练数据集中的每个训练样本由4种文本信息构成,4种文本信息分别为文本信息1、文本信息2、文本信息3和文本信息4。若a子集中每个训练样本包含文本信息1和文本信息2,则称文本信息1和文本信息2为相关文本信息,可以确定a子集中存在同质化的文本信息。若b子集中的每个训练样本包含文本信息3和文本信息4,则称文本信息3和文本信息4是相关文本信息,可以确定b子集中存在同质化的文本信息。
4.在这种情况下,采用存在相关文本信息的训练样本对文本处理模型进行训练,会存在训练所得到的训练后文本处理模型的泛化性能较低和准确率较低的问题。


技术实现要素:

5.本技术实施例提供一种文本处理模型训练方法、装置、计算机设备及存储介质,该存储介质为计算机可读存储介质,能够提高训练后文本处理模型的泛化性能和准确率。
6.一种文本处理模型训练方法,包括:
7.获取训练文本的原始文本信息;
8.对原始文本信息进行特征提取,得到原始文本信息的原始文本特征;
9.根据原始文本特征,确定与原始文本信息对应的目标相似文本信息;
10.根据原始文本信息和目标相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型,所述训练后文本处理模型用于对文本进行识别。
11.相应地,本技术实施例提供一种文本处理模型训练装置,包括:
12.获取单元,可以用于获取训练文本的原始文本信息;
13.提取单元,可以用于对原始文本信息进行特征提取,得到原始文本信息的原始文本特征;
14.确定单元,可以用于根据原始文本特征,确定与原始文本信息对应的目标相似文本信息;
15.训练单元,可以用于根据原始文本信息和目标相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型,训练后文本处理模型用于对文本进行识别。
16.在一些实施例中,确定单元,具体可以用于确定与原始文本特征维度匹配的参考
文本特征;根据原始文本特征和参考文本特征,确定与原始文本信息对应的目标相似文本信息。
17.在一些实施例中,确定单元,具体可以用于根据原始文本特征和参考文本特征,计算原始文本特征和参考文本特征之间的差异信息;根据差异信息,确定与原始文本信息对应的目标相似文本信息。
18.在一些实施例中,确定单元,具体可以用于根据原始文本特征和参考文本特征,计算原始文本特征和参考文本特征之间在映射空间中的目标距离信息;将目标距离信息作为差异信息。
19.在一些实施例中,确定单元,具体可以用于获取与原始文本信息维度匹配的参考文本信息;对参考文本信息进行特征提取,得到与原始文本特征维度匹配的参考文本特征。
20.在一些实施例中,训练单元,具体可以用于对原始文本信息进行预测,得到预测后原始文本信息;对目标相似文本信息进行预测,得到预测后相似文本信息;根据原始文本信息、预测后原始文本信息、目标相似文本信息,以及预测后相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型。
21.在一些实施例中,训练单元,具体可以用于根据原始文本信息、预测后原始文本信息,计算原始文本信息、预测后原始文本信息之间的第一损失值;根据目标相似文本信息、预测后相似文本信息,计算目标相似文本信息和预测后相似文本信息之间的第二损失值;根据第一损失值和第二损失值,对文本处理模型进行训练,得到训练后文本处理模型。
22.在一些实施例中,文本处理模型训练装置还可以包括编码训练单元,编码训练单元具体可以用于获取训练文本的原始文本信息对应的标签;基于原始文本信息和标签,对初始文本处理模型的初始编码器进行编码训练,得到文本处理模型。
23.在此基础上,提取单元,具体可以采用文本处理模型对原始文本信息进行特征提取,得到原始文本信息的原始文本特征。
24.此外,本技术实施例还提供一种计算机设备,包括存储器和处理器;存储器存储有计算机程序,处理器用于运行存储器内的计算机程序,以执行本技术实施例提供的任一种文本处理模型训练方法中的操作。
25.此外,本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序适于处理器进行加载,以执行本技术实施例提供的任一种文本处理模型训练方法。
26.本技术实施例可以获取训练文本的原始文本信息;对原始文本信息进行特征提取,得到原始文本信息的原始文本特征;根据原始文本特征,确定与原始文本信息对应的目标相似文本信息;根据原始文本信息和目标相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型,训练后文本处理模型用于对文本进行识别;由于本技术实施例可以确定与原始文本信息对应的目标相似文本信息,如此基于原始文本信息和目标相似文本信息对文本处理模型进行训练,可以提高得到的训练后文本处理模型的泛化性能和准确率。
附图说明
27.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于
本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
28.图1是本技术实施例提供的文本处理模型训练方法的场景示意图;
29.图2是本技术实施例提供的文本处理模型训练方法的流程示意一图;
30.图3是本技术实施例提供的根据原始文本特征,确定与原始文本信息对应的目标相似文本信息的流程示意图;
31.图4是本技术实施例提供的根据原始文本特征和参考文本特征,确定与原始文本信息对应的目标相似文本信息的流程示意图;
32.图5是本技术实施例提供的文本处理模型训练方法的流程示意二图;
33.图6为本技术实施例提供的基于原始文本信息和标签,对初始文本处理模型的初始编码器进行编码训练,得到文本处理模型的示意图;
34.图7为本技术实施例提供的得到目标相似文本信息的示意图;
35.图8为本技术实施例提供的根据原始文本信息和目标相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型的流程示意图;
36.图9是本技术实施例提供的文本处理模型训练装置的结构示意图;
37.图10是本技术实施例提供的计算机设备的结构示意图。
具体实施方式
38.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
39.本技术实施例提供一种文本处理模型训练方法、装置、计算机设备和计算机可读存储介质。其中,该文本处理模型训练装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
40.其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载设备等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
41.本技术实施例涉及人工智能(artificial intelligence,ai),人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
42.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层
面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
43.例如,参见图1,以文本处理模型训练装置集成在计算机设备中为例,本技术实施例可以获取训练文本的原始文本信息;对原始文本信息进行特征提取,得到原始文本信息的原始文本特征;根据原始文本特征,确定与原始文本信息对应的目标相似文本信息;根据原始文本信息和目标相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型,训练后文本处理模型用于对文本进行识别。
44.其中,原始文本信息是训练文本映射到维度空间中的文本信息,原始文本信息可以用矩阵的形式表达。
45.其中,目标相似文本信息可以是指与原始文本信息相似的文本信息。当目标相似文本信息中存在部分和原始文本信息相同的信息时,此时可以称目标相似文本信息和原始文本信息相似;或者,当目标相似文本信息和原始文本信息之间的相似度满足预设相似度阈值时,此处可以称目标相似文本信息和原始文本信息相似。
46.其中,文本处理模型可以为gan神经网络模型、可以为transformer神经网络模型。
47.以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
48.本实施例将从文本处理模型训练装置的角度进行描述,该文本处理模型训练装置具体可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
49.如图2所示,该文本处理模型训练方法的具体流程如下,该方法可以由计算机设备执行:
50.s101、获取训练文本的原始文本信息。
51.其中,原始文本信息是训练文本映射到维度空间中的文本信息,原始文本信息可以用矩阵的形式表达。
52.本技术实施例可以通过文本处理模型对训练文本进行特征提取,得到训练文本的原始文本信息。
53.具体地,本技术实施例中的文本处理模型可以设置有嵌入层(embedding),基于此,本技术实施例中的文本处理模型可以通过嵌入层将训练文本映射维度空间中,实现对训练文本进行特征提取,得到训练文本的原始文本信息。
54.本技术实施例也可以采用其他的方式获取到训练文本的原始文本信息,例如,本技术实施例可以采用其他的文本提取模型对训练文本进行特征提取,得到训练文本的原始文本信息,并将提取到的原始文本信息存储到原始文本集合中。基于此,本技术实施例中,计算机设备可以直接从该原始文本集合中提取到该原始文本信息。
55.s102、对原始文本信息进行特征提取,得到原始文本信息的原始文本特征。
56.本技术实施例可以采用文本处理模型对原始文本信息进行特征提取,从而得到原始文本信息的原始文本特征。
57.在本技术实施例中,文本处理模型可以包括编码器和解码器。本技术实施例采用文本处理模型的编码器对原始文本信息进行编码,得到原始文本信息的原始文本特征。
58.本技术实施例在对原始文本信息进行特征提取,得到原始文本信息的原始文本特
征之前,为了提高本技术实施例提取到原始文本特征的准确性,本技术实施例可以对初始文本处理模型的初始编码器进行编码训练,得到文本处理模型,文本处理模型的编码器即为通过对初始文本处理模型的初始编码器进行训练得到的。
59.具体地,本技术实施例对初始文本处理模型的初始编码器进行编码训练的过程可以为:计算机设备获取训练文本的原始文本信息对应的标签;基于原始文本信息和标签,对初始文本处理模型的初始编码器进行编码训练,得到文本处理模型。
60.其中,本技术实施例采用初始文本处理模型的初始编码器对原始文本信息进行初始编码,得到初始编码特征;对初始编码特征进行分类,得到分类结果;计算分类结果和标签之间的初始损失值;基于该初始损失值,对初始文本处理模型的初始编码器进行编码训练,得到文本处理模型。
61.其中,本技术实施例对初始编码特征进行分类可以是采用二分类的形式进行,当然,本技术不限于二分类的分类方式。
62.s103、根据原始文本特征,确定与原始文本信息对应的目标相似文本信息。
63.其中,目标相似文本信息是指与原始文本信息相似的文本信息。当目标相似文本信息中存在部分和原始文本信息相同的信息时,此时可以称目标相似文本信息和原始文本信息相似;或者,当目标相似文本信息和原始文本信息之间的相似度满足预设相似度阈值时,此处可以称目标相似文本信息和原始文本信息相似。
64.本技术实施例根据原始文本特征,确定与原始文本信息对应的目标相似文本信息的方式有多种。
65.例如,本技术实施例可以基于原始文本特征的维度,获取与原始文本特征维度相同的预设特征;将预设特征与原始文本特征进行融合,得到目标相似文本信息。
66.其中,预设特征可以以矩阵的形式表示。例如,原始文本特征为三维矩阵,基于此,获取到的预设特征也为三维矩阵。本技术实施例可以将原始文本特征和预设特征进行相加或将原始文本特征和预设特征进行相减,以将预设特征和原始文本特征进行融合,从而得到目标相似文本信息。
67.当然,本技术实施例将原始特征和预设特征进行融合的方式不限于相加或相减的方式,可以根据具体需求设定。
68.又例如,如图3所示,本技术实施例根据原始文本特征,确定与原始文本信息对应的目标相似文本信息的流程可以如下:
69.a1、确定与原始文本特征维度匹配的参考文本特征。
70.其中,参考文本特征可以用矩阵的形式表达。
71.当参考文本特征的维度与原始文本特征的维度相同时,此种情况可以称参考文本特征与原始文本特征匹配;当参考文本特征具有至少两个时,参考文本特征进行特征融合之后,得到融合特征,当该融合特征的维度与原始文本特征的维度相同时,此种情况可以称参考文本特征与原始文本特征匹配。
72.例如,当参考文本特征具有一个时,参考文本特征为n
×
n的矩阵,原始文本特征为n
×
n的矩阵,n为正整数,此种情况可以称参考文本特征与原始文本特征匹配。
73.其中,特征融合的方式可以有多种,例如,对参考文本特征进行相乘;例如,对参考文本特征进行相除。
74.例如,当参考文本特征具有两个时,比如,参考文本特征包括第一参考文本特征和第二参考文本特征。第一参考文本特征为1
×
n的矩阵,第二参考文本特征为n
×
1的矩阵,原始文本特征为n
×
n的矩阵,n为正整数。本技术实施例将第一参考文本特征和第二参考文本特征进行相乘,得到融合特征,融合特征为n
×
n的矩阵,基于此,此种情况可以称原始文本特征和参考文本特征匹配。
75.本技术实施例确定与原始文本特征维度对应的参考文本特征可以如下:
76.具体地,计算机设备获取与原始文本信息维度匹配的参考文本信息;对参考文本信息进行特征提取,得到与原始文本特征维度匹配的参考文本特征。
77.其中,参考文本信息可以以矩阵的形式表达。参考文本信息可以是计算机设备随机分配的文本信息,该参考文本信息可以是文本处理模型随机初始化的文本信息。
78.其中,当参考文本信息的维度与原始文本信息的维度相同时,此种情况可以称参考文本信息与原始文本信息匹配;当参考文本信息具有至少两个时,参考文本信息进行信息融合之后,得到融合信息,当该融合信息的维度与原始文本信息的维数相同时,此种情况也可以称参考文本信息与原始文本信息匹配。
79.例如,当参考文本信息具有一个时,参考文本信息为m
×
m的矩阵,原始文本信息为m
×
m的矩阵,m为正整数,此种情况可以称参考文本信息与原始文本信息匹配。
80.例如,当参考文本信息具有两个时,比如,参考文本信息包括第一参考文本信息和第二参考文本信息。第一参考文本信息为1
×
m的矩阵,第二参考文本信息为m
×
1的矩阵,原始文本信息为m
×
m的矩阵,m为正整数。本技术实施例将第一参考文本信息和第二参考文本信息进行相乘,得到融合信息,融合特征为n
×
n的矩阵,基于此,此种情况可以称原始文本特征和参考文本特征匹配。
81.a2、根据原始文本特征和参考文本特征,确定与原始文本信息对应的目标相似文本信息。
82.本技术实施例根据原始文本特征和参考文本特征,确定与原始文本信息对应的目标相似文本信息的方式有多种,例如,本技术可以将原始文本特征和参考文本特征进行融合,从而得到目标相似文本信息。
83.除了上述方式,本技术实施例还可以采用其他的方式,例如,如图4所示,本技术实施例根据原始文本特征和参考文本特征,确定与原始文本信息对应的目标相似文本信息的方式可以如下:
84.b1、根据原始文本特征和参考文本特征,计算原始文本特征和参考文本特征之间的差异信息。
85.本技术实施例可以计算原本文本特征和参考文本特征之间的相似度,将原本文本特征和参考文本特征之间的相似度作为原始文本特征和参考文本特征之间的差异信息。
86.本技术实施例可以计算原本文本特征和参考文本特征之间的相似度的方式有多种,例如,余弦相似度、高斯核相似度。
87.本技术实施例具体可以根据原始文本特征和参考文本特征,计算原始文本特征和参考文本特征之间在映射空间中的目标距离信息;将目标距离信息作为差异信息。
88.其中,本技术实施例计算原始文本特征和参考文本特征之间在映射空间中的目标距离信息可以采用公式(1):
89.d=||f1-f2||
ꢀꢀꢀ
公式(1)
90.其中,d表示目标距离信息,f1表示原始文本特征,f2表示参考文本特征。
91.b2、根据差异信息,确定与原始文本信息对应的目标相似文本信息。
92.其中,本技术实施例将差异信息反传至文本处理模型的编码器的输入层,从而得到目标相似文本信息。
93.本技术实施例将差异信息反传至文本处理模型的编码器的输入层的方法可以是反向传播法,即bp算法。本技术实施例通过该反向传播法,可以更新文本处理模型的参数。
94.s104、根据原始文本信息和目标相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型。
95.其中,训练后文本处理模型用于对文本进行识别。例如,训练后文本处理模型用于对标题进行识别。
96.其中,文本处理模型可以为gan神经网络模型,可以为transformer神经网络模型。
97.本技术实施例可以将原始文本信息和目标相似文本信息同时用来训练文本处理模型,文本处理模型可以是一个自编码器,包括编码器和解码器,如此可以使得编码器和解码器学到原来未进行样本重建之前没学习到的特征,也即可以学习到原始文本信息的原始文本特征,以进行针对性样本增强。
98.本技术实施例对根据原始文本信息和目标相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型的方式可以如下:
99.具体地,计算机设备对原始文本信息进行预测,得到预测后原始文本信息;对目标相似文本信息进行预测,得到预测后相似文本信息;根据原始文本信息、预测后原始文本信息、目标相似文本信息,以及预测后相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型。
100.其中,本技术实施例根据原始文本信息、预测后原始文本信息、目标相似文本信息,以及预测后相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型可以如下:
101.具体地,根据原始文本信息、预测后原始文本信息,计算原始文本信息、预测后原始文本信息之间的第一损失值;根据目标相似文本信息、预测后相似文本信息,计算目标相似文本信息和预测后相似文本信息之间的第二损失值;根据第一损失值和第二损失值,对文本处理模型进行训练,得到训练后文本处理模型。
102.其中,本技术实施例对文本处理模型进行训练,直至文本处理模型的判别器无法分辨出原始文本信息和预测后原始文本信息之间的差别,以及文本处理模型的判别器无法分辨出目标相似文本信息和预测后相似文本信息之间的差别。
103.本技术实施例可以获取训练文本的原始文本信息;对原始文本信息进行特征提取,得到原始文本信息的原始文本特征;根据原始文本特征,确定与原始文本信息对应的目标相似文本信息;根据原始文本信息和目标相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型;由于本技术实施例可以确定与原始文本信息对应的目标相似文本信息,如此基于原始文本信息和目标相似文本信息对文本处理模型进行训练,可以提高得到的训练后文本处理模型的泛化性能和准确率。
104.根据上面实施例所描述的方法,以下将举例作进一步详细说明。
105.在本实施例中,将以该文本处理模型训练装置具体集成在计算机设备,计算机设备为服务器。
106.如图5所示,一种文本处理模型训练方法,具体流程如下:
107.s201、计算机设备获取训练文本的原始文本信息和原始文本信息对应的标签。
108.为了提高本技术实施例提取到原始文本特征的准确性,本技术实施例可以对初始文本处理模型的初始编码器进行编码训练。
109.本技术实施例可以采用有监督的训练方式对初始文本处理模型的初始编码器进行编码训练,如此可以使得通过对初始文本处理模型的初始编码器进行训练后得到的文本处理模型可以准确地提取到与标签强相关的原始文本特征,基于此,本技术实施例获取训练文本的原始文本信息和原始文本信息对应的标签,以对初始文本处理模型的初始编码器进行训练。
110.本技术实施例可以通过初始文本处理模型的嵌入层对训练文本进行特征提取,从而得到训练样本的原始文本信息。
111.其中,本技术实施例采用的训练文本可以是标题文本、可以是段落文本。例如,以标题文本为例,训练文本可以包括多个种类的训练文本,例如,标题疑似含人身攻击词汇种类,例如,标题疑似含违规词汇种类。
112.基于上述,本技术实施例可以训练文本划分为多个训练子集。以训练文本是标题文本为例,训练文本包括多个文本种类的训练文本,按照文本种类将训练文本划分不同的训练子集,每一文本种类对应一个训练子集。
113.基于此,本技术实施例可以按照不同的训练子集对训练文本进行特征提取,从而得到每一文本种类对应的原始文本信息集合,每一文本种类对应的原始文本信息集合包括每一文本种类对应的若干原始文本信息。本技术实施可以按照每一文本种类对应的原始文本信息集合和标签,对初始文本处理模型的初始编码器进行编码训练。
114.基于上述,本技术实施例可以将每一文本种类对应的原始文本信息集合进行存储。基于此,本技术实施例还可以采用可视化的方式选择原始文本信息集合,从而提高文本处理模型和初始文本处理模型的训练效率。
115.具体地,本技术实施例采用可视化的方式可以为:计算机设备显示文本信息选择页面,文本信息选择页面包括至少一个文本种类的原始文本信息集合选项,每一原始文本信息集合选项对应一个文本种类的原始文本集合;响应于针对原始文本信息集合选项的选择操作,从至少一个文本种类的原始文本信息集合选项中选择至少一个原始文本信息集合选项,得到至少一个原始文本信息集合,也即得到原始文本信息。
116.s202、计算机设备基于原始文本信息和标签,对初始文本处理模型的初始编码器进行编码训练,得到文本处理模型。
117.本技术实施例的初始文本处理模型可以为transformer神经网络模型。
118.本技术实施例可以采用初始文本处理模型的初始编码器对原始文本信息进行初始编码,得到初始编码特征;对初始编码特征进行分类,得到分类结果;计算分类结果和标签之间的初始损失值;基于该初始损失值,对初始文本处理模型的初始编码器进行编码训练,得到文本处理模型。
119.本技术实施例可以通过梯度反向传播更新初始文本处理模型的网络参数,从而得
到文本处理模型。
120.如图6所示,本技术实施例以原始文本信息包第一原始文本信息和第二原始文本信息为例进行阐述。
121.其中,第一原始文本信息和第二原始文本信息均可以为标题疑似含人身攻击词汇种类的文本信息,第一原始文本信息对应的训练文本和第二原始文本信息对应的训练文本在具体的文字上描述不同。
122.将第一原始文本信息和第二原始文本信息输入初始文本处理模型的初始编码器,初始文本处理模型的初始编码器对第一原始文本信息进行初始编码,得到第一初始编码特征;初始文本处理模型的初始编码器对第二原始文本信息进行初始编码,得到第二初始编码特征。本技术实施例通过初始文本处理模型的softmax层对第一初始编码特征进行分类,得到第一分类结果;通过初始文本处理模型的softmax层对第二初始编码特征进行分类,得到第二分类结果。基于此,本技术实施例基于第一分类结果、第二分类结果以及标签对初始文本处理模型的初始编码器进行编码训练,得到文本处理模型。
123.本技术实施例中的softmax层可以设置一层,即同一层的softmax对原始文本信息进行分类;本技术实施例也可以采用不同的softmax层针对不同文本种类的原始文本信息进行分类。
124.s203、计算机设备获取与原始文本信息维度匹配的参考文本信息。
125.其中,参考文本信息可以以矩阵的形式表达。参考文本信息可以是计算机设备随机分配的文本信息,该参考文本信息可以是文本处理模型随机初始化的文本信息。
126.其中,当参考文本信息的维度与原始文本信息的维度相同时,此种情况可以称参考文本信息与原始文本信息匹配;当参考文本信息具有至少两个时,参考文本信息进行信息融合之后,得到融合信息,当该融合信息的维度与原始文本信息的维数相同时,此种情况也可以称参考文本信息与原始文本信息匹配。
127.例如,当参考文本信息具有一个时,参考文本信息为m
×
m的矩阵,原始文本信息为m
×
m的矩阵,m为正整数,此种情况可以称参考文本信息与原始文本信息匹配。
128.例如,当参考文本信息具有两个时,比如,参考文本信息包括第一参考文本信息和第二参考文本信息。第一参考文本信息为1
×
m的矩阵,第二参考文本信息为m
×
1的矩阵,原始文本信息为m
×
m的矩阵,m为正整数。本技术实施例将第一参考文本信息和第二参考文本信息进行相乘,得到融合信息,融合特征为n
×
n的矩阵,基于此,此种情况可以称原始文本特征和参考文本特征匹配。
129.s204、计算机设备采用文本处理模型对原始文本信息和参考文本信息进行特征提取,得到原始文本信息的原始文本特征,和参考文本信息的参考文本特征。
130.如图7所示,在本技术实施例中,文本处理模型可以包括编码器和解码器。本技术实施例采用文本处理模型的编码器对原始文本信息进行编码,得到原始文本信息的原始文本特征;采用文本处理模型的编码器对参考文本信息进行编码,得到参考文本信息的原始文本特征。
131.s205、计算机设备根据原始文本特征和参考文本特征,确定与原始文本信息对应的目标相似文本信息。
132.当参考文本信息是文本处理模型随机初始化的文本信息时,如果将下述目标过程
重复多次后,可以使得参考文本信息对应的参考文本特征与原始文本信息的原始文本特征非常相似,同时,参考文本信息只包含在文本处理模型的编码器上学习到的信息。
133.该目标过程具体为:将随机初始化的文本信息和原始文本信息输入文本处理模型进行正向传播,得到参考文本特征和原始文本特征;基于参考文本特征和原始文本特征,计算原始文本特征和参考文本特征之间的差异信息;根据差异信息,在文本处理模型进行反向传播,更新文本处理模型的网络参数,从而更新随机初始化的文本信息,得到更新后随机初始化的文本信息,该更新后随机初始化的文本信息也即为与原始文本信息对应的目标相似文本信息。
134.其中,目标相似文本信息是指与原始文本信息相似的文本信息。当目标相似文本信息中存在部分和原始文本信息相同的信息时,此时可以称目标相似文本信息和原始文本信息相似;或者,当目标相似文本信息和原始文本信息之间的相似度满足预设相似度阈值时,此处可以称目标相似文本信息和原始文本信息相似。
135.本技术实施例根据原始文本特征,确定与原始文本信息对应的目标相似文本信息的方式有多种。
136.例如,本技术实施例可以基于原始文本特征的维度,获取与原始文本特征维度相同的预设特征;将预设特征与原始文本特征进行融合,得到目标相似文本信息。
137.又例如,如图7所示,本技术实施例根据原始文本特征和参考文本特征,确定与原始文本信息对应的目标相似文本信息的方式具体可以为:计算机设备根据原始文本特征和参考文本特征,计算原始文本特征和参考文本特征之间的差异信息;根据差异信息,确定与原始文本信息对应的目标相似文本信息。
138.其中,本技术实施例将差异信息反传至文本处理模型的编码器的输入层,从而得到目标相似文本信息。本技术实施例将差异信息反传至文本处理模型的编码器的输入层的方法可以是反向传播法,即bp算法。本技术实施例通过该反向传播法,可以更新文本处理模型的参数。
139.其中,本技术实施例具体可以根据原始文本特征和参考文本特征,计算原始文本特征和参考文本特征之间在映射空间中的目标距离信息;将目标距离信息作为差异信息。
140.其中,本技术实施例计算原始文本特征和参考文本特征之间在映射空间中的目标距离信息可以采用公式(1),公式(1)详见前述,此处不再赘述。
141.s206、计算机设备根据原始文本信息和目标相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型。
142.其中,训练后文本处理模型用于对文本进行识别。
143.本技术实施例可以将原始文本信息和目标相似文本信息同时用来训练文本处理模型,文本处理模型相当是一个自编码器,包括编码器和解码器,如此可以使得编码器和解码器学到原来未进行样本重建之前没学习到的特征,也即可以学习到原始文本信息的原始文本特征,以进行针对性样本增强。
144.具体来说,训练文本处理模型的编码器可以是采用传统的分类训练方式,基于此,文本处理模型的编码器可以提取到原始文本信息的编码后原始文本特征和目标相似文本信息的编码后相似文本特征。在训练自编码器时,重建损失的最小化会自动优化编码器和解码器。如果使原始文本信息和目标相似文本信息的表征尽可能区分开,这样,文本处理模
型的编码器学习到了原始文本信息重构之前的文本信息,也即,文本处理模型的编码器学习到了目标相似文本信息。
145.本技术实施例也可以将原始文本信息与目标相似文本信息当做样本增强后的正负例对,使得训练过程中训练文本处理模型捕获更多信息。
146.本技术实施例对根据原始文本信息和目标相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型的方式可以如下:
147.具体地,计算机设备对原始文本信息进行预测,得到预测后原始文本信息;对目标相似文本信息进行预测,得到预测后相似文本信息;根据原始文本信息、预测后原始文本信息、目标相似文本信息,以及预测后相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型。
148.如图8所示,本技术实施例采用文本处理模型的编码器对原始文本信息进行编码,得到编码后原始文本特征;采用文本处理模型的编码器对目标相似文本信息进行编码,得到编码后相似文本特征。然后,本技术实施例将编码后原始文本特征输入文本处理模型的解码器进行解码,得到原始文本解码信息,原始文本解码信息即为预测后原始文本信息;将编码后相似文本特征输入文本处理模型的解码器进行解码,得到相似文本解码信息,该相似文本解码信息即为预测后相似文本信息。
149.在本技术实施例中,当参考文本信息是文本处理模型随机初始化的文本信息时,本技术实施例利用参考文本信息来获取原始文本信息对应的目标相似文本信息。当文本处理模型对目标相似文本信息和原始文本信息进行编码,所得到的目标相似文本信息对应的编码后相似文本信息和原始文本信息对应的编码后原始文本特征之间非常相似。
150.其中,本技术实施例根据原始文本信息、预测后原始文本信息、目标相似文本信息,以及预测后相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型可以如下:
151.具体地,根据原始文本信息、预测后原始文本信息,计算原始文本信息、预测后原始文本信息之间的第一损失值;根据目标相似文本信息、预测后相似文本信息,计算目标相似文本信息和预测后相似文本信息之间的第二损失值;根据第一损失值和第二损失值,对文本处理模型进行训练,得到训练后文本处理模型。
152.本技术实施例的文本处理模型可以是文本分类模型,基于此,训练后文本处理模型可以应用于对文本分类的线上应用中,尤其在训练样本存在大量同质化的文本信息时,对文本处理模型进行冷启动,能够提高文本处理模型对于线上数据分类的准确率和召回率。同时,本技术实施例也可以采用参考文本信息来针对性作为训练样本的原始文本信息的负例,从而提高文本处理模型泛化性能。
153.当文本处理模型为文本分类模型时,本技术实施例的文本处理模型可以将文本处理模型的编码器作为分类器,将原始文本信息和参考文本信息进行对抗来训练文本处理模型的编码器。
154.本技术实施例可以获取训练文本的原始文本信息;对原始文本信息进行特征提取,得到原始文本信息的原始文本特征;根据原始文本特征,确定与原始文本信息对应的目标相似文本信息;根据原始文本信息和目标相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型,训练后文本处理模型用于对文本进行识别;由于本技术实施例可以
确定与原始文本信息对应的目标相似文本信息,如此基于原始文本信息和目标相似文本信息对文本处理模型进行训练,可以提高得到的训练后文本处理模型的泛化性能和准确率。
155.为了更好地实施以上方法,本技术实施例还提供一种文本处理模型训练装置,该文本处理模型训练装置可以集成在计算机设备,比如服务器或终端等设备中。
156.例如,如图9所示,该文本处理模型训练装置可以包括获取单元301、提取单元302、确定单元303、训练单元304和编码训练单元305,如下:
157.(1)获取单元301;
158.获取单元301,可以用于获取训练文本的原始文本信息。
159.(2)提取单元302;
160.提取单元302,可以用于对原始文本信息进行特征提取,得到原始文本信息的原始文本特征。
161.在一些申请实施例中,提取单元302,具体可以用于采用文本处理模型对原始文本信息进行特征提取,得到原始文本信息的原始文本特征。
162.(3)确定单元303;
163.确定单元303,可以用于根据原始文本特征,确定与原始文本信息对应的目标相似文本信息。
164.在一些实施例中,确定单元303,具体可以用于确定与原始文本特征维度匹配的参考文本特征;根据原始文本特征和参考文本特征,确定与原始文本信息对应的目标相似文本信息。
165.在一些实施例中,确定单元303,具体可以用于根据原始文本特征和参考文本特征,计算原始文本特征和参考文本特征之间的差异信息;根据差异信息,确定与原始文本信息对应的目标相似文本信息。
166.在一些实施例中,确定单元303,具体可以用于根据原始文本特征和参考文本特征,计算原始文本特征和参考文本特征之间在映射空间中的目标距离信息;将目标距离信息作为差异信息。
167.在一些实施例中,确定单元303,具体可以用于获取与原始文本信息维度匹配的参考文本信息;对参考文本信息进行特征提取,得到与原始文本特征维度匹配的参考文本特征。
168.(4)训练单元304;
169.训练单元304,可以用于根据原始文本信息和目标相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型,训练后文本处理模型用于对文本进行识别。
170.训练单元304,具体可以用于对原始文本信息进行预测,得到预测后原始文本信息;对目标相似文本信息进行预测,得到预测后相似文本信息;根据原始文本信息、预测后原始文本信息、目标相似文本信息,以及预测后相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型。
171.在一些实施例中,训练单元304,具体可以用于根据原始文本信息、预测后原始文本信息,计算原始文本信息、预测后原始文本信息之间的第一损失值;根据目标相似文本信息、预测后相似文本信息,计算目标相似文本信息和预测后相似文本信息之间的第二损失值;根据第一损失值和第二损失值,对文本处理模型进行训练,得到训练后文本处理模型。
172.(5)编码训练单元305;
173.在一些实施例中,文本处理模型训练装置还包括编码训练单元305,编码训练单元305可以用于获取训练文本的原始文本信息对应的标签;基于原始文本信息和标签,对初始文本处理模型的初始编码器进行编码训练,得到文本处理模型。
174.由上可知,本技术实施例的获取单元301可以获取训练文本的原始文本信息;提取单元302可以用于对原始文本信息进行特征提取,得到原始文本信息的原始文本特征;确定单元303可以用于根据原始文本特征,确定与原始文本信息对应的目标相似文本信息;训练单元304,可以用于根据原始文本信息和目标相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型,训练后文本处理模型用于对文本进行识别;由于本技术实施例可以确定与原始文本信息对应的目标相似文本信息,如此基于原始文本信息和目标相似文本信息对文本处理模型进行训练,可以提高得到的训练后文本处理模型的泛化性能和准确率。
175.本技术实施例还提供一种计算机设备,如图10所示,其示出了本技术实施例所涉及的计算机设备的结构示意图,具体来讲:
176.该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图10中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
177.处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和计算机程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
178.存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速参考存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
179.计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
180.该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息通讯,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
181.尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的计算机程序,从而实现各种功能,如下:
182.获取训练文本的原始文本信息;对原始文本信息进行特征提取,得到原始文本信息的原始文本特征;根据原始文本特征,确定与原始文本信息对应的目标相似文本信息;根据原始文本信息和目标相似文本信息,对文本处理模型进行训练,得到训练后文本处理模型,训练后文本处理模型用于对文本进行识别。
183.以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
184.本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
185.为此,本技术实施例提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本技术实施例所提供的任一种文本处理模型训练方法。
186.以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
187.其中,该计算机可读存储介质可以包括:只读存储器(rom,read only memory)、参考存取记忆体(ram,random access memory)、磁盘或光盘等。
188.由于该计算机可读存储介质中所存储的指令,可以执行本技术实施例所提供的任一种文本处理模型训练方法中的步骤,因此,可以实现本技术实施例所提供的任一种文本处理模型训练方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
189.其中,根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
190.以上对本技术实施例所提供的一种文本处理模型训练方法、计算机设备、计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本技术的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1