1.一种大小写规整方法,其特征在于,包括:
将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型;
基于每一分词的大小写格式类型,对所述待规整文本进行规整,得到所述待规整文本对应的已规整文本;
其中,所述大小写规整模型是基于样本待规整文本,以及所述样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;
所述大小写规整模型用于确定所述待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。
2.根据权利要求1所述的大小写规整方法,其特征在于,所述将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型,具体包括:
将所述待规整文本中的每一分词输入至所述大小写规整模型的上下文语义表示层,得到所述上下文语义表示层输出的每一分词的上下文语义表示;
将每一分词的上下文语义表示输入至所述大小写规整模型的大小写转换系数计算层,得到所述大小写转换系数计算层输出的每一分词的大小写转换系数;
将每一分词的上下文语义表示和大小写转换系数输入至所述大小写规整模型的序列标注层,得到所述序列标注层输出的每一分词的大小写格式类型。
3.根据权利要求2所述的大小写规整方法,其特征在于,所述将所述待规整文本中的每一分词输入至所述大小写规整模型的上下文语义表示层,得到所述上下文语义表示层输出的每一分词的上下文语义表示,具体包括:
将任一分词中的每一字符输入至所述上下文语义表示层的字符编码层,得到所述字符编码层输出的所述任一分词中每一字符的字符编码;
将所述任一分词中每一字符的字符编码输入至所述上下文语义表示层的池化层,得到所述池化层输出的所述任一分词的池化向量;
将每一分词的池化向量输入至所述上下文语义表示层的上下文语义提取层,得到所述上下文语义提取层输出的每一分词的上下文语义表示。
4.根据权利要求2所述的大小写规整方法,其特征在于,所述将每一分词的上下文语义表示和大小写转换系数输入至所述大小写规整模型的序列标注层,得到所述序列标注层输出的每一分词的大小写格式类型,具体包括:
将所述待规整文本中的每一分词输入至所述序列标注层的序列标注向量表示层,得到所述序列向量表示层输出的每一分词的序列标注向量表示;
将每一分词的上下文语义表示、序列标注向量表示和大小写转换系数输入至所述序列标注层的标签预测层,得到所述标签预测层输出的每一分词的大小写格式类型。
5.根据权利要求1至4任一项所述的大小写规整方法,其特征在于,所述大小写规整模型的损失函数包括大小写转换系数损失函数和序列标注损失函数;
其中,所述大小写转换系数损失函数用于最大化所述样本大小写标签为大写的样本分词的大小写转换系数,并最小化所述样本大小写标签为小写的样本分词的大小写转换系数的离散程度。
6.根据权利要求5所述的大小写规整方法,其特征在于,所述大小写规整模型的损失函数还包括句意相似度损失函数;
所述句意相似度损失函数用于最小化样本待规整文本及其对应的样本已规整文本之间的句意相似度;
所述句意相似度是基于所述样本待规整文本的句意特征表示和所述样本已规整文本的句意特征表示确定得到的;
其中,所述句意特征表示是基于对应文本中每一分词的上下文语义表示确定得到的。
7.根据权利要求1至4任一项所述的大小写规整方法,所述基于每一分词的大小写格式类型,对所述待规整文本进行规整,具体包括:
若任一分词的大小写格式类型为大写,则基于预先设定的大写转换对应关系,确定所述任一分词的规整方式;其中,所述规整方式为全字符大写或首字符大写。
8.一种大小写规整装置,其特征在于,包括:
大小写标签确定单元,用于将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型;
大小写规整单元,用于基于每一分词的大小写格式类型,对所述待规整文本进行规整,得到所述待规整文本对应的已规整文本;
其中,所述大小写规整模型是基于样本待规整文本,以及所述样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;
所述大小写规整模型用于确定所述待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述大小写规整方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述大小写规整方法的步骤。