大小写规整方法、装置、电子设备和存储介质与流程

文档序号:23616146发布日期:2021-01-12 10:25阅读:81来源:国知局
大小写规整方法、装置、电子设备和存储介质与流程

本发明涉及自然语言处理技术领域,尤其涉及一种大小写规整方法、装置、电子设备和存储介质。



背景技术:

语言特有的语言习惯和语法规范决定了部分语言的单词在不同语境中需要采用不同的大小写格式。然而,无论是语音识别得到的转写文本,还是人工书写编辑的文本,通常未能正确区分不同语境下特定单词的大小写格式。因此,需要对文本进行大小写规整,使其符合所用语言的语言习惯和语法规范。

目前,大小写规整方法通常基于预先设定的规则和替换词列表进行大小写转换。然而,该规整方法受限于有限的替换词列表,可应用范围小,且单词存在单复数、所有格等多种形式,替换词列表无法覆盖各单词的所有形式,泛化能力差。另外,该简单替换的规整方法易造成句意改变,使得规整后的文本句意发生错误。



技术实现要素:

本发明实施例提供一种大小写规整方法、装置、电子设备和存储介质,用以解决现有技术适用范围窄、大小写规整准确性欠佳的缺陷。

本发明实施例提供一种大小写规整方法,包括:

将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型;

基于每一分词的大小写格式类型,对所述待规整文本进行规整,得到所述待规整文本对应的已规整文本;

其中,所述大小写规整模型是基于样本待规整文本,以及所述样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;

所述大小写规整模型用于确定所述待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。

根据本发明一个实施例的大小写规整方法,所述将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型,具体包括:

将所述待规整文本中的每一分词输入至所述大小写规整模型的上下文语义表示层,得到所述上下文语义表示层输出的每一分词的上下文语义表示;

将每一分词的上下文语义表示输入至所述大小写规整模型的大小写转换系数计算层,得到所述大小写转换系数计算层输出的每一分词的大小写转换系数;

将每一分词的上下文语义表示和大小写转换系数输入至所述大小写规整模型的序列标注层,得到所述序列标注层输出的每一分词的大小写格式类型。

根据本发明一个实施例的大小写规整方法,所述将所述待规整文本中的每一分词输入至所述大小写规整模型的上下文语义表示层,得到所述上下文语义表示层输出的每一分词的上下文语义表示,具体包括:

将任一分词中的每一字符输入至所述上下文语义表示层的字符编码层,得到所述字符编码层输出的所述任一分词中每一字符的字符编码;

将所述任一分词中每一字符的字符编码输入至所述上下文语义表示层的池化层,得到所述池化层输出的所述任一分词的池化向量;

将每一分词的池化向量输入至所述上下文语义表示层的上下文语义提取层,得到所述上下文语义提取层输出的每一分词的上下文语义表示。

根据本发明一个实施例的大小写规整方法,所述将每一分词的上下文语义表示和大小写转换系数输入至所述大小写规整模型的序列标注层,得到所述序列标注层输出的每一分词的大小写格式类型,具体包括:

将所述待规整文本中的每一分词输入至所述序列标注层的序列标注向量表示层,得到所述序列向量表示层输出的每一分词的序列标注向量表示;

将每一分词的上下文语义表示、序列标注向量表示和大小写转换系数输入至所述序列标注层的标签预测层,得到所述标签预测层输出的每一分词的大小写格式类型。

根据本发明一个实施例的大小写规整方法,所述大小写规整模型的损失函数包括大小写转换系数损失函数和序列标注损失函数;

其中,所述大小写转换系数损失函数用于最大化所述样本大小写标签为大写的样本分词的大小写转换系数,并最小化所述样本大小写标签为小写的样本分词的大小写转换系数的离散程度。

根据本发明一个实施例的大小写规整方法,所述大小写规整模型的损失函数还包括句意相似度损失函数;

所述句意相似度损失函数用于最小化样本待规整文本及其对应的样本已规整文本之间的句意相似度;

所述句意相似度是基于所述样本待规整文本的句意特征表示和所述样本已规整文本的句意特征表示确定得到的;

其中,所述句意特征表示是基于对应文本中每一分词的上下文语义表示确定得到的。

根据本发明一个实施例的大小写规整方法,所述基于每一分词的大小写格式类型,对所述待规整文本进行规整,具体包括:

若任一分词的大小写格式类型为大写,则基于预先设定的大写转换对应关系,确定所述任一分词的规整方式;其中,所述规整方式为全字符大写或首字符大写。

本发明实施例还提供一种大小写规整装置,包括:

大小写标签确定单元,用于将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型;

大小写规整单元,用于基于每一分词的大小写格式类型,对所述待规整文本进行规整,得到所述待规整文本对应的已规整文本;

其中,所述大小写规整模型是基于样本待规整文本,以及所述样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;

所述大小写规整模型用于确定所述待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。

本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述大小写规整方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述大小写规整方法的步骤。

本发明实施例提供的大小写规整方法、装置、电子设备和存储介质,通过大小写规整模型确定待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型,从而对待规整文本进行大小写规整,无需预先设定替换词列表,扩大了大小写规整方法的适用范围。同时,大小写规整模型充分考虑了待规整文本的语境信息,使得规整后的每一分词符合文本的整体语境,提高了大小写规整的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的大小写规整方法的流程示意图;

图2为本发明实施例提供的大小写规整模型运行方法的流程示意图;

图3为本发明实施例提供的上下文语义表示方法的流程示意图;

图4为本发明实施例提供的序列标注方法的流程示意图;

图5为本发明实施例提供的大小写格式类型确定方法的流程示意图;

图6为本发明实施例提供的大小写规整装置的结构示意图;

图7为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

部分语言存在特有的语言习惯和语法规范,决定了特定单词在不同语境中需要采用不同的大小写格式。例如,英文单词“apple”与“apple”、“it”与“it”以及法文单词“francais”与“francais”,需要结合特定的语境,判断应当采用小写还是大写格式。另外,部分单词作为专有名词时,应当采用大写格式,否则则应当采用小写格式。例如,英文单词“rose”作为人名使用时,应当采用大写格式“rose”,作为名词“玫瑰”使用时,应当采用小写格式“rose”。然而,无论是语音识别得到的转写文本,还是人工书写编辑的文本,通常未能正确区分不同语境下特定单词的大小写格式。因此,需要对文本进行大小写规整,使其符合所用语言的语言习惯和语法规范。

目前,大小写规整方法通常基于预先设定的规则和替换词列表进行大小写转换。其中,预先设定的规则是指对待规整文本分句后,将每个分句的首个单词的首字母转换为大写格式,替换词列表中存储有部分单词从全小写格式到其固定大写格式的映射关系,例如english→english,然后将待规整文本和替换词列表进行匹配,将匹配的单词转换为对应的大写格式。

然而,该规整方法受限于有限的替换词列表,仅能对少量的单词进行大小写转换,可应用范围小。并且,由于单词存在单复数、所有格等多种形式,替换词列表无法覆盖各单词的所有形式,泛化能力差。例如,替换词列表中仅存在john→john的映射,当待规整文本中存在john’s时,则由于匹配失败导致无法进行大小写转换。另外,该简单替换的规整方法将匹配成功的单词进行大小写转换,而不考虑整个文本的句意,若某一单词的大写形式和小写形式对应的含义相差较大,则会造成句意改变,使得规整后的文本句意发生错误。例如,待规整文本“getoutyourbestchinaandcrystal”,若根据替换词列表中的映射china→china,将其转换为“getoutyourbestchinaandcrystal”后,china的含义从“瓷器”变为了“中国”,造成整个文本的句意发生了错误。

对此,本发明实施例提供了一种大小写规整方法。图1为本发明实施例提供的大小写规整方法的流程示意图,如图1所示,该方法包括:

步骤110,将待规整文本输入至大小写规整模型,得到大小写规整模型输出的待规整文本中每一分词的大小写格式类型;

其中,大小写规整模型是基于样本待规整文本,以及样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;

大小写规整模型用于确定待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。

具体地,待规整文本为需要进行大小写规整的文本,该文本所用语言为存在单词大小写格式使用规范的语言,例如英文、法文等。待规整文本可以为对用户语音数据进行语音识别得到的转写文本,或是人工书写编辑的文本,可以为通用领域的文本,也可以为根据应用需求定制的文本,本发明实施例对此不作具体限定。

在将待规整文本输入至大小写规整模型之前,可以对待规整文本进行预处理,根据待规整文本中的终止型标点进行切分,得到各个分句,再根据每一分句的句中和句末的标点以及空格进行分词,得到待规整文本中的每一分词。为了方便后续进行大小写规整,还可以将待规整文本中的分词转换为全小写格式。需要说明的是,按照语言规范,每一分句的首个分词通常需要首字母大写。因此可以在预处理时即将每一分句的首个分词的首字母转换为大写,后续规整过程中不再对其进行处理,也可以将待规整文本中所有分词统一转换为全小写格式后,在后续的规整过程中再将每一分句的首个分词的首字母转换为大写,本发明实施例对此不作具体限定。

将待规整文本输入至大小写规整模型,以确定待规整文本中每一分词的大小写格式类型。其中,任一分词的大小写格式类型用于表征该分词在待规整文本的语境中,应当是大写格式还是小写格式。具体而言,大小写规整模型用于基于待规整文本的语境信息,确定待规整文本中每一分词的上下文语义表示和大小写转换系数。此处,任一分词的上下文语义表示用于表征该分词及其上下文所包含的语义信息,任一分词的大小写转换系数用于表征该分词在待规整文本语境中需要进行大小写转换的可能性。然后,大小写规整模型基于每一分词的上下文语义表示和大小写转换系数,确定并输出每一分词的大小写格式类型。

由于任一分词的上下文语义表示一定程度上反映了该分词在待规整文本的语境中应当具备的含义,并且该分词的大写格式和小写格式对应的含义可能不同,因此基于该分词的上下文语义表示,可以判定该分词在待规整文本中的大小写格式。例如,根据分词“china”在待规整文本“getoutyourbestchinaandcrystal”中的上下文语义表示,可以知晓该分词在此处的含义可能是“瓷器”,因此可以确定其大小写格式类型为小写格式。又例如,根据分词“rose”在待规整文本“fortunately,rosehasbeenrescued”中的上下文语义表示,可以知晓该分词在此处可能是人名,因此可以确定其大小写格式类型为大写格式。兼之大小写转换系数反映了该分词在待规整文本语境中需要进行大小写转换的可能性,因此,大小写规整模型结合每一分词的上下文语义表示和每一分词的大小写转换系数,可以准确确定每一分词在待规整文本中的大小写格式类型,使得规整后的每一分词符合文本的整体语境,避免规整后的文本句意发生错误。

在执行步骤110之前,还可以预先训练得到大小写规整模型,具体可以通过如下方式训练得到大小写规整模型:首先,收集大量样本待规整文本及其对应的样本已规整文本,分别进行分句、分词和小写转换等预处理后,标注样本待规整文本中每一样本分词的样本大小写格式类型。

可选地,样本大小写格式类型可以为1或0,其中1表示该样本分词为大写格式,0表示该样本分词为小写格式。特别地,由于每一分句的首个分词必定为大写格式,故可以将句首分词的样本大小写格式类型标注为0。例如,样本待规整文本“wehaveproposedanewmodel”经过分词和小写转换后,可以得到词序列“we/have/proposed/a/new/model”,与该词序列中各样本分词一一对应的样本大小写格式类型序列则为“0000000”。又例如,样本待规整文本“however,itisaveryhardjob.”经过分词和小写转换后,可以得到词序列“however/,/it/is/a/very/hard/job”,与该词序列中各样本分词一一对应的样本大小写格式类型序列则为“00100000”。

随即,基于样本待规整文本,以及所述样本待规整文本中每一样本分词的样本大小写格式类型训练初始模型,从而得到大小写规整模型。可选地,在训练过程中,可采用批量梯度下降、小批量梯度下降或随机梯度下降等方法更新模型参数。

步骤120,基于每一分词的大小写格式类型,对待规整文本进行规整,得到待规整文本对应的已规整文本。

具体地,基于每一分词的大小写格式类型,可以对待规整文本中大小写格式类型为大写格式的分词进行大写转换,对待规整文本中大小写格式类型为小写格式的分词进行小写转换,得到待规整文本对应的已规整文本。另外,若在对待规整文本进行预处理时,将待规整文本中的分词转换为了全小写格式,在大小写规整时,还可以仅对待规整文本中大小写格式类型为大写格式的分词进行大写转换,从而得到待规整文本对应的已规整文本。

本发明实施例提供的方法,通过大小写规整模型确定待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型,从而对待规整文本进行大小写规整,无需预先设定替换词列表,扩大了大小写规整方法的适用范围。同时,大小写规整模型充分考虑了待规整文本的语境信息,使得规整后的每一分词符合文本的整体语境,提高了大小写规整的准确性。

基于上述实施例,图2为本发明实施例提供的大小写规整模型运行方法的流程示意图,如图2所示,步骤110具体包括:

步骤111,将待规整文本中的每一分词输入至大小写规整模型的上下文语义表示层,得到上下文语义表示层输出的每一分词的上下文语义表示。

具体地,上下文语义表示层用于基于待规整文本中的每一分词,提取任一分词及其上下文的语义信息,得到该分词的上下文语义表示。其中,上下文语义表示层可以在卷积神经网络(convolutionalneuralnetworks,cnn)、循环神经网络(recurrentneuralnetwork,rnn)和长短时记忆网络(longshort-termmemory,lstm)或者其变形的基础上构建得到,本发明实施例对此不作具体限定。

步骤112,将每一分词的上下文语义表示输入至大小写规整模型的大小写转换系数计算层,得到大小写转换系数计算层输出的每一分词的大小写转换系数。

具体地,考虑到待规整文本中,对整个文本的句意影响越大的分词,越有可能需要转换成大写形式,因此在大小写规整模型中设置大小写转换系数计算层,用于基于每一分词的上下文语义表示,确定每一分词对待规整文本句意的影响程度,作为每一分词的大小写转换系数。可选地,可以利用注意力机制,计算任一分词在待规整文本中的注意力权重。其中,注意力权重越大,表明该分词在待规整文本中越重要,其语义信息对待规整文本的句意影响也越大。因此,可将任一分词的注意力权重作为该分词的大小写转换系数。具体可以通过以下公式计算任一分词i的注意力权重:

其中,hi为分词i的上下文语义表示,ai为分词i的注意力权重,n为待规整文本中的分词数量,w、b和q是大小写规整模型中可学习得到的参数,q为注意力机制里的查询向量,w和b则为注意力机制里的权重矩阵和偏置。

步骤113,将每一分词的上下文语义表示和大小写转换系数输入至大小写规整模型的序列标注层,得到序列标注层输出的每一分词的大小写格式类型。

具体地,序列标注层用于基于每一分词的上下文语义表示和大小写转换系数,对待规整文本中的每一分词进行序列标注,得到每一分词的大小写格式类型。其中,序列标注层可以基于任意序列标注模型构建得到,例如条件随机场(conditionalrandomfield,crf)模型、lstm模型及其变形等,本发明实施例对此不作具体限定。

本发明实施例提供的方法,通过提取待规整文本中每一分词的上下文表示向量,然后基于每一分词的上下文表示向量确定每一分词的大小写转换系数,并结合每一分词的上下文表示向量和大小写转换系数,确定每一分词的大小写格式类型,充分考虑每一分词对句意的影响程度,提高了大小写规整的准确性。

基于上述任一实施例,图3为本发明实施例提供的上下文语义表示方法的流程示意图,如图3所示,步骤111具体包括:

步骤1111,将任一分词中的每一字符输入至上下文语义表示层的字符编码层,得到字符编码层输出的该分词中每一字符的字符编码;

步骤1112,将该分词中每一字符的字符编码输入至上下文语义表示层的池化层,得到池化层输出的该分词的池化向量;

步骤1113,将每一分词的池化向量输入至上下文语义表示层的上下文语义提取层,得到上下文语义提取层输出的每一分词的上下文语义表示。

具体地,考虑到各分词存在丰富的词形变化,例如单复数、所有格和时态等,因此将待规整文本中任一分词的每一字符输入至字符编码层,以提取该分词中每一字符的语义信息并进行编码,得到该分词每一字符的字符编码,能够准确提取分词在各种词形变化情况下的语义信息。其中,字符编码层可以基于cnn、lstm或双向长短时记忆网络(bi-directionallongshort-termmemory,bilstm)等模型构建得到,本发明实施例对此不作具体限定。

随即,将该分词中每一字符的字符编码输入至上下文语义表示层的池化层,以将该分词中所有字符的字符编码整合并压缩成固定长度的向量,即该分词的池化向量。可选地,池化层可以采用均值池化方式或最大池化方式,本发明实施例对此不作具体限定。

然后,上下文语义提取层基于每一分词的池化向量,提取每一分词及其上下文的语义信息,得到每一分词的上下文语义表示。其中,上下文语义提取层可以基于cnn、lstm或bilstm等模型构建得到,本发明实施例对此不作具体限定。

本发明实施例提供的方法,通过提取任一分词中每一字符的字符编码,基于任一分词中每一字符的字符编码确定该分词的池化向量,从而提取得到每一分词的上下文语义表示,提高了上下文语义表示的准确性。

基于上述任一实施例,图4为本发明实施例提供的序列标注方法的流程示意图,如图4所示,步骤113具体包括:

步骤1131,将所述待规整文本中的每一分词输入至序列标注层的序列标注向量表示层,得到序列向量表示层输出的每一分词的序列标注向量表示。

具体地,由于每一分词的上下文语义表示会用于确定每一分词的大小写转换系数,故上下文语义表示层在提取任一分词的上下文语义表示时,会更关注于该分词在待规整文本中的重要程度,即该分词的语义信息对待规整文本句意的影响程度。然而,序列标注任务的关注点在于确定每一分词的大小写格式类型。因此,上下文语义表示层的关注点与序列标注任务的关注点不同,仅依据每一分词的上下文语义表示进行序列标注的效果可能欠佳。因而为了提高序列标注的准确性,在序列标注层中设置序列标注向量表示层,以提取待规整文本中每一分词的序列标注向量表示。其中,任一分词的序列标注向量表示也可以表征该分词及其上下文的语义信息,但由于序列标注向量表示层的关注点在于序列标注,因此提取得到的序列标注向量表示相对于上下文语义表示而言,更适合序列标注任务。可选地,序列标注向量表示层可以采用与上下文语义表示层相同或类似的结构。

步骤1132,将每一分词的上下文语义表示、序列标注向量表示和大小写转换系数输入至序列标注层的标签预测层,得到标签预测层输出的每一分词的大小写格式类型。

具体地,标签预测层用于基于每一分词的上下文语义表示、序列标注向量表示和大小写转换系数,确定每一分词的大小写格式类型。其中,可以将任一分词的上下文语义表示、序列标注向量表示和大小写转换系数融合,基于融合后的结果进行标签预测,得到该分词的大小写格式类型。可选地,可以首先将任一分词的上下文语义表示和序列标注向量表示融合,对融合后的向量进行非线性变换,再与该分词的大小写转换系数融合,从而基于融合结果进行标签预测。例如,可以采用如下公式对任一分词进行标签预测:

其中,对于待规整文本中的第t个分词,和ht为该分词的序列标注向量表示和上下文语义表示,表示将和ht拼接,at为该分词的大小写转换系数,ws、wh和bh为大小写规整模型可学习得到的参数,yt为该分词的大小写格式类型。

本发明实施例提供的方法,通过提取待规整文本中每一分词的序列标注向量表示,并基于每一分词的上下文语义表示、序列标注向量表示和大小写转换系数,确定每一分词的大小写格式类型,提高了序列标注的准确性。

基于上述任一实施例,大小写规整模型的损失函数包括大小写转换系数损失函数和序列标注损失函数;

其中,大小写转换系数损失函数用于最大化样本大小写标签为大写的样本分词的大小写转换系数,并最小化样本大小写标签为小写的样本分词的大小写转换系数的离散程度。

具体地,大小写规整模型在训练过程中,损失函数包括两个部分:大小写转换系数损失函数和序列标注损失函数。其中,序列标注损失函数用于减少大小写规整模型确定得到的样本待规整文本中每一样本分词的大小写格式类型,与样本待规整文本中每一样本分词的样本大小写格式类型之间的差别。

此外,样本待规整文本中样本大小写格式类型为大写格式的样本分词的大小写转换系数应当越高越好,与此同时,样本大小写格式类型为小写格式的样本分词由于不需要进行大写转换,可以认为这些样本分词对句意的影响程度是平均的,因此这些样本大小写格式类型为小写格式的样本分词的大小写转换系数应当尽可能平均。因此,本发明实施例还设置了大小写转换系数损失函数,用于最大化样本大小写标签为大写的样本分词的大小写转换系数,并最小化样本大小写标签为小写的样本分词的大小写转换系数的离散程度。例如,可以采用如下公式构建大小写转换系数损失函数:

其中,样本待规整文本中共包括n个样本分词,labi∈{0,1}为第i个样本分词的样本大小写格式类型,labi为1表明该样本分词的样本大小写格式类型为大写格式,labi为0表明该样本分词的样本大小写格式类型为小写格式,ai为第i个样本分词的大小写转换系数。为样本大小写格式类型为大写格式的样本分词的大小写转换系数模值总和,则为样本大小写标签为小写的样本分词的大小写转换系数的方差。

基于上述任一实施例,大小写规整模型的损失函数还包括句意相似度损失函数;

句意相似度损失函数用于最小化样本待规整文本及其对应的样本已规整文本之间的句意相似度;

句意相似度是基于样本待规整文本的句意特征表示和样本已规整文本的句意特征表示确定得到的;

其中,句意特征表示是基于对应文本中每一分词的上下文语义表示确定得到的。

具体地,若样本待规整文本中,除了首个分词以外,还包含有样本大小写格式类型为大写格式的样本分词,那么将样本大小写格式类型为大写格式的样本分词转换为大写格式后得到的样本已规整文本,与原始的样本待规整文本在句意层面通常会存在较大差别。因此,本发明实施例中,大小写规整模型的损失函数还包括句意相似度损失函数,用于最小化样本待规整文本及其对应的样本已规整文本之间的句意相似度。其中,句意相似度是基于样本待规整文本的句意特征表示和样本已规整文本的句意特征表示确定得到的,而句意特征表示是基于对应文本中每一分词的上下文语义表示确定得到的。训练完成后,大小写规整模型确定得到的待规整文本中任一分词的上下文语义表示能够体现出该分词转换为大写格式后,是否会引起句意的较大变化,有助于进一步提高大小写转换系数的准确性。由于句意相似度损失函数的目标在于最小化样本待规整文本及其对应的样本已规整文本之间的句意相似度,因此可以采用如下公式构建句意相似度损失函数:

其中,ssmall和sori分别为样本待规整文本的句意特征表示和样本已规整文本的句意特征表示,·表示向量点积运算,||||表示向量模值计算。

可选地,可以构建句意相似度判别模型,与大小写规整模型共享其上下文语义表示层,两个模型以参数共享的方式进行训练。因此,可以将样本待规整文本中的每一样本分词输入至大小写规整模型的上下文语义表示层,得到上下文语义表示层输出的每一样本分词的上下文语义表示,并将样本已规整文本中的每一样本规整分词输入至大小写规整模型的上下文语义表示层,得到上下文语义表示层输出的每一样本规整分词的上下文语义表示。然后,句意相似度判别模型分别基于每一样本分词的上下文语义表示以及每一样本规整分词的上下文语义表示,确定样本待规整文本的句意特征表示和样本已规整文本的句意特征表示,再对样本待规整文本的句意特征表示和样本已规整文本的句意特征表示进行相似度计算,得到样本待规整文本及其对应的样本已规整文本之间的句意相似度。

句意相似度判别模型在确定句意特征表示时,可以将对应文本中每一分词的上下文语义表示融合,再压缩成固定长度的向量。为了凸显对应文本中对句意影响较大的分词,削弱无关分词带来的干扰,可以基于注意力机制,确定对应文本中每一分词的注意力权重,再基于每一分词的注意力权重,将每一分词的上下文语义表示融合压缩,得到句意特征表示。例如,可以采用如下公式确定对应文本的句意特征表示:

其中,假设文本中包含n个分词,hi为第i个分词的上下文语义表示,ai为该分词的注意力权重,s为该文本的句意特征表示,w、b和q是大小写规整模型中可学习得到的参数。

基于上述任一实施例,基于每一分词的大小写格式类型,对待规整文本进行规整,具体包括:

若任一分词的大小写格式类型为大写,则基于预先设定的大写转换对应关系,确定该分词的规整方式;其中,规整方式为全字符大写或首字符大写。

具体地,确定得到每一分词的大小写格式类型后,若任一分词的大小写格式类型为大写,则需要对该分词进行规整,以转换成大写格式。然而,在对其进行规整时,存在两种可能的规整的方式,即全字符大写和首字符大写。为了确定该分词的规整方式,可以预先构建大写转换对应关系。其中,大写转换对应关系可以用于确定任一分词在进行大写转换时,应当全字符大写还是首字符大写。然后,将该分词与大写转换对应关系进行匹配,得到该分词的规整方式。

可选地,由于全字符大写的分词较少,例如部分专有名词的英文缩写,如it、app和ct等,会以全字符大写的形式出现,因此可以构建全字符大写分词及其小写形式间的映射关系,也可以仅列举全字符大写分词的小写形式,作为大写转换对应关系,本发明实施例对此不作具体限定。若该分词存在于大写转换对应关系中,则该分词的规整方式为全字符大写,若不存在于大写转换对应关系中,则该分词的规整方式为首字符大写。

基于上述任一实施例,图5为本发明实施例提供的大小写格式类型确定方法的流程示意图,如图5所示,该方法包括:

确定待规整文本,例如“wehaveproposedanewmodel.”。

将待规整文本中每一分词的每一字符输入至字符编码层,得到每一分词中每一字符的字符编码其中,图5中仅示例性地标出了“we”、“have”、“model”和“.”。

将每一分词中每一字符的字符编码输入至池化层,得到池化层输出的每一分词的池化向量p1、p2、…、pn-1和pn。

将每一分词的池化向量p1、p2、…、pn-1和pn输入至上下文语义提取层,得到上下文语义提取层输出的每一分词的上下文语义表示h1、h2、…、hn-1和hn。

将每一分词的上下文语义表示h1、h2、…、hn-1和hn输入至大小写转换系数计算层,得到大小写转换系数计算层输出的每一分词的大小写转换系数a1、a2、…、an-1和an。

同时,还可以将待规整文本中每一分词的每一字符输入至序列标注向量表示层,由序列标注向量表示层中的序列标注字符编码层提取每一分词中每一字符的序列标注字符编码再由序列标注向量表示层中的序列标注池化层确定每一分词的序列标注池化向量然后由序列标注向量表示层中的序列标注上下文语义提取层确定每一分词的序列标注向量表示

将每一分词的上下文语义表示h1、h2、…、hn-1和hn、序列标注向量表示以及大小写转换系数a1、a2、…、an-1和an输入至标签预测层,得到标签预测层输出的每一分词的大小写格式类型l1、l2、…、ln-1和ln。

下面对本发明实施例提供的大小写规整装置进行描述,下文描述的大小写规整装置与上文描述的大小写规整方法可相互对应参照。

基于上述任一实施例,图6为本发明实施例提供的大小写规整装置的结构示意图,如图6所示,该装置包括大小写标签确定单元610和大小写规整单元620。

其中,大小写标签确定单元610用于将待规整文本输入至大小写规整模型,得到大小写规整模型输出的待规整文本中每一分词的大小写格式类型;

大小写规整单元620用于基于每一分词的大小写格式类型,对待规整文本进行规整,得到待规整文本对应的已规整文本;

其中,大小写规整模型是基于样本待规整文本,以及样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;

大小写规整模型用于确定待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。

本发明实施例提供的装置,通过大小写规整模型确定待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型,从而对待规整文本进行大小写规整,无需预先设定替换词列表,扩大了大小写规整方法的适用范围。同时,大小写规整模型充分考虑了待规整文本的语境信息,使得规整后的每一分词符合文本的整体语境,提高了大小写规整的准确性。

基于上述任一实施例,大小写标签确定单元610具体包括:

上下文语义表示单元,用于将待规整文本中的每一分词输入至大小写规整模型的上下文语义表示层,得到上下文语义表示层输出的每一分词的上下文语义表示;

大小写转换系数计算单元,用于将每一分词的上下文语义表示输入至大小写规整模型的大小写转换系数计算层,得到大小写转换系数计算层输出的每一分词的大小写转换系数;

序列标注单元,用于将每一分词的上下文语义表示和大小写转换系数输入至大小写规整模型的序列标注层,得到序列标注层输出的每一分词的大小写格式类型。

本发明实施例提供的装置,通过提取待规整文本中每一分词的上下文表示向量,然后基于每一分词的上下文表示向量确定每一分词的大小写转换系数,并结合每一分词的上下文表示向量和大小写转换系数,确定每一分词的大小写格式类型,充分考虑每一分词对句意的影响程度,提高了大小写规整的准确性。

基于上述任一实施例,上下文语义表示单元具体包括:

字符编码单元,用于将任一分词中的每一字符输入至上下文语义表示层的字符编码层,得到字符编码层输出的该分词中每一字符的字符编码;

池化单元,用于将该分词中每一字符的字符编码输入至上下文语义表示层的池化层,得到池化层输出的该分词的池化向量;

上下文语义提取单元,用于将每一分词的池化向量输入至上下文语义表示层的上下文语义提取层,得到上下文语义提取层输出的每一分词的上下文语义表示。

本发明实施例提供的装置,通过提取任一分词中每一字符的字符编码,基于任一分词中每一字符的字符编码确定该分词的池化向量,从而提取得到每一分词的上下文语义表示,提高了上下文语义表示的准确性。

基于上述任一实施例,序列标注单元具体包括:

序列标注向量表示单元,用于将所述待规整文本中的每一分词输入至序列标注层的序列标注向量表示层,得到序列向量表示层输出的每一分词的序列标注向量表示;

标签预测单元,用于将每一分词的上下文语义表示、序列标注向量表示和大小写转换系数输入至序列标注层的标签预测层,得到标签预测层输出的每一分词的大小写格式类型。

本发明实施例提供的装置,通过提取待规整文本中每一分词的序列标注向量表示,并基于每一分词的上下文语义表示、序列标注向量表示和大小写转换系数,确定每一分词的大小写格式类型,提高了序列标注的准确性。

基于上述任一实施例,大小写规整模型的损失函数包括大小写转换系数损失函数和序列标注损失函数;

其中,大小写转换系数损失函数用于最大化样本大小写标签为大写的样本分词的大小写转换系数,并最小化样本大小写标签为小写的样本分词的大小写转换系数的离散程度。

基于上述任一实施例,大小写规整模型的损失函数还包括句意相似度损失函数;

句意相似度损失函数用于最小化样本待规整文本及其对应的样本已规整文本之间的句意相似度;

句意相似度是基于样本待规整文本的句意特征表示和样本已规整文本的句意特征表示确定得到的;

其中,句意特征表示是基于对应文本中每一分词的上下文语义表示确定得到的。

基于上述任一实施例,基于每一分词的大小写格式类型,对待规整文本进行规整,具体包括:

若任一分词的大小写格式类型为大写,则基于预先设定的大写转换对应关系,确定该分词的规整方式;其中,规整方式为全字符大写或首字符大写。

图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(communicationsinterface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行大小写规整方法,该方法包括:将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型;基于每一分词的大小写格式类型,对所述待规整文本进行规整,得到所述待规整文本对应的已规整文本;其中,所述大小写规整模型是基于样本待规整文本,以及所述样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;所述大小写规整模型用于确定所述待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。

此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的大小写规整方法,该方法包括:将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型;基于每一分词的大小写格式类型,对所述待规整文本进行规整,得到所述待规整文本对应的已规整文本;其中,所述大小写规整模型是基于样本待规整文本,以及所述样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;所述大小写规整模型用于确定所述待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。

又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的大小写规整方法,该方法包括:将待规整文本输入至大小写规整模型,得到所述大小写规整模型输出的所述待规整文本中每一分词的大小写格式类型;基于每一分词的大小写格式类型,对所述待规整文本进行规整,得到所述待规整文本对应的已规整文本;其中,所述大小写规整模型是基于样本待规整文本,以及所述样本待规整文本中每一样本分词的样本大小写格式类型训练得到的;所述大小写规整模型用于确定所述待规整文本中每一分词的上下文语义表示和大小写转换系数,并基于每一分词的上下文语义表示和大小写转换系数,确定每一分词的大小写格式类型。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1