一种文本翻译方法、装置、设备及可读存储介质与流程

文档序号:17478146发布日期:2019-04-20 06:15阅读:147来源:国知局
一种文本翻译方法、装置、设备及可读存储介质与流程

本申请涉及信息识别技术领域,更具体地说,涉及一种文本翻译方法、装置、设备及可读存储介质。



背景技术:

机器翻译是利用计算机将源语言转换为目标语言的过程,机器翻译过程中的常见问题之一是对稀疏词的翻译,稀疏词是出现频率比较低的单词,在训练语料中比较稀疏,所以通常对于稀疏词的翻译采用类标签替换的方式。

类标签替换法是将每个稀疏词替换成一个标签,然后将标签作为占位符替换原有的稀疏词,再对文本进行训练和翻译。这种方案的缺点在于,标签的词向量难以训练,且得到的训练结果往往不能表达稀疏词的真实词义信息,从而破坏了原有文本的完整性和流畅度,导致最终得到的翻译结果难以正确且清楚的表达原有文本完整的语义信息。示例如,利用类标签替换翻译方法对英语语句“hebeiissonice”进行机器翻译时,得到的中文翻译结果为“hebei太好了”,在中文中“hebei”可以理解为地名“河北”或者人名“何贝”,显然,此方法没有对稀疏词“hebei”进行翻译,从而不能正确且清楚的表达原有语义内容。



技术实现要素:

有鉴于此,本申请提供了一种文本翻译方法、装置、设备及可读存储介质,用于机器翻译过程中对稀疏词的翻译,以解决现有稀疏词翻译方法难以正确且清楚的表达语义内容的缺点。

为了实现上述目的,现提出的方案如下:

一种文本翻译方法,包括:

确定待翻译文本中的稀疏词;

获取所述稀疏词的解释信息,所述解释信息为使用通用词汇对所述稀疏词的通用性解释;

根据所述解释信息,确定所述稀疏词在所述待翻译文本中的词向量表示;

将所述待翻译文本中所述稀疏词的词向量及除稀疏词外的其余词的词向量进行编解码翻译。

优选地,所述获取所述稀疏词的解释信息,包括:

查询先验的单词通用解释集合,获取所述稀疏词的各解释信息;

从所述稀疏词的各解释信息中确定候选解释信息。

优选地,所述从所述稀疏词的各解释信息中确定候选解释信息,包括:

从所述稀疏词的各解释信息中随机确定一条解释信息作为候选解释信息。

优选地,所述从所述稀疏词的各解释信息中确定候选解释信息,包括:

根据所述稀疏词在所述待翻译文本中的目标词性,从所述稀疏词的各解释信息中,选取所述目标词性对应的解释信息,作为候选解释信息;

或,

将所述稀疏词的各解释信息均确定为候选解释信息。

优选地,所述根据所述解释信息,确定所述稀疏词在所述待翻译文本中的词向量表示,包括:

将所述候选解释信息进行编码,得到编码信息;

将所述编码信息映射到词向量空间,得到映射后的词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。

优选地,所述根据所述解释信息,确定所述稀疏词在所述待翻译文本中的词向量表示,包括:

对每一所述候选解释信息进行编码,得到每一候选解释信息对应的编码信息;

将每一所述编码信息映射到词向量空间,得到映射后的各个词向量,作为所述稀疏词的候选词向量;

根据所述稀疏词的各候选词向量,确定所述稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。

优选地,所述根据所述稀疏词的各候选词向量,确定所述稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示,包括:

将所述稀疏词的各候选词向量的平均值,确定为所述稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示;

或,

根据所述稀疏词的各候选词向量,及所述待翻译文本中其余词的词向量,确定所述稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。

优选地,所述根据所述稀疏词的各候选词向量,及所述待翻译文本中其余词的词向量,确定所述稀疏词的目标词向量,包括:

确定所述稀疏词的各候选词向量的平均值,得到所述稀疏词的平均词向量;

将所述稀疏词的平均词向量及所述待翻译文本中其余词的词向量一起进行编码,得到编码后所述稀疏词的编码信息;

将编码后所述稀疏词的编码信息映射到词向量空间,得到映射后所述稀疏词的词向量;

计算映射后所述稀疏词的词向量与所述稀疏词的每一候选词向量的语义相似度;

根据语义相似度,及所述稀疏词的每一候选词向量,确定所述稀疏词的目标词向量。

优选地,所述根据语义相似度,及所述稀疏词的每一候选词向量,确定所述稀疏词的目标词向量,包括:

选取语义相似度最高的候选词向量,作为所述稀疏词的目标词向量;

或,

将每一候选词向量的语义相似度作为权重,对各候选词向量按照权重加权求和,得到的词向量作为所述稀疏词的目标词向量。

一种文本翻译装置,包括:

稀疏词确定单元,用于确定待翻译文本中的稀疏词;

解释信息获取单元,用于获取所述稀疏词的解释信息,所述解释信息为使用通用词汇对所述稀疏词的通用性解释;

词向量确定单元,用于根据所述解释信息,确定所述稀疏词在所述待翻译文本中的词向量表示;

编解码翻译单元,用于将所述待翻译文本中所述稀疏词的词向量及除稀疏词外的其余词的词向量进行编解码翻译。

优选地,所述解释信息获取单元包括:

单词通用解释集合查验单元,用于查询先验的单词通用解释集合,获取所述稀疏词的各解释信息;

候选解释信息确定单元,用于从所述稀疏词的各解释信息中确定候选解释信息。

优选地,所述候选解释信息确定单元包括:

第一候选解释信息确定子单元,用于从所述稀疏词的各解释信息中随机确定一条解释信息作为候选解释信息。

优选地,所述候选解释信息确定单元包括:

第二候选解释信息确定子单元,用于根据所述稀疏词在所述待翻译文本中的目标词性,从所述稀疏词的各解释信息中,选取所述目标词性对应的解释信息,作为候选解释信息;

或,

第三候选解释信息确定子单元,用于将所述稀疏词的各解释信息均确定为候选解释信息。

优选地,所述词向量确定单元包括:

第一编码单元,用于将所述候选解释信息进行编码,得到编码信息;

第一映射单元,用于将所述编码信息映射到词向量空间,得到映射后的词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。

优选地,所述词向量确定单元包括:

第二编码单元,用于对每一所述候选解释信息进行编码,得到每一候选解释信息对应的编码信息;

第二映射单元,用于将每一所述编码信息映射到词向量空间,得到映射后的各个词向量,作为所述稀疏词的候选词向量;

目标词向量确定单元,用于根据所述稀疏词的各候选词向量,确定所述稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。

优选地,所述目标词向量确定单元包括:

第一目标词向量确定子单元,用于将所述稀疏词的各候选词向量的平均值,确定为所述稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示;

第二目标词向量确定子单元,用于根据所述稀疏词的各候选词向量,及所述待翻译文本中其余词的词向量,确定所述稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。

优选地,所述第二目标词向量确定子单元包括:

平均词向量获取单元,用于确定所述稀疏词的各候选词向量的平均值,得到所述稀疏词的平均词向量;

第三编码单元,用于将所述稀疏词的平均词向量及所述待翻译文本中其余词的词向量一起进行编码,得到编码后所述稀疏词的编码信息;

第三映射单元,用于将编码后所述稀疏词的编码信息映射到词向量空间,得到映射后所述稀疏词的词向量;

语义相似度计算单元,用于计算映射后所述稀疏词的词向量与所述稀疏词的每一候选词向量的语义相似度;

语义相似度参考单元,用于根据语义相似度,及所述稀疏词的每一候选词向量,确定所述稀疏词的目标词向量。

优选地,所述语义相似度参考单元包括:

最高语义相似度选取单元,用于选取语义相似度最高的候选词向量,作为所述稀疏词的目标词向量;

或,

候选词向量加权求和单元,用于将每一候选词向量的语义相似度作为权重,对各候选词向量按照权重加权求和,得到的词向量作为所述稀疏词的目标词向量。

一种文本翻译设备,其特征在于,包括存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现如上所述的文本翻译方法的各个步骤。

一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如上所述的文本翻译方法的各个步骤。

从上述的技术方案可以看出,本申请实施例提供的文本翻译方法在确定待翻译文本中的稀疏词后,进一步获取稀疏词的解释信息,根据解释信息,确定稀疏词在所述待翻译文本中的词向量表示,并将待翻译文本中稀疏词的词向量及除稀疏词外的其余词的词向量进行编解码翻译。由此可见,由于解释信息为使用通用词汇对稀疏词的通用性解释,所以根据稀疏词的解释信息得到的稀疏词的词向量能够代表稀疏词词义,由此对待翻译文本中所有词的词向量进行编解码,得到的翻译结果能够正确且清楚的表达待翻译文本完整的语义内容,克服了现有机器翻译方法中由于稀疏词难以训练得到准确词向量导致的语义表达不正确或不完整的缺点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种文本翻译方法流程图;

图2示例了一种编解码框架示意图;

图3示例了一种解释信息编码示意图;

图4示例了一种候选词向量确定过程示意图;

图5示例了一种目标词向量确定模型示意图;

图6为本申请实施例公开的一种文本翻译装置结构示意图;

图7为本申请实施例公开的一种文本翻译设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请提供的文本翻译方法,可以适用于文本翻译过程待翻译文本中包括在训练语料中比较稀疏的单词的情况,定义这种单词为稀疏词,稀疏词是机器翻译训练过程中的常见问题。因为稀疏词的翻译一般由类标签替换方法完成,会造成翻译结果不能完整正确地表达待翻译文本的语义内容,故本方法提出根据稀疏词的解释信息得到的稀疏词的词向量,进一步对待翻译文本中所有词的词向量进行编解码,得到的翻译结果能够正确且清楚的表达待翻译文本完整的语义内容。

进一步的,本申请方法可以应用于具有翻译功能的终端设备。接下来,结合附图1对本申请文本翻译方法进行介绍,如图1示例了一种文本翻译方法流程图,该方法详细包括:

步骤s100、确定待翻译文本中的稀疏词。

具体地,基于翻译训练语料可以构建训练词典,训练词典中包含非稀疏性单词与其词向量的对应关系,因此,通过查询训练词典可以确定待翻译文本中的单词对应的词向量,进一步进行编解码得到翻译结果。但稀疏词在训练语料中比较稀疏,构建的训练词典中不包含稀疏词的词向量,所以不能通过对查询训练词典得到词向量。常见的稀疏词可以包括实体词和集外词,实体词一般是指人名、地名、机构名、数字等,集外词是指训练词典以外的单词。

一般地,确定待翻译文本中的稀疏词方法为,在预先构建的训练词典中进行查询,由于训练词典中只包含非稀疏性单词与其词向量的对应关系,所以判断不能通过训练词典确定对应的词向量的单词属于稀疏词。例如英文待翻译文本为“provisionismadeforstandingpassengers,oftencalledstraphangers”,通过查询训练词典判断该文本中的单词“straphangers”不能在训练词典中确定其词向量,进一步确定“straphangers”为稀疏词。

步骤s110、获取所述稀疏词的解释信息,所述解释信息为使用通用词汇对所述稀疏词的通用性解释。

具体地,将通过通用词汇对稀疏词进行的通用性解释定义为稀疏词的解释信息,这些通用性单词一般是非稀疏性词,特殊地,当解释信息中出现稀疏词时,进一步通过获取该稀疏词的解释信息,由此能够确定待翻译文本中稀疏词的解释信息,且该解释信息包含的通用词汇均为非稀疏性词。

可以理解的是,稀疏词的解释信息包含稀疏词的词义信息。

步骤s120、根据所述解释信息,确定所述稀疏词在所述待翻译文本中的词向量表示。

具体地,稀疏词的解释信息一般包括的是常见的通用性单词,这些通用性单词一般是非稀疏词。所以稀疏词解释信息中每一个单词都能够通过查询训练词典得到对应的词向量,对解释信息中所有单词的词向量进行编码,可以得到一个能够符合稀疏词词义的词向量。所以可以根据解释信息,确定每个稀疏词在待翻译文本中的词向量表示。

步骤s130、将所述待翻译文本中所述稀疏词的词向量及除稀疏词外的其余词的词向量进行编解码翻译。

具体地,确定每个稀疏词在待翻译文本中的词向量表示后,将稀疏词的词向量及除稀疏词外的其余词的词向量进行编解码翻译,其中待翻译文本中的其余词的词向量是通过训练词典得到的。

编解码翻译的过程可以包括编码和解码,具体实现过程可以有多种方式。例如,编码部分可以通过双向rnn模型实现,解码部分可以通过基于注意力模型的解码模型实现。具体过程为,将待翻译文本中的稀疏词的词向量及除稀疏词外的其余词的词向量输入到双向rnn模型,进一步将双向rnn模型的输出作为解码模型的输入,得到的解码结果即为待翻译文本的翻译结果。

如图2所示的编解码框架示意图,图中所示的为待翻译文本x中包括的n个单词{x1,x2,...xk...,xn}对应的词向量,其中的为上述确定的稀疏词在待翻译文本x中的词向量表示,除以外的词向量为待翻译文本x中除稀疏词外的其余n-1个单词通过训练词典得到的词向量。将作为双向rnn模型的输入,并将输出的编码结果输入到基于注意力模型的解码模型,通过解码得到待翻译文本x的翻译结果。

需要说明的是,图2示例的cw、sw等均为双向rnn模型和解码模型进行编解码过程的过程量表示,具体编解码过程为现有技术,本申请实施例不加赘述。

从上述的技术方案可以看出,本申请实施例提供的文本翻译方法在确定待翻译文本中的稀疏词后,进一步获取稀疏词的解释信息,根据解释信息,确定稀疏词在所述待翻译文本中的词向量表示,并将待翻译文本中稀疏词的词向量及除稀疏词外的其余词的词向量进行编解码翻译。由此可见,由于解释信息为使用通用词汇对稀疏词的通用性解释,所以根据稀疏词的解释信息得到的稀疏词的词向量能够代表稀疏词词义,由此对待翻译文本中所有词的词向量进行编解码,得到的翻译结果能够正确且清楚的表达待翻译文本完整的语义内容,克服了现有机器翻译方法中由于稀疏词难以训练得到词向量导致的语义表达不正确或不完整的缺点。

接下来提出本申请的一个实施例对步骤s110,获取所述稀疏词的解释信息的过程进行介绍。具体可以包括:

首先,查询先验的单词通用解释集合,获取所述稀疏词的各解释信息。

具体地,稀疏词的解释信息为使用通用词汇对稀疏词的通用性解释,可以通过查询先验的单词通用解释集合得到。其中,单词通用解释集合包括对所有单词的通用性解释。

单词通用解释集合可以通过wordnet等词典得到。wordnet是以词为基本的组织单位,并基于同义词集的方式来组织体系结构,其中,给出了每个单词的通用性解释,即使用更常见的词汇和描述提供解释信息,每个单词可以包括多条解释信息。例如,wordnet中的稀疏词“straphangers”对应两个解释信息:(1)“acommuterwhousespublictransportation”,(2)“astandingsubwayorbuspassengerwhogripsahangingstrapforsupport”,显然两个解释信息可以对稀疏词“straphangers”的进行词义表示。所以,本实施例可以将wordnet作为单词通用解释集合,并通过查询wordnet得到稀疏词的各解释信息。

可以理解的是,查询单词通用解释集合得到的稀疏词的解释信息包括的通用词汇一般为非稀疏性词汇,特殊地,若稀疏词的某一解释信息出现其余稀疏词,则可以继续利用单词通用解释集合查询该其余稀疏词的解释信息,直至解释信息只包括非稀疏性词,并将所有解释信息结合得到稀疏词的解释信息。

进一步,从上述稀疏词的各解释信息中确定候选解释信息。

上述可知,稀疏词的解释信息可以包括多条,其中每一条都能代表该稀疏词的语义表示,所以根据稀疏词的所有解释信息,确定稀疏词的候选解释信息。示例如,待翻译文本x中包括n个单词为{x1,x2,...xk...,xn},其中xk为稀疏词,查询先验的单词通用解释集合得到xk的解释信息个数为m,分别表示为q1,q2,...,qm,进一步从q1,q2,...,qm中确定候选解释信息。

这里,确定候选解释信息的方法可以包括多种,下面介绍其中三种确定方法。

第一种,从所述稀疏词的各解释信息中随机确定一条解释信息作为候选解释信息。

具体地,由解释信息的定义可知,稀疏词的每条解释信息都可以用于对该稀疏词进行语义表示,所以,从上述方法得到的稀疏词的所有解释信息中,随机确定一条解释信息,该解释信息可以代表稀疏词的语义信息。

示例如,可以从上述待翻译文本x中稀疏词xk的解释信息q1,q2,...,qm中随机确定一条解释信息qm,作为候选解释信息。

第二种,根据所述稀疏词在所述待翻译文本中的目标词性,从所述稀疏词的各解释信息中,选取所述目标词性对应的解释信息,作为候选解释信息。

具体地,每个稀疏词可以有多种词性,每种词性可以包括多条解释信息。例如,wordnet共有四种词性,名词、动词、形容词和副词。其中包括82115个名词,13767个动词,18156个形容词,3621个副词。wordnet中每个单词的不同词性均有不同的解释信息,相同词性也会存在多条解释信息。所以本方法提出,首先使用词性标注工具对待翻译文本中的稀疏词进行词性标注,确定稀疏词在待翻译文本中的目标词性,进一步,从获取的稀疏词的各解释信息中提取目标词性对应的解释信息,并确定这些目标词性对应的解释信息为候选解释信息。

示例如,利用词性标注工具对上述待翻译文本x中的稀疏词xk进行词性标注,确定该稀疏词在待翻译文本x中的目标词性为名词,进一步从该稀疏词的解释信息q1,q2,...,qm中确定所有名词对应的解释信息,作为xk候选解释信息,如本例中将名词性解释信息q1,q2,qm三条解释信息确定为候选解释信息。

第三种,将所述稀疏词的各解释信息均确定为候选解释信息。

具体地,由于稀疏词的每条解释信息都可以用于对该稀疏词进行语义表示,且每个解释所表达的语义信息不同,所以将获取的稀疏词的所有解释信息均确定为候选解释信息。

示例如,将上述待翻译文本x中稀疏词xk的m条解释信息q1,q2,...,qm全部作为xk的候选解释信息。

可以理解的是,上述仅仅示例了三种确定稀疏词候选解释信息的实施方式,除此之外还可以设计其它实现方式。

本申请的另一个实施例中,对上述步骤s120,根据所述解释信息,确定所述稀疏词在所述待翻译文本中的词向量表示的过程进行介绍。

前述介绍了确定稀疏词候选解释信息的三种可选方式,根据不同的确定方式,步骤s120可以存在不同的实现过程,接下来分别介绍:

1)、若候选解释信息为从所述稀疏词的各解释信息中随机确定的一条,则步骤s120的实现过程可以包括:

a1、将候选解释信息进行编码,得到编码信息。

具体地,候选解释信息包括一条解释信息,该解释信息是由若干个通用性词汇组成的通用性解释,首先通过查询训练词典得到该解释信息中包括的所有通用性词汇的词向量,进一步将词向量作为编码模型的输入,输出该解释信息对应的编码信息。

示例如,候选解释信息qm是从待翻译文本x中稀疏词xk的各解释信息q1,q2,...,qm中随机确定一条解释信息,定义qm为{q1,q2,...ql},其中q1,q2,...,ql分别为组成该条解释信息的l个单词。参考附图3,上述对qm进行编码的过程进行介绍,可以包括:

首先,通过查询训练词典确定候选解释信息中的单词q1,q2,...ql的词向量分别为将所有词向量作为编码模型的输入,这里可以使用单向rnn网络,单向rnn网络隐层状态的计算方法可以如下面的公式所示:

在上述公式中,f为非线性函数,可以选择sigmoid或者是lstm网络,w和u是训练的参数,表示{q1,q2,...ql}中第λ个单词(这里1≤λ≤l)的词向量,表示第λ个隐层状态,用来表示当前单词的编码信息。

进一步,单向rnn顺序读入候选解释信息qm的所有单词对应的词向量,产生的隐层序列其中表示该候选解释信息qm的编码信息,这里,使用单向rnn网络最后一个时刻的隐层状态作为候选解释信息qm的编码信息,即

由此得到候选解释信息qm的编码信息,并表示为

a2、将编码信息映射到词向量空间,得到映射后的词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。

上述a1得到的候选解释信息的编码信息是神经网络模型的隐层状态,为了能够和待翻译文本中除稀疏词外的其他词在同一个表示空间中进行编码,需要将该编码信息转换为词向量表示,所以进一步将编码信息映射到词向量空间,得到映射后的词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。

示例如图3,上述候选解释信息qm的编码信息可以通过一个线性投影运算,将单向rnn网络得到的隐层状态通过线性投影映射到词向量空间,线性投影计算方法如下所示:

其中,a是要训练的投影层参数,这样就能把映射到词向量空间,表示为由此可以得到稀疏词候选解释信息qm的词向量表示

可以理解的是,若根据前述第二种或第三种方式确定的稀疏词的候选解释信息仅有一条,则确定所述稀疏词在所述待翻译文本中的词向量表示的过程同上。

2)、若根据前述第二种或第三种方式,确定稀疏词的候选解释信息,且确定的候选解释信息为两条及以上时,则步骤s120过程如下:

b1、对每一所述候选解释信息进行编码,得到每一候选解释信息对应的编码信息。

具体地,候选解释信息包括多条解释信息,其中每一候选解释信息都是由若干个通用性词汇组成的通用性解释,所以每一候选解释信息都能通过编码得到对应的编码信息。

示例如,假设q={q1,q2,...,qj}为待翻译文本y中稀疏词xr的候选解释信息的集合表示,其中包括j个候选解释信息,显然在本实施例中,j可以为xr在先验的单词通用解释集合中所有的解释信息的个数,或,j可以为xr在待翻译文本y中的目标词性对应的解释信息的个数,且j≥2。q中包括的每一条解释信息都由若干个单词组成,以qj为例,设qj={q1,q2,...qg},q1,q2,...qg分别为组成该条解释信息的g个单词,其中g可以为大于0的任意整数。

对每条候选解释信息进行编码的过程是通过查询训练词典得到该解释信息中包括的通用性词汇的词向量,并将词向量作为编码模型的输入,输出该解释信息对应的编码信息,具体实施过程可以参照上述a1介绍的编码过程,在此不作赘述。

进一步,本步骤对每一候选解释信息进行上述编码过程。如图4所示,将候选解释信息集合q={q1,q2,...,qj}中每一候选解释信息包括的单词对应的词向量分别作为单向rnn网络的输入,输出每一候选解释信息对应的编码信息,并将所有候选解释信息对应的编码信息的集合定义为

b2、将每一所述编码信息映射到词向量空间,得到映射后的各个词向量,作为所述稀疏词的候选词向量。

上述b1得到的每一候选解释信息的编码信息都是神经网络模型的隐层状态,为了能够和待翻译文本中除稀疏词外的其他词在同一个表示空间中进行编码,需要将该编码信息转换为词向量表示,所以进一步将每一候选解释信息对应的编码信息映射到词向量空间,得到映射后的各个词向量,作为稀疏词的候选词向量,所述词向量与源文本词向量的空间相同。

示例如上述候选解释信息qj的编码信息可以通过一个线性投影运算,将单向rnn网络得到的隐层状态通过线性投影映射到词向量空间,线性投影计算方法如下所示:

其中,a是要训练的投影层参数,这样就能把映射到词向量空间,表示为由此可以得到稀疏词候选解释信息qj的词向量表示

如图4所示,进一步将每一候选解释信息对应的编码信息映射到词向量空间,得到稀疏词的候选词向量为

b3、根据所述稀疏词的各候选词向量,确定所述稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。

具体地,稀疏词的候选解释信息经过编码得到的候选词向量包括多个词向量。其中每一候选词向量都对应稀疏词的一种语义表示,所以根据稀疏词的各候选词向量,可以确定稀疏词的目标词向量,并将其作为所述稀疏词在待翻译文本中的词向量表示。

这里,根据稀疏词的各候选词向量,确定稀疏词的目标词向量的方法可以包括多种,接下来介绍几种可选的方式,具体可以包括:

第一种、

确定稀疏词的目标词向量的方法可以包括:

将稀疏词的各候选词向量的平均值,确定为稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。

具体地,将映射得到的各候选词向量加和平均得到所有候选词向量的平均值,并将此平均值确定为稀疏词的目标词向量。

示例如,将待翻译文本y中稀疏词xr的所有候选解释信息对应的编码信息映射到词向量空间,得到稀疏词的候选词向量后,进一步对进行加权平均计算,计算公式可以为:

为稀疏词xr的各候选词向量的平均值,进一步将该平均值确定为稀疏词的目标词向量。

可以理解的是,该平均值考虑了稀疏词的所有候选词向量对应的词义信息,所以将此平均值作为目标词向量进行编解码,能够表达稀疏词的词义信息。

第二种、

确定稀疏词的目标词向量的方法还可以包括:

根据所述稀疏词的各候选词向量,及所述待翻译文本中其余词的词向量,确定所述稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。

具体地,确定稀疏词的各候选词向量后,进一步结合待翻译文本中其余词的词向量,确定稀疏词的目标词向量,显然本方法确定的目标词向量考虑了待翻译文本中除稀疏词外的其余词的语义信息,以该目标词向量作为稀疏词在待翻译文本中的词向量表示,能够得到更加符合待翻译文本语义的翻译结果。

进一步,提出本申请另一实施例,对上述第二种确定所述稀疏词的目标词向量的实施方式进行介绍,该过程可以包括:

c1、确定所述稀疏词的各候选词向量的平均值,得到所述稀疏词的平均词向量。

具体地,将映射得到的稀疏词的各候选词向量进行平均值计算,得到稀疏词的平均词向量。

平均值计算方法可以参照上述初始词向量的计算方法,示例如,将待翻译文本y中稀疏词xr的所有候选解释信息对应的编码信息映射到词向量空间,得到稀疏词的候选词向量后,进一步对进行平均值计算,计算公式可以为:

计算结果为各候选词向量的平均值,进一步将定义为稀疏词xr的平均词向量。

c2、将所述稀疏词的平均词向量及所述待翻译文本中其余词的词向量一起进行编码,得到编码后所述稀疏词的编码信息。

具体地,稀疏词的平均词向量可以表示稀疏词的词义信息,其余词的词向量可以表示每个其余词的词义信息。将稀疏词的平均词向量及待翻译文本中其余词的词向量一起进行编码,编码过程对每个单词的编码都会参考上一个单词的词义信息,所以得到的稀疏词的编码信息可以包含稀疏词在当前待翻译文本中的语义信息,同时也能够表达出当前语境中的词义信息。

示例如附图5,待翻译文本y包括p个单词,即y={x1,x2,…,xr,…,xp},其中稀疏词为xr,从c1得到的稀疏词xr的平均词向量除xr以外的所有单词的词向量可以通过训练词典得到,为参考附图5,将一起进行编码,这里同样采用单向rnn网络进行编码,单向rnn网络顺序读入各单词的词向量,由此产生的隐层序列表示为其中表示待翻译文本的编码信息,这里的为稀疏词xr在待翻译文本y中的编码信息,可以理解的是,包含了稀疏词xr在当前待翻译文本中的语义信息,也能够表达出当前语境中的词义信息。

c3、将编码后所述稀疏词的编码信息映射到词向量空间,得到映射后所述稀疏词的词向量。

编码后稀疏词的编码信息是神经网络模型的隐层状态,所以需要将编码后稀疏词的编码信息映射到词向量空间,得到映射后稀疏词的词向量。

可以理解的是,由于稀疏词在待翻译文本中的编码信息可以包含稀疏词在当前待翻译文本中的语义信息,同时也能够表达出当前语境中的词义信息,因此将其映射到词向量空间后得到的映射后稀疏词的词向量同样也包含稀疏词在当前待翻译文本中的语义信息,且也能够表达出当前语境中的词义信息。

示例如图5,将上述编码得到的稀疏词xr在待翻译文本y中的编码信息通过线性投影法,映射在词向量空间,得到映射后稀疏词的词向量

c4、计算映射后所述稀疏词的词向量与所述稀疏词的每一候选词向量的语义相似度。

前述已经说明了,将稀疏词在待翻译文本中的编码信息映射到词向量空间后得到的映射后稀疏词的词向量,包含了稀疏词在当前待翻译文本中的语义信息,且也能够表达出当前语境中的词义信息。为了根据稀疏词的每一候选词向量确定稀疏词的目标词向量,可以计算该映射后稀疏词的词向量与稀疏词的每一候选词向量的语义相似度。

本申请实施例介绍了一种可选的语义相似度计算方法,上述稀疏词xr在待翻译文本y中的编码信息为隐层状态将其映射在词向量空间,得到映射后稀疏词的词向量计算该词向量与待翻译文本y中稀疏词xr的所有候选词向量的语义相似度,计算方法如下:

其中d和f是模型训练的参数,f为非线性激活函数,αi是通过归一化得到平均词向量与第i个候选词向量的语义相似度,示例如图5,语义相似度α1,α2,...αj与候选词向量一一对应,其取值范围在0到1之间的标量值。

c5、根据语义相似度,及所述稀疏词的每一候选词向量,确定所述稀疏词的目标词向量。

具体地,语义相似度表示每一稀疏词的候选词向量与映射后稀疏词的词向量的相关度,且映射后稀疏词的词向量包含了稀疏词在当前待翻译文本中的语义信息,且能够表达出当前语境中的词义信息,所以在此基础上,根据语义相似度,及稀疏词的每一候选词向量,确定的目标词向量能够包含稀疏词在当前待翻译文本中的语义信息,且也能够表达出当前语境中的词义信息。

可以理解的是,上述语义相似度的大小代表了候选词向量能够表达稀疏词在当前待翻译文本中的语义信息及表达出当前语境中的词义信息的程度。

本实施例根据语义相似度,及所述稀疏词的每一候选词向量,确定所述稀疏词的目标词向量的过程可以存在多种实现方式,接下来分别介绍:

第一种、

根据语义相似度,及所述稀疏词的每一候选词向量,确定所述稀疏词的目标词向量的过程可以包括:

选取语义相似度最高的候选词向量,作为所述稀疏词的目标词向量。

具体地,上述可知,语义相似度越大则该候选词向量表达稀疏词在当前待翻译文本中的语义信息及表达出当前语境中的词义信息的程度越高,所以本方法选择最大语义相似度对应的候选词向量,作为所述稀疏词的目标词向量。即,比较α1,α2,…αj的大小,假设得到最大的语义相似度为α2,将α2对应的候选词向量作为稀疏词的目标词向量。

第二种,将每一候选词向量的语义相似度作为权重,对各候选词向量按照权重加权求和,得到的词向量作为所述稀疏词的目标词向量。

具体地,每一候选词向量都对应一个语义相似度,所以考虑每一候选词向量的语义相似度,将每一候选词向量的语义相似度作为权重,对各候选词向量按照权重加权求和,得到的词向量作为所述稀疏词的目标词向量。

例如,语义相似度α1,α2,...αj与稀疏词的候选词向量一一对应,以α1,α2,...αj为权重对进行加权求和后,得到最后的词向量embr,计算公式如下所示。

进一步,将上述加权求和所得的词向量确定为稀疏词的目标词向量。

需要说明的是,上述所有实施例中的训练参数,如w,u,a,d,f等,可以通过联合训练的方式确定,训练数据可以包括对稀疏词的各解释信息标注的,是否适用于稀疏词在训练文本中的含义的结果,或者是,对稀疏词的各解释信息标注的,与稀疏词在训练文本中的含义相似程度的结果。

下面对本申请实施例提供的文本翻译装置进行描述,下文描述的文本翻译装置与上文描述的文本翻译方法可相互对应参照。

参见图6,图6为本申请实施例公开的一种文本翻译装置结构示意图。

如图6所示,该装置可以包括:

稀疏词确定单元11,用于确定待翻译文本中的稀疏词;

解释信息获取单元12,用于获取所述稀疏词的解释信息,所述解释信息为使用通用词汇对所述稀疏词的通用性解释;

词向量确定单元13,用于根据所述解释信息,确定所述稀疏词在所述待翻译文本中的词向量表示;

编解码翻译单元14,用于将所述待翻译文本中所述稀疏词的词向量及除稀疏词外的其余词的词向量进行编解码翻译。

可选地,提出本申请的一个实施例对上述解释信息获取单元进行介绍,可以包括:

单词通用解释集合查验单元,用于查询先验的单词通用解释集合,获取所述稀疏词的各解释信息;

候选解释信息确定单元,用于从所述稀疏词的各解释信息中确定候选解释信息。

可选地,本申请实施例对上述候选解释信息确定单元可以包括的多种结构进行介绍:

第一种、上述候选解释信息确定单元可以包括:

第一候选解释信息确定子单元,用于从所述稀疏词的各解释信息中随机确定一条解释信息作为候选解释信息。

第二种、上述候选解释信息确定单元可以包括:

第二候选解释信息确定子单元,用于根据所述稀疏词在所述待翻译文本中的目标词性,从所述稀疏词的各解释信息中,选取所述目标词性对应的解释信息,作为候选解释信息;

或,

第三候选解释信息确定子单元,用于将所述稀疏词的各解释信息均确定为候选解释信息。

可选地,基于上述介绍的第一候选解释信息确定子单元,词向量确定单元可以包括:

第一编码单元,用于将所述候选解释信息进行编码,得到编码信息;

第一映射单元,用于将所述编码信息映射到词向量空间,得到映射后的词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。

可选地,基于上述介绍的第二候选解释信息确定子单元或第三候选解释信息确定子单元,词向量确定单元还可以包括:

第二编码单元,用于对每一所述候选解释信息进行编码,得到每一候选解释信息对应的编码信息;

第二映射单元,用于将每一所述编码信息映射到词向量空间,得到映射后的各个词向量,作为所述稀疏词的候选词向量;

目标词向量确定单元,用于根据所述稀疏词的各候选词向量,确定所述稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。

可选地,上述目标词向量确定单元可以包括:

第一目标词向量确定子单元,用于将所述稀疏词的各候选词向量的平均值,确定为所述稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示;

或,

第二目标词向量确定子单元,用于根据所述稀疏词的各候选词向量,及所述待翻译文本中其余词的词向量,确定所述稀疏词的目标词向量,作为所述稀疏词在所述待翻译文本中的词向量表示。

可选地,上述第二目标词向量确定子单元可以包括:

平均词向量获取单元,用于确定所述稀疏词的各候选词向量的平均值,得到所述稀疏词的平均词向量;

第三编码单元,用于将所述稀疏词的平均词向量及所述待翻译文本中其余词的词向量一起进行编码,得到编码后所述稀疏词的编码信息;

第三映射单元,用于将编码后所述稀疏词的编码信息映射到词向量空间,得到映射后所述稀疏词的词向量;

语义相似度计算单元,用于计算映射后所述稀疏词的词向量与所述稀疏词的每一候选词向量的语义相似度;

语义相似度参考单元,用于根据语义相似度,及所述稀疏词的每一候选词向量,确定所述稀疏词的目标词向量。

可选地,上述语义相似度参考单元,可以包括:

最高语义相似度选取单元,用于选取语义相似度最高的候选词向量,作为所述稀疏词的目标词向量;

或,

候选词向量加权求和单元,用于将每一候选词向量的语义相似度作为权重,对各候选词向量按照权重加权求和,得到的词向量作为所述稀疏词的目标词向量。

本申请实施例提供的文本翻译装置可应用于文本翻译设备,如pc终端、云平台、服务器及服务器集群等。可选的,图7示出了文本翻译设备的硬件结构框图,参照图7,文本翻译设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;

在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;

处理器1可能是一个中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:

确定待翻译文本中的稀疏词;

获取所述稀疏词的解释信息,所述解释信息为使用通用词汇对所述稀疏词的通用性解释;

根据所述解释信息,确定所述稀疏词在所述待翻译文本中的词向量表示;

将所述待翻译文本中所述稀疏词的词向量及除稀疏词外的其余词的词向量进行编解码翻译。

可选地,所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:

确定待翻译文本中的稀疏词;

获取所述稀疏词的解释信息,所述解释信息为使用通用词汇对所述稀疏词的通用性解释;

根据所述解释信息,确定所述稀疏词在所述待翻译文本中的词向量表示;

将所述待翻译文本中所述稀疏词的词向量及除稀疏词外的其余词的词向量进行编解码翻译。

可选地,所述程序的细化功能和扩展功能可参照上文描述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1