文本处理方法、装置、计算机可读存储介质和计算机设备与流程

文档序号：21365370发布日期：2020-07-04 04:40阅读：来源：国知局

技术特征：

1.一种文本处理方法，包括：

获取源文本，将所述源文本转换为源端向量序列；

基于所述源端向量序列确定每个词的目标端向量；

获取所述源端向量序列的深层句子向量，将所述每个词的目标端向量和所述深层句子向量进行线性叠加处理，得到每个词对应的目标词；

根据所述每个词对应的目标词，生成所述源文本对应的目标文本。

2.根据权利要求1所述的方法，其特征在于，所述获取所述源端向量序列的深层句子向量，包括：

获取编码器每层的源端向量序列；

根据所述每层的源端向量序列生成每层的浅层句子向量；

基于所述每层的浅层句子向量生成深层句子向量。

3.根据权利要求2所述的方法，其特征在于，所述基于所述每层的浅层句子向量生成深层句子向量，包括：

将所述每层的浅层句子向量输入循环神经网络，所述循环神经网络的各层网络对应所述编码器的各层网络；

确定所述每层的浅层句子向量中与所述循环神经网络的当前层对应的浅层句子向量；

获取所述当前层的上一层输出的隐含状态向量，根据所述当前层对应的浅层句子向量和所述上一层输出的隐含状态向量，得到所述当前层输出的隐含状态向量；

将所述当前层输出的隐含状态向量和所述当前层的下一层对应的浅层句子向量作为所述当前层的下一层的输入，直到得到所述循环神经网络的最后一层输出的隐含状态向量；

将所述循环神经网络的最后一层输出的隐含状态向量作为深层句子向量。

4.根据权利要求2所述的方法，其特征在于，所述基于所述每层的浅层句子向量生成深层句子向量，包括：

确定所述编码器中当前层的浅层句子向量和所述当前层的上一层目标端向量之间的相似度向量；

根据所述相似度向量确定所述当前层的浅层句子向量和所述当前层的上一层目标端向量之间的权重向量；

根据所述权重向量和所述每层的浅层句子向量，生成深层句子向量。

5.根据权利要求4所述的方法，其特征在于，所述根据所述相似度向量确定所述当前层的浅层句子向量和所述当前层的上一层目标端向量之间的权重向量，包括：

将所述相似度向量进行归一化处理，得到所述当前层的浅层句子向量和所述当前层的上一层目标端向量之间的权重向量。

6.根据权利要求4或5所述的方法，其特征在于，所述根据所述权重向量和所述每层的浅层句子向量，生成深层句子向量，包括：

将所述权重向量和所述每层的浅层句子向量进行点积处理，得到深层句子向量。

7.根据权利要求2所述的方法，其特征在于，所述根据所述每层的源端向量序列生成每层的浅层句子向量，包括：

将所述编码器中的每层逐一作为当前层，确定当前层的源端向量序列和所述当前层的上一层浅层句子向量之间的相似度向量；

根据所述相似度向量确定所述相似度对应的权重向量；

将所述权重向量和所述当前层的源端向量序列进行点积处理，得到所述当前层的浅层句子向量。

8.一种文本处理置，其特征在于，所述装置包括：

序列获取模块，用于获取源文本，将所述源文本转换为源端向量序列；

目标端向量生成模块，用于基于所述源端向量序列确定每个词的目标端向量；

目标词确定模块，用于获取所述源端向量序列的深层句子向量，将所述每个词的目标端向量和所述深层句子向量进行线性叠加处理，得到每个词对应的目标词；

目标文本生成模块，用于根据所述每个词对应的目标词，生成所述源文本对应的目标文本。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

技术总结
本申请涉及一种文本处理方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取源文本，将所述源文本转换为源端向量序列；基于所述源端向量序列确定每个词的目标端向量；获取所述源端向量序列的深层句子向量，将所述每个词的目标端向量和所述深层句子向量进行线性叠加处理，得到每个词对应的目标词；根据所述每个词对应的目标词，生成所述源文本对应的目标文本。采用本方案能够利用深层句子信息对每个词进行翻译，提高翻译的准确率。

技术研发人员：王星;涂兆鹏;王龙跃;史树明
受保护的技术使用者：腾讯科技(深圳)有限公司
技术研发日：2019.04.17
技术公布日：2020.07.03

完整全部详细技术资料下载

当前第2页1 2