文本处理方法、装置、设备及可读存储介质与流程

文档序号：18526102发布日期：2019-08-24 10:15阅读：193来源：国知局

本申请涉及自然语言处理技术领域，更具体地说，涉及一种文本处理方法、装置、设备及可读存储介质。

背景技术：

目前，涉及不同语言的文本处理方法均是由机器将一种语言的文本翻译为另一种语言的文本。这种文本处理方式单一，无法为用户提供优化服务。

因此，有必要提供一种新的文本处理方法，以弥补现有技术中的文本处理方法的不足。

技术实现要素：

有鉴于此，本申请提供了一种文本处理方法、装置、设备及可读存储介质，用于弥补现有技术中的文本处理方法的不足。

为了实现上述目的，现提出如下技术方案：

一种文本处理方法，包括：

获得源语言文本；

获得目标语言内容片段；所述目标语言与所述源语言为不同的语言；

根据所述目标语言内容片段与所述源语言文本的内容相关的特征信息，在所述源语言文本中确定与所述目标语言内容片段对应的源语言文本片段。

优选的，所述根据所述目标语言内容片段与所述源语言文本的内容相关的特征信息，在所述源语言文本中确定与所述目标语言内容片段对应的源语言文本片段，包括：

根据第一输入数据和第二输入数据的内容相关的特征信息，确定所述第一输入数据中与所述第二输入数据对应的数据片段；所述第一输入数据为所述源语言文本，或者，由所述源语言文本翻译得到的目标语言文本；所述第二输入数据为所述目标语言内容片段；

当所述第一输入数据为所述目标语言文本时，将所述源语言文本中与所述数据片段对应的源语言文本片段确定为与所述目标语言内容片段对应的源语言文本片段。

优选的，所述根据第一输入数据和第二输入数据的内容相关的特征信息，确定所述第一输入数据中与所述第二输入数据对应的数据片段，包括：

利用预置的定位模型处理所述第一输入数据和所述第二输入数据，得到所述第一输入数据中与所述第二输入数据对应的数据片段；所述定位模型被配置为接收所述第一输入数据和所述第二输入数据，并基于两种输入数据的内容相关的特征信息进行处理，以生成所述第一输入数据中与所述第二输入数据对应的数据片段的内部状态表示。

优选的，所述利用预置的定位模型处理所述第一输入数据和所述第二输入数据，得到所述第一输入数据中与所述第二输入数据对应的数据片段，包括：

确定所述第一输入数据中的各个数据片段的隐层向量表达，以及所述第二输入数据中各个词的隐层向量表达；

对于所述第一输入数据中的每一个数据片段，利用该数据片段的隐层向量表达对所述第二输入数据中的各个词的隐层向量表达进行处理，得到与该数据片段对应的所述第二输入数据的隐层向量表达；

基于该数据片段的隐层向量表达，以及该数据片段对应的所述第二输入数据的隐层向量表达，确定该数据片段是否与所述第二输入数据对应。

优选的，所述利用该数据片段的隐层向量表达对所述第二输入数据中的各个词的隐层向量表达进行处理，得到与该数据片段对应的所述第二输入数据的隐层向量表达，包括：

利用该数据片段的隐层向量表达以及所述第二输入数据中的各个词的隐层向量表达，计算该数据片段与所述第二输入数据中的各个词的相似度系数；

以该数据片段与所述第二输入数据中每个词的相似度系数为权重，对所述第二输入数据中的各个词的隐层向量表达进行加权处理，得到与该数据片段对应的所述第二输入数据的隐层向量表达。

优选的，在基于该数据片段的隐层向量表达，以及该数据片段对应的所述第二输入数据的隐层向量表达，确定该数据片段是否与所述第二输入数据对应之前，还包括：

获得该数据片段与所述第二输入数据的属性匹配度信息；

所述基于该数据片段的隐层向量表达，以及该数据片段对应的所述第二输入数据的隐层向量表达，确定该数据片段是否与所述第二输入数据对应包括：

利用该数据片段的向量表达，该数据片段对应的所述第二输入数据的隐层向量表达，以及所述属性匹配度信息，确定该数据片段是否与所述第二输入数据对应。

优选的，所述根据第一输入数据和第二输入数据的内容相关的特征信息，确定所述第一输入数据中与所述第二输入数据对应的数据片段，包括：

对于所述第一输入数据中的每一个数据片段，获得该数据片段与所述第二输入数据的属性匹配度信息；

根据所述属性匹配度信息确定所述第一输入数据中与所述第二输入数据对应的数据片段。