双语语料句对齐方法、装置、可读存储介质和计算机设备与流程

文档序号：21037455发布日期：2020-06-09 20:30阅读：来源：国知局

技术特征：

1.一种双语语料句对齐方法，包括：

获取待对齐平行文本及所述待对齐平行文本中原文文本的语种类型和译文文本的语种类型；

对所述待对齐平行文本进行预处理，获得待对齐平行句对；

从单语分词模型组中调用与所述原文文本的语种类型对应的单语分词模型，对所述待对齐平行句对中的原文文本进行分词处理，获得待对齐原文的句片段组；

从所述单语分词模型组中调用与所述译文文本的语种类型对应的单语分词模型，对所述待对齐平行句对中的译文文本进行分词处理，获得待对齐译文的句片段组；

根据预设的格式处理方式，对所述待对齐原文的句片段组和所述待对齐译文的句片段组进行格式处理，获得双语句对组；

基于所述预设的格式处理方式，获取与所述原文文本的语种类型和所述译文文本的语种类型对应的双语词典；

调用句对齐工具，根据所述双语词典，对所述双语句对组进行句对齐处理，获得句对齐平行语料；

所述单语分词模型的训练方式包括：

获取与待训练单语分词模型的语种类型对应单语数据；

对所述单语数据进行预处理，获得单语数据样本；

通过sentencepiece算法基于所述单语数据样本进行单语分词模型训练，获得单语分词模型。

2.根据权利要求1所述的方法，其特征在于，双语词典的训练方式包括：

从句对齐平行语料库中获取与待训练双语词典的语种类型对应的句对齐平行语料样本，所述待训练双语词典的语种类型包括原文语料的语种类型和译文语料的语种类型；

对所述句对齐平行语料样本进行预处理，得到句对齐平行语料对；

从所述单语分词模型组中调用与所述原文语料的语种类型对应的单语分词模型，对所述句对齐平行语料对中的原文语料进行分词处理，获得样本原文的句片段组；

从所述单语分词模型组中调用与所述译文语料的语种类型对应的单语分词模型，对所述句对齐平行语料对中的译文语料进行分词处理，获得样本译文的句片段组；

根据所述预设的格式处理方式，对所述样本原文的句片段组和所述样本译文的句片段组进行格式处理，获得双语句对样本组；

通过双语词对抽取算法对所述双语句对样本组进行对齐，获得双语词典。

3.根据权利要求1或2所述的方法，其特征在于，所述预设的格式处理方式，包括：

获取待格式处理的句片段组；

检测所述句片段组中的下划线符，将检测到的下划线符从所述句片段组中去除。

4.根据权利要求1或2所述的方法，其特征在于，所述预设的格式处理方式，包括：

获取待格式处理的句片段组以及对应的语种类型；

根据句片段组的语种类型，确定所述句片段组是否属于格式处理对象；

当所述句片段组属于格式处理对象时，检测所述句片段组中的下划线符，将检测到的下划线符从所述句片段组中去除。

5.根据权利要求1所述的方法，其特征在于，所述调用句对齐工具，根据所述双语词典，对所述双语句对组进行句对齐处理，获得句对齐平行语料的步骤之后，还包括：

基于预设的过滤条件对所述句对齐平行语料进行过滤，获得过滤后的句对齐平行语料。

6.根据权利要求5所述的方法，其特征在于，所述预设的过滤条件包括以下条件中的至少一种：

分析所述句对齐平行语料中是否存在对空的句子，过滤所述句对齐平行语料中对空的句子；

根据预设值过滤所述句对齐平行语料中得分小于预设值的句子；

根据所述原文文本的语种类型和所述译文文本的语种类型，过滤掉所述句对齐平行语料中语种类型不符合的句子；

根据数字等特征，过滤所述句对齐平行语料中不符合数字等特征的句子。

7.根据权利要求2所述的方法，其特征在于，还包括：

将所述句对齐平行语料添加至所述句对齐平行语料库中。

8.一种双语语料句对齐装置，其特征在于，包括：

平行文本获取模块，用于获取待对齐平行文本及所述待对齐平行文本中原文文本的语种类型和译文文本的语种类型；

预处理模块，用于对所述待对齐平行文本进行预处理，获得待对齐平行句对；

第一分词处理模块，用于从单语分词模型组中调用与所述原文文本的语种类型对应的单语分词模型，对所述待对齐平行句对中的原文文本进行分词处理，获得待对齐原文的句片段组；

第二分词处理模块，用于从所述单语分词模型组中调用与所述译文文本的语种类型对应的单语分词模型，对所述待对齐平行句对中的译文文本进行分词处理，获得待对齐译文的句片段组；

格式处理模块，用于根据预设的格式处理方式对所述待对齐原文的句片段组和所述待对齐译文的句片段组进行格式处理，获得双语句对组；

双语词典获取模块，用于基于所述预设的格式处理方式，获取与所述原文文本的语种类型和所述译文文本的语种类型对应的双语词典；

句对齐处理模块，用于调用句对齐工具，根据所述双语词典，对所述双语句对组进行句对齐处理，获得句对齐平行语料；

其中，所述单语分词模型的训练方式包括：

获取与待训练单语分词模型的语种类型对应单语数据；

对所述单语数据进行预处理，获得单语数据样本；

通过sentencepiece算法基于所述单语数据样本进行单语分词模型训练，获得单语分词模型。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

技术总结
本申请涉及一种双语语料句对齐方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取待对齐平行文本及原文文本的语种类型和译文文本的语种类型；对待对齐平行文本进行预处理，获得待对齐平行句对；从通过SentencePiece算法训练的单语分词模型组中调用与原文文本和译文文本的语种类型对应的单语分词模型，进行分词处理，获得待对齐原文的句片段组和待对齐译文的句片段组；根据预设的格式处理方式对待对齐原文和待对齐译文的句片段组进行格式处理，获得双语句对组，调用句对齐工具，根据双语词典，对双语句对组进行句对齐处理，获得句对齐平行语料。通过SentencePiece算法训练的各个语种的单语分词模型，降低了代码的耦合度与维护难度，降低了维护成本。

技术研发人员：鲁思祈
受保护的技术使用者：腾讯科技(深圳)有限公司
技术研发日：2020.02.10
技术公布日：2020.06.09

完整全部详细技术资料下载

当前第2页1 2