文本处理方法、装置、电子设备及可读存储介质与流程

文档序号:21365379发布日期:2020-07-04 04:40阅读:来源:国知局

技术特征:

1.一种文本处理方法,包括:

获得混合平行语料和目标平行语料;

以所述混合平行语料和所述目标平行语料作为训练样本,训练预定模型得到第一翻译模型;以及

以待处理文本作为所述第一翻译模型的输入,获得针对所述待处理文本的翻译文本,

其中,所述目标平行语料为针对目标领域的平行语料,所述目标平行语料包括通过第二翻译模型筛选得到的平行语料;所述第二翻译模型以所述混合平行语料作为训练样本训练得到。

2.根据权利要求1所述的方法,其中,获得目标平行语料包括:

获得针对所述目标领域的多个平行语料;

采用所述第二翻译模型,确定所述多个平行语料中满足第一条件的平行语料;以及

根据所述满足第一条件的平行语料,获得所述目标平行语料。

3.根据权利要求2所述的方法,其中,所述确定所述多个平行语料中满足第一条件的平行语料包括:针对多个平行语料中的第一平行语料执行以下操作:

以所述第一平行语料包括的源语句作为所述第二翻译模型的输入,输出得到所述第一平行语料对应的预测翻译语句;以及

根据所述第一平行语料包括的源语句、所述第一平行语料包括的翻译语句以及所述第一平行语料对应的预测翻译语句,确定所述第一平行语料是否满足第一条件,

其中,所述第一平行语料为所述多个平行语料中的任意一个平行语料。

4.根据权利要求3所述的方法,其中,确定所述第一平行语料是否满足第一条件包括:

确定所述第一平行语料对应的预测翻译语句中的多个目标词串,所述多个目标词串中的每个目标词串由所述预测翻译语句中位置连续的多个第一词组成,所述多个第一词中目标词的占比不小于预定占比;

确定所述多个目标词串中长度最大的目标词串为最大目标词串;

确定所述最大目标词串包括的目标词属于所述第一平行语料包括的翻译语句的第一比例;以及

在所述第一比例不小于第一预定比例的情况下,确定所述第一平行语料满足第一条件,

其中,所述目标词包括预定词汇表中的词及所述多个平行语料包括的翻译语句中的词。

5.根据权利要求4所述的方法,其中,根据所述满足第一条件的平行语料,获得所述目标平行语料包括:针对所述满足第一条件的平行语料中的第二平行语料执行以下操作:

根据所述第二平行语料对应的预测翻译语句的最大目标词串,确定所述第二平行语料包括的翻译语句中满足第二条件的至少一个分句;

确定所述第二平行语料包括的源语句中与所述第二平行语料对应的最大目标词串匹配的至少一个第二词;以及

拼接所述至少一个第二词得到目标源语句,拼接所述至少一个分句得到目标翻译语句,

其中,根据所述第二平行语料得到的目标平行语料包括所述目标源语句及所述目标翻译语句,所述第二平行语料为所述满足第一条件的平行语料中的任意一个平行语料。

6.根据权利要求5所述的方法,其中,确定所述第二平行语料包括的翻译语句中满足第二条件的至少一个分句包括:

将所述第二平行语料包括的翻译语句进行分句处理,得到多个分句;

确定所述多个分句各自包括的目标词在所述第二平行语料对应的最大目标词串中出现的第二比例,得到多个第二比例;

确定所述多个第二比例中不小于第二预定比例的第二比例为目标比例;

确定所述目标比例所对应的分句为所述满足第二条件的至少一个分句;

在所述第二比例均小于所述第二预定比例的情况下,确定所述多个第二比例中最大第二比例对应的分句为所述满足第二条件的至少一个分句。

7.根据权利要求1所述的方法,还包括在训练预定模型得到第一翻译模型之前:针对所述混合平行语料和所述目标平行语料中任意一个平行语料包括的源语句和翻译语句执行以下操作:

对所述源语句和所述翻译语句进行分词处理,得到针对所述源语句的第一词序列及针对所述翻译语句的第二词序列;

根据预定词汇表,将所述第一词序列转换得到第一编号序列,将所述第二词序列转换得到第二编号序列;以及

采用词嵌入技术,根据所述第一编号序列,得到针对所述第一词序列的第一词向量,以及根据所述第二编号序列,得到针对所述第二词序列的第二词向量,

其中,所述预定词汇表中包括多个词与针对所述多个词的编号的对应关系,所述多个词从所述混合平行语料和所述目标平行语料中提取得到;所述第一翻译模型根据所述第一词向量和所述第二词向量训练得到。

8.根据权利要求7所述的方法,其中,所述第一翻译模型包括第一子模型和第二子模型,所述以待处理文本作为所述第一翻译模型的输入,获得针对所述待处理文本的翻译文本包括:

以所述待处理文本作为所述第一子模型的输入,获得针对所述待处理文本的语义向量;以及

以所述语义向量作为所述第二子模型的输入,获得针对所述待处理文本的翻译文本,

其中,所述第二子模型包括长短期记忆网络模型,所述第二编号序列包括语句起始编号和语句结束编号。

9.一种文本处理装置,包括:

语料获得模块,用于获得混合平行语料和目标平行语料;

模型训练模块,用于以所述混合平行语料和所述目标平行语料作为训练样本,训练预定模型得到第一翻译模型;

翻译文本获得模块,用于以待处理文本作为所述第一翻译模型的输入,获得针对所述待处理文本的翻译文本,

其中,所述目标平行语料为针对目标领域的平行语料,所述目标平行语料包括通过第二翻译模型筛选得到的平行语料;所述第二翻译模型以所述混合平行语料作为训练样本训练得到。

10.一种电子设备,包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行权利要求1~8中任一项所述的文本处理方法。

11.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行权利要求1~8中任一项所述的文本处理方法。


技术总结
本公开提供了一种文本处理方法,该方法包括:获得混合平行语料和目标平行语料;以混合平行语料和目标平行语料作为训练样本,训练预定模型得到第一翻译模型;以及以待处理文本作为第一翻译模型的输入,获得针对待处理文本的翻译文本。其中,目标平行语料为针对目标领域的平行语料,目标平行语料包括通过第二翻译模型筛选得到的平行语料。其中,第二翻译模型以混合平行语料作为训练样本训练得到。本公开还提供了一种文本处理装置、一种电子设备及一种计算机可读存储介质。

技术研发人员:徐晨灿;袁宁;宫晨;石建勋
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:2020.03.19
技术公布日:2020.07.03
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1