基于统计的机器翻译方法、装置及电子设备与流程

文档序号:11155030阅读:来源:国知局

技术特征:

1.一种基于统计的机器翻译方法,其特征在于,包括:

获取待翻译文本和业务信息;

对所述待翻译文本进行解码,生成所述待翻译文本的多个候选译文;

针对各个候选译文,根据所述待翻译文本和所述候选译文,获取语言方面的翻译特征;以及根据所述业务信息,抽取业务方面的翻译特征;并根据获取的语言方面的翻译特征和业务方面的翻译特征,通过预先生成的翻译质量预测模型,计算所述多个候选译文的翻译质量得分;

选取预设数量的所述翻译质量得分排在高位的候选译文,作为所述待翻译文本的译文。

2.根据权利要求1所述的基于统计的机器翻译方法,其特征在于,所述业务信息包括应用场景信息、用户静态属性信息和用户历史行为信息的至少一者;所述业务方面的翻译特征包括应用场景特征、用户静态属性特征和用户历史行为特征的至少一者。

3.根据权利要求2所述的基于统计的机器翻译方法,其特征在于,所述基于统计的机器翻译方法应用在搜索场景,所述翻译质量得分对所述候选译文作为搜索结果时的搜索点击率产生影响;所述应用场景信息包括由目标语言表达的查询词;所述应用场景特征包括:所述候选译文是否包括所述查询词、所述查询词在所述候选译文中的位置、所述候选译文是否包括未翻译的词和所述候选译文包括的词数量的至少一者;其中,所述目标语言是指所述候选译文所属的语言。

4.根据权利要求3所述的基于统计的机器翻译方法,其特征在于,所述待翻译文本,采用如下步骤获取:

获取用户输入的由所述目标语言表达的查询词;

将所述由所述目标语言表达的查询词翻译为由源语言表达的查询词;所述源语言是指所述待翻译文本所属的语言;

根据所述由源语言表达的查询词,检索获取所述待翻译文本。

5.根据权利要求1所述的基于统计的机器翻译方法,其特征在于,通过机器学习算法,从已标注业务处理结果的历史翻译记录集中学习出所述翻译质量预测模型;所述历史翻译记录包括原文、译文和业务信息。

6.根据权利要求5所述的基于统计的机器翻译方法,其特征在于,所述业务信息包括应用场景信息、用户静态属性信息和用户历史行为信息的至少一者。

7.根据权利要求6所述的基于统计的机器翻译方法,其特征在于,所述历史翻译记录集来源于搜索场景;所述业务处理结果包括:所述译文作为搜索结果时其是否被点击、或者所述译文标识的商品作为搜索结果时所述商品是否被购买;所述应用场景信息包括由目标语言表达的查询词;其中所述目标语言是指所述译文所属的语言。

8.根据权利要求5所述的基于统计的机器翻译方法,其特征在于,不同目标语言对应不同的所述翻译质量预测模型;根据所述目标语言的所述历史翻译记录集,生成所述目标语言的所述翻译质量预测模型;其中所述目标语言是指所述译文所属的语言。

9.根据权利要求5所述的基于统计的机器翻译方法,其特征在于,在从已标注业务处理结果的历史翻译记录集中学习出所述翻译质量预测模型之前还包括:

通过预设的噪音数据过滤算法,从所述历史翻译记录集中剔除噪音历史翻译记录。

10.根据权利要求5所述的基于统计的机器翻译方法,其特征在于,所述通过机器学习算法,从已标注业务处理结果的历史翻译记录集中学习出所述翻译质量预测模型,包括:

获取所述历史翻译记录集;

针对各个历史翻译记录,根据所述历史翻译记录中的所述原文和译文,获取所述历史翻译记录中的语言方面的翻译特征;以及根据所述历史翻译记录中的所述业务信息,抽取所述历史翻译记录中的业务方面的翻译特征;

通过所述机器学习算法,根据获取的各个历史翻译记录中的语言方面的翻译特征、业务方面的翻译特征和所述业务处理结果,学习获得所述翻译质量预测模型。

11.根据权利要求10所述的基于统计的机器翻译方法,其特征在于,所述机器学习算法采用逻辑回归算法;在学习获得所述翻译质量预测模型的过程中,采用如下优化目标:

<mrow> <msub> <mi>max</mi> <mi>w</mi> </msub> <mo>{</mo> <munder> <mi>&Pi;</mi> <mi>k</mi> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>k</mi> </msub> <mo>|</mo> <mi>w</mi> <mo>,</mo> <msub> <mi>fea</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow>

其中,P(yk|w,feak)为搜索点击率;yk表示历史翻译记录k的业务处理结果,如果历史翻译记录k中的译文在一次曝光中被点击,那么yk=1,否则yk=0;w为翻译质量预测模型中各个翻译特征的特征权重组成的权重向量;feak表示从历史翻译记录k中抽取得到的翻译特征。

12.一种基于统计的机器翻译装置,其特征在于,包括:

获取单元,用于获取待翻译文本和业务信息;

解码单元,用于对所述待翻译文本进行解码,生成所述待翻译文本的多个候选译文;

特征抽取和预测单元,用于针对各个候选译文,根据所述待翻译文本和所述候选译文,获取语言方面的翻译特征;以及根据所述业务信息,抽取业务方面的翻译特征;并根据获取的语言方面的翻译特征和业务方面的翻译特征,通过预先生成的翻译质量预测模型,计算所述多个候选译文的翻译质量得分;

选取单元,用于选取预设数量的所述翻译质量得分排在高位的候选译文,作为所述待翻译文本的译文。

13.根据权利要求12所述的基于统计的机器翻译装置,其特征在于,所述业务信息包括应用场景信息、用户静态属性信息和用户历史行为信息的至少一者;所述业务方面的翻译特征包括应用场景特征、用户静态属性特征和用户历史行为特征的至少一者;

所述翻译质量得分对所述候选译文作为搜索结果时的搜索点击率产生影响;所述应用场景信息包括由目标语言表达的查询词;所述应用场景特征包括:所述候选译文是否包括所述查询词、所述查询词在所述候选译文中的位置、所述候选译文是否包括未翻译的词和所述候选译文包括的词数量的至少一者;其中,所述目标语言是指所述候选译文所属的语言;

所述获取单元包括:

获取子单元,用于获取用户输入的由所述目标语言表达的查询词;

翻译子单元,用于将所述由所述目标语言表达的查询词翻译为由源语言表达的查询词;所述源语言是指所述待翻译文本所属的语言;

检索子单元,用于根据所述由源语言表达的查询词,检索获取所述待翻译文本。

14.根据权利要求12所述的基于统计的机器翻译装置,其特征在于,还包 括:

训练单元,用于通过机器学习算法,从已标注业务处理结果的历史翻译记录集中学习出所述翻译质量预测模型;所述历史翻译记录包括原文、译文和业务信息。

15.根据权利要求14所述的基于统计的机器翻译装置,其特征在于,还包括:

过滤数据单元,用于通过预设的噪音数据过滤算法,从所述历史翻译记录集中剔除噪音历史翻译记录。

16.根据权利要求14所述的基于统计的机器翻译装置,其特征在于,所述训练单元包括:

获取子单元,用于获取所述历史翻译记录集;

特征抽取子单元,用于针对各个历史翻译记录,根据所述历史翻译记录中的所述原文和译文,获取所述历史翻译记录中的语言方面的翻译特征;以及根据所述历史翻译记录中的所述业务信息,抽取所述历史翻译记录中的业务方面的翻译特征;

学习子单元,用于通过所述机器学习算法,根据获取的各个历史翻译记录中的语言方面的翻译特征、业务方面的翻译特征和所述业务处理结果,学习获得所述翻译质量预测模型。

17.一种电子设备,其特征在于,包括:

显示器;

处理器;以及

存储器,所述存储器被配置成存储基于统计的机器翻译装置,所述基于统计的机器翻译装置被所述处理器执行时,包括如下步骤:获取待翻译文本和业务信息;对所述待翻译文本进行解码,生成所述待翻译文本的多个候选译文;针对各个候选译文,根据所述待翻译文本和所述候选译文,获取语言方面的翻译特征;以及根据所述业务信息,抽取业务方面的翻译特征;并根据获取的语言方面的翻译特征和业务方面的翻译特征,通过预先生成的翻译质量预测模型,生成所述多个候选译文的翻译质量得分;选取预设数量的所述翻译质量得分排在高位的候选译文,作为所述待翻译文本的译文。

18.一种构建翻译质量预测模型的方法,其特征在于,包括:

获取已标注业务处理结果的历史翻译记录集;所述历史翻译记录包括原文、译文和业务信息;

针对各个历史翻译记录,根据所述历史翻译记录中的所述原文和译文,获取所述历史翻译记录中的语言方面的翻译特征;以及根据所述历史翻译记录中的所述业务信息,抽取所述历史翻译记录中的业务方面的翻译特征;

通过机器学习算法,根据获取的各个历史翻译记录中的语言方面的翻译特征、业务方面的翻译特征和所述业务处理结果,学习获得翻译质量预测模型。

19.根据权利要求18所述的构建翻译概率预测模型的方法,其特征在于,所述业务信息包括应用场景信息、用户静态属性信息和用户历史行为信息的至少一者。

20.根据权利要求19所述的构建翻译概率预测模型的方法,其特征在于,所述应用场景信息包括由目标语言表达的查询词;所述历史翻译记录集来源于搜索场景;所述业务处理结果包括:所述译文作为搜索结果时其是否被点击、或者所述译文标识的商品作为搜索结果时所述商品是否被购买;所述业务方面的翻译特征包括:所述译文是否包括所述查询词、所述查询词在所述译文中的位置、所述译文是否包括未翻译的词和所述译文包括的词数量的至少一者;其中所述目标语言是指所述译文所属的语言。

21.根据权利要求18所述的构建翻译概率预测模型的方法,其特征在于,不同目标语言对应不同的所述翻译质量预测模型;根据所述目标语言的所述历史翻译记录集,生成所述目标语言的所述翻译质量预测模型;其中所述目标语言是指所述译文所属的语言。

22.根据权利要求18所述的构建翻译概率预测模型的方法,其特征在于,在所述获取已标注业务处理结果的历史翻译记录集之后,还包括:

通过预设的噪音数据过滤算法,从所述历史翻译记录集中剔除噪音历史翻译记录。

23.根据权利要求18所述的构建翻译概率预测模型的方法,其特征在于,所述机器学习算法采用逻辑回归算法,在学习获得所述翻译质量预测模型的过程中,采用如下优化目标:

<mrow> <msub> <mi>max</mi> <mi>w</mi> </msub> <mo>{</mo> <munder> <mi>&Pi;</mi> <mi>k</mi> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>k</mi> </msub> <mo>|</mo> <mi>w</mi> <mo>,</mo> <msub> <mi>fea</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow>

其中,P(yk|w,feak)为搜索点击率;yk表示历史翻译记录k的业务处理结果,如果历史翻译记录k中的译文在一次曝光中被点击,那么yk=1,否则yk=0;w为翻译质量预测模型中各个翻译特征的特征权重组成的权重向量;feak表示从历史翻译记录k中抽取得到的翻译特征。

24.一种构建翻译概率预测模型的装置,其特征在于,包括:

获取单元,用于获取已标注业务处理结果的历史翻译记录集;所述历史翻译记录包括原文、译文和业务信息;

特征抽取单元,用于针对各个历史翻译记录,根据所述历史翻译记录中的所述原文和译文,获取所述历史翻译记录中的语言方面的翻译特征;以及根据所述历史翻译记录中的所述业务信息,抽取所述历史翻译记录中的业务方面的翻译特征;

学习单元,用于通过机器学习算法,根据获取的各个历史翻译记录中的语言方面的翻译特征、业务方面的翻译特征和所述业务处理结果,学习获得翻译质量预测模型。

25.根据权利要求24所述的构建翻译概率预测模型的装置,其特征在于,还包括:

过滤数据单元,用于通过预设的噪音数据过滤算法,从所述历史翻译记录集中剔除噪音历史翻译记录。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1