机器翻译模型的获取方法及装置与流程

文档序号:12063660阅读:来源:国知局

技术特征:

1.一种机器翻译模型的获取方法,其特征在于,包括:

获取多个双语句对文本,所述双语句对文本包括第一语言文本和与所述第一语言文本语义相同的第二语言文本,所述第一语言文本与所述第二语言文本属于不同的语言;

根据第一语言词典,对所述第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对所述第二语言文本进行分词,得到第二分词词语;其中,所述第一分词词语包括至少一个第一单词,所述第二分词词语包括至少一个第二单词;所述第一语言词典包括多个第一语言短语,所述第一语言短语包括多个第一单词,所述第二语言词典包括多个第二语言短语,所述第二语言短语包括多个第二单词;

采用非监督学习方法对所述第一分词词语和所述第二分词词语组成的平行语料进行训练,得到机器翻译模型,以使终端采用所述机器翻译模型进行第一语言和第二语言之间的翻译。

2.根据权利要求1所述的方法,其特征在于,所述根据第一语言词典,对所述第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对所述第二语言文本进行分词,得到第二分词词语之前,还包括:

对所述第一语言文本进行分词,得到所述第一语言文本对应的多个第一单词,并对所述第二语言文本进行分词,得到所述第二语言文本对应的多个第二单词;

根据所述第一单词和所述第二单词之间的语义对应关系,构建第一语言短语和第二语言短语;

根据所述第一语言短语,生成第一语言词典,根据所述第二语言短语,生成第二语言词典。

3.根据权利要求2所述的方法,其特征在于,所述对所述第一语言文本进行分词,得到所述第一语言文本对应的多个第一单词,包括:

根据第一分词词典,采用最大匹配分词法,对所述第一语言文本进行分词,得到多个第一单词;

所述对所述第二语言文本进行分词,得到所述第二语言文本对应的多个第二单词,包括:

根据第二分词词典,采用最大匹配分词法,对所述第二语言文本进行分词,得到多个第二单词。

4.根据权利要求2所述的方法,其特征在于,所述根据所述第一单词和所述第二单词之间的语义对应关系,构建第一语言短语和第二语言短语,包括:

将所述第一语言文本的第一单词和所述第二语言文本的第二单词按照语义进行匹配对齐;

若多个第一单词表达的语义与至少一个第二单词表达的语义相同,则将多个第一单词组成第一语言短语;

若多个第二单词表达的语义与至少一个第一单词表达的语义相同,则将多个第二单词组成第二语言短语。

5.根据权利要求4所述的方法,其特征在于,所述根据所述第一语言短语,生成第一语言词典,包括:

将所述第一语言短语添加到所述第一分词词典中,得到新的第一分词词典,将所述新的第一分词词典作为所述第一语言词典;

所述根据第二语言短语,生成第二语言词典,包括:

将所述第二语言短语添加到所述第二分词词典中,得到新的第二分词词典,将所述新的第二分词词典作为所述第二语言词典。

6.根据权利要求1~5任一项所述的方法,其特征在于,所述第一语言文本为亚洲语言文本,所述第一单词为单字。

7.一种机器翻译模型的获取装置,其特征在于,包括:

文本获取模块,所述文本获取模块用于获取多个双语句对文本,所述双语句对文本包括第一语言文本和与所述第一语言文本语义相同的第二语言文本,所述第一语言文本与所述第二语言文本属于不同的语言;

第一分词模块,所述分词模块用于,根据第一语言词典,对所述第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对所述第二语言文本进行分词,得到第二分词词语;其中,所述第一分词词语包括至少一个第一单词,所述第二分词词语包括至少一个第二单词;所述第一语言词典包括多个第一语言短语,所述第一语言短语包括多个第一单词,所述第二语言词典包括多个第二语言短语,所述第二语言短语包括多个第二单词;

机器翻译模型获取模块,所述机器翻译模型获取模块用于采用非监督学习方法对所述第一分词词语和所述第二分词词语组成的平行语料进行训练,得到机器翻译模型,以使终端采用所述机器翻译模型进行第一语言和第二语言之间的翻译。

8.根据权利要求7所述的装置,其特征在于,所述装置还包括:

第二分词模块,所述第二分词模块用于对所述第一语言文本进行分词,得到所述第一语言文本对应的多个第一单词,并对所述第二语言文本进行分词,得到所述第二语言文本对应的多个第二单词;

短语构建模块,所述短语构建模块用于根据所述第一单词和所述第二单词之间的语义对应关系,构建第一语言短语和第二语言短语;

词典生成模块,所述词典生成模块用于根据所述第一语言短语,生成第一语言词典,根据所述第二语言短语,生成第二语言词典。

9.根据权利要求8所述的装置,其特征在于,所述第二分词模块具体用于:根据第一分词词典,采用最大匹配分词法,对所述第一语言文本进行分词,得到多个第一单词;

根据第二分词词典,采用最大匹配分词法,对所述第二语言文本进行分词,得到多个第二单词。

10.根据权利要求8所述的装置,其特征在于,所述短语构建模块具体用于:将所述第一语言文本的第一单词和所述第二语言文本的第二单词按照语义进行匹配对齐;

若多个第一单词表达的语义与至少一个第二单词表达的语义相同,则将多个第一单词组成第一语言短语;

若多个第二单词表达的语义与至少一个第一单词表达的语义相同,则将多个第二单词组成第二语言短语。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1