改进语言模型的方法及装置制造方法

文档序号:6488240阅读:178来源:国知局
改进语言模型的方法及装置制造方法
【专利摘要】本发明提供了改进语言模型的方法及装置。根据本发明的一个方面,提供了一种改进语言模型的装置,其中,上述语言模型包括多个n元组及其概率;上述装置包括:候选集生成单元,其生成n元组的候选集;出现次数计算单元,其计算上述n元组的候选集中的n元组在语言环境中的出现次数;概率赋予单元,其对出现次数低于预定的第1阈值的n元组赋予预定的概率;以及第1添加单元,其将上述出现次数低于上述第1阈值的n元组及其概率加入上述语言模型。
【专利说明】改进语言模型的方法及装置
【技术领域】
[0001]本发明涉及自然语言的处理技术,具体地,涉及改进统计机器翻译中的语言模型的方法及装置。
【背景技术】
[0002]在统计机器翻译(Statistical Machine Translation (SMT),具体参见非专利文献I)系统中,语言模型具有非常重要的地位。目前最广泛使用的语言模型是基于η元组(n-gram,或称为η元语法)的语言模型(具体参见非专利文献2)。这种系统首先利用训练数据(例如,自然语言文本的集合)对语言模型进行训练,然后将训练好的语言模型应用到新的词序列上,给出其语言模型的概率估计。由于训练数据大小的局限,一些η元组在训练数据中出现的频率较高,而另一些则出现的频率较低。对于那些出现频率较高的η元组,这种方法能够给出相对比较准确的估计,而对于其他出现频率较低的η元组,这种系统需要平滑方法(具体参见非专利文献3)来计算其概率,准确程度相对较低。
[0003]在这些出现频率较低的η元组中,其中一部分是不符合语言习惯的词串,在真实的语言环境中很少出现,另一部分虽然符合语言习惯,但是因为训练语料的数据稀疏问题,所以存在的数量较少。目前的语言模型在估计概率时,对这两种情况采用同样的方法,不加以区分,这是不合理的,也因此导致统计机器翻译系统的输出(即翻译结果)可能包含有不符合语言习惯的词串,从而降低了翻译的质量。
[0004]非专利文献1:Philipp Koehn, “Statistical machine translation”, CambridgeUniversity Press:2010, ISBN 978-0-521-87415-1 ;
[0005]非专利文献2:Christopher D.Manning and Hinrich Schiitze, “Foundations ofStatistical Natural Language Processing”,MIT Press:1999, ISBN 0-262-13360-1;
[0006]非专利文献3:Stanley F.Chen and Joshua T.Goodman,“An Empirical Study ofSmoothing Techniques for Language Modeling”, Technical Report TR-10-98, ComputerScience Group, Harvard University,1998 ;
[0007]在此通过参考引入非专利文献I?3的整个内容。

【发明内容】

[0008]为了改善上述现有技术中存在的翻译结果中可能包含有不符合语言习惯的词串的问题,并进一步改善训练语料的数据稀疏的问题,本发明提出了对符合语言习惯的η元组和不符合语言习惯的η元组进行区分,并进一步从两个方面对语言模型进行改进的方法和装置。也就是说,本发明提供了改进语言模型的方法以及改进语言模型的装置,并进一步提供了机器翻译方法和机器翻译系统。具体地,提供了以下技术方案。
[0009][I] 一种改进语言模型的装置,其中,上述语言模型包括多个η元组及其概率;上述装置包括:
[0010]候选集生成单元,其生成η元组的候选集;[0011]出现次数计算单元,其计算上述η元组的候选集中的η元组在语言环境中的出现次数;
[0012]概率赋予单元,其对出现次数低于预定的第I阈值的η元组赋予预定的概率;以及
[0013]第I添加单元,其将上述出现次数低于上述第I阈值的η元组及其概率加入上述语目模型。
[0014][2]根据上述[I]的改进语言模型的装置,其中,上述出现次数计算单元,利用搜索引擎计算上述η元组的候选集中的η元组在上述搜索引擎的数据库中的出现次数。
[0015][3]根据上述[I]或[2]的改进语言模型的装置,还包括:
[0016]过滤单元,其利用上述语言模型或其他语言模型对上述η元组的候选集进行过滤。
[0017][4]根据上述[3]的改进语言模型的装置,其中,上述过滤单元包括:
[0018]概率计算单元,其利用上述语言模型或其他语言模型计算上述η元组的候选集中的η元组的概率;以及
[0019]删除单元,其将计算出的概率高于预定的第2阈值的η元组从上述η元组的候选集中删除。
[0020][5]根据上述[4]的改进语言模型的装置,还包括:
[0021]第2添加单元,其将计算出的概率小于等于上述第2阈值且出现次数大于等于上述第I阈值的η元组,添加到训练上述语言模型所使用的训练语料中;以及
[0022]训练单元,其利用上述进行了添加的训练语料对上述语言模型重新进行训练。
[0023][6]根据上述[5]的改进语言模型的装置,其中,上述计算出的概率小于等于上述第2阈值且出现次数大于等于上述第I阈值的η元组,是上述训练语料中数据稀疏的η元组。
[0024][7]根据上述[I]?[6]的任一项的改进语言模型的装置,其中,上述出现次数低于上述第I阈值的η元组是不符合语言习惯的η元组。
[0025][8]根据上述[I]?[7]的任一项的改进语言模型的装置,其中,上述预定的概率在上述语言模型中的上述多个η元组的概率的最低值以下。
[0026][9]根据上述[I]?[8]的任一项的改进语言模型的装置,其中,上述候选集生成单元包括:
[0027]输入单元,其提供至少一个待翻译的句子;
[0028]翻译单元,其对上述句子进行翻译以获得翻译结果;以及
[0029]提取单元,其从上述翻译结果中提取多个η元组作为上述η元组的候选集。
[0030][10] 一种机器翻译系统,包括:
[0031]输入单元,其提供至少一个待翻译的句子;
[0032]翻译单元,其利用翻译模型和语言模型对上述句子进行翻译以获得翻译结果;
[0033]提取单元,其从上述翻译结果中提取多个η元组作为η元组的候选集;
[0034]出现次数计算单元,其计算上述η元组的候选集中的η元组在语言环境中的出现次数;
[0035]概率赋予单元,其对出现次数低于预定的第I阈值的η元组赋予预定的概率;以及
[0036]第I添加单元,其将上述出现次数低于上述第I阈值的η元组及其概率加入上述语目模型;
[0037]其中,上述机器翻译系统,利用上述翻译单元、上述提取单元、上述出现次数计算单元、上述概率赋予单元和上述第I添加单元,重复对上述句子进行翻译,直到上述η元组的候选集中没有出现次数低于上述第I阈值的η元组。
[0038][11] 一种改进语言模型的方法,其中,上述语言模型包括多个η元组及其概率;上述方法包括以下步骤:
[0039]生成η元组的候选集;
[0040]计算上述η元组的候选集中的η元组在语言环境中的出现次数;
[0041]对出现次数低于预定的第I阈值的η元组赋予预定的概率;以及
[0042]将上述出现次数低于上述第I阈值的η元组及其概率加入上述语言模型。
[0043][12]根据上述[11]的改进语言模型的方法,其中,上述计算上述η元组的候选集中的η元组在语言环境中的出现次数的步骤包括:
[0044]利用搜索引擎计算上述η元组的候选集中的η元组在上述搜索引擎的数据库中的出现次数。
[0045][13]根据上述[11]或[12]的改进语言模型的方法,其中,在上述计算上述η元组的候选集中的η元组在语言环境中的出现次数的步骤之前还包括以下步骤:
[0046]利用上述语言模型或其他语言模型对上述η元组的候选集进行过滤。
[0047][14]根据上述[13]的改进语言模型的方法,其中,上述利用上述语言模型或其他语言模型对上述η元组的候选集进行过滤的步骤包括:
[0048]利用上述语言模型或其他语言模型计算上述η元组的候选集中的η元组的概率;以及
[0049]将计算出的概率高于预定的第2阈值的η元组从上述η元组的候选集中删除。
[0050][15]根据上述[14]的改进语言模型的方法,还包括以下步骤:
[0051]将计算出的概率小于等于上述第2阈值且出现次数大于等于上述第I阈值的η元组,添加到训练上述语言模型所使用的训练语料中;以及
[0052]利用上述进行了添加的训练语料对上述语言模型重新进行训练。
[0053][16]根据上述[15]的改进语言模型的方法,其中,上述计算出的概率小于等于上述第2阈值且出现次数大于等于上述第I阈值的η元组,是上述训练语料中数据稀疏的η元组。
[0054][17]根据上述[11]?[16]的任一项的改进语言模型的方法,其中,上述出现次数低于上述第I阈值的η元组是不符合语言习惯的η元组。
[0055][18]根据上述[11]?[17]的任一项的改进语言模型的方法,其中,上述预定的概率在上述语言模型中的上述多个η元组的概率的最低值以下。
[0056][19]根据上述[11]?[18]的任一项的改进语言模型的方法,其中,上述生成η元组的候选集的步骤包括:
[0057]提供至少一个待翻译的句子;
[0058]利用翻译系统对上述句子进行翻译以获得翻译结果;以及
[0059]从上述翻译结果中提取多个η元组作为上述η元组的候选集。
[0060][20] 一种机器翻译方法,包括以下步骤:[0061]提供至少一个待翻译的句子;
[0062]利用翻译模型和语言模型对上述句子进行翻译以获得翻译结果;
[0063]从上述翻译结果中提取多个η元组作为η元组的候选集;
[0064]计算上述η元组的候选集中的η元组在语言环境中的出现次数;
[0065]对出现次数低于预定的第I阈值的η元组赋予预定的概率;
[0066]将上述出现次数低于上述第I阈值的η元组及其概率加入上述语言模型;以及
[0067]重复上述利用上述翻译模型和上述语言模型对上述句子进行翻译以获得翻译结果的步骤至上述将上述出现次数低于上述第I阈值的η元组及其概率加入上述语言模型的步骤,直到上述η元组的候选集中没有出现次数低于上述第I阈值的η元组。
[0068]本发明提出的上述方法和装置能够有效的区分符合语言习惯的和不符合语言习惯的η元组。通过在语言模型中直接增加带有最低概率的不符合语言习惯的η元组,能够避免得到带有这些η元组的输出,同时因为节省了概率计算的时间,提高了翻译的效率。通过在训练语料中增加那些符合语言习惯的η元组,这种方法能够减轻语言模型训练数据的数据稀疏问题。对于机器翻译系统,随着不符合语言习惯的η元组的增加,其翻译质量也在不断的改进。
【专利附图】

【附图说明】
[0069]通过以下结合附图对本发明【具体实施方式】的说明,能够更好地了解本发明上述的特点、优点和目的。
[0070]图1是根据本发明的一个实施例的改进语言模型的方法的流程图。
[0071]图2是根据本发明的改进语言模型的方法中生成η元组的候选集的一个实例的示意图。
[0072]图3是根据本发明的改进语言模型的方法中对η元组的候选集进行过滤的一个实例的示意图。
[0073]图4是根据本发明的另一个实施例的机器翻译方法的流程图。
[0074]图5是根据本发明的另一个实施例的改进语言模型的装置的方框图。
[0075]图6是根据本发明的改进语言模型的装置的一个实例的示意图。
[0076]图7是根据本发明的另一个实施例的机器翻译系统的方框图。
【具体实施方式】
[0077]下面就结合附图对本发明的各个优选实施例进行详细的说明。
[0078]改进语言模型的方法
[0079]图1是根据本发明的一个实施例的改进语言模型的方法的流程图。如图1所示,首先,在步骤S101,生成η元组的候选集。
[0080]在本实施例中,语言模型是本领域的技术人员公知的在统计机器翻译系统中使用的任何基于η元组的语言模型,本发明对此没有任何限制。
[0081]在基于η元组的语言模型中,包括多个η元组(n-gram)及其概率,其中η是大于等于I的整数,例如η元组包括一元组、二元组、三元组等等。基于η元组的语言模型的具体细节可以参见上述非专利文献2。[0082]在步骤SlOl中,可以基于本领域的技术人员公知的任何方法提取多个η元组作为η元组的候选集,本发明对此没有任何限制。优选,从统计机器翻译系统的翻译结果中提取η元组的候选集。图2是根据本发明的改进语言模型的方法中生成η元组的候选集的一个实例的示意图。
[0083]下面参照附图2对生成η元组的候选集的优选方案进行说明。
[0084]如图2所示,统计机器翻译系统包括翻译模型(TM) 40和语言模型(LM) 50。翻译模型40使用双语平行语料进行训练,描述从源语言向目标语言转换的准确程度,语言模型50使用目标语言文本进行训练,描述翻译后句子的流利程度。利用双语平行语料对翻译模型40进行训练的方法以及利用目标语言文本对语言模型50进行翻译的方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
[0085]统计机器翻译系统包括统计机器翻译引擎120,该统计机器翻译引擎120利用翻译模型40和语言模型50对训练句子30进行翻译,这些训练句子30可以单独选取,也可以是训练翻译模型的句子。对于训练句子30中的每个句子,统计机器翻译引擎120取前k个最好的翻译而形成翻译结果60。该统计机器翻译引擎120对训练句子进行翻译的方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
[0086]接着,从统计机器翻译引擎120输出的翻译结果60中提取多个η元组作为η元组的候选集,这里可以从翻译结果60中提取所有的η元组,也可以只提取部分η元组。
[0087]返回图1,在生成η元组的候选集之后,在步骤S105,计算η元组的候选集中的η元组在语言环境中的出现次数。
[0088]在本实施例中,语言环境泛指人类的各种语言环境,例如人类日常进行的对话,即真实的语言环境,也可以是记录语言的图书、资料、数据库等等,例如搜索引擎的数据库。
[0089]在步骤S105,统计η元组的候选集中的每个η元组在上述语言环境中的出现次数。在本实施例中,计算η元组在语言环境中的出现次数的方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
[0090]优选,如图2所示,可以将η元组的候选集提交给搜索引擎80,搜索引擎80计算η元组的候选集中的每个η元组在其数据库中的出现次数。
[0091]返回图1,接着,在步骤S110,对出现次数低于预定的第I阈值的η元组赋予预定的概率。这里,将出现次数低于预定的第I阈值的η元组称为出现次数少的η元组90,将出现次数大于等于第I阈值的η元组称为出现次数多的η元组100。
[0092]在本实施例中,第I阈值可以根据实际情况进行设定,例如根据搜索引擎的数据库的大小进行设定,只要能够根据第I阈值确定出现次数少的η元组90是不符合语言习惯的η元组即可。也就是说,第I阈值用于将η元组的候选集分类为不符合语言习惯的η元组即出现次数少的η元组90和符合语言习惯的η元组即出现次数多的η元组100。
[0093]在步骤S110,对出现次数少的η元组90,赋予预定的概率。这里,预定的概率可以根据实际情况进行设定,例如可以设为在语言模型50中的多个η元组的概率的最低值或以下的值,目的在于使出现次数少的η元组90不在翻译结果中出现。
[0094]最后,在步骤S115,将出现次数低于第I阈值的η元组及其概率加入语言模型50。
[0095]本实施例的改进语言模型的方法,通过将η元组的候选集中的不符合语言习惯的η元组找出,对其赋予低的概率,并将不符合语言习惯的η元组及其概率加入语言模型50,可以避免这些不符合语言习惯的η元组在翻译结果中出现,从而提高了翻译质量。同时,利用通过本实施例的方法改进的语言模型进行翻译,能够节省概率计算的时间,提高翻译的效率。
[0096]在本实施例中,在生成η元组的候选集之后,直接计算η元组的候选集中的η元组在语言环境中的出现次数,但是,可选地,可以在生成η元组的候选集之后,对其进行过滤。图3是根据本发明的改进语言模型的方法中对η元组的候选集进行过滤的一个实例的示意图。
[0097]如图3所示,在从翻译结果60中提取出η元组的候选集70之后,在步骤S103,利用语言模型50或其他语言模型计算η元组的候选集中的η元组的概率,并利用预定的第2阈值将η元组的候选集70分类为概率高的η元组130和概率低的η元组140。这里,第2阈值可以根据实际情况进行设定,本发明对此没有任何限定。
[0098]接着,将计算出的概率高于预定的第2阈值的η元组130从η元组的候选集70中删除,即仅仅将概率低的η元组140提交给搜索引擎80。
[0099]如上所述,通过将概率高的η元组130从η元组的候选集70中删除,可以减轻搜索引擎80的计算负担,提高效率。
[0100]接着,通过搜索引擎80,利用上述第I阈值,将概率低的η元组140分类为出现次数少的η元组90和出现次数多的η元组100’。这里,出现次数少的η元组90表示不符合语言习惯的η元组。出现次数多的η元组100’表示在η元组的候选集中的在步骤S103计算出的概率小于等于第2阈值且出现次数大于等于第I阈值的η元组,即表示在η元组的候选集中的符合语言习惯但是在训练语料110中数据稀疏的η元组。
[0101]本实施例的改进语言模型的方法,优选包括将出现次数多的η元组100’添加到训练语言模型50所使用的训练语料110中,以及利用上述进行了添加的训练语料对语言模型50重新进行训练。
[0102]由此,本实施例的改进语言模型的方法,通过将符合语言习惯但数据稀疏的η元组加入训练语料110中,可以进一步改善训练语料110的数据稀疏的问题。
[0103]机器翻译方法
[0104]在同一发明构思下,图4是根据本发明的另一个实施例的机器翻译方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
[0105]本实施例的机器翻译方法,包括以下步骤:提供至少一个待翻译的句子;利用翻译模型和语言模型对上述句子进行翻译以获得翻译结果;从上述翻译结果中提取多个η元组作为η元组的候选集;计算上述η元组的候选集中的η元组在语言环境中的出现次数;对出现次数低于预定的第I阈值的η元组赋予预定的概率;将上述出现次数低于上述第I阈值的η元组及其概率加入上述语言模型;以及重复上述利用上述翻译模型和上述语言模型对上述句子进行翻译以获得翻译结果的步骤至上述将上述出现次数低于上述第I阈值的η元组及其概率加入上述语言模型的步骤,直到上述η元组的候选集中没有出现次数低于上述第I阈值的η元组。
[0106]具体地,如图4所示,在步骤S401,提供待翻译的句子。待翻译的句子可以是源语言的任何需要翻译的句子。[0107]接着,在步骤S402,利用翻译模型40和语言模型50对待翻译的句子进行翻译以获得翻译结果,例如取前k个最好的翻译作为翻译结果。
[0108]接着,在步骤S403,从翻译结果中提取多个η元组作为η元组的候选集,例如从翻译结果中提取所有的η元组作为η元组的候选集。
[0109]接着,在步骤S404,计算η元组的候选集中的η元组在语言环境中的出现次数,例如,将η元组的候选集提交给搜索引擎来计算在搜索引擎的数据库中的出现次数。
[0110]这里,在计算出现次数之前,也可以如上所述,对η元组的候选集进行过滤,以减轻搜索引擎的计算负担。
[0111]接着,在步骤S405,判断是否存在出现次数低于第I阈值的η元组。
[0112]在步骤S405,如果判断为是,则进行到步骤S406,在步骤S406,对出现次数低于第I阈值的η元组赋予预定的概率,例如赋予在语言模型中的多个η元组的最低概率或以下的概率。
[0113]接着,在步骤S407,将出现次数低于第I阈值的η元组及其概率加入语言模型,返回到步骤S402,再次对待翻译的句子进行翻译。这样,会得到另一个不同结果的翻译(因为前面的翻译结果的概率被降低了,所以不会再作为最优的结果输出)。这一个过程不断进行,直到所有的N元组的出现次数都大于等于第I阈值,即在步骤S405中判断为不存在出现次数低于第I阈值的η元组。此时,翻译结果中不包含不符合语言习惯的η元组,这时将其作为翻译方法的最终输出。
[0114]本实施例的机器翻译方法,通过自动循环的方法给翻译结果中不符合语言习惯的η元组赋予最低的概率,避免不符合语言习惯的η元组再次出现在翻译结果中,从而可以避免在最终的翻译结果中包含不符合语言习惯的片段,提高了翻译质量。
[0115]改进语言模型的装置
[0116]在同一发明构思下,图5是根据本发明的另一个实施例的改进语言模型的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
[0117]如图5所示,本实施例的改进语言模型的装置500包括:候选集生成单元501,其生成η元组的候选集;出现次数计算单元505,其计算上述η元组的候选集中的η元组在语言环境中的出现次数;概率赋予单元510,其对出现次数低于预定的第I阈值的η元组赋予预定的概率;以及第I添加单元515,其将上述出现次数低于上述第I阈值的η元组及其概率加入上述语目模型。
[0118]在本实施例中,语言模型是本领域的技术人员公知的在统计机器翻译系统中使用的任何基于η元组的语言模型,本发明对此没有任何限制。
[0119]在基于η元组的语言模型中,包括多个η元组(n-gram)及其概率,其中η是大于等于I的整数,例如η元组包括一元组、二元组、三元组等等。基于η元组的语言模型的具体细节可以参见上述非专利文献2。
[0120]候选集生成单元501,可以基于本领域的技术人员公知的任何方法提取多个η元组作为η元组的候选集,本发明对此没有任何限制。优选,从统计机器翻译系统的翻译结果中提取η元组的候选集。图6是根据本发明的改进语言模型的装置的一个实例的示意图。
[0121]下面参照附图6对候选集生成单元501的优选方案进行说明。[0122]如图6所示,统计机器翻译系统包括翻译模型(TM) 40和语言模型(LM) 50。翻译模型40使用双语平行语料进行训练,描述从源语言向目标语言转换的准确程度,语言模型50使用目标语言文本进行训练,描述翻译后句子的流利程度。利用双语平行语料对翻译模型40进行训练的方法以及利用目标语言文本对语言模型50进行训练的方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
[0123]候选集生成单元501优选包括:输入单元601,其提供至少一个待翻译的句子;翻译单元605,其对上述句子进行翻译以获得翻译结果;以及提取单元610,其从上述翻译结果中提取多个η元组作为上述η元组的候选集。
[0124]翻译单元605利用翻译模型40和语言模型50对输入单元601输入的句子进行翻译,取前k个最好的翻译而形成翻译结果。翻译单元605对输入的句子进行翻译的方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
[0125]提取单元610从翻译单元605输出的翻译结果中提取多个η元组作为η元组的候选集,这里可以从翻译结果中提取所有的η元组,也可以只提取部分η元组。
[0126]在本实施例中,在候选集生成单元生成η元组的候选集之后,可以直接计算η元组的候选集中的η元组在语言环境中的出现次数,但是,优选利用过滤单元630对η元组的候选集进行过滤。
[0127]如图6所示,在从翻译结果中提取出η元组的候选集70之后,过滤单元630的概率计算单元,利用语言模型50或其他语言模型计算η元组的候选集中的η元组的概率。这里,第2阈值可以根据实际情况进行设定,本发明对此没有任何限定。
[0128]过滤单元630的删除单元,将计算出的概率高于预定的第2阈值的η元组从η元组的候选集70中删除,即仅仅将概率低的η元组140提交给出现次数计算单元505。
[0129]由此,通过将概率高的η元组从η元组的候选集70中删除,可以减轻出现次数计算单元505的计算负担,提高效率。
[0130]返回图5,出现次数计算单元505,在候选集生成单元501生成η元组的候选集之后,计算η元组的候选集中的η元组在语言环境中的出现次数。
[0131]在本实施例中,语言环境泛指人类的各种语言环境,例如人类日常进行的对话,SP真实的语言环境,也可以是记录语言的图书、资料、数据库等等,例如搜索引擎的数据库。
[0132]具体地,如图6所示,出现次数计算单元505统计概率低的η元组140中的每个η元组在上述语言环境中的出现次数。在本实施例中,计算η元组在语言环境中的出现次数的方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
[0133]优选,如上述参考图2的实施例所述,可以将η元组的候选集提交给搜索引擎80,搜索引擎80计算η元组的候选集中的每个η元组在其数据库中的出现次数。
[0134]本实施例的改进语言模型的装置,通过搜索引擎80,利用上述第I阈值,将概率低的η元组140分类为出现次数少的η元组90和出现次数多的η元组100’。这里,出现次数少的η元组90表示不符合语言习惯的η元组。出现次数多的η元组100’表示在η元组的候选集中的过滤单元630计算出的概率小于等于第2阈值且出现次数大于等于第I阈值的η元组,即表示在η元组的候选集中的符合语言习惯但是在训练语料110中数据稀疏的η元组。
[0135]本实施例的改进语言模型的装置,优选包括:第2添加单元,其将出现次数多的η元组100’添加到训练语言模型50所使用的训练语料110中,以及训练单元635,其利用上述进行了添加的训练语料对语言模型50重新进行训练。
[0136]返回图5,概率赋予单元510,对出现次数低于预定的第I阈值的η元组赋予预定的概率。这里,将出现次数低于预定的第I阈值的η元组称为出现次数少的η元组90,将出现次数大于等于第I阈值的η元组称为出现次数多的η元组100。
[0137]在本实施例中,第I阈值可以根据实际情况进行设定,例如根据搜索引擎的数据库的大小进行设定,只要能够根据第I阈值确定出现次数少的η元组90是不符合语言习惯的η元组即可。也就是说,第I阈值用于将η元组的候选集分类为不符合语言习惯的η元组即出现次数少的η元组90和符合语言习惯的η元组即出现次数多的η元组100。
[0138]这里,预定的概率可以根据实际情况进行设定,例如可以设为在语言模型50中的多个η元组的概率的最低值或以下的值,目的在于使出现次数少的η元组90不在翻译结果中出现。
[0139]第I添加单元515,将出现次数低于第I阈值的η元组及其概率加入语言模型50。
[0140]本实施例的改进语言模型的装置500(600),通过将η元组的候选集中的不符合语言习惯的η元组找出,对其赋予低的概率,并将不符合语言习惯的η元组及其概率加入语言模型50,可以避免这些不符合语言习惯的η元组在翻译结果中出现,从而提高了翻译质量。同时,利用通过本实施例的装置500 (600)改进的语言模型进行翻译,能够节省概率计算的时间,提闻翻译的效率。
[0141]另外,本实施例的改进语言模型的装置500 (600),通过将符合语言习惯但数据稀疏的η元组加入训练语料110中,可以进一步改善训练语料110的数据稀疏的问题。
[0142]机器翻译系统
[0143]在同一发明构思下,图7是根据本发明的另一个实施例的机器翻译系统的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
[0144]本实施例的机器翻译系统700,包括:输入单元701,其提供至少一个待翻译的句子;翻译单元705,其利用翻译模型和语言模型对上述句子进行翻译以获得翻译结果;提取单元710,其从上述翻译结果中提取多个η元组作为η元组的候选集;出现次数计算单元715,其计算上述η元组的候选集中的η元组在语言环境中的出现次数;概率赋予单元720,其对出现次数低于预定的第I阈值的η元组赋予预定的概率;以及第I添加单元725,其将上述出现次数低于上述第I阈值的η元组及其概率加入上述语言模型;其中,上述机器翻译系统,利用上述翻译单元705、上述提取单元710、上述出现次数计算单元715、上述概率赋予单元720和上述第I添加单元725,重复对上述句子进行翻译,直到上述η元组的候选集中没有出现次数低于上述第I阈值的η元组。
[0145]输入单元701提供待翻译的句子。待翻译的句子可以源语言的任何需要翻译的句子。
[0146]翻译单元705利用翻译模型40和语言模型50对待翻译的句子进行翻译以获得翻译结果,例如取前k个最好的翻译作为翻译结果。
[0147]提取单元710从翻译结果中提取多个η元组作为η元组的候选集,例如从翻译结果中提取所有的η元组作为η元组的候选集。[0148]出现次数计算单元715,计算η元组的候选集中的η元组在语言环境中的出现次数,例如,将η元组的候选集提交给搜索引擎来计算在搜索引擎的数据库中的出现次数。
[0149]这里,在计算出现次数之前,也可以如上所述,对η元组的候选集进行过滤,以减轻搜索引擎的计算负担。
[0150]概率赋予单元720,对出现次数低于第I阈值的η元组赋予预定的概率,例如赋予在语言模型中的多个η元组的最低概率或以下的概率。
[0151]第I添加单元725,将出现次数低于第I阈值的η元组及其概率加入语言模型。
[0152]上述机器翻译系统700,再次对待翻译的句子进行翻译。这样,会得到另一个不同结果的翻译(因为前面的翻译结果的概率被降低了,所以不会再作为最优的结果输出)。这一个过程不断进行,直到所有的η元组的出现次数都大于等于第I阈值,即不存在出现次数低于第I阈值的η元组。此时,翻译结果中不包含不符合语言习惯的η元组,这时将其作为机器翻译系统700的最终输出。
[0153]本实施例的机器翻译系统700,通过自动循环的方法给翻译结果中不符合语言习惯的η元组赋予最低的概率,避免不符合语言习惯的η元组再次出现在翻译结果中,从而可以避免在最终的翻译结果中包含不符合语言习惯的片段,提高了翻译质量。
[0154]以上虽然通过一些示例性的实施例详细地描述了本发明的改进语言模型的方法,机器翻译方法,改进语言模型的装置以及机器翻译系统,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。
【权利要求】
1.一种改进语言模型的装置,其中,上述语言模型包括多个η元组及其概率;上述装置包括: 候选集生成单元,其生成η元组的候选集; 出现次数计算单元,其计算上述η元组的候选集中的η元组在语言环境中的出现次数; 概率赋予单元,其对出现次数低于预定的第I阈值的η元组赋予预定的概率;以及第I添加单元,其将上述出现次数低于上述第I阈值的η元组及其概率加入上述语言模型。
2.根据权利要求1所述的改进语言模型的装置,其中,上述出现次数计算单元,利用搜索引擎计算上述η元组的候选集中的η元组在上述搜索引擎的数据库中的出现次数。
3.根据权利要求1所述的改进语言模型的装置,还包括: 过滤单元,其利用上述语言模型或其他语言模型对上述η元组的候选集进行过滤。
4.根据权利要求3所述的改进语言模型的装置,其中,上述过滤单元包括: 概率计算单元,其利用上述语言模型或其他语言模型计算上述η元组的候选集中的η元组的概率;以及 删除单元,其将计算出的概率高于预定的第2阈值的η元组从上述η元组的候选集中删除。
5.根据权利要求4所述的改进语言模型的装置,还包括: 第2添加单元,其将计算出的概率小于等于上述第2阈值且出现次数大于等于上述第I阈值的η元组,添加到训练上述语言模型所使用的训练语料中;以及 训练单元,其利用上述进行了添加的训练语料对上述语言模型重新进行训练。
6.根据权利要求5所述的改进语言模型的装置,其中,上述计算出的概率小于等于上述第2阈值且出现次数大于等于上述第I阈值的η元组,是上述训练语料中数据稀疏的η元组。
7.根据权利要求1所述的改进语言模型的装置,其中,上述出现次数低于上述第I阈值的η元组是不符合语言习惯的η元组。
8.根据权利要求7所述的改进语言模型的装置,其中,上述预定的概率在上述语言模型中的上述多个η元组的概率的最低值以下。
9.根据权利要求1所述的改进语言模型的装置,其中,上述候选集生成单元包括: 输入单元,其提供至少一个待翻译的句子; 翻译单元,其对上述句子进行翻译以获得翻译结果;以及 提取单元,其从上述翻译结果中提取多个η元组作为上述η元组的候选集。
10.一种改进语言模型的方法,其中,上述语言模型包括多个η元组及其概率;上述方法包括以下步骤: 生成η元组的候选集; 计算上述η元组的候选集中的η元组在语言环境中的出现次数; 对出现次数低于预定的第I阈值的η元组赋予预定的概率;以及 将上述出现次数低于上述第I阈值的η元组及其概率加入上述语言模型。
【文档编号】G06F17/28GK103631771SQ201210310929
【公开日】2014年3月12日 申请日期:2012年8月28日 优先权日:2012年8月28日
【发明者】张大鲲, 郭玉箐 申请人:株式会社 东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1