多语机器翻译智能辅助处理方法和系统的制作方法

文档序号:6379638阅读:198来源:国知局
专利名称:多语机器翻译智能辅助处理方法和系统的制作方法
技术领域
本发明涉及自然语言计算机处理技术领域,尤其是涉及机器翻译技术领域,特别是涉及一种多语机器翻译智能辅助处理方法和系统。
背景技术
在文本翻译的过程中,翻译人员通常需要将一种语言(源语言)翻译成另外一种语目(目标语目)。
近年来,基于机器翻译和翻译记忆的计算机辅助翻译解决了人工翻译中的一些问题,但是计算机辅助翻译通常有三个问题。第一,基于词的辅助翻译提示的粒度太小,部分词语的在句子中的翻译往往不是词语直接对应的目标语言候选。第二,基于移动调序的机器翻译后编辑形式的辅助翻译,很费时费力,翻译人员操作很不方便。第三,基于机器翻译的以短语为粒度的候选提示,首先将所有的短语翻译候选列出,然后让操作人员通过选择候选的方式的进行后编辑,这种方式一定程度地解决了词粒度的候选提示问题。但是,这种方式的短语候选翻译列表不能根据翻译人员输入而动态改变。翻译人员在翻译的过程中,要进行目标语言的输入。现有的目标语言输入方法通常是一种语言的音字转换过程,从翻译文本录入过程的角度来看,现有方法主要有四个不足。第一,现有的方法通常直接针对目标语言而设计,没有利用源语言的信息;第二,现有的方法,没有把人工翻译和机器翻译交互式地结合起来;第三,现有的方法很少有支持翻译的功能,翻译的粒度不够。第四,现有的方法无法结合已输入的目标语言上下文和翻译人员翻译习惯的进行智能翻译。

发明内容
本发明提供了一种多语机器翻译智能辅助处理方法和系统,其克服现有技术中存在的不足,加快多语翻译的速度,用户体验好,智能化程度高,提高了翻译准确度。为实现本发明目的而提供了一种多语机器翻译智能辅助处理方法,包括如下步骤步骤S100,根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展;步骤S200,根据源语言未翻译的区间扩展,生成K-best提示集;并根据源语言未翻译的区间和已翻译的目标语言生成输入历史提示集和语言模型提示集;步骤S300,结合输入历史提示集、语言模型提示集、以及K-best提示集,生成所述源语言未翻译源区间对应的目标语言的候选集。较优地,作为一可实施例,所述的多语机器翻译智能辅助处理方法,所述步骤S300之后还包括如下步骤步骤S400,显示所述目标语言的候选集,等待用户输入或者选择,并在捕捉到用户输入或者选择动作后,得到未翻译源语言翻译对应的目标语言,返回到步骤Sioo重新进行未翻译源语言翻译,直至翻译完成。
较优地,作为一可实施例,所述步骤SlOO包括如下步骤步骤S110,设已翻译目标语言集E=ei. . . effl(m>=l),则确定一个E的划分S: {(a, b) I l=〈a〈=b〈=m},对于任意的一个元素(a, b)属于S,计算确定一个源语言集对应的区间(a’,b’)的集合T,得到已翻译源语言区间集合;步骤S120,将集合T的每一个区间序列作为一个实例采用语言模型解码方法采用不同的短语特征对对应的源语言未翻译的区间进行扩展。较优地,作为一可实施例,所述步骤S200中,根据源语言未翻译的区间扩展,生成K-best提示集,包括如下步骤步骤S210,根据未翻译的区间扩展,获取源语言未翻译的区间对应的翻译结果中前K个最好的结果,其中,K为大于等于O的整数; 步骤S220,将前K个最好的结果作为K-best提示集中的提示的字符串,并计算所述K个K-best提示集中的提示的字符串对应的概率,将提示的类型设置为2,生成K-best提示集。较优地,作为一可实施例,所述步骤S200中,根据源语言未翻译的区间和已翻译目标语言,利用用户输入历史集,生成输入历史提示集,包括如下步骤步骤S211’,初始化候选的输入历史提示集为空,根据源语言未翻译的区间,获得源语言未翻译的区间中已输入的字符串的后η个词previous_n_word, η为整数,η与所用的语言模型相对应;步骤S212’,将源语言未翻译的区间全切分,得到不同的源语言片段,并根据源语言片段从语言模型集中检索获取对应的所有可能的候选目标翻译语言的短语作为源语言片段对应的候选短语集S ;步骤S213’,根据η个词previous_n_word和所述源语言片段对应的候选短语集,通过最小编辑距离算法,计算相似度,相似度大于等于阈值KT的词作为候选的源语言集合{source_word};步骤S214’,根据previous_n_word和{source_word}查询用户输入历史集,并将查询结果加入候选的输入历史提示集,其中对于action为〃选择提示",直接将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为O ;对于action为〃插入〃,将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为O ;对于action为”不选择提示”,将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为O ;对于action为“删除”的,将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为3 ;步骤S215’,根据出现次数的多少,将候选的输入历史提示集中的前K’个作为结果作为输入历史提示集中的提示的字符串,并计算所述K’个输入历史提示集中的提示的字符串对应的概率,以及对应的提示的类型,生成输入历史提示集;其中,K’为大于等于I的整数。较优地,作为一可实施例,所述步骤S200中,根据源语言未翻译的区间和已翻译目标语言,生成语言模型提示集,包括如下步骤步骤S211 ”,根据所获得的目标语言的语料,训练一个N-Gram语言模型;步骤S212”,将源语言未翻译的区间扩展全切分,得到不同的源语言片段,并根据源语言片段从语言模型集中检索获取对应的所有可能的候选目标翻译语言的短语作为源语言片段对应的候选短语集S ;步骤S213”,对于短语翻译候选集合S中的一个串S,枚举s的所有前缀,构成一个S的前缀集S_Prefix ;步骤S214”,根据用户已输入的字符串,从后往前,分别取I-gram, 2-gram,. . . , n-gram的字符串,得到一个字符串集合T ;步骤S215”,对于T中的每一个串t,在N-Gram语言模型中搜索所有以s为前缀的串,并记录该串对应的概率,并将搜索到的集合添加到候选提示集T_candidate中; 步骤S216”,对候选提示集T_candidate中的每一个串t_c,计算与前缀集S_Prefix的距离;其中,所述距离为串t_c与前前缀集S_prefix中的任意一个串的最大相似度;步骤S217”,根据相似度排序,取前K”个作为候选的结果;其中,K”为大于等于I的整数;步骤S218”,对K”个候选的结果的概率做归一化;步骤S219”,将前K”个候选的结果作为语言模型提示集中的提示的字符串,将相对应的归一化后的概率作为相应的字符串对应的概率,将提示的类型设置为1,生成语言模型提示集。较优地,作为一可实施例,所述步骤S300包括如下步骤步骤S310,获得输入历史提示集中提示类型为3的所有提示的集合A_delete,剩余的为集合A_history ;步骤S320,检索语言模型提示集,K-best提示集;若语言模型提示集,K_best提示集中的提示在集合A_delete中存在,则将该提示删除;否则保留;步骤S330,对于集语言模型提示集,K-best提示集中的剩下的每个目标语言候选提示,将该每个目标语言候选提示对应的概率分别乘以相应的权重Wa,Wb,Wc,得到最后的概率值,并按最后的概率值大小排序,取前Ν__个结果,作为目标语言候选集;其中,Ntjbj为大于等于I的整数。较优地,作为一可实施例,所述的多语机器翻译智能辅助处理方法,所述步骤S400在得到目标语言后,返回步骤Sioo前,还包括如下步骤步骤S400’,记录用户的输入或者选择动作,将用户的输入记录到用户的输入历史集。为实现本发明目的还提供一种多语机器翻译智能辅助处理系统,包括扩展模块,提示集生成模块和候选集生成模块,其中所述扩展模块,用于根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展;所述提示集生成模块,用于根据源语言未翻译的区间扩展,生成K-best提示集;并根据源语言未翻译的区间和已翻译的目标语言生成输入历史提示集和语言模型提示集;所述候选集生成模块,用于结合输入历史提示集、语言模型提示集、以及K-best提示集,生成所述源语言未翻译源区间对应的目标语言的候选集。较优地,作为一可实施例,所述的多语机器翻译智能辅助处理系统,还包括显示处理模块,用于显示所述目标语言的候选集,等待用户输入或者选择,并在捕捉到用户输入或者选择动作后,得到未翻译源语言翻译对应的目标语言,返回重新进行未翻译源语言翻译,直至翻译完成。较优地,作为一可实施例,所述的多语机器翻译智能辅助处理系统,还包括记录模块,用于记录用户的输入或者选择动作,将用户的输入记录到用户的输入历史集。本发明的有益效果包括本发明提供的一种多语机器翻译智能辅助处理方法和 系统,将用户输入和机器翻译结合起来,融入到机器翻译的语言模型和翻译解码过程中,为用户提供更好的翻译输入体验,可以在用户无输入,输入部分字母或者单词以及选择候选之后分别给出针对性的智能提示,加快了翻译的速度,又给出了更好的翻译建议,其加快了多语翻译的速度,用户体验非常好,并且学习翻译智能化程度高,从而进一步提高翻译准确度。


以下,结合附图详细说明本发明的实施例,其中图I为本发明的多语机器翻译智能辅助处理方法一实施例的流程图;图2为本发明实施例的多语机器翻译智能辅助处理系统结构示意图。
具体实施例方式下面结合说明书附图,对本发明多语机器翻译智能辅助处理方法和系统的具体实施方式
进行说明。本发明实施例中,以汉-英或者英-汉机器翻译为例,对本发明实施例的多语机器翻译智能辅助处理方法和系统进行详细说明,但应当理解的是,本发明同样适用于多种语言之间的机器翻译,本发明请求保护的范围以权利要求书所请求保护的范围为准,并不限于汉-英或者英-汉两种语言的机器翻译,亦不限于两种语言之间的机器翻译。本发明实施例的多语机器翻译智能辅助处理方法,通过支持翻译的英汉、汉英双语输入法智能辅助处理,解决计算机机器辅助翻译过程中所存在的问题和不足。本发明实施例的多语机器翻译智能辅助处理方法,如图I所示,包括如下步骤步骤S100,根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展;作为一种可实施方式,在步骤SlOO包括如下步骤步骤S110,设已翻译目标语言集E=ei. . . effl(m>=l),则确定一个E的划分S: {(a, b) I l=〈a〈=b〈=m},对于任意的一个元素(a, b)属于S,计算确定一个源语言集对应的区间(a’,b’)的集合T,得到已翻译源语言区间集合。本发明实施例中,通过枚举E的所有可能的划分,即可以得所有合理的T的集合。
本发明实施例多语机器翻译智能辅助处理过程中,需要确定目标语言的某一个区间是由源语言的哪一个区间翻译过去的,并在确定了源语言已翻译的区间后进行之后的翻译扩展,得到源语言未翻译的区间。由于已翻译得到的目标语言,可能是用户输入翻译的;或者可能是用户从目标语言候选集中选择的;或者可能是用户先从目标语言候选集中进行选择,再进行翻译调整得至IJ。因此,它们对应的源语言区间也不是确定的。而且用户输入的行为又多变,翻译的顺序也不一定是从第一个短语开始翻译,因此,为了保持翻译提示的过程的一致性,本发明实施例中,需要确定源语言已翻译区间。较佳地,作为一种可实施方式,步骤S110,根据源语言和已翻译目标语言获取源语言已翻译的区间,包括如下步骤步骤S111,设源语言的词序列为C1. . . Cn ;目标语言已翻译的词序列为ei. . . em,其中,n、m为整数; 步骤S112,枚举区间[l,m]的所有可能划分,得到集合S ;步骤S113,根据已翻译源语言从语言模型集中检索获取所有可能的候选目标翻译语目短语集合P ;其中,所述语言模型集(也称为短语模型集)是根据大规模的训练语料训练得到的多语机器翻译的语言模型集。所述大规模的训练语料可以通过购买和网络挖掘得到,例如互译的汉英句对等。作为一种可实施方式,所述语言模型集可以由统计机器翻译工具包Moses训练出语言模型而得到。训练语言模型是统计机器翻译模型中最为成熟的模型之一,语言模型以双语短语为基本的建模单元。从语言模型集中检索获取所有可能的候选目标翻译语言短语是一种现有技术,因此,在本发明实施例中,不再详细描述。本发明实施例中,较佳地,作为一种可实施方式,所述训练语言模型集采用判别式模型进行训练,可以融合自定义的特征,使得语言模型可以更方便的扩展,大大提高了模型的适应性。步骤SI 14,对于集合S中的每一个可能划分S,设置一个临时的集合D,对于划分s中的任意一个元素[a, b], l=〈a〈=b〈=m ;步骤SI 15,对于P中的任意一个原始元素p,查找与ea. . . eb最相似的类似元素P* ;如果目标语言(a,b)区间对应的串ea. . . eb,与源语言区间(a’,b’)的对应的候选目标语言翻译短语集中某一个最相似,即认为这两个区间对应;作为一种可实施方式,所述相似度计算的方法为最小编辑距离计算方法。步骤S116,根据类似元素P*,查找到类似元素P*对应的源语言的区间d,将d加入到D中;步骤S117,判断D是否有重叠元素,如无,则将D加入到已翻译源语言区间集合T中,直至S中所有元素的划分完成。步骤S120,将集合T的每一个区间序列作为一个实例采用语言模型解码方法采用不同的短语特征对对应的源语言未翻译的区间进行扩展。所述语言模型解码方法采用短语特征进行扩展是一种现有技术,因此,在本发明实施例中,不再详细描述。作为一种可实施方式,本发明的语言模型解码方法进行扩展采用的特征包括但不限于正向短语翻译概率,正向短语词汇化翻译概率,逆向短语翻译概率,逆向短语词汇化翻译概率,短语长度,词长度,调序的距离,双向单调、交换、不连续(MSD)调序,语言模型,用户历史命中次数及其组合等特征。本发明实施例中,通过采用语言模型集,使用了跟用户输入历史有关的特征等进行扩展,增加了机器翻译的智能性,使得机器翻译时的扩展更具有针对性。步骤S200,根据源语言未翻译的区间扩展,生成K-best提示集;并根据源语言未翻译的区间和已翻译的目标语言生成输入历史提示集和语言模型提示集;较佳地,作为一种可实施方式,所述输入历史提示集、语言模型提示集、以及K-best提示集的字段格式相同,均为{提示的字符串;该字符串对应的概率;提示的类型}。 其中,类型O表示输入历史提示;类型I表示语言模型提示;类型2表示K-best提示;类型3表示输出历史中的动作类型为删除词的提示。较佳地,作为一种可实施方式,所述步骤S200中,根据源语言未翻译的区间扩展,生成K-best提示集,包括如下步骤步骤S210,根据未翻译的区间扩展,获取源语言未翻译的区间对应的翻译结果中前K个最好的结果(K-best),其中,K为大于等于O的整数;步骤S220,将前K个最好的结果作为K-best提示集中的提示的字符串,并计算所述K个K-best提示集中的提示的字符串对应的概率,将提示的类型设置为2,生成K-best提示集。较佳地,所述K-best集合合并采用的是最长公共前缀分组合并的方法,分组后的最长公共前缀概率作为K-best提示集中的每一字符串对应的概率,该分组后的最长公共前缀概率采用了组内平均的方式进行计算。即前K个最好的结果(K-best)采用最长公共前缀的方式进行分组,不同的前缀集合即为合并结果,计算得到合并后的概率,作为所有相同前缀的串的概率平均。较佳地,作为一种可实施方式,所述步骤S200中,根据源语言未翻译的区间和已翻译目标语言,生成输入历史提示集,是根据源语言未翻译的区间,利用用户输入历史集,生成输入历史提示集。用户输入历史集,是利用在多语翻译过程中,对从源语言到目标语言的翻译过程中,用户输入或者选择动作的特征,生成的用户输入历史记录集合。其跟不同用户的输入和翻译风格有关。其中,作为一种可实施方式,所述用户输入历史记录的字段为{编号;已输入的目标语言的后η个词(previous_n_word) ;n为整数,与所用的语言模型相对应;已输入的目标语言的后η个词(previous_n_word)所对应的源语言片段集{correlation_source_word};用户输入的动作(action);用户输入的动作所对应的词(action_word);累计出现的次数}其中用户输入的动作(action)集合为{选择提示;不选择提示,直接输入;插入词;删除词};用户输入的动作(action)所对应的词(action_word)为{“选择提示”的action_word为选择提示的内容;“不选择提示,直接输入”的acti0n_W0rd为新输入的词;“插入词”的acti0n_W0rd为当前插入的内容;“删除词”为删除的内容}累计出现的次数是当“已输入的目标语言的后η个词(preViOUS_n_WOrd) ”;“已输入的目标语言的后η个词(previous_n_word)所对应的源语言片段集{correlation_source_word} ” ;“用户输入的动作(action)” ;“用户输入的动作所对应的词(action_word) ”字段相同的时候,不重复插入,而是计数加I。较佳地,作为一种可实施方式,所述步骤S200中,根据源语言未翻译的区间和已翻译目标语言,利用用户输入历史集,生成输入历史提示集,包括如下步骤步骤S211’,初始化候选的输入历史提示集为空,根据源语言未翻译的区间,获得源语言未翻译的区间中已输入的字符串的后η个词previous_n_word, η为整数,η与所用的语言模型相对应;步骤S212’,将源语言未翻译的区间全切分,得到不同的源语言片段,并根据源语言片段从语言模型集中检索获取对应的所有可能的候选目标翻译语言的短语作为源语言片段对应的候选短语集S ;步骤S213’,根据η个词previous_n_word和所述源语言片段对应的候选短语集,通过最小编辑距离算法,计算相似度,相似度大于等于阈值KT的词作为候选的源语言集合{source_word};步骤S214’,根据previous_n_word和{source_word}查询用户输入历史集,并将查询结果加入候选的输入历史提示集,其中对于action为〃选择提示",直接将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为O ;对于action为〃插入〃,将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为O ;对于action为”不选择提示”,将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为O ;对于action为“删除”的,将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为3 ;步骤S215’,根据出现次数的多少,将候选的输入历史提示集中的前K’个作为结果作为输入历史提示集中的提示的字符串,并计算所述K’个输入历史提示集中的提示的字符串对应的概率,以及对应的提示的类型,生成输入历史提示集;其中,K’为大于等于I的整数。较佳地,作为一种可实施方式,对于用户输入历史集生成的输入历史提示集而言,所述K’个输入历史提示集中的提示的字符串对应的概率为
权利要求
1.一种多语机器翻译智能辅助处理方法,其特征在于,包括如下步骤 步骤S100,根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展; 步骤S200,根据源语言未翻译的区间扩展,生成K-best提示集;并根据源语言未翻译的区间和已翻译目标语言生成输入历史提示集和语言模型提示集; 步骤S300,结合输入历史提示集、语言模型提示集、以及K-best提示集,生成所述源语言未翻译源区间对应的目标语言的候选集。
2.根据权利要求I所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S300之后还包括如下步骤 步骤S400,显示所述目标语言的候选集,等待用户输入或者选择,并在捕捉到用户输入或者选择动作后,得到未翻译源语言翻译对应的目标语言,返回到步骤SlOO重新进行未翻译源语言翻译,直至翻译完成。
3.根据权利要求I或2所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤SlOO包括如下步骤 步骤SI 10,设已翻译目标语言集Eze1. . . em(m>=l),则确定一个E的划分S: {(a, b) I l=〈a〈=b〈=m},对于任意的一个元素(a, b)属于S,计算确定一个源语言集对应的区间(a’,b’)的集合T,得到已翻译源语言区间集合; 步骤S120,将集合T的每一个区间序列作为一个实例采用语言模型解码方法采用不同的短语特征对对应的源语言未翻译的区间进行扩展。
4.根据权利要求3所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤SllO包括如下步骤 步骤SI 11,设源语言的词序列为C1. . . Cn ;目标语言已翻译的词序列为ep . . em,其中,n、m为整数; 步骤S112,枚举区间[l,m]的所有可能划分,得到集合S ; 步骤S113,根据已翻译源语言从语言模型集中检索获取所有可能的候选目标翻译语言短语集合P ; 步骤SI 14,对于集合S中的每一个可能划分S,设置一个临时的集合D,对于划分s中的任意一个元素[a, b], l=〈a〈=b〈=m ; 步骤SI 15,对于P中的任意一个原始元素P,查找与ea. . . eb最相似的类似元素p* ; 步骤S116,根据类似元素p*,查找到类似元素p*对应的源语言的区间d,将d加入到D中; 步骤S 117,判断D是否有重叠元素,如无,则将D加入到已翻译源语言区间集合T中,直至S中所有元素的划分完成。
5.根据权利要求I或2所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S200中,根据源语言未翻译的区间扩展,生成K-best提示集,包括如下步骤 步骤S210,根据未翻译的区间扩展,获取源语言未翻译的区间对应的翻译结果中前K个最好的结果,其中,K为大于等于0的整数; 步骤S220,将前K个最好的结果作为K-best提示集中的提示的字符串,并计算所述K个K-best提示集中的提示的字符串对应的概率,将提示的类型设置为2,生成K-best提示集。
6.根据权利要求I或2所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S200中,根据源语言未翻译的区间和已翻译目标语言,利用用户输入历史集,生成输入历史提示集,包括如下步骤 步骤S211’,初始化候选的输入历史提示集为空,根据源语言未翻译的区间,获得源语言未翻译的区间中已输入的字符串的后n个词previous_n_word, n为整数,n与所用的语言模型相对应; 步骤S212’,将源语言未翻译的区间全切分,得到不同的源语言片段,并根据源语言片段从语言模型集中检索获取对应的所有可能的候选目标翻译语言的短语作为源语言片段对应的候选短语集S ; 步骤S213’,根据n个词previous_n_word和所述源语言片段对应的候选短语集,通过最小编辑距离算法,计算相似度,相似度大于等于阈值Kt的词作为候选的源语言集合{source_word}; 步骤S214’,根据previous_n_word和{source_word}查询用户输入历史集,并将查询结果加入候选的输入历史提示集,其中 对于action为〃选择提示",直接将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为0 ; 对于action为〃插入",将对应的action_word和出现的次数加入到候选的输入历史提不集中,其对应的提不类型为0 ; 对于action为”不选择提示”,将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为0 ; 对于action为“删除”的,将对应的acti0n_W0rd和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为3 ; 步骤S215’,根据出现次数的多少,将候选的输入历史提示集中的前K’个作为结果作为输入历史提示集中的提示的字符串,并计算所述K’个输入历史提示集中的提示的字符串对应的概率,以及对应的提示的类型,生成输入历史提示集; 其中,K’为大于等于I的整数。
7.根据权利要求I或2所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S200中,根据源语言未翻译的区间和已翻译目标语言,生成语言模型提示集,包括如下步骤 步骤S211”,根据所获得的目标语言的语料,训练一个N-Gram语言模型; 步骤S212”,将源语言未翻译的区间扩展全切分,得到不同的源语言片段,并根据源语言片段从语言模型集中检索获取对应的所有可能的候选目标翻译语言的短语作为源语言片段对应的候选短语集S ; 步骤S213”,对于短语翻译候选集合S中的一个串S,枚举s的所有前缀,构成一个S的前缀集S_Prefix ; 步骤S214”,根据用户已输入的字符串,从后往前,分别取1-gram, 2-gram,. . . , n-gram的字符串,得到一个字符串集合T ; 步骤S215”,对于T中的每一个串t,在N-Gram语言模型中搜索所有以s为前缀的串,并记录该串对应的概率,并将搜索到的集合添加到候选提示集T_candidate中; 步骤S216”,对候选提示集T_candidate中的每一个串t_c,计算与前缀集S_Pref ix的距离;其中,所述距离为串t_c与前前缀集S_prefix中的任意一个串的最大相似度; 步骤S217”,根据相似度排序,取前K”个作为候选的结果;其中,K”为大于等于I的整数; 步骤S218”,对K”个候选的结果的概率做归一化; 步骤S219”,将前K”个候选的结果作为语言模型提示集中的提示的字符串,将相对应的归一化后的概率作为相应的字符串对应的概率,将提示的类型设置为1,生成语言模型提示集。
8.根据权利要求I或2所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S300包括如下步骤 步骤S310,获得输入历史提示集中提示类型为3的所有提示的集合A_delete,剩余的为集合 A_history ; 步骤S320,检索语目模型提不集,K-best提不集;若语目模型提不集,K_best提不集中的提示在集合A_delete中存在,则将该提示删除;否则保留; 步骤S330,对于集语言模型提示集,K-best提示集中的剩下的每个目标语言候选提示,将该每个目标语言候选提示对应的概率分别乘以相应的权重Wa,ffb, Wc,得到最后的概率值,并按最后的概率值大小排序,取前Ntjw个结果,作为目标语言候选集;其中,Ntjw为大于等于I的整数。
9.根据权利要求8所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S330之后,还包括如下步骤 步骤S340,根据目标语言候选集中对输入历史提示集,语言模型提示集,K-best提示集的中的相应字符串的选择次数,对权重系数Wa,ffb, Wc这三个系数进行动态调整。
10.根据权利要求9所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S340包括如下步骤 步骤S341,设目标语言候选集选择输入历史提示集中的字符串的总次数Na,目标语言候选集选择语言模型提示集中的字符串的总次数是Nb,目标语言候选集选择K-best提示集中的字符串的总次数是N。,则对应的新的权重为
11.根据权利要求2所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S400在得到目标语言后,返回步骤SlOO前,还包括如下步骤 步骤S400’,记录用户的输入或者选择动作,将用户的输入记录到用户的输入历史集。
12.—种多语机器翻译智能辅助处理系统,其特征在于,包括扩展模块,提示集生成模块和候选集生成模块,其中 所述扩展模块,用于根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展; 所述提示集生成模块,用于根据源语言未翻译的区间扩展,生成K-best提示集;并根据源语言未翻译的区间和已翻译的目标语言生成输入历史提示集和语言模型提示集; 所述候选集生成模块,用于结合输入历史提示集、语言模型提示集、以及K-best提示集,生成所述源语言未翻译源区间对应的目标语言的候选集。
13.根据权利要求12所述的多语机器翻译智能辅助处理系统,其特征在于,还包括显示处理模块,用于显示所述目标语言的候选集,等待用户输入或者选择,并在捕捉到用户输入或者选择动作后,得到未翻译源语言翻译对应的目标语言,返回重新进行未翻译源语言翻译,直至翻译完成。
14.根据权利要求13所述的多语机器翻译智能辅助处理系统,其特征在于,还包括记录模块,用于记录用户的输入或者选择动作,将用户的输入记录到用户的输入历史集。
全文摘要
本发明公开的一种多语机器翻译智能辅助处理方法和系统。其方法包括如下步骤根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展;根据源语言未翻译的区间扩展,生成K-best提示集;并根据源语言未翻译的区间和已翻译目标语言生成输入历史提示集和语言模型提示集;结合输入历史提示集、语言模型提示集、以及K-best提示集,生成所述源语言未翻译源区间对应的目标语言的候选集。其加快多语翻译的速度,用户体验好,智能化程度高,提高了翻译准确度。
文档编号G06F17/27GK102968411SQ201210410530
公开日2013年3月13日 申请日期2012年10月24日 优先权日2012年10月24日
发明者滕志扬, 骆卫华, 刘群, 熊皓 申请人:橙译中科信息技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1