辅助翻译输入方法和辅助翻译输入设备与流程

文档序号:11677018阅读:251来源:国知局
辅助翻译输入方法和辅助翻译输入设备与流程

本公开涉及自然语言处理领域,具体地涉及输入法和机器翻译,更具体地,涉及一种能够进行容错的翻译的辅助翻译输入方法和辅助翻译输入设备。



背景技术:

辅助翻译输入法融合了常规输入法及翻译引擎,可以实时地将用户的输入翻译成目标语言,避免了用户离开当前工作环境去查找其他资源的操作,可以提高工作效率和用户体验。

图1是示出辅助翻译输入法的示例的图。现有的辅助翻译输入法结构大多如图1所示,以汉语->英语输入法为例,用户首先输入拼音,然后选择汉语文字,选定汉语文字后翻译引擎返回英文译文。这种结构所带来的问题是,如果用户输入的字串比较长,或者输入的是不太常见的词汇,那么用户需要不断调整中文字符,直到所有中文字符正确了才可以得到正确的译文,但是这个调整过程往往很繁琐,需要用户进行很多回退的操作。图2是示出辅助翻译输入法中需要调整的输入示例的图。如图2所示,用户需要将“周莫”修改成“周末”,否则译文将会出错。

从图2中我们可以看到,用户需要调整的只是汉字候选,拼音串是没有变化的,如果我们可以直接从拼音串得到译文,那么用户就不需要繁琐的修改了,即使汉字部分是错误的,也可以获得正确的译文。



技术实现要素:

在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。

鉴于以上问题,本公开的目的是提供一种能够进行容错的翻译的辅助翻译输入方法和辅助翻译输入设备。

根据本公开的一方面,提供了一种辅助翻译输入方法,包括:输入步骤,可以输入由第一语言的一个或多个词的拼音表示构成的拼音串;转换步骤,可以将拼音串转换成以第一语言表示的第一语言文字串;以及第一翻译步骤,可以利用从第一语言的拼音表示到第二语言的文字串的统计机器翻译模型,以词为单位对拼音串和第一语言文字串两者进行处理,得到翻译后的以第二语言表示的第二语言文字串,其中,统计机器翻译模型包括从第一语言的拼音表示到第二语言的文字串的多条翻译规则、基于第一语言的第一语言模型以及基于第二语言的第二语言模型,所述多条翻译规则至少包括从第一语言的拼音表示到第一语言的文字串的转换及其转换概率。

根据本公开的另一方面,还提供了一种辅助翻译输入设备,包括:输入单元,可以被配置成输入由第一语言的一个或多个词的拼音表示构成的拼音串;转换单元,可以被配置成将拼音串转换成以第一语言表示的第一语言文字串;以及第一翻译单元,可以被配置成利用从第一语言的拼音表示到第二语言的文字串的统计机器翻译模型,以词为单位对拼音串和第一语言文字串两者进行处理,得到翻译后的以第二语言表示的第二语言文字串,其中,统计机器翻译模型包括从第一语言的拼音表示到第二语言的文字串的多条翻译规则、基于第一语言的第一语言模型以及基于第二语言的第二语言模型,所述多条翻译规则至少包括从第一语言的拼音表示到第一语言的文字串的转换及其转换概率。

根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品以及其上记录有该用于实现上述根据本公开的方法的计算机程序代码的计算机可读存储介质。

在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。

附图说明

本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成 说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:

图1是示出辅助翻译输入法的示例的图;

图2是示出辅助翻译输入法中需要调整的输入示例的图;

图3是示出根据本公开的实施例的辅助翻译输入方法的流程示例的流程图;

图4是示出拼音串转换成汉字文字串的过程示例的图;

图5是示出现有技术中统计机器翻译模型的训练过程示例的图;

图6是示出根据本公开的实施例的统计机器翻译模型的训练过程示例的图;

图7是示出根据本公开的实施例的辅助翻译输入设备的功能配置示例的框图;以及

图8是示出作为本公开的实施例中可采用的信息处理设备的个人计算机的示例结构的框图。

具体实施方式

在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。

在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。

下面结合附图详细说明根据本公开的实施例。

首先,将参照图3描述根据本公开的实施例的辅助翻译输入方法的流程示例。图3是示出根据本公开的实施例的辅助翻译输入方法的流程示例的流程图。

如图3所示,根据本公开的实施例的辅助翻译输入方法可包括输入步骤s302、转换步骤s304以及第一翻译步骤s306。以下将分别详细描述各个步骤中的处理。

首先,在输入步骤s302中,可以输入由第一语言的一个或多个词的拼音表示构成的拼音串。优选地,第一语言可以是中文。即,在输入步骤s302中,可以输入由汉语的一个或多个词的拼音构成的拼音串。

在转换步骤s304中,可以将拼音串转换成以第一语言表示的第一语言文字串。在该步骤中,可以将用户输入的拼音串转换成汉字串。具体地,首先可以使用拼音->汉字的映射表将拼音串中所有的汉字候选找出来,比如:a->啊阿锕腌;不同的候选构成不同的汉字串。图4是示出拼音串转换成汉字文字串的过程示例的图。如图4所示,圆圈代表汉字候选,箭头代表汉字串的上下文关系,这样可以得到很多汉字串候选,然后使用语言模型对每个箭头打分,最后使用维特比算法找到前n条路径作为n个汉字串候选。其中,每个汉字串的分数计算方式如下:

在公式(1)中,score(ngrami)是第i个ngram字符串的语言模型得分。然后,可以在n个汉字串候选中选择得分最高的候选作为所转换的汉字串。

在第一翻译步骤s306中,可以利用从第一语言的拼音表示到第二语言的文字串的统计机器翻译模型,以词为单位对拼音串和第一语言文字串两者进行处理,得到翻译后的以第二语言表示的第二语言文字串,其中,统计机器翻译模型可以包括从第一语言的拼音表示到第二语言的文字串的多条翻译规则、基于第一语言的第一语言模型以及基于第二语言的第二语言模型,多条翻译规则至少包括从第一语言的拼音表示到第一语言的文字串的转换及其转换概率。

优选地,第二语言可以是英语。

在现有技术中,翻译服务可以设置为本地的翻译服务,例如本地的翻译词典,也可以是调用在线的翻译服务。统计机器翻译(smt)模型已经广泛应用在各种辅助的翻译服务中,smt的最大优点之一在于可以从大规模的训练样本中自动地学习翻译规则。可以采用smt作为在线的翻 译服务。通常,smt模型可以由公式(2)描述:

在公式(2)中,hi(d)表示特征,λi表示该特征的权重。

通常,建立一个smt模型需要通过两个步骤:训练和解码。训练是如下过程:定义一组特征hi(d)(例如翻译规则、语言模型),然后从训练语料中抽取这些特征,最后通过测试集获得λi值。解码是指通过训练好的特征及权重,将源语言翻译成目标语言的过程。

图5是示出现有技术中统计机器翻译模型的训练过程示例的图。如图5所示,假设源语言是汉语并且目标语言是英语。smt模型包括训练集、词对齐、翻译规则抽取以及语言模型。其中,训练集包含许多双语平行语料(包含源语言与目标语言,并且互为译文的语料),首先对语料中的汉语、英语部分分别进行预处理,包括汉语分词、英文的单词化(tokenization)、大小写转换等。在词对齐中,可以使用giza++工具自动获得汉英之间词的翻译关系。在翻译规则抽取中,可以在词对齐的基础上抽取翻译规则,并计算每条翻译规则的特征概率值,其中,每条翻译规则的特征概率包括汉英/英汉规则翻译概率prule和汉英/英汉词汇化翻译概率plex。在语言模型中,使用训练集中的英文句子训练一个n元的语言模型lmen,一般n为3。在得到了所有的特征之后,使用最小错误率训练mert(minimumerrorratetraining)算法得到各特征的λi值。

在本公开中,为了使统计机器翻译模型可以进行容错的拼音串的翻译,我们对现有的模型进行了改进。图6是示出根据本公开的实施例的统计机器翻译模型的训练过程示例的图。例示而非限制,如图6所示,在根据本公开的实施例的统计机器翻译模型中,源语言可以是汉语的拼音表示并且目标语言可以是英语。如图6所示,在根据本公开的实施例的统计机器翻译模型中,在训练集中,我们在汉语部分加入了拼音信息;词对齐之后,得到的是拼音->英语和拼音->汉字的三层结构。该统计机器翻译模型包括从拼音表示到英语的文字串的多条翻译规则。在抽取翻译规则的时候,我们将拼音表示->汉字的文字串的转换作为新的特征加入,并计算其转换概率:音字转换概率pcov。pcov的计算方式采用最大似然估计,例如:拼音表示“wo”出现了10次,其中有5次映射到了“我”,3次映射到“握”, 2次映射到“沃”,那么特征“wo->我”的转换概率为5/10=0.5。另外,例如,如图6所示,在翻译规则中,将“yi’ben”转换为“一本”,并且其转换概率为0.6;此外,将“shu”转换为“书”,并且其转换概率为0.4。

在根据本公开的实施例的统计机器翻译模型中,除了使用训练集中的英文句子训练一个n元的英语语言模型lmen之外,我们也使用训练集中的汉语句子训练一个n元的汉语语言模型lmch。例如,如图6所示,在英语语言模型lmen中,“i”的概率为0.8,而“ihave”的概率为0.7;在汉语语言模型lmch中,“我”的概率为0.8,“我有”的概率为0.7,而“我有一本”的概率为0.6。

优选地,所述多条翻译规则还可以包括从第一语言的拼音表示到第二语言的文字串的翻译、从第一语言的拼音表示到第二语言的文字串的规则翻译概率和词汇翻译概率、以及从第二语言的文字串到第一语言的拼音表示的规则翻译概率和词汇翻译概率。

在根据本公开的实施例的统计机器翻译模型中,可以在词对齐的基础上抽取翻译规则,其中翻译规则可以包括从拼音表示到英语的文字串的翻译,并计算拼音表示->英语的文字串/英语的文字串->拼音表示的规则翻译概率和拼音表示->英语的文字串/英语的文字串->拼音表示的词汇化翻译概率。例如,如图6所示,在翻译规则中,将“wo”映射到“i”,“wo”->“i”和“i”->“wo”的规则翻译概率分别是0.6和0.5,“wo”->“i”和“i”->“wo”的词汇化翻译概率分别是0.5和0.7。此外,将“yi’benshu”映射到“abook”,“yi’benshu”->“abook”和“abook”->“yi’benshu”的规则翻译概率分别是0.7和0.5,“yi’benshu”->“abook”和“abook”->“yi’benshu”的词汇化翻译概率分别是0.6和0.8。

另外,在根据本公开的实施例的统计机器翻译模型中,我们同样采用mert算法计算各种特征的权重。

在根据本公开的实施例中,可以利用上述从汉语的拼音表示到英语的文字串的统计机器翻译模型,以词为单位对在输入步骤s302中得到的拼音串和在转换步骤s304中得到的汉语文字串两者进行处理,得到翻译后的英语文字串。

优选地,第一翻译步骤s306可以包括以下子步骤:生成候选翻译路径子步骤,可以通过与统计机器翻译模型中的规则进行匹配,生成拼音串的多个候选翻译路径;筛选子步骤,可以在多个候选翻译路径当中的一个 候选翻译路径中包括的第一语言文字串的一部分基于第一语言模型而算出的组合概率低于预定阈值时,丢弃该候选翻译路径;以及选择子步骤,可以从经筛选的候选翻译路径当中选择得分最高的翻译路径来进行翻译,从而得到第二语言文字串,其中翻译路径的得分至少基于从第一语言的拼音表示到第一语言的文字串的转换概率来计算。

在第一翻译步骤s306的生成候选翻译路径子步骤中,可以将所输入的拼音串利用统计机器翻译模型中的规则进行匹配,生成多个候选翻译路径。

假设用户输入的拼音串及根据拼音串选定的汉语文字为:

zhe|这zhou|周mo|莫yao|要chu|出qu|去lv|旅you|游

首先,我们在翻译规则中枚举出所有可能匹配到的规则,要求规则的拼音部分必须与输入的拼音串的部分匹配。例如,下面两条规则中的拼音部分均可以与输入的拼音串的部分匹配:

zhou|mo->weekend0.60.50.50.8zhou’mo->周末|0.9

mo|yao->not0.30.40.50.7mo’yao->莫要|0.7

基于以上两条规则,例如,至少可以生成如下两条候选翻译路径:

zhe|这zhou|周mo|末yao|要thisweekendwill

zhe|这zhou|周mo|莫yao|要thisweekendnot

在筛选子步骤中,为了减少翻译路径和衡量汉语句子的质量,可以在一个候选翻译路径中包括的汉语文字串的一部分基于汉语语言模型lmch而算出的组合概率低于预定阈值时,丢弃该候选翻译路径。

我们用汉语语言模型lmch来衡量候选翻译路径中汉语文字串的质量,即对于上述两条候选翻译路径而言,衡量“这周莫要”与“这周末要”的组合概率。在真实的语料中,“这周末要”出现的概率要远大于“这周莫要”出现的概率。由于“这周莫要”的组合概率较小,会小于预定阈值,因此我们丢弃候选翻译路径“zhe|这zhou|周mo|莫yao|要thisweekendnot”。

在第一翻译步骤s306的选择子步骤中,利用包括拼音表示到汉字的文字串的转换及转换概率等的翻译规则和语言模型等,可以通过公式(2)对经筛选的候选翻译路径计算翻译结果的得分,并且选择得分最高的翻译路径来进行翻译,从而得到英语文字串。还是以上述两条候选翻译路径为 例子,在选择子步骤中,选择“zhe|这zhou|周mo|末yao|要thisweekendwill”路径来进行翻译。此处为了强调用户根据拼音串选定的汉语文字中出现错误的情况,也即强调用户将“这周末要出去旅游”中的“周末要”错误地选定为“周莫要”的情况,只列出了涉及“周末”和“莫要”的翻译规则。实际上,在利用第一翻译步骤s306对所输入的“zhezhoumoyaochuqulvyou”进行翻译时,在本示例中,是对“这周末要出去旅游”进行翻译,从而得到英语文字串。

优选地,预定阈值可以是根据经验确定的,本领域技术人员还可以想到确定预定阈值的其他方法,本公开对此不做限制。

由以上示例可以看出,通过第一翻译步骤s306,可以直接从拼音串得到英译文。即使出现如图2中示出的用户选定的汉字部分是错误的情况,也可以获得正确的译文,也就是可以得到容错后的翻译结果。因此,避免了用户需要不断调整汉字的繁琐的修改。

优选地,根据本公开的实施例的辅助翻译输入方法还可以包括用于将第一语言文字串翻译为另一第二语言文字串的第二翻译步骤,其中所述另一第二语言文字串与所述第二语言文字串相同或不同。

即,除了上述第一翻译步骤s306之外,根据本公开的实施例的辅助翻译输入方法还可以包括第二翻译步骤,利用该第二翻译步骤得到的另一第二语言文字串可以与利用第一翻译步骤s306得到的第二语言文字串相同或不同。

优选地,第二翻译步骤可以包括如下子步骤:生成候选翻译路径子步骤,可以通过针对拼音串而与统计机器翻译模型中的规则进行匹配、并且使得所匹配的规则中包括的从第一语言的拼音表示到第一语言的文字串的转换中的文字与第一语言文字串中的文字相匹配,生成多个候选翻译路径;以及选择子步骤,可以从多个候选翻译路径当中选择得分最高的翻译路径来进行翻译,从而得到另一第二语言文字串。

同样假设用户输入的拼音串及根据拼音串选定的汉语文字为:

zhe|这zhou|周mo|莫yao|要chu|出qu|去lv|旅you|游

优选地,在第二翻译步骤的生成候选翻译路径子步骤中,在翻译规则中枚举出所有可能匹配到的规则,首先要求规则的拼音部分必须与输入的拼音串的部分匹配。例如,下面两条规则中的拼音部分均可以与输入的拼音串的部分匹配:

zhou|mo->weekend0.60.50.50.8zhou’mo->周末|0.9

mo|yao->not0.30.40.50.7mo’yao->莫要|0.7

此外,在第二翻译步骤的生成候选翻译路径子步骤中,还要求所匹配的规则中包括的拼音表示->汉字的文字串的转换中的汉字与上述选定的汉语文字“这周莫要出去旅游”中的汉字相匹配。

对于第一条规则“zhou|mo->weekend0.60.50.50.8zhou’mo->周末|0.9”,由于汉语“周末”并未匹配到选定的汉语文字中的汉字“周莫”,所以这条规则便被放弃了。相反,第二条规则“mo|yao->not0.30.40.50.7mo’yao->莫要|0.7”满足所有约束条件,因此可以保留该翻译规则并基于该翻译规则生成候选翻译路径。

优选地,在第二翻译步骤的选择子步骤中,通过公式(2)对候选翻译路径计算翻译结果的得分,并且选择得分最高的翻译路径来进行翻译,从而得到另一英语文字串。还是以上述两条翻译规则为例子,在选择子步骤中,选择基于翻译规则“mo|yao->not0.30.40.50.7mo’yao->莫要|0.7”生成的翻译路径来进行翻译。此处为了强调用户根据拼音串选定的汉语文字中出现错误的情况,也即强调用户将“这周末要出去旅游”中的“周末要”错误地选定为“周莫要”的情况,只列出了涉及“周末”和“莫要”的翻译规则。实际上,在利用第二翻译步骤对所输入的“zhezhoumoyaochuqulvyou”进行翻译时,在本示例中,是对“这周莫要出去旅游”进行翻译,从而得到另一英语文字串。

由以上示例可以看出,通过第二翻译步骤,可以按照如图2中示出的汉字部分进行翻译,也就是可以按照用户选定的汉语文字进行翻译,以提供另外的翻译结果。结合以上示例可以看出,如果图2所示的汉字部分是“这周末要出去旅游”,则通过第一翻译步骤s306得到的翻译结果和通过第二翻译步骤得到的翻译结果相同;而如果图2所示的汉字部分是“这周莫要出去旅游”,则通过第一翻译步骤s306得到的翻译结果和通过第二翻译步骤得到的翻译结果不同。

优选地,根据本公开的实施例的辅助翻译输入方法还可以包括用于选择性地显示第二语言文字串的显示步骤。

优选地,在显示步骤中,如果所述第二语言文字串的得分小于或等于所述另一第二语言文字串的得分,则可以只显示所述另一第二语言文字串,而如果所述第二语言文字串的得分大于所述另一第二语言文字串的得 分,则可以显示所述第二语言文字串和所述另一第二语言文字串两者。

具体地,在显示步骤中,如果通过第二翻译步骤得到的翻译结果的得分小于或等于通过第一翻译步骤s306得到的翻译结果的得分,则只显示通过第二翻译步骤得到的翻译结果。而如果通过第二翻译步骤得到的翻译结果的得分高于通过第一翻译步骤s306得到的翻译结果的得分,说明很可能发生了纠错过程,则同时显示容错后的翻译结果。

优选地,第一语言可以包括中文,并且第二语言可以包括英文。在上文中,假设第一语言是中文并且第二语言是英文进行了说明。以上只是示例而非限制,第一语言可以是日文并且第二语言可以是英文等等。

此外,需要说明的是,本实施中的统计机器翻译模型利用的是语言自身规则、而不是人为设定的规则。

根据以上描述可知,根据本公开的实施例的辅助翻译输入方法可以直接从拼音串得到英译文,因此只要用户输入正确的拼音,即使出现用户选定的汉语文字是错误的情况,也可以获得正确的英译文,也就是可以得到容错后的翻译结果。因此,避免了用户需要不断调整汉字的繁琐的修改。此外,根据本公开的实施例的辅助翻译输入方法还可以按照用户选定的汉语文字进行翻译,以提供另外的翻译结果。

与上述方法实施例相对应地,本公开还提供了以下设备实施例。

图7是示出根据本公开的实施例的辅助翻译输入设备700的功能配置示例的框图。

如图7所示,根据本公开的实施例的辅助翻译输入设备700可以包括输入单元702、转换单元704以及第一翻译单元706。接下来将描述各个单元的功能配置示例。

输入单元702可以被配置成输入由第一语言的一个或多个词的拼音表示构成的拼音串。优选地,第一语言可以是中文。即,在输入单元702中,可以输入由汉语的一个或多个词的拼音构成的拼音串。

转换单元704可以被配置成将拼音串转换成以第一语言表示的第一语言文字串。在转换单元704中,可以将用户输入的拼音串转换成汉字串。将拼音串转换成汉字串的具体方法可参见以上方法实施例中相应位置的描述,在此不再重复。

第一翻译单元706可以被配置成利用从第一语言的拼音表示到第二 语言的文字串的统计机器翻译模型,以词为单位对拼音串和第一语言文字串两者进行处理,得到翻译后的以第二语言表示的第二语言文字串,其中,统计机器翻译模型可以包括从第一语言的拼音表示到第二语言的文字串的多条翻译规则、基于第一语言的第一语言模型以及基于第二语言的第二语言模型,多条翻译规则至少包括从第一语言的拼音表示到第一语言的文字串的转换及其转换概率。

优选地,第二语言可以是英语。

如之前所述,根据本公开的实施例的统计机器翻译模型包括从拼音表示到英语的文字串的多条翻译规则。其中,根据本公开的实施例的统计机器翻译模型包括拼音表示->汉字的文字串的转换,并计算其转换概率:音字转换概率pcov。

另外,在根据本公开的实施例的统计机器翻译模型中,除了使用训练集中的英文句子训练一个n元的英语语言模型lmen之外,我们也使用训练集中的汉语句子训练一个n元的汉语语言模型lmch,其中,一般n为3。

优选地,所述多条翻译规则还可以包括从第一语言的拼音表示到第二语言的文字串的翻译、从第一语言的拼音表示到第二语言的文字串的规则翻译概率和词汇翻译概率、以及从第二语言的文字串到第一语言的拼音表示的规则翻译概率和词汇翻译概率。

在根据本公开的实施例的统计机器翻译模型中,翻译规则可以包括从拼音表示到英语的文字串的翻译,并计算拼音表示->英语的文字串/英语的文字串->拼音表示的规则翻译概率和拼音表示->英语的文字串/英语的文字串->拼音表示的词汇化翻译概率。

在根据本公开的实施例中,可以利用上述从汉语的拼音表示到英语的文字串的统计机器翻译模型,以词为单位对在输入单元702中得到的拼音串和在转换单元704中得到的汉语文字串两者进行处理,得到翻译后的英语文字串。

优选地,第一翻译单元706可以包括以下子单元:生成候选翻译路径子单元,可以被配置成通过与统计机器翻译模型中的规则进行匹配,生成拼音串的多个候选翻译路径;筛选子单元,可以被配置成在多个候选翻译路径当中的一个候选翻译路径中包括的第一语言文字串的一部分基于第一语言模型而算出的组合概率低于预定阈值时,丢弃该候选翻译路径;以 及选择子单元,可以被配置成从经筛选的候选翻译路径当中选择得分最高的翻译路径来进行翻译,从而得到第二语言文字串,其中翻译路径的得分至少基于从第一语言的拼音表示到第一语言的文字串的转换概率来计算。

在生成候选翻译路径子单元中,可以将所输入的拼音串利用统计机器翻译模型中的规则进行匹配,生成多个候选翻译路径。其中,我们在翻译规则中枚举出所有可能匹配到的规则,要求规则的拼音部分必须与输入的拼音串的部分匹配。基于所匹配到的规则,可以生成候选翻译路径。

在筛选子单元中,为了减少翻译路径和衡量汉语句子的质量,可以在一个候选翻译路径中包括的汉语文字串的一部分基于汉语语言模型lmch而算出的组合概率低于预定阈值时,丢弃该候选翻译路径。

在选择子单元中,利用包括拼音表示到汉字的文字串的转换及转换概率等的翻译规则和语言模型等,可以通过公式(2)对经筛选的候选翻译路径计算翻译结果的得分,并且选择得分最高的翻译路径来进行翻译,从而得到英语文字串。

优选地,预定阈值可以是根据经验确定的,本领域技术人员还可以想到确定预定阈值的其他方法,本公开对此不做限制。

利用第一翻译单元706来对所输入的拼音串进行翻译的示例可参见以上方法实施例中相应位置的描述,在此不再重复。

优选地,根据本公开的实施例的辅助翻译输入设备700还可以包括用于将第一语言文字串翻译为另一第二语言文字串的第二翻译单元,其中所述另一第二语言文字串与所述第二语言文字串相同或不同。

即,除了上述第一翻译单元706之外,根据本公开的实施例的辅助翻译输入设备还可以包括第二翻译单元,利用该第二翻译单元得到的另一第二语言文字串可以与利用第一翻译单元706得到的第二语言文字串相同或不同。

优选地,第二翻译单元可以包括如下子单元:生成候选翻译路径子单元,可以被配置成通过针对拼音串而与统计机器翻译模型中的规则进行匹配、并且使得所匹配的规则中包括的从第一语言的拼音表示到第一语言的文字串的转换中的文字与第一语言文字串中的文字相匹配,生成多个候选翻译路径;以及选择子单元,可以被配置成从多个候选翻译路径当中选择得分最高的翻译路径来进行翻译,从而得到另一第二语言文字串。

优选地,在第二翻译单元的生成候选翻译路径子单元中,在翻译规则 中枚举出所有可能匹配到的规则,首先要求规则的拼音部分必须与输入的拼音串的部分匹配。此外,在第二翻译单元的生成候选翻译路径子单元中,还要求所匹配的规则中包括的拼音表示->汉字的文字串的转换中的汉字与选定的汉语文字中的汉字相匹配。

优选地,在第二翻译单元的选择子单元中,通过公式(2)对候选翻译路径计算翻译结果的得分,并且选择得分最高的翻译路径来进行翻译,从而得到另一英语文字串。

利用第二翻译单元来对所输入的拼音串进行翻译的示例可参见以上方法实施例中相应位置的描述,在此不再重复。

优选地,根据本公开的实施例的辅助翻译输入设备还可以包括用于选择性地显示第二语言文字串的显示单元。

优选地,在显示单元中,如果所述第二语言文字串的得分小于或等于所述另一第二语言文字串的得分,则可以只显示所述另一第二语言文字串,而如果所述第二语言文字串的得分大于所述另一第二语言文字串的得分,则可以显示所述第二语言文字串和所述另一第二语言文字串两者。

具体地,在显示单元中,如果通过第二翻译单元得到的翻译结果的得分小于或等于通过第一翻译单元706得到的翻译结果的得分,则只显示通过第二翻译单元得到的翻译结果。而如果通过第二翻译单元得到的翻译结果的得分高于通过第一翻译单元706得到的翻译结果的得分,说明很可能发生了纠错过程,则同时显示容错后的翻译结果。

优选地,第一语言可以包括中文,并且第二语言可以包括英文。在上文中,假设第一语言是中文并且第二语言是英文进行了说明。以上只是示例而非限制,第一语言可以是日文并且第二语言可以是英文等等。

根据以上描述可知,根据本公开的实施例的辅助翻译输入设备可以直接从拼音串得到英译文,因此只要用户输入正确的拼音,即使出现用户选定的汉语文字是错误的情况,也可以获得正确的英译文,也就是可以得到容错后的翻译结果。因此,避免了用户需要不断调整汉字的繁琐的修改。此外,根据本公开的实施例的辅助翻译输入设备还可以按照用户选定的汉语文字进行翻译,以提供另外的翻译结果。

应指出,尽管以上描述了根据本公开的实施例的辅助翻译输入设备的功能配置,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块进行添 加、删除或者组合等,并且这样的修改均落入本公开的范围内。

此外,还应指出,这里的装置实施例是与上述方法实施例相对应的,因此在装置实施例中未详细描述的内容可参见方法实施例中相应位置的描述,在此不再重复描述。

应理解,根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述辅助翻译输入方法,因此在此未详细描述的内容可参考先前相应位置的描述,在此不再重复进行描述。

相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图8所示的通用个人计算机800安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。

在图8中,中央处理单元(cpu)801根据只读存储器(rom)802中存储的程序或从存储部分808加载到随机存取存储器(ram)803的程序执行各种处理。在ram803中,也根据需要存储当cpu801执行各种处理等时所需的数据。

cpu801、rom802和ram803经由总线804彼此连接。输入/输出接口805也连接到总线804。

下述部件连接到输入/输出接口805:输入部分806,包括键盘、鼠标等;输出部分807,包括显示器,比如阴极射线管(crt)、液晶显示器(lcd)等,和扬声器等;存储部分808,包括硬盘等;和通信部分809,包括网络接口卡比如lan卡、调制解调器等。通信部分809经由网络比如因特网执行通信处理。

根据需要,驱动器810也连接到输入/输出接口805。可拆卸介质811比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器810上,使得从中读出的计算机程序根据需要被安装到存储部分808中。

在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质811安装构成软件的程序。

本领域的技术人员应当理解,这种存储介质不局限于图8所示的其中 存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(cd-rom)和数字通用盘(dvd))、磁光盘(包含迷你盘(md)(注册商标))和半导体存储器。或者,存储介质可以是rom802、存储部分808中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。

以上参照附图描述了本公开的优选实施例,但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改,并且应理解这些变更和修改自然将落入本公开的技术范围内。

例如,在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地,在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外,以上功能之一可由多个单元来实现。无需说,这样的配置包括在本公开的技术范围内。

在该说明书中,流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理,而且包括并行地或单独地而不是必须按时间序列执行的处理。此外,甚至在按时间序列处理的步骤中,无需说,也可以适当地改变该顺序。

另外,根据本公开的技术还可以如下进行配置。

附记1.一种辅助翻译输入方法,包括:

输入步骤,输入由第一语言的一个或多个词的拼音表示构成的拼音串;

转换步骤,将所述拼音串转换成以所述第一语言表示的第一语言文字串;以及

第一翻译步骤,利用从第一语言的拼音表示到第二语言的文字串的统计机器翻译模型,以词为单位对所述拼音串和所述第一语言文字串两者进行处理,得到翻译后的以所述第二语言表示的第二语言文字串,其中,所述统计机器翻译模型包括从所述第一语言的拼音表示到所述第二语言的文字串的多条翻译规则、基于所述第一语言的第一语言模型以及基于所述第二语言的第二语言模型,所述多条翻译规则至少包括从所述第一语言的拼音表示到所述第一语言的文字串的转换及其转换概率。

附记2.根据附记1所述的辅助翻译输入方法,其中,所述第一翻译步骤包括以下子步骤:

生成候选翻译路径子步骤,通过与所述统计机器翻译模型中的规则进行匹配,生成所述拼音串的多个候选翻译路径;

筛选子步骤,当所述多个候选翻译路径当中的一个候选翻译路径中包括的第一语言文字串的一部分基于所述第一语言模型而算出的组合概率低于预定阈值时,丢弃该候选翻译路径;以及

选择子步骤,从经筛选的候选翻译路径当中选择得分最高的翻译路径来进行翻译,从而得到所述第二语言文字串,其中所述翻译路径的得分至少基于从所述第一语言的拼音表示到所述第一语言的文字串的转换概率来计算。

附记3.根据附记1所述的辅助翻译输入方法,其中,所述多条翻译规则还包括从所述第一语言的拼音表示到所述第二语言的文字串的翻译、从所述第一语言的拼音表示到所述第二语言的文字串的规则翻译概率和词汇翻译概率、以及从所述第二语言的文字串到所述第一语言的拼音表示的规则翻译概率和词汇翻译概率。

附记4.根据附记1所述的辅助翻译输入方法,还包括用于将所述第一语言文字串翻译为另一第二语言文字串的第二翻译步骤,其中所述另一第二语言文字串与所述第二语言文字串相同或不同。

附记5.根据附记4所述的辅助翻译输入方法,其中,所述第二翻译步骤包括如下子步骤:

生成候选翻译路径子步骤,通过针对所述拼音串而与所述统计机器翻译模型中的规则进行匹配、并且使得所匹配的规则中包括的从所述第一语言的拼音表示到所述第一语言的文字串的转换中的文字与所述第一语言文字串中的文字相匹配,生成多个候选翻译路径;以及

选择子步骤,从所述多个候选翻译路径当中选择得分最高的翻译路径来进行翻译,从而得到所述另一第二语言文字串。

附记6.根据附记4所述的辅助翻译输入方法,还包括用于选择性地显示所述第二语言文字串的显示步骤。

附记7.根据附记6所述的辅助翻译输入方法,其中,在所述显示步骤中,如果所述第二语言文字串的得分小于或等于所述另一第二语言文字串的得分,则只显示所述另一第二语言文字串,而如果所述第二语言文字串的得分大于所述另一第二语言文字串的得分,则显示所述第二语言文字串和所述另一第二语言文字串两者。

附记8.根据附记1所述的辅助翻译输入方法,其中,所述第一语言包括中文,并且所述第二语言包括英文。

附记9.一种辅助翻译输入设备,包括:

输入单元,被配置成输入由第一语言的一个或多个词的拼音表示构成的拼音串;

转换单元,被配置成将所述拼音串转换成以所述第一语言表示的第一语言文字串;以及

第一翻译单元,被配置成利用从第一语言的拼音表示到第二语言的文字串的统计机器翻译模型,以词为单位对所述拼音串和所述第一语言文字串两者进行处理,得到翻译后的以所述第二语言表示的第二语言文字串,其中,所述统计机器翻译模型包括从所述第一语言的拼音表示到所述第二语言的文字串的多条翻译规则、基于所述第一语言的第一语言模型以及基于所述第二语言的第二语言模型,所述多条翻译规则至少包括从所述第一语言的拼音表示到所述第一语言的文字串的转换及其转换概率。

附记10.根据附记9所述的辅助翻译输入设备,其中,所述第一翻译单元包括以下子单元:

生成候选翻译路径子单元,被配置成通过与所述统计机器翻译模型中的规则进行匹配,生成所述拼音串的多个候选翻译路径;

筛选子单元,被配置成当所述多个候选翻译路径当中的一个候选翻译路径中包括的第一语言文字串的一部分基于所述第一语言模型而算出的组合概率低于预定阈值时,丢弃该候选翻译路径;以及

选择子单元,被配置成从经筛选的候选翻译路径当中选择得分最高的翻译路径来进行翻译,从而得到所述第二语言文字串,其中所述翻译路径的得分至少基于从所述第一语言的拼音表示到所述第一语言的文字串的转换概率来计算。

附记11.根据附记9所述的辅助翻译输入设备,其中,所述多条翻译规则还包括从所述第一语言的拼音表示到所述第二语言的文字串的翻译、从所述第一语言的拼音表示到所述第二语言的文字串的规则翻译概率和词汇翻译概率、以及从所述第二语言的文字串到所述第一语言的拼音表示的规则翻译概率和词汇翻译概率。

附记12.根据附记9所述的辅助翻译输入设备,还包括用于将所述第 一语言文字串翻译为另一第二语言文字串的第二翻译单元,其中所述另一第二语言文字串与所述第二语言文字串相同或不同。

附记13.根据附记12所述的辅助翻译输入设备,其中,所述第二翻译单元包括如下子单元:

生成候选翻译路径子单元,被配置通过针对所述拼音串而与所述统计机器翻译模型中的规则进行匹配、并且使得所匹配的规则中包括的从所述第一语言的拼音表示到所述第一语言的文字串的转换中的文字与所述第一语言文字串中的文字相匹配,生成多个候选翻译路径;以及

选择子单元,被配置从所述多个候选翻译路径当中选择得分最高的翻译路径来进行翻译,从而得到所述另一第二语言文字串。

附记14.根据附记12所述的辅助翻译输入设备,还包括用于选择性地显示所述第二语言文字串的显示单元。

附记15.根据附记14所述的辅助翻译输入设备,其中,在所述显示单元中,如果所述第二语言文字串的得分小于或等于所述另一第二语言文字串的得分,则只显示所述另一第二语言文字串,而如果所述第二语言文字串的得分大于所述另一第二语言文字串的得分,则显示所述第二语言文字串和所述另一第二语言文字串两者。

附记16.根据附记9所述的辅助翻译输入设备,其中,所述第一语言包括中文,并且所述第二语言包括英文。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1