评价中间语的词语的方法和装置以及机器翻译方法和设备的制作方法

文档序号:6502212阅读:137来源:国知局
评价中间语的词语的方法和装置以及机器翻译方法和设备的制作方法
【专利摘要】本发明涉及一种对中间语的词语进行评价的方法和对中间语的词语进行评价的装置以及机器翻译方法和机器翻译设备。对中间语的词语进行评价的方法,包括确定中间语的词语相对于源语言的第一特定属性;确定中间语的词语相对于目标语的第二特定属性;根据第一特定属性和第二特定属性来计算中间语的词语的可靠性分数;以及根据可靠性分数来评价中间语的词语,其中,中间语的词语是将源语言的特定词语翻译成目标语的词语的桥梁。
【专利说明】评价中间语的词语的方法和装置以及机器翻译方法和设备

【技术领域】
[0001] 本发明涉及语言处理领域,具体涉及对中间语的词语进行评价的方法和对中间语 的词语进行评价的装置以及机器翻译方法和机器翻译设备。

【背景技术】
[0002] 平行的词汇信息在交叉语言应用(包括机器翻译、交叉语言信息获取等等)中占有 至关重要的地位。然而,不是任何两种语言的平行词汇信息的获取都是可行的,尤其是那些 使用范围非常有限的语言。另外,由于新名词的发展十分迅速,因而想要使所掌握的平行词 汇信息能够追赶上新名词的发展十分困难。因此,中间语(Pivot language)这一概念被引 入。通过中间语来补充更多的平行词汇信息。然而,对中间语的使用主要存在两个主要障 碍,第一是歧义性,第二是不匹配。
[0003] 为解决源语言(Source language)、中间语与目标语(Target language)的歧义问 题,传统方法使用结构化双语词典、语义类别(semantic class)、多个中间语言、相关频率、 编辑距离等信息。传统方法始终相信源语言与中间语之间的翻译概率、中间语与目标语之 间的翻译概率可以反映歧义问题,并可以通过选择最高概率来解决歧义问题。
[0004] 通过中间语获取双语信息的传统方法基本遵循如下过程。首先获取源语言与中间 语的信息、中间语与目标语的信息,例如,翻译概率、词汇化翻译概率、编辑距离,语义信息 等。通过这些信息选择出最可靠的成对的源语言词语与目标语词语。然而,如果中间语含 有多个语义,传统方法并不会对这种情况进行特殊处理,而是依旧选择翻译概率最高的词 语作为最终结果。这种做法忽略了源自非平行语料的源语言和目标语不具有相同涵义这一 特点,因此,在中间语的词语具有歧义的情况下,翻译概率并不能反映源语言的词语与目标 语的词语之间的语义关系。
[0005] 因此,期望提出一种能够解决上述问题的技术。


【发明内容】

[0006] 在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理 解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关 键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念, 以此作为稍后论述的更详细描述的前序。
[0007] 本发明的一个主要目的在于,提供一种对中间语的词语进行评价的方法和对中间 语的词语进行评价的装置以及机器翻译方法和机器翻译设备。
[0008] 根据本发明的一个方面,提供了一种对中间语的词语进行评价的方法。该方法包 括:确定中间语的词语相对于源语言的第一特定属性;确定中间语的词语相对于目标语的 第二特定属性;根据第一特定属性和第二特定属性来计算中间语的词语的可靠性分数;以 及根据可靠性分数来评价中间语的词语,其中,中间语的词语是将源语言的特定词语翻译 成目标语的词语的桥梁。
[0009] 根据本发明的另一个方面,提供了一种机器翻译方法。该方法包括:通过上述的对 中间语的词语进行评价的方法获得中间语的词语的可靠性分数;根据中间语的词语的可靠 性分数、以及将源语言的特定词语通过中间语的词语翻译成目标语的候选词语的机器翻译 分数,计算目标语的候选词语的翻译分数;以及根据翻译分数从目标语的候选词语中选择 目标语的词语作为翻译结果。
[0010] 根据本发明的又一个方面,提供了一种对中间语的词语进行评价的装置。该装置 包括:第一特定属性确定部,用于确定中间语的词语相对于源语言的第一特定属性;第二 特定属性确定部,用于确定中间语的词语相对于目标语的第二特定属性;可靠性分数计算 部,用于根据第一特定属性和第二特定属性来计算中间语的词语的可靠性分数;以及评价 部,用于根据可靠性分数来评价中间语的词语,其中,中间语的词语是将源语言的特定词语 翻译成目标语的词语的桥梁。
[0011] 根据本发明的又一个方面,提供了一种机器翻译设备。该设备包括:上述的对中间 语的词语进行评价的装置,用于获得中间语的词语的可靠性分数;翻译分数计算部,用于根 据中间语的词语的可靠性分数、以及将源语言的特定词语通过中间语的词语翻译成目标语 的候选词语的机器翻译分数,计算目标语的候选词语的翻译分数;以及翻译结果选择部,用 于根据翻译分数从目标语的候选词语中选择目标语的词语作为翻译结果。
[0012] 另外,根据本发明的又一个方面,提供了一种用于实现上述装置的计算机程序。
[0013] 此外,根据本发明的又一个方面,提供了一种至少计算机可读介质形式的计算机 程序产品,其上记录有用于实现上述装置的计算机程序代码。
[0014] 通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优 点将更加明显。

【专利附图】

【附图说明】
[0015] 参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其 它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。
[0016] 图1A是示出根据本发明的一个实施例的对中间语的词语进行评价的方法的流程 图。
[0017] 图1B是示出根据本发明的一个实施例的通过人工神经网络来计算可靠性分数的 示意图。
[0018] 图2是示出根据本发明的另一个实施例的对中间语的词语进行评价的方法的流 程图。
[0019] 图3是示出根据本发明的一个实施例的机器翻译方法的流程图。
[0020] 图4是示出根据本发明的一个实施例的对中间语的词语进行评价的装置的配置 的框图。
[0021] 图5是示出根据本发明的另一个实施例的对中间语的词语进行评价的装置的配 置的框图。
[0022] 图6是示出根据本发明又一个实施例的对中间语的词语进行评价的装置的配置 的框图。
[0023] 图7是示出根据本发明的一个实施例的机器翻译设备的配置的框图。
[0024] 图8是示出可以用于实施本发明的对中间语的词语进行评价的方法和装置的计 算设备以及机器翻译方法和机器翻译设备的举例的结构图。

【具体实施方式】
[0025] 下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描 述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应 当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知 的部件和处理的表示和描述。
[0026] 在有些情况下,可能缺少将源语言A和目标语B直接关联起来的信息,而存在将中 间语E和源语言A直接关联起来的信息、以及将中间语E和目标语B直接关联起来的信息。 在这种情况下,可以考虑在中间语E中寻找一个或多个词语P作为桥梁,以将源语言A中的 特定词语S翻译成目标语B中的相应词语。换句话说,中间语E的词语P可作为将源语言 A的特定词语S翻译成目标语B中的相应词语T的桥梁。
[0027] 图1A是示出根据本发明的一个实施例的对中间语E的词语P进行评价的方法100 的流程图。图1B是示出根据本发明的一个实施例的通过人工神经网络来计算可靠性分数 的示意图。
[0028] 如图1所示,在步骤S102中,确定中间语E的每个词语P相对于源语言A的特定 属性(即,第一特定属性)。换句话说,确定词语P在源语言A中呈现的特定属性。
[0029] 第一特定属性可以包括:中间语E的每个词语P在源语言A中的语义范围(S卩,第 一语义范围)。词语P在源语言A中的含义越多,则第一语义范围越大。例如,该第一语义 范围可以是源语言A中与中间语E的每个词语P对应的词语的数量、或该数量的函数。在 有些情况下,源语言A中与中间语E的词语P对应的词语的数量可能呈指数性,因此,可以 取该数量的一个函数,使得得到的结果呈线性。例如,该函数可以为对数。
[0030] 在步骤S104中,确定中间语E的每个词语P相对于目标语B的特定属性(S卩,第二 特定属性)。换句话说,确定词语P在源语言A中呈现的特定属性。
[0031] 第二特定属性可以包括:中间语E的每个词语P在目标语B中的语义范围(S卩,第 二语义范围)。词语P在目标语B中的含义越多,则第二语义范围越大。例如,该第二语义 范围可以是目标语B中与中间语E的每个词语P对应的词语的数量或该数量的函数。类似 地,该函数可以为对数。
[0032] 在步骤S106中,根据第一特定属性和第二特定属性来计算中间语E的每个词语P 的可靠性分数。
[0033] 在一个实施例中,可以将第一特定属性和第二特定属性作为特征,通过例如回归 算法来计算中间语E的每个词语P的可靠性分数。
[0034] 优选地,在一个实施例中,可以将第一特定属性和第二特定属性作为特征,通过人 工神经网络(Artificial Neural Networks,简称ANN)算法来计算中间语E的每个词语P 的可靠性分数。
[0035] 人工神经网络实质是一种简单的数学模型,可以通过方程f:x|y来定义。人工神 经网络中的网络一词指的是每个系统中的各层神经元中的神经元间的相互连接。一个典型 的人工神经网络具有三层神经元。第一层神经元为输入神经元,用于接收数据并传递至第 二层神经元。之后,通过数量多于第一层的第二层神经元传递至第三层输出神经元。更加 复杂的人工神经网络可以包括更多的层数。每个神经元存储的参数被称为权重,权重在数 据传递过程中与数据进行计算。数学上讲,一个神经网络方程f(x)就是一系列方程 811100 的组合。gm(x)也可以被定义为另外一系列方程的组合。这个方程可以被表示为如图1B所 示的网络结构图,结构图中的箭头描述每个变量之间的依存关系,Pr (S | P)表示中间语E的 词语P到源语言A的特定词语的翻译概率,Pw (S | P)表示中间语E的词语到源语言A的特 定词语的词汇化翻译概率,S(P)表包括第一语义范围和第二语义范围。尽管在图1B中同 时示出了 Pr(S|P)、Pw(S|P)和S(P),但是也可以只使用S(P)而不用Pr(S|P)和Pw(S|P)。
[0036] 在人工神经网络中,"非线性权重和"是一种广泛使用的函数组合,如下:
[0037]

【权利要求】
1. 一种对中间语的词语进行评价的方法,包括: 确定所述中间语的词语相对于源语言的第一特定属性; 确定所述中间语的词语相对于目标语的第二特定属性; 根据所述第一特定属性和所述第二特定属性来计算所述中间语的词语的可靠性分数; 以及 根据所述可靠性分数来评价所述中间语的词语, 其中,所述中间语的词语是将源语言的特定词语翻译成目标语的词语的桥梁。
2. 根据权利要求1所述的方法,其中, 所述第一特定属性包括:所述中间语的词语在所述源语言中的第一语义范围;以及 所述第二特定属性包括:所述中间语的词语在所述目标语中的第二语义范围。
3. 根据权利要求2所述的方法,其中, 所述第一语义范围是所述源语言中与所述中间语的词语对应的词语的数量或该数量 的函数,以及 所述第二语义范围是所述目标语中与所述中间语的词语对应的词语的数量或该数量 的函数。
4. 根据权利要求1所述的方法,其中,所述第一特定属性还包括: 所述中间语的词语到所述源语言的特定词语的翻译概率;和/或 所述中间语的词语到所述源语言的特定词语的词汇化翻译概率。
5. 根据权利要求1所述的方法,其中,在确定所述中间语的词语相对于源语言的第一 特定属性的步骤之前,所述方法还包括: 将所述源语言的特定词语与所述中间语的语库中的词语对齐以得到所述中间语的第 一词语; 从所述第一词语中去除不与所述源语言的特定词语对应的部分以得到第一对齐词 语; 将所述目标语的语库中的词语与所述中间语的语库中的词语对齐以得到所述中间语 的第二词语; 从所述第二词语中去除不与所述目标语的语库中的词语对齐的部分以得到第二对齐 词语;以及 将所述第一对齐词语和所述第二对齐词语的交集中的词语作为所述中间语的待评价 的词语。
6. 根据权利要求5所述的方法,其中,在将所述第一对齐词语和所述第二对齐词语的 交集中的词语作为所述中间语的待评价的词语的步骤之前还包括: 分别判断所述第一对齐词语的起始部分和所述第二对齐词语的起始部分是否稳定, 如果所述第一对齐词语的起始部分和所述第二对齐词语的起始部分不稳定,则去除所 述起始部分。
7. 根据权利要求6所述的方法,其中,判断所述第一对齐词语的起始部分和所述第二 对齐词语的起始部分是否稳定的步骤包括: 分别判断所述第一对齐词语的起始部分和所述第二对齐词语的起始部分在所述源语 言中的语义范围是否超过第一阈值;和/或 分别判断所述第一对齐词语的起始部分和所述第二对齐词语的起始部分在所述目标 语中的语义范围是否超过第二阈值。
8. -种机器翻译方法,包括: 根据权利要求1至7中任一项所述的方法获得所述中间语的词语的可靠性分数; 根据所述中间语的词语的可靠性分数、以及将源语言的特定词语通过所述中间语的词 语翻译成所述目标语的候选词语的机器翻译分数,计算所述目标语的所述候选词语的翻译 分数;以及 根据所述翻译分数从所述目标语的所述候选词语中选择所述目标语的词语作为翻译 结果。
9. 一种对中间语的词语进行评价的装置,包括: 第一特定属性确定部,用于确定所述中间语的词语相对于源语言的第一特定属性; 第二特定属性确定部,用于确定所述中间语的词语相对于目标语的第二特定属性; 可靠性分数计算部,用于根据所述第一特定属性和所述第二特定属性来计算所述中间 语的词语的可靠性分数;以及 评价部,用于根据所述可靠性分数来评价所述中间语的词语, 其中,所述中间语的词语是将源语言的特定词语翻译成目标语的词语的桥梁。
10. -种机器翻译设备,包括: 根据权利要求9所述的装置,用于获得所述中间语的词语的可靠性分数; 翻译分数计算部,用于根据所述中间语的词语的可靠性分数、以及将源语言的特定词 语通过所述中间语的词语翻译成所述目标语的候选词语的机器翻译分数,计算所述目标语 的所述候选词语的翻译分数;以及 翻译结果选择部,用于根据所述翻译分数从所述目标语的所述候选词语中选择所述目 标语的词语作为翻译结果。
【文档编号】G06F17/28GK104123274SQ201310150456
【公开日】2014年10月29日 申请日期:2013年4月26日 优先权日:2013年4月26日
【发明者】付亦雯, 葛乃晟, 郑仲光, 孟遥, 于浩 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1