抽取姓名词典和翻译规则表的方法和设备的制造方法

文档序号:9375582阅读:389来源:国知局
抽取姓名词典和翻译规则表的方法和设备的制造方法
【技术领域】
[0001] 本发明一般地涉及自然语言处理领域。具体而言,本发明涉及一种抽取用于在日 文姓名与英文姓名之间进行翻译的姓名词典和翻译规则表的方法和设备、以及利用所抽取 出的姓名词典和翻译规则表来在日文姓名与英文姓名之间进行翻译的方法和设备。
【背景技术】
[0002] 近年来,自然语言处理,尤其是机器翻译相关的技术得到了迅猛的发展。但是,仍 然存在一些难以解决的技术问题。例如,日文姓名中存在多音字,在基于字对日文姓名进行 翻译以得到对应的英文姓名的时候,存在一对多的不确定性。而且,一些日文姓名的发音与 日文姓名中的汉字的含义有关,相应的发音不常见,基于日文姓名中的汉字的通常的发音 进行翻译,容易获得错误的结果。所以,难以借助于普通的翻译词典和翻译规则表,对日文 姓名和英文姓名进行互译。
[0003] 显然,如果在日文姓名和英文姓名之间进行翻译的时候,利用好的姓名词典和翻 译规则表,则翻译的准确度高,翻译质量好。然而,依靠人工来进行姓名词典和翻译规则表 的制作是费力、耗时、低效的。依靠现有的词典抽取技术和翻译规则表抽取技术抽取的结果 又不能适应日文姓名的特殊性。综上所述,难以自动地、准确地获得高质量的针对日文姓名 和英文姓名的翻译的姓名词典和翻译规则表。
[0004] 因此,期望一种能够自动地、准确地抽取用于在日文姓名与英文姓名之间进行翻 译的高质量的姓名词典和翻译规则表的方法和设备。

【发明内容】

[0005] 在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本 理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的 关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概 念,以此作为稍后论述的更详细描述的前序。
[0006] 本发明的目的是针对现有技术的上述问题,提出了一种能够自动地、准确地抽取 用于在日文姓名与英文姓名之间进行翻译的高质量的姓名词典和翻译规则表的方法和设 备。
[0007] 为了实现上述目的,根据本发明的一个方面,提供了 一种抽取用于在日文姓名与 英文姓名之间进行翻译的姓名词典和翻译规则表的方法,包括:收集英日姓名语料库,其包 括日文姓名及对应的英文姓名;针对所收集的日文姓名和英文姓名,划分日文姓名和英文 姓名;利用日文汉字发音表,将日文姓名中的日文汉字与英文姓名中的英文音节对齐,该对 齐结果作为切分结果,所述日文汉字发音表中记载了日文汉字及其对应的一种或多种英文 字符串,所述英文字符串包括一个或多个英文音节;以及根据上述对齐结果,抽取所述姓名 词典和翻译规则表。
[0008] 相应地,根据本发明的再一方面,提供了一种利用上述方法抽取出的姓名词典和 翻译规则表来在日文姓名与英文姓名之间进行翻译的方法,包括:在所述姓名词典中搜索 与待翻译的姓名中的日语汉字/英文字符串匹配的姓和名;以及如果搜索到唯一的匹配结 果,则将该匹配结果作为翻译结果;如果搜索到多种匹配结果,则根据所述姓名词典中的出 现频次,计算每种匹配结果的得分,选择得分最高的匹配结果作为翻译结果,或者按得分从 高到低的顺序排列所述匹配结果。
[0009] 相应地,根据本发明的再一方面,提供了一种利用上述方法抽取出的姓名词典和 翻译规则表来在日文姓名与英文姓名之间进行翻译的方法,包括:基于所述翻译规则表,使 用CKY算法,进行所述翻译,获得多个候选结果;根据每种候选结果中的姓和名在所述姓名 词典中存在的多少,计算每种候选结果的得分;以及选择得分最高的候选结果作为翻译结 果,或者按得分从高到低的顺序排列所述候选结果。
[0010] 根据本发明的另一个方面,提供了一种抽取用于在日文姓名与英文姓名之间进行 翻译的姓名词典和翻译规则表的设备,包括:收集装置,被配置为:收集英日姓名语料库, 其包括日文姓名及对应的英文姓名;划分装置,被配置为:划分所收集的日文姓名和英文 姓名;对齐装置,被配置为:利用日文汉字发音表,将日文姓名中的日文汉字与英文姓名中 的英文音节对齐,该对齐结果作为切分结果,所述日文汉字发音表中记载了日文汉字及其 对应的一种或多种英文字符串,所述英文字符串包括一个或多个英文音节;以及抽取装置, 被配置为:根据所述对齐装置的对齐结果,抽取所述姓名词典和翻译规则表。
[0011] 相应地,根据本发明的再一方面,提供了一种利用上述设备抽取出的姓名词典和 翻译规则表来在日文姓名与英文姓名之间进行翻译的装置,包括:第一搜索单元,被配置 为:在所述姓名词典中搜索与待翻译的姓名中的日语汉字/英文字符串匹配的姓和名;以 及结果确定单元,被配置为:如果第一搜索单元搜索到唯一的匹配结果,则将该匹配结果作 为翻译结果;如果第一搜索单元搜索到多种匹配结果,则根据所述姓名词典中的出现频次, 计算每种匹配结果的得分,选择得分最高的匹配结果作为翻译结果,或者按得分从高到低 的顺序排列所述匹配结果。
[0012] 相应地,根据本发明的再一方面,提供了一种利用上述设备抽取出的姓名词典和 翻译规则表来在日文姓名与英文姓名之间进行翻译的装置,包括:候选获得单元,被配置 为:基于所述翻译规则表,使用CKY算法,进行所述翻译,获得多个候选结果;得分计算单 元,被配置为:根据每种候选结果中的姓和名在所述姓名词典中存在的多少,计算每种候选 结果的得分;以及结果确定单元,被配置为:选择得分最高的候选结果作为翻译结果,或者 按得分从高到低的顺序排列所述候选结果。
[0013] 另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可 读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处 理设备执行根据本发明的上述方法。
[0014] 此外,根据本发明的再一方面,还提供了 一种程序产品。所述程序产品包括机器可 执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行 根据本发明的上述方法。
【附图说明】
[0015] 参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其 它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
[0016] 图1示出了根据本发明的实施例的抽取姓名词典和翻译规则表的方法的流程图;
[0017] 图2示出了根据本发明的实施例的抽取翻译规则表(步骤S4的子步骤)的方法 的流程图;
[0018] 图3示出了根据本发明的实施例的利用所抽取的姓名词典和翻译规则表进行翻 译的方法的流程图;
[0019] 图4示出了根据本发明的实施例的利用所抽取的姓名词典和翻译规则表进行翻 译的方法的流程图;
[0020] 图5示出了根据本发明实施例的抽取用于在日文姓名与英文姓名之间进行翻译 的姓名词典和翻译规则表的抽取设备的结构方框图;
[0021] 图6示出了根据本发明实施例的利用上述设备抽取出的姓名词典和翻译规则表 来在日文姓名与英文姓名之间进行翻译的装置的结构方框图;
[0022] 图7示出了根据本发明实施例的利用上述设备抽取出的姓名词典和翻译规则表 来在日文姓名与英文姓名之间进行翻译的装置的结构方框图;以及
[0023] 图8示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
【具体实施方式】
[0024] 在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起 见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际 实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标, 例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的 不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益 于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0025] 在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中 仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明 关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述 的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
[0026] 这里应说明的是日文姓名中可以包含日文汉字,如"藤原智史",也可包含平假名 和片假名。由于平假名和片假名与英文音节的对应关系明确,可以直接彼此转换,所以在此 以日文姓名仅包含日文汉字的情况作为示例。对于日文姓名中包含日文汉字和平假名/片 假名的情况,本领域技术人员应能理解,可将其中的平假名/片假名直接转换为对应的英 文音节,将其余部分,即仅包含日文汉字的部分视作一个日文姓名,采用本发明的方法和设 备处理。
[0027] 此外,英文姓名是指由英文音节构成的英文字符串,例如,"藤原智史"对应的英文 姓名是"Fujiwara Satoshi"。而且,英文姓名中具有将英文姓氏与英文名字分隔开来的空 格等标识符。这里的英文姓名并非诸如"Mike"之类的英语姓名,而是日文姓名对应的英文 音节构成的英文字符串,即日文姓名的英文表示。
[0028] 在传统的技术中,对英文姓名进行切分往往是基于规则的,并且切分与对齐是两 个单独的步骤,对切分的结果进行对齐。对齐结果附加于切分结果之上。这样的技术难以 正确地处理日文姓名的发音并非日文姓名中的日文汉字的常见发音的组合的情况。
[0029] 例如,日文姓氏"大和"应对应于"yamato",其中日文汉字"大"对应于"yama","和" 对应于"to"。实际上,"大"并没有单独对应于"yama"的情况,"yama"对应的往往是"山"。 "大和"实际上是借用了山高大的形象而发音为"yamato"。
[0030] 如果采用传统的切分方法,难以将"大和"对应于"yamato",而是切分为"大"和 "和"。再将"大"和
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1