机器翻译设备、方法和系统的制作方法

文档序号:6466590阅读:136来源:国知局
专利名称:机器翻译设备、方法和系统的制作方法
技术领域
本发明涉及一种设备、方法和系统,其从客户端终端接收翻译请求, 在服务器端进行从作为输入语句语言的第一语言到作为输出语句语言的第 二语言的翻译处理,并向作为请求源的客户端发送翻译结果。
背景技术
公知的机器翻译系统包括多个供请求翻译的用户使用的客户端、以及 提供机器翻译功能的机器翻译服务器。这些机器翻译系统利用双语词条信 息或文档领域信息进行翻译,其中双语词条信息是翻译期间用户指定的源 语言形式的单词和单词翻译的组合。这种机器翻译系统通过利用用户在双 语词条信息中表示的翻译或利用根据指定的文档领域信息确定的翻译辞 典,可以提供高质量的机器翻译。
例如,JP-A 2003-223442(特开)提出了一种针对每个领域学习用户指 定的双语词条信息并在翻译期间利用所学双语词条信息的技术。JP-A 2003-296327 (特开)提出了一种利用用户提供的领域信息确定要使用的辞 典的技术。
JP-A 2003-223442或2003-296327 (特开)中描述的技术在待翻译的文 档处于一个领域中的情况下是有效的。当一个文档包括与多个领域相关的 语句(例如新闻稿)时,翻译质量可能会下降。
在这些技术中,在翻译期间必需要明确给出领域。翻译质量随着领域 的颗粒度而变化。例如,当设置了 "体育"领域时,单词的翻译可能会随 着运动类型(例如"棒球"和"足球")而变化。在这种情况下,在选择译 文时会产生歧义(ambiguity)。
在根据运动类型(例如"棒球"或"足球")设置细分的领域时,几乎 不会产生歧义。然而,当有多种运动中通用的翻译时,因为所指定的领域 太细而不能参考通用翻译,这可能会使翻译质量下降。

发明内容
根据本发明的一个方面, 一种机器翻译设备包括辞典存储单元,其 用于存储双语词条信息和标识信息,在所述双语词条信息中使第一语言形 式的第一单词和第二语言形式的第二单词彼此相关联,所述标识信息标识 所述双语词条信息;源语句存储单元,其用于存储彼此相关联的所述第一 语言形式的源语句和用于翻译所述源语句的所述双语词条信息的标识信 息;接收单元,其用于接收包括所述第一语言形式的输入语句的翻译请求; 源语句获得单元,其用于计算所述输入语句和所述源语句之间的相似度, 并从所述源语句存储单元获得所述相似度高于预定阈值的所述源语句;双 语词条信息获得单元,其用于从所述辞典存储单元获得所述标识信息对应 于由所述源语句获得单元获得的所述源语句的所述双语词条信息;以及翻 译单元,其用于判断由所述双语词条信息获得单元获得的所述双语词条信
息中的所述第一单词是否包括在所述输入语句中,并且在所述第一单词包 括在所述输入语句中时,将在所述输入语句中包括的所述第一单词翻译成 所述双语词条信息中的所述第二单词。
根据本发明的另一个方面,机器翻译方法包括接收包括第一语言形式 的输入语句的翻译请求;计算所述输入语句和所述第一语言形式的源语句 之间的相似度;从源语句存储单元获得所述相似度高于预定阈值的所述源 语句,并使所述第一语言形式的第一单词与第二语言形式的第二单词彼此 相关联,其中所述源语句存储单元用于存储所述源语句和双语词条信息的 标识信息,所述双语词条信息用于翻译所述源语句;从用于存储所述双语 词条信息和所述标识信息的辞典存储单元获得所述标识信息对应于所获得 的源语句的所述双语词条信息;判断所获得的双语词条信息中的所述第一 单词是否包括在所述输入语句中;以及当所述第一单词包括在所述输入语 句中时,将在所述输入语句中包括的所述第一单词翻译成所述双语词条信 息中的所述第二单词。
根据本发明的又一方面, 一种机器翻译系统包括终端设备,其用于 请求进行翻译;以及机器翻译设备,其用于经由网络连接到所述终端设备。
所述终端设备包括请求发送单元,其用于发送包括第一语言形式的
输入语句的翻译请求;以及结果接收单元,其用于接收翻译结果。
所述机器翻译设备包括辞典存储单元,其用于存储双语词条信息和 标识信息,在所述双语词条信息中使所述第一语言形式的第一单词和第二 语言形式的第二单词彼此相关联,所述标识信息标识所述双语词条信息; 源语句存储单元,其用于存储彼此相关联的所述第一语言形式的源语句和 用于翻译所述源语句的所述双语词条信息的标识信息;接收单元,其用于 接收所述翻译请求,所述翻译请求包括所述第一语言形式的输入语句;源 语句获得单元,其用于计算所述输入语句和所述源语句之间的相似度,并 从所述源语句存储单元获得所述相似度高于预定阈值的所述源语句;双语 词条信息获得单元,其用于从所述辞典存储单元获得所述标识信息对应于 由所述源语句获得单元获得的所述源语句的所述双语词条信息;翻译单元,
其用于判断由所述双语词条信息获得单元获得的所述双语词条信息中的所 述第一单词是否包括在所述输入语句中,并且在所述第一单词包括在所述
输入语句中时,将在所述输入语句中包括的所述第一单词翻译成所述双语
词条信息中的所述第二单词;以及输出单元,其用于向所述终端设备输出
由所述翻译单元翻译的所述翻译结果。


图l是根据本发明第一实施例的机器翻译系统的配置的方框图; 图2为示出了根据第一实施例的源语句存储单元中存储的数据结构范 例的图示;
图3为示出了根据第一实施例的辞典存储单元中存储的数据结构范例 的图示;
图4是根据第一实施例的机器翻译处理的总体流程的流程图5为示出了根据第一实施例的源语句存储单元中存储的数据的另一
种结构范例的图示;
图6为示出了根据第一实施例的辞典存储单元中存储的数据的另一结
构范例的图示;
图7是根据本发明第二实施例的机器翻译系统的配置的方框图8为示出了根据第二实施例的在源语句存储单元中存储的数据结构
范例的图示;
图9是根据第二实施例的机器翻译处理的总体流程的流程图; 图10为示出了根据第二实施例的在辞典存储单元中存储的数据结构范 例的图示;以及
图11为示出了根据第一和第二实施例的机器翻译设备的硬件配置的示意图。
具体实施例方式
以下将参考附图详细描述根据本发明的设备、方法和系统的示范性实 施例。
根据本发明第一实施例的机器翻译系统从作为终端装置的客户端接收 翻译请求,在作为机器翻译设备的机器翻译服务器中执行从作为输入语句 语言的第一语言到作为输出语句语言的第二语言的翻译处理,并将翻译结 果发送到请求源。此时,用户可以将第一语言形式的单词和第二语言形式 的单词(前述单词的翻译)的集合指定为双语词条信息。机器翻译服务器在 翻译期间使用指定的双语词条信息来获得翻译。
根据第一实施例的机器翻译系统存储由多个用户指定的双语词条信息 和输入语句(二者彼此相关)。在存储有与被请求翻译的输入语句类似的语 句时,机器翻译系统还引用涉及到所存储语句的双语词条信息,以高精度 翻译输入语句。
在下文中以英语和日语之间的机器翻译为例加以描述。翻译所使用的 语言不限于此。可以将本发明应用于任何语言之间的机器翻译。
如图1所示,机器翻译系统10具有这样的配置其中,机器翻译服务
器100和多个客户端200a到200c通过诸如因特网和局域网(LAN)之类的网 络300连接。
客户端200a到200c向机器翻译服务器100发送翻译请求,该翻译请 求包括要翻译的输入语句和翻译输入语句期间使用的双语词条信息,并且 客户端200a到200c从机器翻译服务器100接收翻译结果,由此翻译期望 的输入语句。客户端200a到200c具有相同的配置,因此也统称为客户端 200。客户端200的数量不限于三个。机器翻译服务器100响应于来自客户端200a到200c的翻译请求进行 机器翻译,并将翻译结果返回到请求翻译的客户端200a到200c之一。稍 后详细介绍机器翻译服务器100的功能。
下文详细介绍客户端200的功能。如图1所示,客户端200包括请求 发送器201和结果接收器202。
请求发送器201向机器翻译服务器100发送翻译请求。如上所述,翻 译请求包括要翻译的输入语句和翻译期间使用的双语词条信息。翻译请求 还包括能够标识用户的标识信息,例如请求翻译的用户名称。使用标识信 息来标识发送翻译请求的用户。用户可以不指定双语词条信息而请求翻译。 在这种情况下,在翻译请求中设置双语词条信息之外的信息。
结果接收器202接收机器翻译服务器100获得的翻译结果,机器翻译 服务器100响应于翻译请求来翻译输入语句。
客户端200可以根据一种应用(未示出)来执行翻译请求的发送和翻译 结果的接收,该应用具有指定要翻译的输入语句或要使用的双语词条信息 的功能以及显示翻译结果的功能。
下面详细介绍机器翻译服务器100的功能。如图1所示,机器翻译服 务器100包括源语句存储单元121、辞典存储单元122、接收单元IOI、源 语句获得单元102、双语词条信息获得单元103、翻译单元104、存储单元 105和输出单元106。
源语句存储单元121存储先前发出过翻译请求的输入语句,从而可以 参考先前翻译输入语句时使用的双语词条信息。也将源语句存储单元121 中存储的先前输入语句称为源语句信息。
如图2所示,源语句存储单元121存储彼此相关联的组成(component) 单词索引、源语句信息和双语词条信息ID数据。组成单词索引用于有效地 检索源语句信息。
根据第一实施例,采用这样的组成单词索引,其列出了对源语句信息 进行语形学分析而获得的单词。当要检索类似于输入语句的源语句信息时, 仅把利用组成单词索引检索的源语句信息作为目标,这样就不需要以所有 源语句信息为目标,提高了检索处理的效率。
双语词条信息ID是用于标识请求翻译源语句信息时指定的双语词条信
息的标识信息。
返回到图l,辞典存储单元122存储双语词条信息,双语词条信息是第 一语言形式的单词和该单词的第二语言形式的翻译的集合,是在指定请求 翻译的输入语句的同时指定的。
如图3所示,辞典存储单元122存储彼此相关联的用户名、双语词条 信息和双语词条信息ID数据。用户名是请求翻译的用户的名称。将双语词 条信息是"第一语言单词二第二语言翻译"的形式的组。在指定多组第一语 言形式的单词和第二语言形式的翻译时,在双语词条信息中设置该多个组。 在图3中,将两个集合"Ew4=Jw4"和"Ew5=Jw5"指定为用户名UserA的 双语词条信息。
使用双语词条信息ID来标识如上所述的双语词条信息。使用双语词条 信息ID来关联源语句存储单元121中存储的源语句信息和辞典存储单元 122中存储的双语词条信息。亦即,在利用与源语句存储单元121中的某源 语句信息相对应的双语词条信息ID在辞典存储单元122中搜索时,能够获 得发出源语句信息翻译请求时指定的双语词条信息。
可以利用任何通用存储介质,例如硬盘驱动器(HDD)、光盘、存储卡和 随机存取存储器(RAM)来构造源语句存储单元121和辞典存储单元122。
源语句信息和双语词条信息的存储方法不限于上文提到的那些。可以 采用任何能够标识在请求翻译任何源语句时指定的双语词条信息的存储方 法。 '
返回到图1,接收单元101接收从客户端200发送的翻译请求。
源语句获得单元102计算输入语句和源语句存储单元121中存储的源 语句信息之间的相似度,以获得相似度高于预定阈值的源语句信息。具体 而言,源语句获得单元102执行语形学分析以将输入语句分成单词。源语 句获得单元102从源语句存储单元121获得包括组成单词索引中的所划分 的每个单词的源语句信息。
源语句获得单元102计算所获得的每条源语句信息和输入语句之间的 相似度。源语句获得单元102基于源语句信息和输入语句之间的编辑距离 计算相似度。亦即,源语句获得单元102为与输入语句之间的编辑距离更 小的源语句信息指定比与输入语句的编辑距离更大的源语句信息更高的相
似度。相似度计算方法不限于此。可以采用任何能够计算语句间相似程度 的方法。
双语词条信息获得单元103利用对应于源语句获得单元102获得的源 语句信息的双语词条信息ID作为搜索关键字从辞典存储单元122中获得双 语词条信息。
源语句获得单元102和双语词条信息获得单元103使得能够获得类似 于输入语句的源语句信息以及在翻译源语句期间使用的双语词条信息。
翻译单元104翻译请求翻译的输入语句。翻译单元104使用的翻译方 法可以是变换(tmnsfer)法或中间语言法,变换法是在诸如分析、转移和 生成的处理步骤配置的。亦即,可以使用任何通用的翻译方法,只要该方 法利用双语词条信息指定的翻译进行翻译即可。
翻译单元104通过参考各种翻译辞典(例如用户定制辞典、术语辞典和 翻译规则辞典(未示出))来翻译输入语句。翻译单元104具有向/从/在用户 定制辞典中寄存/删除/修订其他信息的功能,所述其他信息例如为源单词、 翻译以及用户指定的条件。
翻译单元104通过使用用户在翻译请求中指定的双语词条信息来翻译 输入语句。亦即,相对于从翻译辞典获得的翻译,翻译单元104优先使用 双语词条信息中指定的翻译来翻译输入语句。翻译单元104判断双语词条 信息获得单元103是否获得了双语词条信息。在获得了双语词条信息时, 翻译单元104利用所获得的双语词条信息以及用户在翻译请求中指定的双 语词条信息翻译输入语句。当未在翻译请求中指定双语词条信息时,翻译 单元104仅利用双语词条信息获得单元103获得的双语词条信息翻译输入 语句。当在翻译请求中没有指定双语词条信息且双语词条信息获得单元103 没有获得双语词条信息时,翻译单元104仅参考如上所述的翻译辞典而不 利用双语词条信息来翻译输入语句。
存储单元105为翻译请求中包括的双语词条信息分配新的双语词条信 息ID并存储在辞典存储单元122中。存储单元105使所存储的双语词条信 息的双语词条信息ID与要存储在源语句存储单元121中的请求翻译的输入 语句相关联。
输出单元106向客户端200输出翻译单元104获得的输入语句的翻译 结果。
参考图4介绍根据第一实施例的机器翻译服务器100进行的机器翻译 处理。
接收单元101从客户端200接收包括输入语句和双语词条信息的翻译 请求(步骤S401)。源语句获得单元102计算输入语句和源语句存储单元121 中存储的源语句信息之间的相似度(步骤S402)。
具体而言,源语句获得单元102从源语句存储单元121获得源语句信 息,该源语句信息具有的组成单词索引包括对输入语句进行语形学分析获 得的每个单词。源语句获得单元102计算源语句信息和输入语句之间的相 似度,使得所获得的源语句信息和输入语句之间的编辑距离较小时,相似 度较高。
源语句获得单元102比较相似度和预定阈值,获得相似度高于阈值的 源语句信息(步骤S403)。源语句获得单元102可以用于在相似度高于阈值 的源语句信息中获得预定条数的具有较高相似度的源语句信息。源语句获 得单元102可以用于仅获得相似度高于阈值以及具有最高相似度的源语句
双语词条信息获得单元103判断是否获得了源语句信息(步骤S404)。 在获得源语句信息时(步骤S404处的"是"),双语词条信息获得单元103 从源语句存储单元121获得对应于源语句信息的双语词条信息ID(步骤 S405)。双语词条信息获得单元103从辞典存储单元122获得具有对应的双 语词条信息ID的双语词条信息(步骤S406)。
翻译单元104判断双语词条信息获得单元103是否获得了双语词条信 息(步骤S407)。在获得了双语词条信息时(步骤S407处的"是"),翻译单 元104利用所获得的双语词条信息以及用户在翻译请求中指定的双语词条 信息来翻译输入语句(步骤S408)。
根据该处理,对于用户未指定双语词条信息的单词,利用先前翻译类 似语句时使用的双语词条信息可以获得更恰当的翻译结果。
在未获得双语词条信息时(步骤S407处的"否"),翻译单元104利用 用户在翻译请求中指定的双语词条信息翻译输入语句(步骤S409)。
存储单元105分别在源语句存储单元121和辞典存储单元122中存储
输入语句和双语词条信息(步骤S410)。具体而言,存储单元105为翻译请 求中包括的双语词条信息分配新的双语词条信息ID,并存储在辞典存储单 元122中。在步骤S402存储单元105根据源语句获得单元102获得的单词 生成组成单词索引,并在源语句存储单元121中存储彼此相关联的所生成 的组成单词索引、输入语句和所分配的双语词条信息ID数据。
输出单元106向发送翻译请求的客户端200输出翻译单元104获得的 输入语句的翻译结果(步骤S411),并终止机器翻译处理。
未必一定要按照上述次序执行这些步骤。例如,在翻译单元104执行 的处理中,可以与获得相关双语词条信息的处理(步骤S402到S407)并行地 进行除了利用双语词条信息选择单词翻译的处理之外的处理。可以交换在 对应存储单元中存储信息(步骤S410)的处理和向客户端200输出翻译结果 的处理(歩骤S411)的次序,或者可以并行执行这些处理。
下面介绍根据第一实施例的机器翻译处理的具体范例。在假定以下情 况下进行介绍用户名为User A(在下文中简称为User A)的用户通过客户 端200请求翻译。User A向机器翻译服务器100发送翻译请求,该翻译请 求包括要翻译的输入语句和翻译输入语句期间要采用的双语词条信息。
在此假设User A指定包括三个单词Ewl、 Ew2和Ew3的输入语句 "-----------Ew2-----Ew3——"以及双语词条信息"Ew2=Jw2"以确
定英语单词Ew2的日语翻译为Jw2。
符号"-"表示的部分代表在相似度确定中不重要的那些部分。要采用 的确定相似度的一些方法使用输入语句中所有的字符序列,而一些方法仅 使用其中包括的部分单词。要使用的字符序列取决于所采用的相似度确定 方法。因此,符号"-"表示的部分是什么并不重要。
机器翻译服务器100从客户端200接收包括输入语句和双语词条信息 的翻译请求(步骤S401)。在执行通常为输入语句执行的机器翻译处理时, 源语句获得单元102在源语句存储单元121内存储的源语句信息中检索与 输入语句的相似度最高的源语句信息(步骤S403)。在这种情况下,从如图 2所示存储数据的源语句存储单元121中检索出包括四个单词Ewl、 Ew2、 Ew3和Ew4的源语句信息"——Ewl——Ew2——Ew3——Ew4--"作为相似度 最高的源语句。
双语词条信息获得单元103获得与该源语句信息相关的双语词条信息 ID(步骤S405)。在图2所示的情况下,双语词条信息获得单元103获得1 作为双语词条信息ID。
双语词条信息获得单元103从如图3所示的辞典存储单元122中检索 双语词条信息ID=1的双语词条信息(步骤S406)。在该处理中获得了四条登 记的双语词条信息"Ewl=Jwl, "、 "Ew2=Jw2, "、 "Ew3=Jw3,"和 "Ew4=Jw4, ,,0
输入语句仅包括单词Ewl、 Ew2和Ew3, User A仅指定了与Ew2相关的 双语词条信息。因此,对于其余单词Ewl和Ew3,翻译单元104使用上述处 理中获得的双语词条信息"Ewl二Jwl,"和"Ew34w3,"来翻译输入语句(步 骤S408)。
如果User A未指定双语词条信息,翻译单元104利用三条双语词条信 息"Ewl二Jwl, "、 "Ew2二Jw2,"和"Ew3=Jw3,"来翻译输入语句。
在获得了多条源语句信息时,可以合并对应的双语词条信息。或者, 可以使用对应于相似度更高的源语句信息的双语词条信息。
在翻译之后,存储单元105在源语句存储单元121中存储输入语句的 信息,并在辞典存储单元122中存储用户指定的双语词条信息(步骤S410)。 图5示出了当在源语句存储单元121中登记了输入语句的信息之后,图2 的源语句存储单元121的状态。如图5所示,增加了包括三个单词(Ewl、 Ew2和Ew3)的输入语句作为新的源语句信息。
图6示出了当在图3的辞典存储单元122中登记了该翻译中指定的双 语词条信息之后图3的辞典存储单元122的状态。如图6所示,新增加了 双语词条信息ID=3的双语词条信息。
当在其后请求进行另一翻译时,利用更新后的源语句信息和双语词条 信息重复翻译处理、存储源语句信息的处理和存储双语词条信息的处理。 亦即,客户端200每次请求翻译的时候,都升级源语句存储单元121和辞 典存储单元122的信息并积累翻译知识。
在与第一实施例一样的可以由很多用户使用的机器翻译系统10中,用 户请求翻译的语句或类似于其的语句可能己经根据另一用户的翻译请求被 翻译过。
在这种情况下,因为根据第一实施例的机器翻译设备可以积累先前的 翻译知识,所以它可以参考翻译知识以获得高质量的翻译,具体而言,可 以利用翻译类似于输入语句的语句时参考的双语词条信息来翻译未给出翻 译的单词。于是,和仅仅检索辞典源单词来输出翻译的情况相比,可以获
得更高质量的翻译。
即使在一个文档包括多个领域的语句时,因为相似度确定是以句子为 单位执行的,也能够为每个句子选择适当的翻译。因此,即使在一个文档 包括与多领域相关的语句时,翻译质量也不会下降。每当用户请求翻译附 属有双语词条信息的源语句时,都相应地升级双语词条信息。因此,当大 量用户请求翻译时,可以实现更高质量的翻译。
根据本发明第二实施例的机器翻译设备将输入语句转换成能够与其他 语句比较相似度的形式,并与先前翻译过并进行过类似转换的其他语句比 较相似度,以便获得相关的双语词条信息。
如图7所示,机器翻译系统70包括通过网络300连接的机器翻译服务 器700和多个客户端200a到200c。
根据第二实施例,机器翻译服务器700的配置与第一实施例中的不同。 其他组件和功能与图1所示的相同,图1是根据第一实施例的机器翻译系 统10的配置方框图。因此,用类似的附图标记表示这些组件并将省略其介 绍。
机器翻译服务器700包括源语句存储单元721、辞典存储单元122、接 收单元101、源语句获得单元702、双语词条信息获得单元103、翻译单元 104、存储单元105、输出单元106和转换单元707。
第二实施例与第一实施例的不同之处在于源语句存储单元721中存储 的数据结构、源语句获得单元702的功能以及增加了转换单元707。其他组 件和功能与图1所示的相同,图1是根据第一实施例的机器翻译系统10的 方框图。因此,用类似的附图标记表示这些组件并将省略其介绍。
源语句存储单元721与根据第一实施例的源语句存储单元121的不同 之处在于源语句存储单元721存储被转换成能够与其他语句比较相似度的 形式的源语句信息。根据相似度计算方法定义能够比较相似度的形式。在 第二实施例中,通过将输入语句中包括的单词的频率转换成矢量将输入语
句转换成矢量形式,并采用余弦相似度作为相似度。
相似度计算方法和转化方法不限于此。可以采用任何相似度计算方法 和转化方法,只要转换输入语句以与其他语句比较相似度即可。例如,可 以在对划分后的单词进行规范化之后计算相似度。规范化表示对含义相同
而记法(notation)不同的单词进行标准化,例如将"- >匕'-一夕一"和 "- >匕'- 一夕"标准化为典型记法。可以使用参考语句的句法结构来计
算句法相似度的方法,或考虑语言措辞的依存结构中的相似度来获得语言 措辞相似度的方法。
如图8所示,源语句存储单元721存储相互关联的以矢量形式表达的 源语句信息以及双语词条信息ID数据。为了解释,图8示出了矢量的范例, 其从左边开始分别表示单词Ewl、 Ew2、 Ew3、 Ew4和Ew5的出现频率。符号 表示省略了其他单词。
图8示出了将根据第一实施例示出源语句存储单元121的图2的源语 句信息转换成矢量形式的情形。亦即,因为图2第一行中的源语句信息包 括单词Ewl、 Ew2、 Ew3和Ew4,因此图8中对应的矢量为(...,1, 1, 1, 1, 0,...)。因为图2内第二行中的源语句信息包括单词Ew4和Ew5,图8中 对应的矢量为(...,0, 0, 0, 1, 1,...)。
转换单元707将输入语句转换成能够与其他语句比较相似度的预定形 式。具体而言,转换单元707对输入语句进行语形学分析以划分成单词。 转换单元707将划分后的每个单词的频率转换成矢量,以将输入语句转换 成矢量形式。
源语句获得单元702计算己由转换单元707转换形式的输入语句和源 语句存储单元721中存储的源语句信息之间的余弦相似度,并获得余弦相 似度高于预定阈值的源语句信息。
下面参考图9介绍根据第二实施例的机器翻译服务器700进行的机器 翻译处理。
步骤S901处的翻译请求接收处理与根据第一实施例的机器翻译服务器 100中的步骤S401处的处理相同,因此将省略其介绍。
转换单元707将输入语句转换成能够比较相似度的形式,即矢量形式 (步骤S902)。源语句获得单元702计算输入语句和源语句存储单元721中
存储的源语句信息之间的余弦相似度(步骤S903)。
源语句获得单元702比较计算得到的余弦相似度和预定阈值,并获得 余弦相似度高于阈值的源语句信息(步骤S904)。
从步骤S905到S910的双语词条信息获得处理和翻译处理与根据第一 实施例的机器翻译服务器100中的步骤S404到S409的处理相同,因此将 省略其介绍。
在翻译单元104翻译输入语句之后,存储单元105分别在源语句存储 单元721和辞典存储单元122中存储转换后的输入语句和双语词条信息(步 骤S911)。
步骤S912处的翻译结果输出处理与根据第一实施例的机器翻译服务器 100中的步骤S411处的处理相同,因此将省略其介绍。
根据第二实施例的机器翻译设备将输入语句转换成能够与其他语句比 较相似度的形式,并与先前翻译过且进行过类似转换的语句比较相似度, 以获得相关的双语词条信息。
在上述实施例中,在获得了多条源语句信息时,使用所有的双语词条 信息,或者使用对应于相似度较高的源语句信息的双语词条信息。可以使 相关信息与源语句信息或双语词条信息相关联,以基于相关信息获得双语 词条信息的优先级并使用具有较高优先级的双语词条信息。
如图10所示,根据该修改的范例,除了用户名、双语词条信息以及双 语词条信息ID之外,辞典存储单元122还存储在辞典存储单元122中登记 双语词条信息的日期和时间以及应用双语词条信息的领域的数据,它们作 为相关信息而关联。
双语词条信息获得单元103用于在获得多条双语词条信息时优先获得 例如登记日期和时间更近的双语词条信息。通过在翻译请求中包括领域指 定,双语词条信息获得单元103可以用于优先获得与所指定领域相关的双 语词条信息。
可以根据用户的权限确定双语词条信息的优先权。例如,对应于用户 名的用户的权限是使用用户管理数据库(未示出)等获得的。当用户具有管 理员权限时,用户可以优先于具有其他权限的用户选择双语词条信息。通 过确定辞典存储单元122中的用户名,可以优先于其他用户的双语词条信
息使用该用户自己先前请求翻译时使用的双语词条信息。当以包括多个用 户的组为单位管理用户时,可以优先于其他组中用户的双语词条信息使用 该用户所属组先前请求翻译时使用的双语词条信息。在这种情况下,登记
标识组的组名(或者还有辞典存储单元122中的用户名)而不是辞典存储单 元122中的用户名。
参考图11解释根据第一和第二实施例的机器翻译设备的硬件配置。 根据第一或第二实施例的机器翻译设备包括诸如中央处理单元 (CPU) 51之类的控制器、诸如只读存储器(R0M)52和RAM 53之类的存储装 置、连接到网络以建立通信的通信接口(I/F)54、诸如HDD和光盘(CD)驱动 器之类的外存储装置、诸如显示单元之类的显示装置、诸如键盘和鼠标之 类的输入装置以及连接这些组件的总线61。该机器翻译设备具有利用通用 计算机的硬件配置。
提供了一种由根据第一或第二实施例的机器翻译设备执行的机器翻译 程序,其以可安装或可执行格式文档的形式记录在计算机可读存储介质上 中,计算机可读存储介质例如为光盘只读存储器(CD-ROM)、软盘(FD)、可 记录光盘(CD-R)和数字多用盘(DVD)。
可以将根据第一或第二实施例的由机器翻译设备执行的机器翻译程序 存储在与诸如因特网之类的网络相连接的计算机中,并通过网络下载。可 以通过诸如因特网之类的网络提供或分发根据第一或第二实施例的由机器 翻译设备执行的机器翻译程序。
可以提前在ROM等中安装根据第一或第二实施例的机器翻译程序。 根据第一或第二实施例的由机器翻译设备执行的机器翻译程序具有模 块配置,该配置包括如上所述的组件(接收单元、源语句获得单元、双语词 条信息获得单元、翻译单元、存储单元和输出单元)。作为实际硬件,CPU 51 (处理器)从存储介质读取机器翻译程序并加以执行,从而在主存储器中 加载上述组件并在主存储器上产生上述组件。
权利要求
1、一种机器翻译设备,其包括辞典存储单元,其用于存储双语词条信息和标识信息,在所述双语词条信息中使第一语言形式的第一单词和第二语言形式的第二单词彼此相关联,所述标识信息标识所述双语词条信息;源语句存储单元,其用于存储彼此相关联的所述第一语言形式的源语句和用于翻译所述源语句的所述双语词条信息的标识信息;接收单元,其用于接收包括所述第一语言形式的输入语句的翻译请求;源语句获得单元,其用于计算所述输入语句和所述源语句之间的相似度,并从所述源语句存储单元获得所述相似度高于预定阈值的所述源语句;双语词条信息获得单元,其用于从所述辞典存储单元获得所述标识信息对应于由所述源语句获得单元获得的所述源语句的所述双语词条信息;以及翻译单元,其用于判断由所述双语词条信息获得单元获得的所述双语词条信息中的所述第一单词是否包括在所述输入语句中,并且在所述第一单词包括在所述输入语句中时,将在所述输入语句中包括的所述第一单词翻译成所述双语词条信息中的所述第二单词。
2、 根据权利要求l所述的设备,其中所述接收单元接收所述翻译请求,所述翻译请求包括所述输入语句和 在翻译所述输入语句期间要使用的输入双语词条信息,以及所述翻译单元还判断所获得的双语词条信息中的所述第一单词与所述 输入双语词条信息中的所述第一单词是否相同,并且在所获得的双语词条 信息中的所述第一单词与所述输入双语词条信息中的所述第一单词相同且 所述相同的第一单词包括在所述输入语句中时,将所述输入语句中包括的 所述第一单词翻译成所述输入双语词条信息中的所述第二单词。
3、 根据权利要求1所述的设备,其中,所述源语句获得单元计算所述 输入语句和所述源语句之间的编辑距离,并为编辑距离较小的所述源语句 分配比编辑距离较大的所述源语句更高的相似度。
4、 根据权利要求1所述的设备,其中所述源语句存储单元存储包括所述源语句中的单词的索引、所述源语 句和所述标识信息,其中包括所述源语句中的单词的索引、所述源语句和 所述标识信息彼此相关联,以及所述源语句获得单元从所述源语句存储单元获得与包括所述输入语句 中的单词的所述索引相关联的所述源语句,并计算所获得的源语句和所述 输入语句之间的所述相似度。
5、 根据权利要求1所述的设备,其中,所述源语句获得单元从所述源 语句存储单元在所述相似度高于所述阈值的所述源语句中获得预定数量的 按所述相似度以降序排序的所述源语句。
6、 根据权利要求1所述的设备,还包括转换单元,其用于将所述lr入语句转换成能够与其他语句比较相似度的预定形式,其中所述源语句存储单元存储彼此相关联的所述标识信息和被转换成所述 预定形式的所述源语句,以及所述源语句获得单元计算所述转换的输入语句和所述源语句之间的所 述相似度,并从所述源语句存储单元获得所述相似度高于所述阈值的所述源语句。
7、 根据权利要求6所述的设备,其中所述预定形式为矢量形式,所述矢量形式是通过将对所述输入语句进 行语形学分析获得的语素转换成矢量而获得的,以及所述源语句获得单元将所述矢量形式的输入语句和所述矢量形式的源 语句之间的所述相似度作为余弦相似度加以计算,并从所述源语句存储单 元获得所述余弦相似度高于所述阈值的所述源语句。
8、 根据权利要求1所述的设备,其中所述辞典存储单元存储彼此相关联的所述双语词条信息、所述标识信 息和存储所述双语词条信息的日期和时间,以及所述双语词条信息获得单元从所述辞典存储单元在所述标识信息对应 于所获得的源语句的所述双语词条信息中,优先于获得相关日期和时间较 早的所述双语词条信息,而获得相关日期和时间较近的所述双语词条信息。
9、 根据权利要求1所述的设备,其中所述辞典存储单元存储彼此相关联的所述双语词条信息、所述标识信息和应用所述双语词条信息的领域,所述接收单元接收还包括所述领域的所述翻译请求,以及 所述双语词条信息获得单元从所述辞典存储单元在所述标识信息对应于所获得的源语句的所述双语词条信息中,优先于获得相关领域与所述翻译请求中包括的领域不匹配的所述双语词条信息,而获得相关领域与所述翻译请求中包括的领域匹配的所述双语词条信息。
10、 根据权利要求1所述的设备,其中所述接收单元接收所述翻译请求,所述翻译请求包括所述输入语句和 输入双语词条信息,所述输入双语词条信息用于翻译所述输入语句的所述 双语词条信息,以及所述设备还包括存储单元,其用于在所述辞典存储单元中存储所输入 的双语词条信息,并存储彼此相关联的所存储的输入双语词条信息的标识 信息和所述输入语句。
11、 一种机器翻译方法,其包括 接收包括第一语言形式的输入语句的翻译请求; 计算所述输入语句和所述第一语言形式的源语句之间的相似度; 从源语句存储单元获得所述相似度高于预定阈值的所述源语句,并使所述第一语言形式的第一单词与第二语言形式的第二单词彼此相关联,其 中所述源语句存储单元存储所述源语句和用于翻译所述源语句的双语词条 信息的标识信息;从用于存储所述双语词条信息和所述标识信息的辞典存储单元获得所 述标识信息对应于所获得的源语句的所述双语词条信息;判断所获得的双语词条信息中的所述第一单词是否包括在所述输入语 句中;以及当所述第一单词包括在所述输入语句中时,将在所述输入语句中包括 的所述第一单词翻译成所述双语词条信息中的所述第二单词。
12、 一种机器翻译系统,其包括 终端设备,其用于请求进行翻译;以及机器翻译设备,其用于经由网络连接到所述终端设备,其中 所述终端设备包括请求发送单元,其用于发送包括第一语言形式的输入语句的翻译请求;以及结果接收单元,其用于接收翻译结果,以及 所述机器翻译设备包括辞典存储单元,其用于存储双语词条信息和标识信息,在所述双语词 条信息中使所述第一语言形式的第一单词和第二语言形式的第二单词彼此 相关联,所述标识信息标识所述双语词条信息;源语句存储单元,其用于存储彼此相关联的所述第一语言形式的源语 句和用于翻译所述源语句的所述双语词条信息的标识信息;接收单元,其用于接收所述翻译请求,所述翻译请求包括所述第一语 言形式的输入语句;源语句获得单元,其用于计算所述输入语句和所述源语句之间的相似 度,并从所述源语句存储单元获得所述相似度高于预定阈值的所述源语句;双语词条信息获得单元,其用于从所述辞典存储单元获得所述标识信 息对应于由所述源语句获得单元获得的所述源语句的所述双语词条信息;翻译单元,其用于判断由所述双语词条信息获得单元获得的所述双语 词条信息中的所述第一单词是否包括在所述输入语句中,并且在所述第一 单词包括在所述输入语句中时,将在所述输入语句中包括的所述第一单词 翻译成所述双语词条信息中的所述第二单词;以及输出单元,其用于向所述终端设备输出由所述翻译单元翻译的所述翻 译结果。
全文摘要
接收单元接收包括输入语句和双语词条信息的翻译请求。源语句获得单元计算输入语句和源语句之间的相似度,并从源语句存储单元获得相似度高于阈值的源语句。双语词条信息获得单元从辞典存储单元获得双语词条信息ID对应于所获得的源语句的双语词条信息。当所获得的双语词条信息中的第一单词包括在输入语句中时,翻译单元将输入语句中包括的第一单词翻译成所获得的双语词条信息中的对应第二单词。存储单元在辞典存储单元中存储翻译请求中包括的双语词条信息,并在源语句存储单元中存储彼此相关联的所存储的双语词条信息的双语词条信息ID和输入语句。
文档编号G06F17/28GK101393547SQ20081014920
公开日2009年3月25日 申请日期2008年9月17日 优先权日2007年9月20日
发明者木下聪, 铃木博和 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1