翻译文生成方法、翻译文生成装置以及翻译文生成程序与流程

文档序号:16146745发布日期:2018-12-05 16:33阅读:405来源:国知局

本公开涉及生成在第1语言与第2语言之间的翻译处理中使用的翻译文的翻译文生成方法、翻译文生成装置以及翻译文生成程序。

背景技术

近年来,正在研究和开发将第1语言的语句(文)翻译成与第1语言不同的第2语言的语句的机器翻译装置,要提高这种机器翻译装置的翻译性能,需要收集有大量的可利用于翻译的例文(例句)的对译语料库(corpus)。尤其是,以往的机器翻译装置难以进行长文(长句)或者复句的翻译。

例如在专利文献1中公开了如下方法:将输入文本进行分割,按每个分割出的文本进行翻译,由此高精度地翻译长文。另外,在专利文献2中,公开了通过自动地生成多样的同一意图的相似文从而大量地收集话语文例。

现有技术文献

专利文献1:日本特开2006-18354号公报

专利文献2:日本特开2015-118498号公报



技术实现要素:

发明所要解决的问题

然而,在上述以往的技术中,没有考虑收集将多个文(语句)用连词(接续词)相互连接而得到的长文的对译语料库,需要进一步的改善。

本公开是解决上述以往的问题而做出的,其目的在于提供能够使将多个文用连词相互连接而得到的长文的翻译性能提高的翻译文生成方法、翻译文生成装置以及翻译文生成程序。

用于解决问题的技术方案

本公开的一个技术方案涉及的翻译文生成方法,是翻译文生成装置中的翻译文生成方法,所述翻译文生成装置生成在第1语言与第2语言之间的翻译处理中使用的翻译文,所述翻译文生成方法包括:取得所述第1语言的第1文、将该第1文翻译成所述第2语言而得到的第1翻译文、所述第1语言的第2文、和将该第2文翻译成所述第2语言而得到的第2翻译文;生成将所述第1翻译文和所述第2翻译文使用所述第2语言的第2连词构成为一个文句而得到的第3翻译文来作为将所述第1文和所述第2文使用所述第1语言的第1连词构成为一个文句而得到的第3文的翻译文。

发明效果

根据本公开,能够使将多个文用连词相互连接而得到的长文的翻译性能提高。

附图说明

图1是表示本公开的实施方式1中的对译语料库生成装置的构成的框图。

图2是用于对本公开的实施方式1的对译语料库生成装置中的翻译文生成处理进行说明的第1流程图。

图3是用于对本公开的实施方式1的对译语料库生成装置中的翻译文生成处理进行说明的第2流程图。

图4是表示存储于类别(categary)数据库的为了判断是否归于移动类别所使用的类别条件数据的一例的图。

图5是表示存储于类别数据库的为了判断是否归于对象类别所使用的类别条件数据的一例的图。

图6是表示存储于带有类别标签(tag)的数据存储部的数据的一例的图。

图7是表示存储于连接规则存储部的连接规则的一例的图。

图8是表示存储于对译语料库存储部的更新前的对译语料库的一例的图。

图9是表示存储于对译语料库存储部的更新后的对译语料库的一例的图。

图10是表示本公开的实施方式2中的对译语料库生成装置的构成的框图。

图11是用于对本公开的实施方式2的对译语料库生成装置中的翻译文生成处理进行说明的第1流程图。

图12是用于对本公开的实施方式2的对译语料库生成装置中的翻译文生成处理进行说明的第2流程图。

图13是表示在本实施方式2中由翻译文输出部显示的显示画面的一例的图。

图14是表示在本实施方式2的变形例中由翻译文输出部21显示的显示画面的一例的图。

图15是表示本公开的实施方式3中的对译语料库生成装置的构成的框图。

图16是用于对本公开的实施方式3的对译语料库生成装置中的翻译文生成处理进行说明的第1流程图。

图17是用于对本公开的实施方式3的对译语料库生成装置中的翻译文生成处理进行说明的第2流程图。

图18是表示使用根据更新前的对译语料库所学习出的机器翻译模型进行机器翻译得到的翻译结果的一例的图。

图19是表示使用根据更新后的对译语料库所学习出的机器翻译模型进行机器翻译得到的翻译结果的一例的图。

图20是表示本公开的实施方式4中的对译语料库生成装置的构成的框图。

图21是用于对本公开的实施方式4的对译语料库生成装置中的翻译文生成处理进行说明的第1流程图。

图22是用于对本公开的实施方式4的对译语料库生成装置中的翻译文生成处理进行说明的第2流程图。

标号说明

1、1a、1b、1c对译语料库生成装置;11翻译对象输入部;12机器翻译模型存储部;13、13c机器翻译部;14对译语料库存储部;15类别数据库;16、16a、16b类别附加部;17带有类别标签的数据存储部;18连接规则存储部;19长文生成部;20对译语料库更新部;21、21c翻译文输出部;22用户输入受理部;23评价数据生成部;24机器翻译模型学习部。

具体实施方式

(成为本公开的基础的见解)

近年来,正在研究和开发将第1语言的语句翻译成与第1语言不同的第2语言的语句的机器翻译装置,要提高这种机器翻译装置的翻译性能,需要收集有大量的可利用于翻译的例文的对译语料库。然而,以往的机器翻译装置难以进行对将多个文用连词相互连接而得到的长文(复句)的翻译。

在上述的专利文献1中,将输入文本分割成短文本,按每个分割出的文本进行翻译,由此使翻译性能提高。另外,在上述的专利文献2中,通过自动地生成多样的同一意图的相似文从而大量地收集话语文例。

然而,特别是要提高与将多个文用连词相互连接而得到的长文有关的翻译性能,需要与长文有关的对译语料库,而收集长文的对译语料库并不容易。

为了解决以上问题,本公开的一个技术方案涉及的翻译文生成方法,是翻译文生成装置中的翻译文生成方法,所述翻译文生成装置生成在第1语言与第2语言之间的翻译处理中使用的翻译文,所述翻译文生成方法包括:取得所述第1语言的第1文、将该第1文翻译成所述第2语言而得到的第1翻译文、所述第1语言的第2文、和将该第2文翻译成所述第2语言而得到的第2翻译文;生成将所述第1翻译文和所述第2翻译文使用所述第2语言的第2连词构成为一个文句而得到的第3翻译文来作为将所述第1文和所述第2文使用所述第1语言的第1连词构成为一个文句而得到的第3文的翻译文。

根据该构成,取得第1语言的第1文、将该第1文翻译成第2语言而得到的第1翻译文、第1语言的第2文、和将该第2文翻译成第2语言而得到的第2翻译文。生成将第1翻译文和第2翻译文使用第2语言的第2连词构成为一个文句而得到的第3翻译文作为将第1文和第2文使用第1语言的第1连词构成为一个文句而得到的第3文的翻译文。

因此,由于生成将第1翻译文和第2翻译文使用第2语言的第2连词构成为一个文句而得到的第3翻译文作为将第1文和第2文使用第1语言的第1连词构成为一个文句而得到的第3文的翻译文,因而能够通过使用所生成的第3翻译文来翻译将多个文用连词相互连接而得到的长文,使将多个文用连词相互连接而得到的长文的翻译性能提高。

另外,在上述的翻译文生成方法中,也可以为,还包括:至少输出所述第3翻译文。根据该构成,能够至少输出第3翻译文,使用第3翻译文进行输入文的翻译处理。

另外,在上述的翻译文生成方法中,也可以为,还包括:基于连接规则确定所述第1连词,所述连接规则表现表示文句的属性的属性信息与所述第1连词的对应关系,使用确定出的所述第1连词、所述第1文以及所述第2文,生成所述第3文。

根据该构成,第1连词是基于表现表示文句的属性的属性信息与第1连词的对应关系的连接规则确定的词。第3文是使用确定出的第1连词、第1文以及第2文生成的文。

因此,由于第1连词是基于连接规则确定的,因而能够确定连接第1文与第2文的适当的第1语言的第1连词。

另外,在上述的翻译文生成方法中,也可以为,所述连接规则还表现所述属性信息与所述第2连词的对应关系,基于所述连接规则确定所述第2连词,使用确定出的所述第2连词、所述第1翻译文以及所述第2翻译文,生成所述第3翻译文。

根据该构成,连接规则还表现属性信息与第2连词的对应关系。而且,第2连词是基于连接规则确定的词。第3翻译文是使用确定出的第2连词、第1翻译文以及第2翻译文生成的文。

因此,由于第2连词是基于连接规则确定的,因而能够确定连接第1翻译文与第2翻译文的适当的第2语言的第2连词。

另外,在上述的翻译文生成方法中,也可以为,所述属性信息是表示根据所述文句的含义分类的类别的信息。

根据该构成,由于属性信息是表示根据文句的含义分类的类别的信息,因而能够从第1文以及第2文的含义确定适当的第1连词以及第2连词。

另外,在上述的翻译文生成方法中,也可以为,通过从类别数据库中检索与所述第1文所包含的单词或者词句相符的所述类别,确定所述第1文的所述类别,所述类别数据库将文句可能包含的单词或者词句与该文句的所述类别进行关联而存储,通过从所述类别数据库中检索与所述第2文所包含的单词或者词句相符的所述类别,确定所述第2文的所述类别。

根据该构成,第1文的类别通过从类别数据库中检索与第1文所包含的单词或者词句相符的类别来确定,所述类别数据库将文句可能包含的单词或者词句与该文句的类别进行关联而存储。第2文的类别通过从类别数据库中检索与第2文所包含的单词或者词句相符的类别来确定。

因此,能够根据第1文以及第2文所包含的单词或者词句,容易地确定第1文以及第2文的类别。

另外,在上述的翻译文生成方法中,也可以为,所述连接规则存储于连接规则数据库,所述连接规则数据库将作为所述类别之一的第1类别和作为所述类别之一的第2类别的组合、所述第1连词、与所述第2连词进行关联而存储,通过从所述连接规则数据库中检索与所述第1文的所述第1类别和所述第2文的所述第2类别的组合对应的所述第1连词以及所述第2连词,确定所述第1连词以及所述第2连词。

根据该构成,连接规则存储于连接规则数据库。连接规则数据库使作为类别之一的第1类别和作为类别之一的第2类别的组合、第1连词与第2连词相关联而存储。第1连词以及第2连词通过从连接规则数据库中检索与第1文的第1类别和第2文的第2类别的组合对应的第1连词以及第2连词来确定。

因此,能够根据第1类别和第2类别的组合容易地确定第1连词以及第2连词。

另外,在上述的翻译文生成方法中,也可以为,从对译语料库存储部取得所述第1文、与所述第1文对应的所述第1翻译文、所述第2文、和与所述第2文对应的所述第2翻译文,所述对译语料库存储部存储使由所述第1语言构成的文与该文向所述第2语言的翻译文相关联的对译语料库。

根据该构成,第1文、与第1文对应的第1翻译文、第2文、和与第2文对应的第2翻译文是从对译语料库存储部中取得的,所述对译语料库存储部存储使由第1语言构成的文与该文向第2语言的翻译文相关联的对译语料库。

因此,能够根据从存储于对译语料库存储部的对译语料库取得的第1翻译文以及第2翻译文来生成第3翻译文。

另外,在上述的翻译文生成方法中,也可以为,还包括:通过将所述第3文与所述第3翻译文相关联并保存于所述对译语料库存储部,更新所述对译语料库;还包括:利用所述更新后的对译语料库,学习在所述翻译处理中使用的机器翻译模型。

根据该构成,对译语料库通过将第3文与第3翻译文相关联并保存于对译语料库存储部来更新。在翻译处理中使用的机器翻译模型利用更新后的对译语料库来学习。

因此,通过使用利用更新后的对译语料库学习出的机器翻译模型来进行翻译处理,能够更准确地翻译将多个文用连词相互连接而得到的长文。

另外,在上述的翻译文生成方法中,也可以为,还包括:取得第1判定信息,所述第1判定信息表示判定所述第1翻译文是否正确而得到的判定结果;还包括:取得第2判定信息,所述第2判定信息表示判定所述第2翻译文是否正确而得到的判定结果;在基于所述第1判定信息以及所述第2判定信息判定为所述第1翻译文以及所述第2翻译文均正确的情况下,生成所述第3翻译文。

根据该构成,取得表示判定第1翻译文是否正确而得到的判定结果的第1判定信息。取得表示判定第2翻译文是否正确而得到的判定结果的第2判定信息。在基于第1判定信息以及第2判定信息判定为第1翻译文以及第2翻译文均正确的情况下,生成第3翻译文。

因此,由于在判定为第1翻译文以及第2翻译文均正确的情况下生成第3翻译文,因而能够进一步使第3翻译文的翻译精度提高。

另外,在上述的翻译文生成方法中,也可以为,还包括:显示所述第1翻译文、用于让用户输入判定所述第1翻译文是否正确而得到的判定结果的第1对象(object)、所述第2翻译文、和用于让所述用户输入判定所述第2翻译文是否正确而得到的判定结果的第2对象。

根据该构成,显示第1翻译文、用于让用户输入判定第1翻译文是否正确而得到的判定结果的第1对象、第2翻译文、和用于让用户输入判定第2翻译文是否正确而得到的判定结果的第2对象。

因此,由于判定第1翻译文是否正确而得到的判定结果由用户输入、判定第2翻译文是否正确而得到的判定结果由用户输入,因而能够进一步使第3翻译文的翻译精度提高。

另外,在上述的翻译文生成方法中,也可以为,还包括:取得将所述第1翻译文应用于所述机器翻译模型从而翻译成所述第1语言所得到的第1逆向翻译文;还包括:取得将所述第2翻译文应用于所述机器翻译模型从而翻译成所述第1语言所得到的第2逆向翻译文;还包括:取得第3判定信息,所述第3判定信息表示判定所述第1逆向翻译文是否正确而得到的判定结果;还包括:取得第4判定信息,所述第4判定信息表示判定所述第2逆向翻译文是否正确而得到的判定结果;在基于所述第3判定信息以及所述第4判定信息判定为所述第1逆向翻译文以及所述第2逆向翻译文均正确的情况下,生成所述第3翻译文。

根据该构成,取得将第1翻译文应用于机器翻译模型从而翻译成第1语言所得到的第1逆向翻译文。取得将第2翻译文应用于机器翻译模型从而翻译成第1语言所得到的第2逆向翻译文。取得表示判定第1逆向翻译文是否正确而得到的判定结果的第3判定信息。取得表示判定第2逆向翻译文是否正确而得到的判定结果的第4判定信息。在基于第3判定信息以及第4判定信息判定为第1逆向翻译文以及第2逆向翻译文均正确的情况下,生成第3翻译文。

因此,即使无法理解第2语言,通过比较第1语言的第1文与第1语言的第1逆向翻译文,并且比较第1语言的第2文与第1语言的第2逆向翻译文,也能够容易地判定第1翻译文以及第2翻译文是否被正确地进行了翻译。

另外,在上述的翻译文生成方法中,也可以为,还包括:显示所述第1逆向翻译文、用于让用户输入判定所述第1逆向翻译文是否正确而得到的判定结果的第3对象、所述第2逆向翻译文、和用于让所述用户输入判定所述第2逆向翻译文是否正确而得到的判定结果的第4对象。

根据该构成,显示第1逆向翻译文、用于让用户输入判定第1逆向翻译文是否正确而得到的判定结果的第3对象、第2逆向翻译文、和用于让用户输入判定第2逆向翻译文是否正确而得到的判定结果的第4对象。

因此,由于判定第1逆向翻译文是否正确而得到的判定结果由用户输入、判定第2逆向翻译文是否正确而得到的判定结果由用户输入,因而能够进一步使第3翻译文的翻译精度提高。

另外,在上述的翻译文生成方法中,也可以为,通过将所述第1文应用于机器翻译模型,取得所述第1翻译文,所述机器翻译模型是使用使由所述第1语言构成的文与该文向所述第2语言的翻译文相关联的对译语料库学习出的模型,通过将所述第2文应用于所述机器翻译模型,取得所述第2翻译文。

根据该构成,第1翻译文是通过将第1文应用于机器翻译模型取得的文,所述机器翻译模型是使用使由第1语言构成的文与该文向第2语言的翻译文相关联的对译语料库学习出的模型。另外,第2翻译文是通过将第2文应用于机器翻译模型取得的文。

因此,能够根据通过将第1文以及第2文应用于使用对译语料库学习出的机器翻译模型所取得的第1翻译文以及第2翻译文,生成第3翻译文。

另外,在上述的翻译文生成方法中,也可以为,还包括:将所述第3文与所述第3翻译文相关联从而更新所述对译语料库;还包括:利用所述更新后的对译语料库,学习所述机器翻译模型。

根据该构成,将第3文与第3翻译文相关联从而更新对译语料库。机器翻译模型利用更新后的对译语料库来学习。

因此,通过使用利用更新后的对译语料库学习出的机器翻译模型来进行翻译处理,能够更准确地翻译将多个文用连词相互连接而得到的长文。

另外,在上述的翻译文生成方法中,也可以为,还包括:取得第1判定信息,所述第1判定信息表示判定所述第1翻译文是否正确而得到的判定结果;还包括:取得第2判定信息,所述第2判定信息表示判定所述第2翻译文是否正确而得到的判定结果;在基于所述第1判定信息以及所述第2判定信息判定为所述第1翻译文以及所述第2翻译文均正确的情况下,生成所述第3翻译文。

根据该构成,取得表示判定第1翻译文是否正确而得到的判定结果的第1判定信息。取得表示判定第2翻译文是否正确而得到的判定结果的第2判定信息。在基于第1判定信息以及第2判定信息判定为第1翻译文以及第2翻译文均正确的情况下,生成第3翻译文。

因此,由于在判定为第1翻译文以及第2翻译文均正确的情况下生成第3翻译文,因而能够进一步使第3翻译文的翻译精度提高。

另外,在上述的翻译文生成方法中,也可以为,还包括:显示所述第1翻译文、用于让用户输入判定所述第1翻译文是否正确而得到的判定结果的第1对象、所述第2翻译文、和用于让所述用户输入判定所述第2翻译文是否正确而得到的判定结果的第2对象。

根据该构成,显示第1翻译文、用于让用户输入判定第1翻译文是否正确而得到的判定结果的第1对象、第2翻译文、和用于让用户输入判定第2翻译文是否正确而得到的判定结果的第2对象。

因此,由于判定第1翻译文是否正确而得到的判定结果由用户输入、判定第2翻译文是否正确而得到的判定结果由用户输入,因而能够进一步使第3翻译文的翻译精度提高。

另外,在上述的翻译文生成方法中,也可以为,还包括:取得将所述第1翻译文应用于所述机器翻译模型从而翻译成所述第1语言所得到的第1逆向翻译文;还包括:取得将所述第2翻译文应用于所述机器翻译模型从而翻译成所述第1语言所得到的第2逆向翻译文;还包括:取得第3判定信息,所述第3判定信息表示判定所述第1逆向翻译文是否正确而得到的判定结果;还包括:取得第4判定信息,所述第4判定信息表示判定所述第2逆向翻译文是否正确而得到的判定结果;在基于所述第3判定信息以及所述第4判定信息判定为所述第1逆向翻译文以及所述第2逆向翻译文均正确的情况下,生成所述第3翻译文。

根据该构成,取得将第1翻译文应用于机器翻译模型从而翻译成第1语言所得到的第1逆向翻译文。取得将第2翻译文应用于机器翻译模型从而翻译成第1语言所得到的第2逆向翻译文。取得表示判定第1逆向翻译文是否正确而得到的判定结果的第3判定信息。取得表示判定第2逆向翻译文是否正确而得到的判定结果的第4判定信息。在基于第3判定信息以及第4判定信息判定为第1逆向翻译文以及第2逆向翻译文均正确的情况下,生成第3翻译文。

因此,即使无法理解第2语言,通过比较第1语言的第1文与第1语言的第1逆向翻译文,并且比较第1语言的第2文与第1语言的第2逆向翻译文,也能够容易地判定第1翻译文以及第2翻译文是否被正确地进行了翻译。

另外,在上述的翻译文生成方法中,也可以为,还包括:显示所述第1逆向翻译文、用于让用户输入判定所述第1逆向翻译文是否正确而得到的判定结果的第3对象、所述第2逆向翻译文、和用于让所述用户输入判定所述第2逆向翻译文是否正确而得到的判定结果的第4对象。

根据该构成,显示第1逆向翻译文、用于让用户输入判定第1逆向翻译文是否正确而得到的判定结果的第3对象、第2逆向翻译文、和用于让用户输入判定第2逆向翻译文是否正确而得到的判定结果的第4对象。

因此,由于判定第1逆向翻译文是否正确而得到的判定结果由用户输入、判定第2逆向翻译文是否正确而得到的判定结果由用户输入,因而能够进一步使第3翻译文的翻译精度提高。

本公开的另一技术方案涉及的翻译文生成装置,是生成在第1语言与第2语言之间的翻译处理中使用的翻译文的翻译文生成装置,具备:取得部,其取得所述第1语言的第1文、将该第1文翻译成所述第2语言而得到的第1翻译文、所述第1语言的第2文、和将该第2文翻译成所述第2语言而得到的第2翻译文;以及生成部,其生成将所述第1翻译文和所述第2翻译文使用所述第2语言的第2连词构成为一个文句而得到的第3翻译文来作为将所述第1文和所述第2文使用所述第1语言的第1连词构成为一个文句而得到的第3文的翻译文。

根据该构成,取得第1语言的第1文、将该第1文翻译成第2语言而得到的第1翻译文、第1语言的第2文、和将该第2文翻译成第2语言而得到的第2翻译文。生成将第1翻译文和第2翻译文使用第2语言的第2连词构成为一个文句而得到的第3翻译文作为将第1文和第2文使用第1语言的第1连词构成为一个文句而得到的第3文的翻译文。

因此,由于生成将第1翻译文和第2翻译文使用第2语言的第2连词构成为一个文句而得到的第3翻译文作为将第1文和第2文使用第1语言的第1连词构成为一个文句而得到的第3文的翻译文,因而能够通过使用所生成的第3翻译文来翻译将多个文用连词相互连接而得到的长文,使将多个文用连词相互连接而得到的长文的翻译性能提高。

本公开的另一技术方案涉及的翻译文生成程序,是用于生成在第1语言与第2语言之间的翻译处理中使用的翻译文的翻译文生成程序,所述翻译文生成程序使计算机作为取得部以及生成部而发挥功能,所述取得部取得所述第1语言的第1文、将该第1文翻译成所述第2语言而得到的第1翻译文、所述第1语言的第2文、和将该第2文翻译成所述第2语言而得到的第2翻译文,所述生成部生成将所述第1翻译文和所述第2翻译文使用所述第2语言的第2连词构成为一个文句而得到的第3翻译文来作为将所述第1文和所述第2文使用所述第1语言的第1连词构成为一个文句而得到的第3文的翻译文。

根据该构成,取得第1语言的第1文、将该第1文翻译成第2语言而得到的第1翻译文、第1语言的第2文、和将该第2文翻译成第2语言而得到的第2翻译文。生成将第1翻译文和第2翻译文使用第2语言的第2连词构成为一个文句而得到的第3翻译文作为将第1文和第2文使用第1语言的第1连词构成为一个文句而得到的第3文的翻译文。

因此,由于生成将第1翻译文和第2翻译文使用第2语言的第2连词构成为一个文句而得到的第3翻译文作为将第1文和第2文使用第1语言的第1连词构成为一个文句而得到的第3文的翻译文,因而能够通过使用所生成的第3翻译文来翻译将多个文用连词相互连接而得到的长文,使将多个文用连词相互连接而得到的长文的翻译性能提高。

以下,基于附图对本公开涉及的实施方式进行说明。此外,以下的实施方式是使本公开具体化的一例,并非限定本公开的技术范围。另外,各图中标注有同一标号的构成表示同一构成,适当地省略其说明。

(实施方式1)

图1是表示本公开的实施方式1中的对译语料库生成装置的构成的框图。

实施方式1中的对译语料库生成装置1生成对译语料库,所述对译语料库汇集有多个使第1语言的第1文和与第1语言不同的第2语言的第2文成对的成对文。如图1所示,对译语料库生成装置1具备对译语料库存储部14、类别数据库15、类别附加部16、带有类别标签的数据存储部17、连接规则存储部18、长文生成部19以及对译语料库更新部20。

此外,对译语料库存储部14、类别数据库15、类别附加部16、带有类别标签的数据存储部17、连接规则存储部18、长文生成部19以及对译语料库更新部20的一部分或者全部也可以设置于与对译语料库生成装置1分开的外部设备(例如服务器计算机等)。在该情况下,图1所示的对译语料库生成装置1具备在与外部设备之间通信数据的接口部。接口部将所生成的对译语料库发送给外部设备。接口部例如是使用usb(universalserialbus,通用串行总线)标准的接口电路或者遵循ieee802.11标准等的通信接口电路等。

对译语料库生成装置1例如由信息处理装置构成。信息处理装置例如具备包括cpu(centralprocessingunit,中央处理单元)、rom(readonlymemory,只读存储器)、ram(randomaccessmemory,随机存取存储器)以及辅助存储装置的计算机。另外,信息处理装置也可以还具备通过显示数据来输出数据的显示器、和输入数据的输入装置。作为信息处理装置,例如可以采用台式计算机这样的固定式的信息处理装置,也可以采用笔记本式计算机或者平板式计算机等这样的便携式的信息处理装置。

图1所示的各块(功能块)例如通过由cpu执行存储于辅助存储装置的、使计算机作为对译语料库生成装置1发挥功能的程序(对译语料库生成程序)来实现。因此,在计算机中安装(实施,执行)有对译语料库生成方法。在图1中,由四边形表示的块主要通过cpu来实现其功能,由圆柱形表示的块主要通过由rom、ram以及辅助存储装置等构成的存储装置来实现其功能。

对译语料库存储部14存储对译语料库,所述对译语料库使由第1语言而成的文与该文的向第2语言翻译的翻译文相关联。对译语料库包含:使第1语言的第1文与将该第1文翻译成第2语言而得到的第1翻译文成对的第1译文对;以及使第1语言的第2文与将该第2文翻译成第2语言而得到的第2翻译文成对的第2译文对。如此,对译语料库包含多个使第1语言的文和将该文翻译成与第1语言不同的第2语言而得到的翻译文成对的译文对。对译语料库存储部14与类别附加部16连接,向类别附加部16发送第1语言的第1文、将该第1文翻译成第2语言而得到的第1翻译文、第1语言的第2文、和将该第2文翻译成第2语言而得到的第2翻译文。

类别数据库15与类别附加部16连接,存储由类别附加部16使用的类别数据。类别数据库15存储使可能包含于文句的单词或者词句与该文句的类别相关联的类别条件数据。

类别附加部16取得第1语言的第1文、将该第1文翻译成第2语言而得到的第1翻译文、第1语言的第2文、和将该第2文翻译成第2语言而得到的第2翻译文。类别附加部16从对译语料库存储部14取得第1文、与第1文对应的第1翻译文、第2文、和与第2文对应的第2翻译文。类别附加部16与带有类别标签的数据存储部17连接,对文与翻译文的组合附加表示类别的标签信息。类别附加部16通过从类别数据库15检索与第1文所包含的单词或者词句相符的类别,确定第1文的类别。另外,类别附加部16通过从类别数据库15检索与第2文所包含的单词或者词句相符的类别,确定第2文的类别。此外,对于类别附加部16的具体的类别附加方法,将会在后面进行说明。

带有类别标签的数据存储部17与长文生成部19连接,存储多个通过类别附加部16附加了标签信息的由第1语言的文以及第2语言的翻译文构成的译文对。带有类别标签的数据存储部17存储第1译文对和第2译文对,第1译文对通过类别附加部16附加了标签信息并由第1文以及第1翻译文所构成,第2译文对通过类别附加部16附加了标签信息并由第2文以及第2翻译文所构成。

长文生成部19与对译语料库更新部20连接,从带有类别标签的数据存储部17取得第1文、第1翻译文、第2文和第2翻译文,基于标签信息以及连接规则,生成将第1文以及第2文用第1连词连接得到的第3文,并且生成将第1翻译文以及第2翻译文用第2连词连接得到的第3翻译文。

长文生成部19生成将第1翻译文和第2翻译文使用第2语言的第2连词构成为一个文句而得到的第3翻译文来作为将第1文和第2文使用第1语言的第1连词构成为一个文句而得到的第3文的翻译文。长文生成部19基于连接规则确定第1连词以及第2连词。长文生成部19使用所确定的第1连词、第1文以及第2文来生成第3文。连接规则表现表示文句的属性的属性信息与第1连词的对应关系,且表现属性信息与第2连词的对应关系。属性信息是表示根据文句的含义分类的类别的信息。

连接规则存储部18与长文生成部19连接,存储连接规则。连接规则存储部18将类别之一的第1类别与类别之一的第2类别的组合、第1连词、和第2连词进行关联而存储。

长文生成部19通过从连接规则存储部18检索与第1文的第1类别以及第2文的第2类别的组合对应的第1连词以及第2连词,确定第1连词以及第2连词。此外,对于长文生成部19的具体的文句的连接方法,将会在后面进行说明。

对译语料库更新部20与对译语料库存储部14连接,将通过长文生成部19生成的对译语料库追加到对译语料库存储部14,由此更新对译语料库存储部14。对译语料库更新部20通过将第3文与第3翻译文相关联并保存于对译语料库存储部14来更新对译语料库。

图2是用于对本公开的实施方式1的对译语料库生成装置中的翻译文生成处理进行说明的第1流程图,图3是用于对本公开的实施方式1的对译语料库生成装置中的翻译文生成处理进行说明的第2流程图。

首先,在步骤s1中,类别附加部16从对译语料库存储部14取得由第1语言的文与将该文翻译成第2语言而得到的翻译文所构成的译文对。类别附加部16取得存储于对译语料库存储部14的多个译文对中的一个译文对。

接着,在步骤s2中,类别附加部16判断所取得的译文对是否归于某个类别。类别附加部16通过从类别数据库15检索与文所包含的单词或者词句相符的类别,确定译文对的类别。

图4是表示存储于类别数据库的为了判断是否归于移动类别所使用的类别条件数据的一例的图,图5是表示存储于类别数据库的为了判断是否归于对象类别所使用的类别条件数据的一例的图。

如图4所示,作为为了判断是否归于移动类别所使用的条件,具有以下的第1条件~第3条件。此外,移动类别表示了文的内容意味着移动。例如,作为第1条件,是第1语言的文所包含的单词中包括“行く(去、向…走)”、“乗る(乘坐)”或者“進む(前进)”等与移动有关的动词,作为第2条件,是第1语言的文所包含的单词中包括“車(汽车)”、“電車(电车)”或者“徒歩(徒步)”等与移动有关的名词,作为第3条件,是第1语言的文的长度在15个文字以内。而且,类别附加部16在必须满足第3条件并且满足第1条件和第2条件中的某一个的情况下、即在满足第1条件以及第3条件或者满足第2条件以及第3条件的情况下,判断为译文对归于移动类别。此外,类别附加部16也可以不使用第3条件,而在满足第1条件和第2条件中的某一个的情况下,判断为译文对归于移动类别。

另外,如图5所示,作为为了判断是否归于对象类别所使用的条件,具有以下的第1条件~第3条件。此外,对象类别表示了文的内容意味着移动对象。例如,作为第1条件,是第1语言的文所包含的单词中包括“ある(有、存在)”、“見える(看见)”或者“着く(到达)”等与移动有关的动词,作为第2条件,是包括地标名、地名或者国名等与移动有关的名词,作为第3条件,是第1语言的文的长度在15个文字以内。而且,类别附加部16在满足第1条件、第2条件以及第3条件的每一个的情况下,判断为译文对归于对象类别。此外,类别附加部16也可以不使用第3条件,而在满足第1条件以及第2条件的情况下,判断为译文对归于对象类别。

此外,第3条件是用于判断文并非由用连词连接多个文而成的长文而是由一个文来构成的条件,不限定于15个文字。另外,在英语等除日语以外的语言的情况下,也可以并非15个文字,而是15个单词。

另外,图4以及图5所示的这些条件为一例。例如也可以记载与第2语言的翻译文有关的条件,类别的适用条件可以是任何记载方法。例如,长文生成部19也可以生成将归于表现原因的原因类别的第1文与归于表现结果的结果类别的第2文用第1连词连接而得到的第3文,并生成将归于原因类别的第1翻译文与归于结果类别的第2翻译文用第2连词连接而得到的第3翻译文。

返回至图2,在判断为译文对不归于任一类别的情况下(步骤s2:否),移至步骤s5的处理。

另一方面,在判断为译文对归于某个类别的情况下(步骤s2:是),在步骤s3中,类别附加部16对译文对附加类别。

接着,在步骤s4中,类别附加部16将附加有类别的译文对存储于带有类别标签的数据存储部17。

接着,在步骤s5中,类别附加部16判断是否从对译语料库存储部14取得了所有译文对。在此,在判断为尚未取得所有译文对的情况下(步骤s5:否),返回至步骤s1的处理,类别附加部16从对译语料库存储部14取得其他译文对。另一方面,在判断为取得了所有译文对的情况下(步骤s5:是),移至步骤s6的处理。

以下,列举具体例,对类别附加部16的处理进行说明。此外,在以下的例子中,第1语言为日语,第2语言为英语。

例如,类别附加部16取得包含“まっすぐ行く。(直走)”这一文和“gostraight.”这一翻译文的译文对、包含“京都タワーがある。(有个京都塔)”这一文和“thereisakyototower.”这一翻译文的译文对、以及包含“今日は東京で遊ぶ予定です。(今天计划在东京游玩)”这一文和“itisscheduledtoplayintokyotoday.”这一翻译文的译文对(步骤s1)。

接着,类别附加部16判断各个译文对是否归于某个类别(步骤s2)。例如“まっすぐ行く。”这一文由于包含“行く”这一动词并且在15个文字以内,因此满足第1条件以及第3条件,判断为归于移动类别。另外,“京都タワーがある。”这一文由于包含“ある”这一动词、包含“京都タワー”这一地标名并且在15个文字以内,因此满足第1条件、第2条件以及第3条件,判断为归于对象类别。再者,“今日は東京で遊ぶ予定です。”这一文虽然包含“東京”这一地名,但不包含与第1条件相符的动词,因此判断为不归于移动类别和对象类别中的任一类别。

图6是表示存储于带有类别标签的数据存储部的数据的一例的图。如图6所示,对于由第1语言的文与第2语言的翻译文构成的译文对附加有表示类别的标签信息。例如,对于包含“まっすぐ行く。”这一文和“gostraight.”这一翻译文的译文对附加有表示移动类别的标签信息,对于包含“京都タワーがある。”这一文和“thereisakyototower.”这一翻译文的译文对附加有表示对象类别的标签信息。此外,图6所示的数据为一例,并不限于此。

接下来,返回至图3,在判断为取得了所有译文对的情况下(步骤s5:是),在步骤s6中,长文生成部19选择适用的连接规则。

图7是表示存储于连接规则存储部的连接规则的一例的图。连接规则将进行连接的文的类别的组合、第1语言的第1连词、与第2语言的第2连词相关联。在图7中,第1语言为日语,第2语言为英语。图7所示的连接规则表示了将移动类别的文和对象类别的文用第1连词“と”、“ば”或者“たら”连接、将移动类别的翻译文和对象类别的翻译文用第2连词“and”或者“then”连接的连接规则。连接规则的选择方法也可以是任何方法,例如既可以选择预先存储于连接规则存储部18的所有连接规则,也可以依照规章选择若干个连接规则,还可以随机地选择连接规则。再者,也可以通过机器学习等来学习连接规则。在本实施方式1中,长文生成部19从存储于连接规则存储部18的多个连接规则中选择一个连接规则。连接规则为一例,并不限于此。

接着,在步骤s7中,长文生成部19从带有类别标签的数据存储部17提取与连接规则相应的第1译文对以及第2译文对。例如在连接规则是将移动类别与对象类别进行连接的连接规则的情况下,长文生成部19从带有类别标签的数据存储部17提取包含表示移动类别的标签信息的第1译文对以及包含表示对象类别的标签信息的第2译文对。第1译文对包含第1语言的第1文和将该第1文翻译成第2语言而得到的第1翻译文,第2译文对包含第1语言的第2文和将该第2文翻译成第2语言而得到的第2翻译文。

接着,长文生成部19应用连接规则,生成将第1文和第2文使用第1连词构成为一个文句而得到的第3文、以及将第1翻译文和第2翻译文使用第2连词构成为一个文句而得到的第3翻译文,并生成包含第3文与第3翻译文的第3译文对(步骤s8)。

以下,列举具体例,对长文生成部19的处理进行说明。

首先,长文生成部19选择适用的连接规则(步骤s6)。在此,作为一例,设为选择了图7所示的连接规则。

接着,长文生成部19提取与连接规则相应的第1译文对以及第2译文对(步骤s7)。根据图7所示的连接规则,是将移动类别与对象类别连接的规则,因此,提取附加有表示移动类别的标签信息的由第1文“まっすぐ行く。”与第1翻译文“gostraight.”所构成的第1译文对、以及附加有表示对象类别的标签信息的由第2文“京都タワーがある。”与第2翻译文“thereisakyototower.”所构成的第2译文对。

接着,长文生成部19生成第3译文对(步骤s8)。长文生成部19依照连接规则,将第1文和第2文用第1连词“と”连接,将第1翻译文和第2翻译文用第2连词“and”连接,由此,生成由第3文“まっすぐ行くと京都タワーがある。(直走会有个京都塔)”与第3翻译文“gostraightandthereisakyototower.”构成的第3译文对。另外,长文生成部19依照连接规则,将第1文和第2文用第1连词“と”连接,将第1翻译文和第2翻译文用第2连词“then”连接,由此,生成由第3文“まっすぐ行くと京都タワーがある。”与第3翻译文“gostraightthenthereisakyototower.”构成的第3译文对。

另外,长文生成部19依照连接规则,将第1文和第2文用第1连词“ば”连接,将第1翻译文和第2翻译文用第2连词“and”连接,由此,生成由第3文“まっすぐ行けば京都タワーがある。(只要直走就有个京都塔)”与第3翻译文“gostraightandthereisakyototower.”构成的第3译文对。另外,长文生成部19依照连接规则,将第1文和第2文用第1连词“ば”连接,将第1翻译文和第2翻译文用第2连词“then”连接,由此,生成由第3文“まっすぐ行けば京都タワーがある。”与第3翻译文“gostraightthenthereisakyototower.”构成的第3译文对。

另外,长文生成部19依照连接规则,将第1文和第2文用第1连词“たら”连接,将第1翻译文和第2翻译文用第2连词“and”连接,由此,生成由第3文“まっすぐ行ったら京都タワーがある。(直走的话有个京都塔)”与第3翻译文“gostraightandthereisakyototower.”构成的第3译文对。另外,长文生成部19依照连接规则,将第1文和第2文用第1连词“たら”连接,将第1翻译文和第2翻译文用第2连词“then”连接,由此,生成由第3文“まっすぐ行ったら京都タワーがある。”与第3翻译文“gostraightthenthereisakyototower.”构成的第3译文对。

如此,长文生成部19在存在各类别所包含的多个译文对的情况下,将各个译文对组合。然而,无需组合所有译文对,也可以组合任意选择的译文对。

接下来,返回至图3,在步骤s9中,对译语料库更新部20通过将使第3文与第3翻译文相关联的第3译文对保存于对译语料库存储部14,更新对译语料库。

接着,在步骤s10中,长文生成部19判断是否从带有类别标签的数据存储部17提取了与连接规则相应的所有的第1译文对以及第2译文对。在此,在判断为尚未提取到所有的第1译文对以及第2译文对的情况下(步骤s10:否),返回至步骤s7的处理,长文生成部19提取其他的第1译文对以及第2译文对。

另一方面,在判断为提取了所有的第1译文对以及第2译文对的情况下(步骤s10:是),在步骤s11中,长文生成部19判断是否选择了存储于连接规则存储部18的所有连接规则。在此,在判断为尚未选择出所有连接规则的情况下(步骤s11:否),返回至步骤s6的处理,长文生成部19选择其他连接规则。另一方面,在判断为选择了所有连接规则的情况下(步骤s11:是),结束处理。

图8是表示存储于对译语料库存储部的更新前的对译语料库的一例的图,图9是表示存储于对译语料库存储部的更新后的对译语料库的一例的图。图8所示的更新前的对译语料库包含5个译文对。与此相对地,在本实施方式1中,自动地生成6个译文对并将其追加到对译语料库。由此,

图9所示的更新后的对译语料库包含11个译文对。此外,对于所追加的译文对,也可以任意地选择。

如此,在将第1文和第2文使用第1连词构成为一个文句而得到的第3文、与将第1翻译文和第2翻译文使用第2连词构成为一个文句而得到的第3翻译文相关联地存储于对译语料库存储部14的情况下,能够判断为由对译语料库生成装置1生成了对译语料库。

(实施方式2)

在实施方式2中,取得第1语言的第1文、将该第1文翻译成第2语言而得到的第1翻译文、第1语言的第2文、和将该第2文翻译成第2语言而得到的第2翻译文,将取得的第1文、第1翻译文、第2文和第2翻译文提示给用户,并受理由用户对第1翻译文以及第2翻译文是否被正确地进行了翻译的判定,在判定为第1翻译文以及第2翻译文均被正确地进行了翻译的情况下,生成将第1翻译文和第2翻译文使用第2语言的第2连词构成为一个文句而得到的第3翻译文来作为将第1文和第2文使用第1语言的第1连词构成为一个文句而得到的第3文的翻译文。

图10是表示本公开的实施方式2中的对译语料库生成装置的构成的框图。

图10所示的对译语料库生成装置1a具备对译语料库存储部14、类别数据库15、类别附加部16a、带有类别标签的数据存储部17、连接规则存储部18、长文生成部19、对译语料库更新部20、翻译文输出部21、用户输入受理部22以及评价数据生成部23。

此外,对译语料库存储部14、类别数据库15、类别附加部16a、带有类别标签的数据存储部17、连接规则存储部18、长文生成部19以及对译语料库更新部20的一部分或者全部也可以设置于与对译语料库生成装置1a分开的外部设备(例如服务器计算机等)。在该情况下,图10所示的对译语料库生成装置1a具备在与外部设备之间通信数据的接口部。接口部将所生成的对译语料库发送给外部设备。接口部例如是使用usb标准的接口电路或者遵循ieee802.11标准等的通信接口电路等。

另外,图10所示的各块例如通过由cpu执行存储于辅助存储装置的、使计算机作为对译语料库生成装置1a发挥功能的程序(对译语料库生成程序)来实现。因此,在计算机中安装有对译语料库生成方法。在图10中,由四边形表示的块主要通过cpu来实现其功能,由圆柱形表示的块主要通过由rom、ram以及辅助存储装置等构成的存储装置来实现其功能。

翻译文输出部21与用户输入受理部22连接,输出从对译语料库存储部14取得的文以及翻译文。关于该输出方法,也可以是任意方法,在本实施方式2中,翻译文输出部21为显示器,显示从对译语料库存储部14取得的文以及翻译文。也可能有同时输出文以及翻译文的情况。

翻译文输出部21从对译语料库存储部14取得第1语言的第1文、将该第1文翻译成第2语言而得到的第1翻译文、第1语言的第2文、和将该第2文翻译成第2语言而得到的第2翻译文。翻译文输出部21显示第1翻译文、用于让用户输入判定第1翻译文是否正确而得到的判定结果的第1对象、第2翻译文、以及用于让用户输入判定第2翻译文是否正确而得到的判定结果的第2对象。

用户输入受理部22与评价数据生成部23连接,受理由用户进行的预定操作。用户输入受理部22例如是具备多个被分配了预定功能的输入开关(switch)等的键盘、鼠标或者触摸面板等输入装置。另外,用户输入受理部22也可以是在与外部设备之间通信数据的与上述同样的接口部。

用户输入受理部22受理由用户对判定第1翻译文是否正确而得到的判定结果的输入,并且受理由用户对判定第2翻译文是否正确而得到的判定结果的输入。用户输入受理部22输出第1判定信息,并且输出第2判定信息,第1判定信息表示判定第1翻译文是否正确而得到的判定结果,第2判定信息表示判定第2翻译文是否正确而得到的判定结果。

评价数据生成部23与类别附加部16a连接,取得由用户输入受理部22输入的、表示判定第1翻译文是否正确而得到的判定结果的第1判定信息,并且取得表示判定第2翻译文是否正确而得到的判定结果的第2判定信息。评价数据生成部23基于第1判定信息以及所述第2判定信息,将被判定为正确的第1翻译文与第1文的组合、以及被判定为正确的第2翻译文与第2文的组合输出给类别附加部16a。另外,评价数据生成部23基于第1判定信息以及所述第2判定信息,将被判定为不正确的第1翻译文与第1文的组合废弃,将被判定为不正确的第2翻译文与第2文的组合废弃。

类别附加部16a从评价数据生成部23取得第1文、与第1文对应的第1翻译文、第2文、和与第2文对应的第2翻译文。类别附加部16a所取得的第1翻译文以及第2翻译文是由用户判定为被正确地进行了翻译的翻译文。关于由类别附加部16a进行的对表示类别的标签信息的附加,与实施方式1相同。

长文生成部19基于第1判定信息以及第2判定信息,在判定为第1翻译文以及第2翻译文均正确的情况下,生成第3翻译文。

图11是用于对本公开的实施方式2的对译语料库生成装置中的翻译文生成处理进行说明的第1流程图,图12是用于对本公开的实施方式2的对译语料库生成装置中的翻译文生成处理进行说明的第2流程图。

首先,在步骤s21中,翻译文输出部21从对译语料库存储部14取得由第1语言的文与将该文翻译成第2语言而得到的翻译文所构成的译文对。翻译文输出部21取得存储于对译语料库存储部14的多个译文对中的一个译文对。

接着,在步骤s22中,翻译文输出部21显示从对译语料库存储部14取得的第1语言的文和将该文翻译成第2语言而得到的翻译文。

接着,在步骤s23中,用户输入受理部22受理由用户对通过翻译文输出部21显示出的翻译文是否正确的判定。用户输入受理部22将表示判定翻译文是否正确而得到的判定结果的判定信息输出给评价数据生成部23。

接着,在步骤s24中,评价数据生成部23基于从用户输入受理部22输出的判定信息,判断翻译文是否由用户判定为正确。在此,在判断为翻译文被判定为不正确的情况下(步骤s24:否),移至步骤s29的处理。此外,评价数据生成部23将被判定为不正确的由第1语言的文与第2语言的翻译文构成的译文对废弃,不输出给类别附加部16a。

另一方面,在判断为翻译文被判定为正确的情况下(步骤s24:是),在步骤s25中,评价数据生成部23将被判定为正确的由第1语言的文与第2语言的翻译文构成的译文对输出给类别附加部16a。

图11的步骤s26~步骤s28的处理与图2所示的步骤s2~步骤s4的处理相同,因此省略说明。

接着,在步骤s29中,翻译文输出部21判断是否从对译语料库存储部14取得了所有译文对。在此,在判断为尚未取得所有译文对的情况下(步骤s29:否),返回至步骤s21的处理,翻译文输出部21从对译语料库存储部14取得其他译文对。另一方面,在判断为取得了所有译文对的情况下(步骤s29:是),移至步骤s30的处理。

图12的步骤s30~步骤s35的处理与图3所示的步骤s6~步骤s11的处理相同,因此省略说明。

图13是表示在本实施方式2中由翻译文输出部显示的显示画面的一例的图。如图13所示,翻译文输出部21显示包含第1语言的文211、将该文翻译成第2语言而得到的翻译文212、以及用于让用户输入判定翻译文是否正确而得到的判定结果的对象213的显示画面210。用户判定对于第1语言的文的第2语言的翻译文是否被正确地进行了翻译,输入判定结果。

在图13所示的例子中,显示出“この道をまっすぐ行きます。(沿这条路直走)”这一第1语言的文211,显示出“goalongthisstreet.”这一翻译文212,显示出用于受理由用户对“良好”和“不良”中的某一方的输入的对象213。用户在判定为显示出的翻译文正确的情况下,选择“良好”这一对象213,在判定为显示出的翻译文不正确的情况下,选择“不良”这一对象213。用户输入受理部22将表示由用户做出的判定结果的判定信息输出给评价数据生成部23。表示用户的判定结果的判定信息例如通过翻译文是否被判定为正确的两值来表现。

之后,评价数据生成部23基于判定信息,判断翻译文是否由用户判定为正确。在判断为翻译文不正确的情况下,评价数据生成部23将被判断为不正确的由第1语言的文与将该文翻译成第2语言而得到的翻译文构成的译文对废弃。另一方面,在判断为翻译文正确的情况下,评价数据生成部23将被判断为正确的由第1语言的文与将该文翻译成的第2语言而得到的翻译文构成的译文对输出给类别附加部16。在图13中,由于选择了“良好”,因此“この道をまっすぐ行きます。”与“goalongthisstreet.”作为译文对,输出给类别附加部16a。

此外,判定结果也可以并非通过两值而是例如通过0到100的数值(0为最差,100为最好)来表现,用户输入受理部22也可以通过受理由用户对任意数值的输入来表现翻译文的正确性。在该情况下,评价数据生成部23也可以在步骤s24的处理中判断由用户输入的数值是否大于等于阈值。此外,这些判定信息为一例,并不限于它们。

另外,在本实施方式2中,翻译文输出部21从对译语料库存储部14取得了第1语言的第1文、将该第1文翻译成第2语言而得到的第1翻译文、第1语言的第2文、和将该第2文翻译成第2语言而得到的第2翻译文,但本公开不特别限定于此,也可以取得通过将第1翻译文应用于翻译处理中所使用的机器翻译模型而翻译成第1语言的第1逆向翻译文,并取得通过将第2翻译文应用于机器翻译模型而翻译成第1语言的第2逆向翻译文。另外,评价数据生成部23也可以取得表示判定第1逆向翻译文是否正确而得到的判定结果的第3判定信息,还可以取得表示判定第2逆向翻译文是否正确而得到的判定结果的第4判定信息。长文生成部19也可以基于第3判定信息以及第4判定信息,在判定为第1逆向翻译文以及第2逆向翻译文均正确的情况下,生成第3翻译文。此外,机器翻译模型预先存储于对译语料库生成装置1a,利用机器翻译模型,第1语言的输入文被翻译成第2语言的翻译文。

另外,翻译文输出部21也可以显示第1逆向翻译文、用于让用户输入判定第1逆向翻译文是否正确而得到的判定结果的第3对象、第2逆向翻译文、和用于让用户输入判定第2逆向翻译文是否正确而得到的判定结果的第4对象。

图14是表示在本实施方式2的变形例中由翻译文输出部21显示的显示画面的一例的图。如图14所示,翻译文输出部21显示包含第1语言的文311、将该文翻译成第2语言而得到翻译文312、通过将翻译文312应用于机器翻译模型而翻译成第1语言的逆向翻译文313、以及用于让用户输入判定逆向翻译文是否正确而得到的判定结果的对象314的显示画面310。用户判定将第2语言的翻译文逆向翻译成第1语言而得到的逆向翻译文313是否被正确地进行了翻译,输入判定结果。即,用户通过比较第1语言的文311与第1语言的逆向翻译文313,即使不知晓第2语言,也能够判定翻译文312是否被正确地进行了翻译。

在图14所示的例子中,显示出“この道をまっすぐ行きます。”这一第1语言的文311,显示出“goalongthisstreet.”这一翻译文312,显示出“この道をまっすぐ行く。(沿这条路直走)”这一第1语言的逆向翻译文313,显示出用于受理由用户对“良好”和“不良”中的某一方的输入的对象314。用户在判定为显示出的逆向翻译文正确的情况下,选择“良好”这一对象314,在判定为显示出的逆向翻译文不正确的情况下,选择“不良”这一对象314。用户输入受理部22将表示由用户做出的判定结果的判定信息输出给评价数据生成部23。

之后,评价数据生成部23基于判定信息,判断逆向翻译文是否由用户判定为正确。在判断为逆向翻译文不正确的情况下,评价数据生成部23将被判断为不正确的由第1语言的文与将该文翻译成第2语言而得到的翻译文构成的译文对废弃。另一方面,在判断为逆向翻译文正确的情况下,评价数据生成部23将被判断为正确的由第1语言的文与将该文翻译成的第2语言而得到的翻译文构成的译文对输出给类别附加部16。在图14中,由于选择了“良好”,因此“この道をまっすぐ行きます。”与“goalongthisstreet.”作为译文对,输出给类别附加部16a。

另外,在本实施方式2中,翻译文输出部21也可以将通过长文生成部19生成的、将第1翻译文和第2翻译文使用第2语言的第2连词构成为一个文句而得到的第3翻译文提示给用户。另外,翻译文输出部21也可以将第3翻译文与将第1文和第2文使用第1语言的第1连词构成为一个文句而得到的第3文一起提示给用户。在该情况下,对译语料库更新部20也可以取得表示判定第3翻译文是否正确而得到的判定结果的判定信息,并在判定为第3翻译文正确的情况下,将第3文与第3翻译文相关联地保存于对译语料库存储部14,由此更新对译语料库。

(实施方式3)

在实施方式1、2中,从对译语料库存储部取得了第1语言的第1文、将该第1文翻译成第2语言而得到的第1翻译文、第1语言的第2文、和将该第2文翻译成第2语言而得到的第2翻译文,但在实施方式3中,通过将第1文以及第2文应用于使用对译语料库学习出的机器翻译模型来取得第1翻译文以及第2翻译文。

图15是表示本公开的实施方式3中的对译语料库生成装置的构成的框图。

图15所示的对译语料库生成装置1b具备翻译对象输入部11、机器翻译模型存储部12、机器翻译部13、对译语料库存储部14、类别数据库15、类别附加部16b、带有类别标签的数据存储部17、连接规则存储部18、长文生成部19、对译语料库更新部20以及机器翻译模型学习部24。

此外,机器翻译模型存储部12、机器翻译部13、对译语料库存储部14、类别数据库15、类别附加部16b、带有类别标签的数据存储部17、连接规则存储部18、长文生成部19、对译语料库更新部20以及机器翻译模型学习部24的一部分或者全部也可以设置于与对译语料库生成装置1b分开的外部设备(例如服务器计算机等)。在该情况下,图15所示的对译语料库生成装置1b具备在与外部设备之间通信数据的接口部。接口部将所生成的对译语料库发送给外部设备。接口部例如是使用usb标准的接口电路或者遵循ieee802.11标准等的通信接口电路等。

另外,图15所示的各块例如通过由cpu执行存储于辅助存储装置的、使计算机作为对译语料库生成装置1b发挥功能的程序(对译语料库生成程序)来实现。因此,在计算机中安装有对译语料库生成方法。在图15中,由四边形表示的块主要通过cpu来实现其功能,由圆柱形表示的块主要通过由rom、ram以及辅助存储装置等构成的存储装置来实现其功能。

翻译对象输入部11与机器翻译部13连接,例如受理预定操作。翻译对象输入部11受理由用户对成为翻译对象的第1语言的第1文以及第2文的输入。翻译对象输入部11例如是具备多个被分配了预定功能的输入开关等的键盘、鼠标或者触摸面板等输入装置、或者麦克风等语音(声音)输入装置等。另外,翻译对象输入部11例如也可以是在与外部设备之间通信数据的接口部。预定操作例如包括输入第1语言的文的输入操作以及指示对译语料库生成装置1b开始生成对译语料库的输入操作等,包括为了在对译语料库生成装置1b中生成对译语料库所需的各种操作。

机器翻译模型存储部12与机器翻译部13连接,存储第1语言与第2语言之间的翻译处理所使用的机器翻译模型。

机器翻译部13与类别附加部16b连接,生成将第1语言的第1文翻译成第2语言而得到的第1翻译文,并且生成将第1语言的第2文翻译成第2语言而得到的第2翻译文。机器翻译部13通过将第1文应用于机器翻译模型存储部12所存储的机器翻译模型来生成第1翻译文,通过将第2文应用于机器翻译模型来生成第2翻译文。机器翻译部13使用统计机器翻译、基于神经网络(neuralnetwork)的翻译或者基于规则(rule-base)式翻译等进行机器翻译,关于机器翻译部13所使用的机器翻译方法,不特别限定。机器翻译部13将由翻译对象输入部11输入的第1文、翻译出的第1翻译文、由翻译对象输入部11输入的第2文、以及翻译出的第2翻译文输出给类别附加部16b。

类别附加部16b从机器翻译部13取得第1文、与第1文对应的第1翻译文、第2文、和与第2文对应的第2翻译文。类别附加部16b取得的第1翻译文以及第2翻译文是由机器翻译部13翻译得到的翻译文。关于由类别附加部16b进行的对表示类别的标签信息的附加,与实施方式1相同。

机器翻译模型学习部24与机器翻译模型存储部12连接,根据更新后的对译语料库,对存储于机器翻译模型存储部12的机器翻译模型进行再学习。

图16是用于对本公开的实施方式3的对译语料库生成装置中的翻译文生成处理进行说明的第1流程图,图17是用于对本公开的实施方式3的对译语料库生成装置中的翻译文生成处理进行说明的第2流程图。

首先,在步骤s41中,翻译对象输入部11受理由用户对成为翻译对象的第1语言的输入文的输入。此时,翻译对象输入部11既可以用文本数据受理翻译对象,也可以用语音数据受理翻译对象。在用语音数据受理的情况下,翻译对象输入部11通过语音识别处理将该语音数据转换成文本数据。

接着,在步骤s42中,机器翻译部13通过将作为翻译对象的输入文应用于机器翻译模型存储部12所存储的机器翻译模型,生成翻译文。

接着,在步骤s43中,机器翻译部13将由通过翻译对象输入部11输入的第1语言的文与所生成的第2语言的翻译文构成的译文对输出给类别附加部16b。

接着,在步骤s44中,类别附加部16b判断所取得的译文对是否归于某个类别。类别附加部16b通过从类别数据库15检索与文所包含的单词或者词句相符的类别,确定译文对的类别。在此,在判断为译文对不归于任一类别的情况下(步骤s44:否),返回至步骤s41的处理。

另一方面,在判断为译文对归于某个类别的情况下(步骤s44:是),在步骤s45中,类别附加部16b对译文对附加类别。

接着,在步骤s46中,类别附加部16b将附加有类别的译文对存储于带有类别标签的数据存储部17。

图17的步骤s47~步骤s52的处理与图3所示的步骤s6~步骤s11的处理相同,因此省略说明。

接着,在步骤s53中,机器翻译模型学习部24根据更新后的对译语料库,对存储于机器翻译模型存储部12的机器翻译模型进行学习。

图18是表示使用根据更新前的对译语料库所学习出的机器翻译模型进行机器翻译得到的翻译结果的一例的图,图19是表示使用根据更新后的对译语料库所学习出的机器翻译模型进行机器翻译得到的翻译结果的一例的图。

在图18以及图19中,输入文是“まっすぐ行くと京都タワーがある。(直走会有个京都塔)”。如图18所示,例如在使用根据更新前的对译语料库所学习出的机器翻译模型来对输入文进行机器翻译的情况下,翻译结果为“gostraightandakyototower.(直走和京都塔)”,没有成为正确地连接第1文与第2文的翻译文。与此相对地,如图19所示,在使用根据更新后的对译语料库所学习出的机器翻译模型来对输入文进行机器翻译的情况下,翻译结果为“gostraightandthereisakyototower.”,成为正确地连接了第1文与第2文的翻译文。

此外,在本实施方式3中,类别附加部16b仅从机器翻译部13取得了第1语言的第1文、将该第1文翻译成第2语言而得到的第1翻译文、第1语言的第2文、和将该第2文翻译成第2语言而得到的第2翻译文,但本公开不特别限定于此,类别附加部16b也可以从机器翻译部13取得第1语言的第1文以及将该第1文翻译成第2语言而得到的第1翻译文,并从对译语料库存储部14取得第1语言的第2文以及将该第2文翻译成第2语言而得到的第2翻译文。

(实施方式4)

在实施方式4中,将机器翻译出的第1翻译文以及第2翻译文提示给用户,受理由用户对第1翻译文以及第2翻译文是否被正确地进行了翻译的判定,在判定为第1翻译文以及第2翻译文均被正确地进行了翻译的情况下,生成将第1翻译文和第2翻译文使用第2语言的第2连词构成为一个文句而得到的第3翻译文来作为将第1文和第2文使用第1语言的第1连词构成为一个文句而得到的第3文的翻译文。

图20是表示本公开的实施方式4中的对译语料库生成装置的构成的框图。

图20所示的对译语料库生成装置1c具备翻译对象输入部11、机器翻译模型存储部12、机器翻译部13c、对译语料库存储部14、类别数据库15、类别附加部16a、带有类别标签的数据存储部17、连接规则存储部18、长文生成部19、对译语料库更新部20、翻译文输出部21c、用户输入受理部22、评价数据生成部23以及机器翻译模型学习部24。

此外,机器翻译模型存储部12、机器翻译部13c、对译语料库存储部14、类别数据库15、类别附加部16a、带有类别标签的数据存储部17、连接规则存储部18、长文生成部19、对译语料库更新部20以及机器翻译模型学习部24的一部分或者全部也可以设置于与对译语料库生成装置1c分开的外部设备(例如服务器计算机等)。在该情况下,在图20所示的对译语料库生成装置1c中,取代具备对译语料库存储部14以及对译语料库更新部20,而具备在与外部设备之间通信数据的接口部。接口部将所生成的对译语料库发送给外部设备。接口部例如是使用usb标准的接口电路或者遵循ieee802.11标准等的通信接口电路等。

另外,图20所示的各块例如通过由cpu执行存储于辅助存储装置的、使计算机作为对译语料库生成装置1c发挥功能的程序(对译语料库生成程序)来实现。因此,在计算机中安装有对译语料库生成方法。在图20中,由四边形表示的块主要通过cpu来实现其功能,由圆柱形表示的块主要通过由rom、ram以及辅助存储装置等构成的存储装置来实现其功能。

机器翻译部13c与翻译文输出部21c连接,生成将第1语言的第1文翻译成第2语言而得到的第1翻译文,并且生成将第1语言的第2文翻译成第2语言而得到的第2翻译文。机器翻译部13c通过将第1文应用于机器翻译模型存储部12所存储的机器翻译模型来生成第1翻译文,并通过将第2文应用于机器翻译模型来生成第2翻译文。机器翻译部13c使用统计机器翻译、基于神经网络的翻译或者基于规则式翻译等进行机器翻译,关于机器翻译部13c所使用的机器翻译方法,不特别限定。机器翻译部13c将由翻译对象输入部11输入的第1文、翻译出的第1翻译文、由翻译对象输入部11输入的第2文、以及翻译出的第2翻译文输出给翻译文输出部21c。

翻译文输出部21c与用户输入受理部22连接,输出从机器翻译部13c取得的文以及翻译文。关于该输出方法,也可以是任意方法,在本实施方式4中,翻译文输出部21c为显示器,显示从机器翻译部13c取得的文以及翻译文。也可能有同时输出文以及翻译文的情况。

翻译文输出部21c从机器翻译部13c取得第1语言的第1文、将该第1文翻译成第2语言而得到的第1翻译文、第1语言的第2文、和将该第2文翻译成第2语言而得到的第2翻译文。翻译文输出部21c显示第1翻译文、用于让用户输入判定第1翻译文是否正确而得到的判定结果的第1对象、第2翻译文、以及用于让用户输入判定第2翻译文是否正确而得到的判定结果的第2对象。

图21是用于对本公开的实施方式4的对译语料库生成装置中的翻译文生成处理进行说明的第1流程图,图22是用于对本公开的实施方式4的对译语料库生成装置中的翻译文生成处理进行说明的第2流程图。

首先,在步骤s61中,翻译对象输入部11受理由用户对成为翻译对象的第1语言的输入文的输入。此时,翻译对象输入部11既可以用文本数据受理翻译对象,也可以用语音数据受理翻译对象。在用语音数据受理的情况下,翻译对象输入部11通过语音识别处理将该语音数据转换成文本数据。

接着,在步骤s62中,机器翻译部13c通过将作为翻译对象的输入文应用于机器翻译模型存储部12所存储的机器翻译模型,生成翻译文。机器翻译部13c将由通过翻译对象输入部11输入的第1语言的文与所生成的第2语言的翻译文构成的译文对输出给翻译文输出部21c。

接着,在步骤s63中,翻译文输出部21c显示从机器翻译部13c取得的第1语言的文、以及将该文翻译成第2语言而得到的翻译文。翻译文输出部21c从机器翻译部13c取得由第1语言的文与将该文翻译成第2语言而得到的翻译文构成的译文对。在该情况下,由翻译文输出部21c显示的显示画面与图13所示的显示画面相同。

接着,在步骤s64中,用户输入受理部22受理由用户对通过翻译文输出部21c显示出的翻译文是否正确的判定。用户输入受理部22将表示判定翻译文是否正确而得到的判定结果的判定信息输出给评价数据生成部23。

接着,在步骤s65中,评价数据生成部23基于从用户输入受理部22输出的判定信息,判断翻译文是否由用户判定为正确。在此,在判断为翻译文被判定为不正确的情况下(步骤s65:否),返回至步骤s61的处理。此外,评价数据生成部23将被判定为不正确的由第1语言的文与第2语言的翻译文构成的译文对废弃,不输出给类别附加部16a。

另一方面,在判断为翻译文被判定为正确的情况下(步骤s65:是),在步骤s66中,评价数据生成部23将被判定为正确的由第1语言的文与第2语言的翻译文构成的译文对输出给类别附加部16a。

接着,在步骤s67中,类别附加部16a判断所取得的译文对是否归于某个类别。类别附加部16a通过从类别数据库15检索与文所包含的单词或者词句相符的类别,确定译文对的类别。在此,在判断为译文对不归于任一类别的情况下(步骤s67:否),返回至步骤s61的处理。

另一方面,在判断为译文对归于某个类别的情况下(步骤s67:是),在步骤s68中,类别附加部16a对译文对附加类别。

接着,在步骤s69中,类别附加部16a将附加有类别的译文对存储于带有类别标签的数据存储部17。

图22的步骤s70~步骤s76的处理与图17所示的步骤s47~步骤s53的处理相同,因此省略说明。

此外,在本实施方式4中,类别附加部16a仅从评价数据生成部23取得了第1语言的第1文、将该第1文翻译成第2语言而得到的第1翻译文、第1语言的第2文、和将该第2文翻译成第2语言而得到的第2翻译文,但本公开不特别限定于此,类别附加部16a也可以从评价数据生成部23取得第1语言的第1文以及将该第1文翻译成第2语言而得到的第1翻译文,并从对译语料库存储部14取得第1语言的第2文以及将该第2文翻译成第2语言而得到的第2翻译文。

另外,在本实施方式4中,翻译文输出部21c从机器翻译部13c取得了第1语言的第1文、将该第1文翻译成第2语言而得到的第1翻译文、第1语言的第2文、和将该第2文翻译成第2语言而得到的第2翻译文,但本公开不特别限定于此,也可以取得通过将第1翻译文应用于翻译处理中所使用的机器翻译模型而翻译成第1语言的第1逆向翻译文,并取得通过将第2翻译文应用于机器翻译模型而翻译成第1语言的第2逆向翻译文。另外,评价数据生成部23也可以取得表示判定第1逆向翻译文是否正确而得到的判定结果的第3判定信息,还可以取得表示判定第2逆向翻译文是否正确而得到的判定结果的第4判定信息。长文生成部19也可以基于第3判定信息以及第4判定信息,在判定为第1逆向翻译文以及第2逆向翻译文均正确的情况下,生成第3翻译文。

另外,翻译文输出部21c也可以显示第1逆向翻译文、用于让用户输入判定第1逆向翻译文是否正确而得到的判定结果的第3对象、第2逆向翻译文、和用于让用户输入判定第2逆向翻译文是否正确而得到的判定结果的第4对象。在该情况下,由翻译文输出部21c显示的显示画面与图14所示的显示画面相同。

再者,在本实施方式4中,翻译文输出部21c也可以将通过长文生成部19生成的、将第1翻译文和第2翻译文使用第2语言的第2连词构成为一个文句而得到的第3翻译文提示给用户。另外,翻译文输出部21c也可以将第3翻译文与将第1文和第2文使用第1语言的第1连词构成为一个文句而得到的第3文一起提示给用户。在该情况下,对译语料库更新部20也可以取得表示判定第3翻译文是否正确而得到的判定结果的判定信息,并在判定为第3翻译文正确的情况下,将第3文与第3翻译文相关联地保存于对译语料库存储部14,由此更新对译语料库。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1