用于将日文翻译成中文的装置和方法

文档序号:6557860阅读:202来源:国知局
专利名称:用于将日文翻译成中文的装置和方法
技术领域
本发明涉及将输入的日文翻译成中文的日文到中文的机器翻译装置,以及日文到中文的机器翻译的方法。
背景技术
通常,将输入的日文翻译成对应的中文的日文到中文机器翻译装置包括日文到中文翻译词典,其中,将日文单词与其中文翻译彼此关联地进行存储。当将日文作为输入提供时,日文到中文机器翻译装置利用输入日文的整体或部分作为搜索关键字来搜索日文到中文翻译词典。然后,日文到中文机器翻译装置基于中文翻译的搜索结果确定对应的将被输出的中文。
在日文到中文翻译中,通常,依赖于上下文,一个日文单词需要被翻译成不同的中文单词。因而,如上所述的日文到中文翻译词典通常存储多个中文单词,作为对应于一个日文单词的翻译。需要日文到中文翻译装置执行处理,以基于出现对应日文单词的上下文从多个中文译文中选择正确的译文。
传统上,有多种技术被用于满足该需求。一个常用的技术是,参照在特定单词附近出现的单词或相关的单词,提前为确定特定单词的翻译设定一个规则,并基于设定的规则来选择译文。另一个已提出的技术是翻译学习(translation learning),其中,用户检查原文和机器翻译的结果,如果翻译不正确,则为原文指明正确的翻译。另一个已提出技术是,在翻译时,为翻译装置提供一个以目标语言书写的、并且与原始文档的领域相关的文档,并且使翻译装置优先地选择在所提供地相关文档中出现的单词作为译文(例如,参见日本专利No.3034295)。
但是,如上所述的传统技术并不具有优势。提前设定翻译确定规则意味着需要为翻译设定大量的规则,这很难被提前完美地实现。另一方面,由用户指明翻译,需要用户为每个单词指定正确的翻译,这导致用户的工作负担过重。此外,只有既熟悉原始语言又熟悉目标语言的用户才能执行这种操作。在翻译时提供相关的文档,有时由于还未知原始文本与译文之间的准确的对应关系,因此会导致优先选择不正确的单词。

发明内容
根据本发明的一个方面,一种日文到中文机器翻译装置包括翻译词典存储器,用于存储日文到中文的翻译词典,将日文单词和至少一个作为该日文单词的翻译的中文单词彼此关联地登记在该词典中;辞典存储器,用于存储日文辞典,将日文单词和该日文单词的同义词彼此关联地存储在该日文辞典中,该同义词是以不同的表达方式来表达与所述相关的日文单词的意思相同的意思的日文单词;翻译词典搜索单元,用于在日文到中文翻译词典中搜索与输入的日文单词相关联的中文单词;辞典搜索单元,用于当有多个中文单词命中为与输入的日文单词相关联的中文单词的搜索结果时,在日文辞典中搜索与输入的日文单词相关的同义词;相似度计算单元,用于为多个与输入的日文单词相关联的中文单词计算相似度,该相似度指示同义词和与输入的日文单词相关联的所述多个中文单词中的每一个之间的关联度;以及译文选择单元,用于选择具有最高相似度的中文单词作为输入的日文单词的译文。
根据本发明的另一方面,一种日文到中文机器翻译的方法,包括在存储在存储器中的日文到中文翻译词典中搜索与输入的日文单词相关联的中文单词,其中,日文单词和至少一个作为该日文单词的翻译的中文单词被彼此关联地登记在该词典中;当发现有多个中文单词与输入的日文单词相关联作为搜索结果时,在存储在存储器中的日文辞典中搜索同义词,其中,日文单词和该日文单词的同义词被彼此关联地存储在该日文辞典中,该同义词是以不同的表达方式来表达与输入的日文单词的意思相同的意思的日文单词;为多个与输入的日文单词相关联的中文单词计算相似度,该相似度指示所述同义词与所述多个中文单词中的每一个之间的关联度;以及选择具有最高相似度的中文单词作为输入的日文单词的译文。


图1是根据本发明第一实施例的日文到中文机器翻译装置的结构的框图;图2是日文到中文翻译词典的数据结构的实例的说明图;图3是日文辞典的数据结构的实例的说明图;图4是汉字字符对应信息表的数据结构的实例的说明图;图5是根据第一实施例的机器翻译的全部处理流程的流程图;图6是根据第一实施例的译文选择的全部处理流程的流程图;图7是根据第一实施例的相似度计算的全部处理流程的流程图;图8是根据第一实施例的相似度计算的全部处理流程的流程图;图9是根据第二实施例的日文到中文机器翻译装置的结构的框图;以及图10是根据第二实施例的相似度计算的全部处理流程的流程图。
具体实施例方式
以下将参照附图详细描述根据本发明的日文到中文机器翻译装置和日文到中文机器翻译方法的典型实施例。
一种根据第一实施例的日文到中文机器翻译装置,当发现多个针对日文输入的中文译文作为搜索结果时,在日文辞典中搜索所述日文单词的同义词,并选择并输出具有最高相似度的中文译文,所述相似度指示包含在中文译文中的汉字与日文同义词之间的关联度。
图1是根据第一实施例的日文到中文机器翻译装置100的结构的框图。如图1所示,日文到中文机器翻译装置100包括输入处理单元101、翻译词典搜索单元102、辞典搜索单元103、相似度计算单元104、对应汉字字符搜索单元105、译文选择单元106、输出处理单元107、以及硬盘驱动器(HDD)110。
此外,根据第一实施例的日文到中文机器翻译装置100连接到输入设备200,例如键盘,用于由用户输入日文,还连接到输出设备300,例如显示器或打印机,用于将中文译文输出给用户。
输入处理单元101从输入设备200接收日文的输入。翻译词典搜索单元102将通过输入处理单元101接收的所提供的日文输入用作搜索关键字来搜索日文到中文翻译词典111,并且得到至少一个对应于输入的日文的中文译文。
辞典搜索单元103将通过输入处理单元101接收的所提供的日文输入用作搜索关键字来搜索日文辞典112,并取回输入的日文的同义词。这里,“同义词”是指与相关的具有不同表达的日文单词具有相同意思的日文单词。稍后将描述日文辞典112的详细结构。
相似度计算单元104计算相似度,其指示了由翻译词典搜索单元102检索到的中文译文和由辞典搜索单元103检索到的同义词之间的关联度。例如,相似度可以被计算为对应于在中文译文中使用的中文字符(中文汉字)的在日本使用的日文字符(日文汉字)与包含在日文同义词中的汉字之间的匹配数。
或者,相似度可以被计算为匹配数与包含在中文译文中的汉字的总数的比率,其中,所述匹配数是指对应于包含在中文译文中的中文汉字的日文汉字与包含在日文同义词中的汉字之间的匹配数。计算相似度的方式并不限于以上所述的方式,只要能表示中文译文与日文同义词之间的关联度,任何值都可以被用作相似度。
对应汉字字符搜索单元105搜索汉字字符对应信息表113,并获取对应于所指定的中文汉字的日文汉字。稍后将描述汉字字符对应信息表113的详细的数据结构。
当翻译词典搜索单元102检索到多个中文译文时,译文选择单元106选择具有最高相似度的中文译文,其中,相似度是通过相似度计算单元104计算的。输出处理单元107将由译文选择单元106选择的中文译文输出到输出设备300。
HDD 110存储日到中翻译词典111、日文辞典112、以及汉字字符对应信息表113。
日文到中文翻译词典111是一个词典,将每个日文单词与它的表示和中文译文相关联地登记在该词典中。图2是日文到中文翻译词典111的数据结构的实例的说明图。
如图2所示,当一个日文单词可以被翻译成多个中文单词时,所述多个中文单词被利用符号“;”分隔地登记。例如,日文单词J210能够被翻译成三个不同的中文单词C201、C202和C203。因而,在图2的中文译文列中,显示了中文译文C210,其中,显示了中文单词C201、C202和C203,并且以“;”分隔它们。
日文辞典112是一个词典,其中,将日文单词与其它尽管表达不同、但具有相同意思的日文单词相关联进行登记。在日文辞典112中,为每个用户登记同义词。当翻译词典搜索单元102发现命中多个中文译文时,参照日文辞典112以计算与各个中文译文的相似度。
当将其它语言中的单词(例如,英语中的单词)采纳到日文中后,通常用片假名来书写该单词以便指示原始发音。但是,片假名是一种特殊的日文字符,因此,对于只说中文的人来讲,很难理解包含片假名表示的日文文档。
另一方面,可以根据外来词的意思用日文汉字来表示该外来词,而不通过原始发音来表示其。日文汉字虽然不同于中文汉字,但是源于中文汉字,因此,如果通过日文汉字来表示外来词,那么只说中文的人就可能能够理解包含来源于其它语言的单词的日文文档。
如果能够以日文汉字的表示来代替用片假名或平假名书写的单词,那么将使日本和中国之间的通信变得更容易,其中,所述片假名和平假名都是特殊的日文字符。
因此,使用日文辞典112以将包含在日文文档中的片假名或平假名表示替换成日文汉字的表示,以便将所述文档转换成另一种更容易被只说中文的人理解的形式,其中,所述日文辞典112将片假名或平假名表示与具有相同意思的日文汉字表示彼此相关联地进行存储。
在第一实施例中,在翻译时,由日文到中文机器翻译装置100使用具有所述功能的日文辞典112。
图3是日文辞典112的数据结构的实例的说明图。在图3所示的实例中,分别将汉字字符串J311、汉字字符串J321、汉字字符串J331和汉字字符串J341指定为片假名字符串J310、片假名字符串J320、片假名字符串J330和平假名字符串J340的同义词。
汉字字符对应信息表113是一种表,中文汉字与对应的日文汉字被相关联地登记到其中。
日文汉字基本上源于中文汉字。但是,由于汉字的发展路径在日本和在中国不同,因此,尽管一些汉字在日本和在中国具有相同的意思,但是书写方式不同。因而,在翻译中,需要关于中文汉字和与所述对应的中文汉字具有相同起源及相同意思的日文汉字之间的对应关系的信息。这种信息被存储在汉字字符对应信息表113中。
图4是汉字字符对应信息表113的数据结构的实例的说明图。如图4所示,例如,汉字字符对应信息表113指示在中国使用的中文汉字C410与在日本使用的日文汉字J410相对应。
接下来,将描述由根据第一实施例的具有上述结构的日文到中文机器翻译装置100进行的机器翻译。在下文中,假定如图2、3、4所示的内容被分别登记在日文到中文翻译词典111、日文辞典112、汉字字符对应信息表113。在下文中,将描述当提供图2中所示的单词J220作为日文输入时执行的日文到中文的机器翻译。单词J220的意思是英语中的“local”。
图5是根据第一实施例的机器翻译的全部处理流程的流程图。首先,响应于由用户经由输入设备200进行的日文输入,输入处理单元101接收输入的日文(步骤S501)。
然后,翻译词典搜索单元102使用输入的日文作为搜索关键字,在日文到中文翻译词典111中搜索对应的中文译文(步骤S502)。例如,当提供单词J220作为日文输入时,翻译词典搜索单元102搜索日文到中文翻译词典111,并检索到如图2所示的译文C220作为命中。
然后,译文选择单元106确定是否存在多个对应的中文译文(步骤S503)。当确定存在多个中文译文时(在步骤S503中为“是”),译文选择单元106进行译文选择,以在候选译文中选择正确的中文译文(步骤S504)。稍后将详细描述译文选择。
当译文选择单元106确定不存在多个中文译文时(在步骤S503中为“否”),或者在译文选择单元106进行译文选择(步骤S504)之后,输出处理单元107输出作为搜索结果而命中的中文译文或被选择作为译文选择结果的中文译文(步骤S505),以结束机器翻译。
然后,将详细描述在步骤S504中执行的译文选择。图6是根据第一实施例的译文选择的全部处理过程的流程图。
首先,辞典搜索单元103使用输入的日文作为搜索关键字在日文辞典112中搜索同义词(步骤S601)。例如,当提供单词J220作为日文输入时,辞典搜索单元103在日文辞典112中搜索单词J321,单词J321与图3中所示的单词J320相对应,并且与单词J220是同义词。
然后,译文选择单元106确定是否存在命中的同义词(步骤S602)。当确定不存在命中的同义词时(在步骤S602中为“否”),译文选择单元106选择第一个中文译文作为待输出的译文(步骤S603),以结束译文选择。例如,假定提供单词J220作为日文输入并且没有同义词命中。然后,译文选择单元106选择单词C221,单词C221是对应于图2所示的单词J220的多个中文译文C220中的第一个。
这里,可以为多个中文译文提前设置优先级,例如,根据各个译文的使用频率来设置。然后,可以执行译文选择,从而使得可以优先选择具有较高优先级的中文译文。然后,即使当未发现同义词时,也能够选择更合适的中文译文。
当译文选择单元106在步骤S602中确定存在命中的同义词时(在步骤S602为“是”),执行相似度计算以计算多个中文译文中的第一个中文译文与所述同义词之间的相似度(步骤S604)。稍后将详细描述相似度计算。
在相似度计算之后,译文选择单元106确定在多个中文译文中是否有未处理的中文译文(步骤S605)。当确定存在未处理的中文译文时(在步骤S605中为“是”),对相关的中文译文再次执行相似度计算(步骤S604)。
当确定不存在未处理的中文译文时(在步骤S605中为“否”),译文选择单元106选择具有最高的所计算的相似度的中文译文作为译文进行输出(步骤S606),以结束译文选择,其中,所述相似度是通过相似计算获得的。
下面将详细描述在步骤S604中执行的相似度计算。图7是根据第一实施例的相似度计算的全部处理流程的流程图。
首先,相似度计算单元104将计数器初始化为零(步骤S701),其中,所述计数器用于计算匹配字符的数量。然后,相似度计算单元104从提供的中文译文中挑选一个字符(步骤S702)。
然后,对应汉字字符搜索单元105在汉字字符对应信息表113中搜索与由相似度计算单元104从中文译文中挑选的字符相对应的日文汉字(步骤S703)。然后,相似度计算单元104确定对应汉字字符搜索单元105是否获取了对应的日文汉字(步骤S704)。当确定未获取所述字符时(在步骤S704中为“否”)相似度计算单元104确定是否存在未处理的字符(步骤S709)。
当获取了对应的日文汉字时(在步骤S704中为“是”),相似度计算单元104在从在步骤S601中命中的同义词中挑选一个字符,并将该字符与从汉字字符对应信息表113中获取的日文汉字进行比较(步骤S705)。
然后,相似度计算单元104确定从所述同义词中挑选的字符是否与从汉字字符对应信息表113中获取的日文汉字相同(步骤S706)。当确定所述两个字符不相同时(在步骤S706中为“否”),相似度计算单元104确定在所述同义词中是否存在未处理的字符(步骤S708)。
当确定从所述同义词中挑选的字符与从汉字字符对应信息表113中获取的日文汉字相同时(在步骤S706中为“是”),相似度计算单元104使计数器加一(步骤S707),该计数器用于计算匹配的字符的数量。
然后,相似度计算单元104确定在同义词中是否存在未处理的字符(步骤S708)。当确定存在未处理的字符时(在步骤S708中为“是”),相似度计算单元104挑选同义词中的下一个字符,并重复相同的处理(步骤S705)。
当确定在同义词中不存在未处理的字符时(在步骤S708中为“否”),相似度计算单元104确定在中文译文中是否存在未处理的字符(步骤S709)。当确定在中文译文中存在未处理的字符时(在步骤S709中为“是”),相似度计算单元104挑选中文译文的下一个字符,并重复同样的处理(步骤S702)。
当确定在中文译文中不存在未处理的字符时(在步骤S709中为“否”),相似度计算单元104输出计数器的值作为相似度的值(步骤S710),以结束相似度计算。
当提供单词J220作为日文输入时,获取同义词J321、以及三个中文译文C221、C222和C223。当计算出三个中文译文与同义词J321的相似度之后,例如,当中文译文C221和同义词J321之间的相似度被计算出之后,由于在两个单词中没有匹配的字符,所以相似度为零。
类似地,由于中文译文C222与同义词J321没有匹配的字符,所以相似度未零。中文译文C223包括同义词J321中的第一个字符,因此相似度为一。在三个中文译文中,中文译文C223具有最高的相似度,因此被选择作为正确的中文译文。
例如,将如图3所示的内容登记在日文辞典112中的用户可以被看作是经常处理计算机相关领域的文档的用户。对于这种用户,在大多数情况中,日文单词J220(意思为英语中的“local”)的更合适的中文译文是内容中的第三个中文译文C223(意思是“局部部分”),而不是日文到中文翻译辞典111的已登记内容中的第一个中文译文C221(意思是“乡村”)。根据第一实施例的日文到中文翻译装置100参照日文辞典112的内容,从而使得能够为每个用户提供更合适的日文到中文的翻译。
在上述实施例中,仅基于匹配汉字的存在来确定相似度。然而,可以将日文到中文机器翻译装置构造为考虑相关单词中的匹配字符的位置来确定相似度。例如,当同义词J321对应于中文译文C223,并且另一个中文译文包括两个在中文译文C223中以相反顺序出现的汉字时,两个中文译文都被确定为仅具有一个匹配字符(图4中的中文汉字C410),并且它们的相似度都被确定为一。然而,由于中文译文C223在与同义词相同的位置(即,在单词的开始)包括匹配字符,所以在相似度计算中,确定中文译文C223的相似度更高。
此外,可以将日文到中文机器翻译装置构造为将相似度作为匹配字符在中文译文的字符总数中所占的比率来计算。这里,匹配字符是在同义词和由对应的日文汉字表示的中文译文中出现的相同的字符。图8是基于匹配字符的比率的相似度计算的全部处理流程的流程图。
首先,相似度计算单元104计算包含在给出的中文译文中的字符的总数(步骤S801)。从步骤S802到步骤S810的计算匹配字符的数量的处理过程与图7中的从步骤S701到步骤S709的处理过程相同,因此不在重复对其的描述。
在处理完所有字符后(在步骤S810中为“否”),相似度计算单元104计算匹配字符的比率作为相似度,也就是说,用计数值除以在步骤S801中计算的中文译文中的字符的总数,并提供得到的商作为输出(步骤S811)。
例如,当提供单词J220作为日文输入并且如图8所示计算相似度时,中文译文C221和同义词J321之间的相似度为零,中文译文C222和同义词J321之间的相似度为零,中文译文C223和同义词J321之间的相似度为1/2(匹配字符的数量=1/字符总数=2)=0.5。
当将匹配字符的数量用作相似度时,即使相比较于其它中文译文,某个中文译文的匹配字符与所有字符的比率更低,也会因为所述中文译文可以包括相对更多数量的匹配字符,从而使得比其它中文译文包括更多字符的所述中文译文被确定具有更高的相似度并被选中。然而,这样的中文译文可能包括更多的非匹配字符以及匹配字符,并且可能不适合作为选中的机器中文译文。如果将匹配字符的比率用作相似度,则可以消除这种麻烦以便能够选择合适的中文译文。
因此,根据第一实施例的日文到中文机器翻译装置100,当获取到日文输入的多个中文译文时,使用所述日文输入作为关键字,在存储各个用户的登记单词的日文辞典中搜索所述日文输入的同义词,并且在所述多个中文译文中优先选择与所述同义词具有最高相似度的中文译文。因此,用户不必亲自选择合适的译文。此外,可以为各个用户优化翻译结果的输出。
当存在对应的日文汉字时,根据第二实施例的日文到中文机器翻译装置使用日文汉字替换日文输入的中文译文中包含的中文汉字,然后,基于替换后的中文译文和同义词之间的编辑距离来计算相似度。这里,“编辑距离”是指用另一个字符串替换一个字符串所需的编辑操作(例如删除、插入以及替换)的数量。
图9是根据第二实施例的日文到中文机器翻译装置900的结构的框图。如图9所示,日文到中文机器翻译装置900包括输入处理单元101、翻译词典搜索单元102、辞典搜索单元103、相似度计算单元904、对应汉字字符搜索单元105、译文选择单元106、输出处理单元107、对应汉字字符替换单元908以及HDD110。
第二实施例与第一实施例的不同在于,增加了对应汉字字符替换单元908,并且改变了相似度计算单元904的功能。其它的结构和功能与根据具有图1的框图所示的结构的第一实施例的日文到中文机器翻译装置100中的相应的结构和功能相同。因此,用与图1中相同的参考字符来表示相同的部件,并且省略对它们的说明。
当通过对应汉字字符搜索单元105的搜索,找到了在日本使用、并且对应于中文译文中的中文汉字的日文汉字时,对应汉字字符替换单元908使用所述日文汉字替换所述日文输入的中文译文中包含的中文汉字,并输出替换后的中文译文。
相似度计算单元904根据从对应汉字字符替换单元908输出的所述替换后的中文译文和所述日文同义词之间的编辑距离计算相似度。可以根据各种传统的技术(例如Smith-Waterman算法)来计算编辑距离。
接下来,将描述由根据第二实施例的具有上述结构的日文到中文机器翻译装置900进行的机器翻译。在根据第二实施例的机器翻译中执行的机器翻译和翻译选择的全部处理流程与图5和6中所示的根据第一实施例的相同,因此不再重复详细描述。
在根据第二实施例的译文选择中执行的相似度计算与根据第一实施例执行的不同。图10是根据第二实施例的相似度计算的全部处理流程的流程图。
从步骤S1001到步骤S1003执行的对应日文汉字的搜索与从步骤S702到步骤S704的处理相同,因此不再重复详细描述。
当在步骤S1003中未获取对应的日文汉字时(在步骤S1003中为“否”),相似度计算单元904确定是否存在未处理的字符(步骤S1005)。当获取到对应的日文汉字时(在步骤S1003中为“是”),对应汉字字符替换单元908用获取的日文汉字替换所述中文译文中的中文汉字(步骤S1004)。
然后,相似度计算单元904确定在中文译文中是否存在未处理的字符(步骤S1005)。当在所述中文译文中存在未处理的字符时(在步骤S1005中为“是”),相似度计算单元904从所述中文译文中挑选下一个字符并重复所述处理(步骤S1001)。
当在所述中文译文中不存在未处理的字符时(在步骤S1005中为“否”),相似度计算单元904计算替换后的中文译文和所述同义词之间的编辑距离(步骤S1006)。例如,通过用图4中所示的在日本使用的日文汉字J420替换图4中所示的在日本使用的日文汉字J430(中文译文C223中的最后一个中文汉字),可以将中文译文C223转换成同义词J321。因此编辑距离是一。
当提供单词J220作为日文输入并且如图10所示计算编辑距离时,中文译文C221和同义词J321之间的编辑距离是二,中文译文C222和同义词J321之间的编辑距离是三,中文译文C223和同义词J321之间的编辑距离是一。
在计算完编辑距离之后,相似度计算单元904输出计算的编辑距离的值作为相似度的值(步骤S1007),以结束相似度计算处理。
这里,由于更小的编辑距离意味着字符串之间更高的相似度,因此,当将编辑距离用于指示相似度时,设置相似度从而使得更小的编辑距离对应于更高的相似度。例如,可以将相似度设置为编辑距离的倒数。或者,可以将编辑距离的值用作相似度。那么,可以在步骤S606中选择具有最低相似度(编辑距离)的中文译文。
因此,如果存在对应的日文汉字的话,根据第二实施例的日文到中文机器翻译装置900能够用对应的日文汉字替换包含在日文输入的中文译文中的中文汉字,并根据替换后的中文译文与日文同义词之间的编辑距离来计算相似度。因而,可以提高相似度计算的准确度。同时,用户不必亲自选择合适的译文,并且可以针对各个用户来优化翻译结果的输出。
这里,在第一和第二实施例中,描述了具有一种简单结构的日文到中文机器翻译装置,所述装置接收日文单词作为输入并使用所述输入日文单词的整体作为搜索关键字来搜索日文到中文翻译词典。或者,本发明可以应用于如下所述的一种日文到中文机器翻译装置,该装置接收日文句子作为输入,将该句子分割为多个单词,为每个单词查找中文译文,并输出结果。或者,本发明可以应用于一种日文到中文机器翻译装置,该装置类似地接收日文句子作为输入,并输出中文句子作为翻译结果。
根据第一和第二实施例的日文到中文机器翻译装置包括例如中央处理单元(CPU)这样的控制器、例如只读存储器(ROM)或随机访问存储器(RAM)这样的存储器、例如硬盘(HDD)这样的外部存储器、压缩盘(CD)驱动器、显示器以及例如键盘或鼠标这样的输入设备,并且具有利用传统计算机的硬件结构。
一种由根据第一或第二实施例的日文到中文机器翻译装置执行的日文到中文机器翻译程序以可安装文件或可执行文件的格式被记录在计算机可读记录介质上,以供使用,所述计算机可读记录介质可以是例如光盘只读储存器(CD-ROM)、软盘(FD)、可记录光盘(CD-R)、数字多用途盘(DVD)。
此外,由根据第一或第二实施例的日文到中文机器翻译装置执行的日文到中文机器翻译程序可以被存储在连接到网络上的计算机(因特网)中,并且经由网络下载以供使用。此外,可以经由网络(例如因特网)提供或分发在根据第一或第二实施例的日文到中文机器翻译装置中执行的日文到中文机器翻译程序。
此外,可以将根据第一或第二实施例的日文到中文机器翻译程序嵌入ROM等以供使用。
由根据第一或第二实施例的日文到中文机器翻译装置执行的日文到中文机器翻译程序具有包括上述单元(输入处理单元、翻译词典搜索单元、辞典搜索单元、相似度计算单元、对应汉字字符搜索单元、译文选择单元、输出处理单元、对应汉字字符替换单元)的模块结构,并且被构造为实际的硬件,因此CPU能够从所述记录介质读出日文到中文机器翻译程序以执行,从而将上述各个单元加载到主存储器中并且在主存储器上生成同样的单元。
本领域的熟练技术人员可以容易的知道其它优点和变形。因此,本发明的范围并不限于特定的细节和这里描述的代表性实施例。因此,可以在不脱离由所附权利要求及其等价内容定义的一般的发明思想的精神或范围的情况下,做出各种修改。
权利要求
1.一种日文到中文机器翻译装置,包括翻译词典存储器,用于存储日文到中文翻译词典,将日文单词和至少一个作为该日文单词的译文的中文单词彼此关联地登记在所述日文到中文翻译词典中;辞典存储器,用于存储日文辞典,将日文单词和该日文单词的同义词彼此关联地存储在所述日文辞典中,所述同义词是以不同的表达方式来表达与所述相关联的日文单词的意思相同的意思的日文单词;翻译词典搜索单元,用于在所述日文到中文翻译词典中搜索与输入的日文单词相关联的中文单词;辞典搜索单元,用于当有多个中文单词命中为与所述输入的日文单词相关联的中文单词的搜索结果时,在所述日文辞典中搜索与所述输入的日文单词相关联的同义词;相似度计算单元,用于为所述多个中文单词中的每一个计算相似度,该相似度指示所述同义词和与所述输入的日文单词相关联的所述多个中文单词中的每一个之间的关联度;以及译文选择单元,用于选择具有最高相似度的中文单词作为所述输入的日文单词的译文。
2.如权利要求1所述的日文到中文机器翻译装置,还包括汉字字符对应信息存储器,用于存储汉字字符对应信息,将中文汉字字符和对应的日文汉字字符彼此相关联地登记在所述汉字字符对应信息中;以及对应汉字字符搜索单元,用于在所述汉字字符对应信息中搜索与包含在关联于所述输入的日文单词的中文单词中的中文汉字字符相关联的日文汉字字符,其中,所述相似度计算单元计算由所述对应汉字字符搜索单元针对包含在关联于所述输入的日文单词的中文单词中的汉字字符搜索到的日文汉字字符和包含在由所述辞典搜索单元搜索到的同义词中的汉字字符之间的匹配的数量,作为所述相似度。
3.如权利要求2所述的日文到中文机器翻译装置,其中多个第一日文汉字字符和多个第二日文汉字字符都是通过所述对应汉字字符搜索单元的搜索而命中的,多个第一汉字字符和多个第二汉字字符都是通过所述辞典搜索单元的搜索而命中的,以及所述相似度计算单元以下述方式计算相似度,即,如果所述多个第一日文汉字字符和所述多个第一汉字字符之间的匹配的数量等于所述多个第二日文汉字字符和所述多个第二汉字字符之间的匹配的数量,并且如果相比较于所述多个第二日文汉字字符和所述多个第二汉字字符,所述多个第一日文汉字字符和所述多个第一汉字字符中包括更多的位于相同位置的匹配汉字字符,则所述多个第一日文汉字字符的相似度比所述多个第二日文汉字字符的相似度更高。
4.如权利要求1所述的日文到中文机器翻译装置,还包括汉字字符对应信息存储器,用于存储汉字字符对应信息,将中文汉字字符和对应的日文汉字字符彼此相关联地登记在所述汉字字符对应信息中;以及对应汉字字符搜索单元,用于在所述汉字字符对应信息中搜索与包含在关联于所述输入的日文单词的中文单词中的中文汉字字符相关联的日文汉字字符,其中,所述相似度计算单元计算通过所述对应汉字字符搜索单元搜索到的日文汉字字符和包含在由所述辞典搜索单元搜索到的同义词中的汉字字符之间的匹配的数量与包含在关联与所述输入的日文单词的中文单词中的汉字字符的总数的比率,作为所述相似度。
5.如权利要求4所述的日文到中文机器翻译装置,其中多个第一日文汉字字符和多个第二日文汉字字符都是通过所述对应汉字字符搜索单元的搜索而命中的,多个第一汉字字符和多个第二汉字字符都是通过所述辞典搜索单元的搜索而命中的,以及所述相似度计算单元以下述方式计算所述相似度,即,如果所述多个第一日文汉字字符和所述多个第一汉字字符之间的匹配的数量等于所述多个第二日文汉字字符和所述多个第二汉字字符之间的匹配的数量,并且如果相比较于所述多个第二日文汉字字符和所述多个第二汉字字符,所述多个第一日文汉字字符和所述多个第一汉字字符中包括更多的位于相同位置的匹配汉字字符,则所述多个第一日文汉字字符的相似度比所述多个第二日文汉字字符的相似度更高。
6.如权利要求1所述的日文到中文机器翻译装置,还包括汉字字符对应信息存储器,用于存储汉字字符对应信息,将在中国使用的中文汉字字符和对应的日文汉字字符彼此相关联地登记在所述汉字字符对应信息中;对应汉字字符搜索单元,用于在所述汉字字符对应信息中搜索与包含在关联于所述输入的日文单词的中文单词中的中文汉字字符相关联的日文汉字字符;以及对应汉字字符替换单元,用于用通过所述对应汉字字符搜索单元搜索到的对应日文汉字字符替换包含在关联于所述输入的日文单词的中文单词中的中文汉字字符,并输出通过替换而得到的中文单词,其中,所述相似度计算单元基于编辑距离计算所述相似度,所述编辑距离是指在从通过替换而得到的、并由所述对应汉字字符替换单元输出的所述中文单词到通过所述辞典搜索单元搜索到的同义词的转换中、对字符执行的编辑操作的数量。
7.如权利要求6所述的日文到中文机器翻译装置,其中所述相似度计算单元计算所述相似度,从而使得更短的编辑距离表示更高的相似度。
8.如权利要求1所述的日文到中文机器翻译装置,其中当存在多个分别都是日文单词的译文的中文单词时,所述翻译词典存储器存储所述日文到中文翻译词典中的每个中文单词的选择优先级,以及当通过搜索与所述输入的日文单词相关联的中文单词而命中多个中文单词时,并且当通过所述辞典搜索单元未命中同义词时,所述译文选择单元选择具有最高选择优先级的中文单词作为所述输入的日文单词的译文。
9.如权利要求1所述的日文到中文机器翻译装置,其中所述辞典存储器存储所述日文辞典,将由片假名表示的日文单词和所述日文单词的同义词彼此相关联地登记在所述日文辞典中,所述同义词是与所述片假名形式的日文单词表示相同意思的、用汉字字符表示的日文单词。
10.如权利要求1所述的日文到中文机器翻译装置,其中所述辞典存储器存储所述日文辞典,将由平假名表示的日文单词和所述日文单词的同义词彼此相关联地登记在所述日文辞典中,所述同义词是与所述平假名形式的日文单词表示相同意思的、用汉字字符表示的日文单词。
11.一种日文到中文机器翻译的方法,包括在存储在存储器中的日文到中文翻译词典中搜索与输入的日文单词相关联的中文单词,其中,日文单词和至少一个作为该日文单词的译文的中文单词被彼此关联地登记在所述词典中;当通过搜索命中多个与所述输入的日文单词相关联的中文单词时,在存储在存储器中的日文辞典中搜索与所述输入的日文单词相关联的同义词,其中,日文单词和该日文单词的同义词被彼此关联地登记在所述日文辞典中,所述同义词是以不同的表达方式来表达相同意思的日文单词;为所述多个中文单词中的每一个计算相似度,该相似度指示所述同义词和关联于所述输入的日文单词的所述多个中文单词之间的关联度;以及选择具有最高相似度的中文单词作为所述输入的日文单词的译文。
全文摘要
一种日文到中文机器翻译装置,包括翻译词典存储器,用于存储日文到中文翻译词典;辞典存储器,用于存储日文辞典;翻译词典搜索单元,用于在日文到中文翻译词典中搜索与输入的日文单词相关联的中文单词;辞典搜索单元,用于当通过搜索命中多个中文单词时,在日文辞典中搜索与输入的日文单词相关联的同义词;相似度计算单元,用于为每一个中文单词计算同义词和多个中文单词之间的相似度;以及译文选择单元,用于选择具有最高相似度的中文单词作为所述输入的日文单词的译文。
文档编号G06F17/28GK1855090SQ20061007107
公开日2006年11月1日 申请日期2006年3月31日 优先权日2005年4月26日
发明者出羽达也 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1