机器翻译装置的制作方法

文档序号:6405963阅读:289来源:国知局
专利名称:机器翻译装置的制作方法
技术领域
本发明涉及能自动地选择恰当的译语、能减少使用者人手的机器翻译装置。
二十世纪新的信息不断涌现出来,是所谓知识爆炸时代。大家都必须不断地吸收知识以便不被时代所淘汰。但是,已形成的知识不仅是国内的,也有来自国外的。再者,由于普通人阅读母语的速度比外国语快,因而,翻译的重要性是不言而喻的。为了提高翻译的质量和效率,已到了必须考虑利用机器的某些方法代替人工,即机器翻译系统的时代。
在机器翻译系统中,设输入、使之翻译的语言为原始语言,经翻译、输出的语言为目的语言。例如,日中机器翻译系统的原始语言是日语,目的语言是汉语。原始语言和目的语言的文章结构(以下简称构文)(構文)及语意的差异是关系到翻译质量的主要因素。例如,试考虑下述的例子。
(日语)彼は夢を見た。
(汉语)他看了梦。
→(没有作构文、语意差异处理的翻译)(汉语)他做了梦。
→(作了构文、语意的差异处理的翻译)为了像这样把原始语言的构文、语意以完善的形式转换成恰当的目的语言的构文、语意,现有的方法是简化原始语言的数据构造,作成能处理所有信息的简单的中间构造。例如,依存构造(dependency structure)即是其中之一。通过该方法,数据构造变得简单,能以较少的转换规则处理。翻译的效率也能提高。这种方法被称之为中间转换方式。图6是表示这样的中间转换方式的语句翻译处理过程的流程图。如图6所示,利用该方法的机器翻译装置,参照字典以外,由(1)原始语言解析部、(2)中间构造转换部、(3)目的语言生成部三部分构成。在中间构造转换部的处理中,最困难、最重要的部分是原始语言与目的语言的译语的转换。由于自然语言具有多种意义,通常,对于一个词素(形態素),存在几种意义。因此,译文随词素的意义的不同而不同。换句话说,所有的原始语言的词素,如果不能判断在一个语句中是什么样的意义最正确,就不能获得确切的译文。例如,“引く”至少具有下述五种意义。根据语意,译文分别是日语 汉语1.風を引く (患感冒)2.線を引く (画线)3.字引を引く (查字典)4.人目を引く (引人注意)5.数值を引く (减去数值)从这个例子可见,最重要的课题是如何在中间转换部有效地抓住原始语言的各种词素的意义。以往,解决该课题的技术可以分成下述两类。
(Ⅰ)通过使用者的方式(Ⅱ)参照贮存所有可能的译文的字典的参照字典方式。
下面,对该二种方式进行说明。
(Ⅰ)通过使用者方式例如,在特开昭61-260367号公报中,揭示了在参照字典中,选择使用优先度最高的译语后,通过使用者,判断、修正不恰当的部分的技术。把使用者的选择过程作为下次译语选择的参照,记录在学习文件中,这样做,通过参照字典的优先度,可得到更好的翻译。
图5是表示该装置构成的框图。这里例如,使原始语言的句子设定如下(1)I write a letter.
(2)And,I mail the letter.
这里,作为“letter”的译语,记录在词典中的数据是1.字2.书信在例(1)中,首先,翻译成“我写一个字”。此时,使用者通过对话的机能,选择“letter”的译语为“书信”,则翻译成为“我写一封信”。把选择的结果作为学习的经验,存储在外部贮存装置7的学习文件中。例(2)利用该学习经验,翻译成“而且,我寄出了这封信”,而不会译成“而且,我寄出了这个字”。
(Ⅱ)参照字典方式例如,如在电子发展月刊(第122期、P9-P23,1988年2月)中所述,台湾的工业研究院电子研究所开发的KBMTS英中翻译系统是利用意义记号的方式。如图7所示,把全部可能译语记录在参照字典上,进行某个词素的译语的选择时,系统取出关联词素的意义记号(意味记号),通过该意义记号,相对参照字典作对应处理,获得恰当的译语。
例如,在确定“take a bus”中动词“take”的译语的场合,take的关联词素是目的语“bus”,若根据名词的参照字典,立刻明白“bus”的意义词是“车辆”,作参照处理,“take”的最恰当译语是“乘”。因此,这个例子的正确的翻译结果是“乘车”。
上述已有技术“(Ⅰ)通过使用者的方式”虽然能得到质量好的翻译,但外部贮存装置的学习文件中贮存的经验都是短期的经验,对于长期的翻译处理没有用处。又,由于相应于处理对象的学习文件必须进行选择,还必须有使用者介入,不能自动翻译。这种方法仅能适应小范围的对话式的翻译。
“(Ⅱ)参照字典方式”仅能获得已记录在转换用字典中的数据的适当的译语。即,在转换用字典中,必须完备完全的意义记号(语义标记)系统。如果不这样做,重复记录相同的数据,浪费存贮器,效率也低。
本发明鉴于上述不足,旨在通过自动选择恰当的译语以减少使用者介入、且用特殊方式在转换用字典中进行记录以配备最大的数据量,而提供一种优质、高效的自动翻译装置。
为了解决上述问题,本发明的机器翻译装置备有贮存对于原始语言的各词素,表示该词素的意义分类的意义代码、与该词素可能关连的词素的意义代码的意义支配代码及与该意义支配代码对应的目的语言的译语的译语选择转换用字典;对于解析已输入的原始语言的语句而得到的中间构造的各节点(ノ一ド)的词素,取贮存在所述译语选择转换用字典中的该节点的意义支配代码和与该节点关连的词素的意义代码的逻辑积,决定该节点的意义支配代码和意义代码的意义支配代码、意义代码选择部;对于各节点,在与所述译语选择转换用字典保持的所述节点的词素相对应的目的语言的译语中,从所述译语选择转换用字典中,选择与所述意义支配代码、意义代码选择部求得的意义支配代码相对应的译语的译语选择部。
根据本发明,上述那样构成的机器翻译装置,由于是通过关连节点的意义代码,确定词素的意义支配代码,再通过该意义支配代码选择译语,故即使对于多义的词素,也能自动地选择确切的译语,机器翻译的效率提高。从而,能减少人工的介入。


图1是表示本发明一个实施例的机器翻译装置的构成的方框图。
图2是表示同一实施例中意义支配代码、意义代码选择部的处理的流程图。
图3表示同一实施例的译语选择转换用字典的贮存内容的图。
图4表示在同一实施例中使用的例句的原始语言的中间构造。
图5是表示已有的机器翻译装置的构成例子的方框图。
图6是表示中间构造方式的语句的翻译过程的流程图。
图7是表示采用KBMTS的字典的例子。
图中,1是解析用字典、2是差异调整转换用字典、3是译语选择转换用字典、10是原始语言输入部、15是原始语言解析、中间构造生成部、20是构文、语意差异调整部、25是意义代码、意义支配代码选择部、30是译语选择部、35是目的语言生成部、40是目的语言输出部、45是缓冲器。
下面,结合附图叙述本发明的实施例。
本发明用意义分类方法代替以前采用的意义记号(语义标记)(semantic marker)的方法。对于该意义分类方法,在以下所示的实施例中,采用了由日本角川书店出版的类语字典(1985年)中所示的意义分类(语义分类)(semantic catego rization)方法。该意义分类方法中,通过大分类(第一位)、中分类(第二位)、小分类(第三位)、细分类(第四位)的十六进制的四位数进行分类,表示一个词素的所有信息。该类语字典把所有词素分成“自然”、“性状”、“变动”、“行动”、“心情”“人物”、“性格”、“社会”、“学问和艺术”、“物品”十个大分类,又,各大分类分成十个中分类。在本实施例中,在该四位数字前加S,如下例所示。
S0 (属“自然”类)S02 (属“自然”类的“气象”类)S028 (属“气象”类的“风”类)S028a (属“风”类的“强弱”类)这样层次的分类代码,上一位的意义代码的意义范围比下一位的广。即,位数越低的意义代码的意义范围狭。因此,由于可以结合实际的需要应用意义代码,不必逐个记录,因而能节省贮存器。又,因为该意义代码用数字表示,因而能进行数字演算,例如逻辑积运算、字符串校对等,除能处理意义分类代码之外还能获得由意义分类代码产生的有价值的信息。
各个词素的译语随关连词素的用语而不同。例如,“引く”,根据不同目的语有“患”、“查”、“拉”、“画”、“减”等不同的汉语译语,词素“引く”至少具有五种意义代码。这时,目的语是动词的关连词素,目的语支配动词的意义。即,目的语的意义代码成为动词的意义支配代码。如果原始语言的语句中的各词素的关连词素,通过解析能得到,则如把处理中的可能意义支配代码与邻近词素的意义代码作逻辑积运算,就能获得该词素的意义支配代码。又,通过得到的意义支配代码,如果参照译语选择转换用字典,得到确切的译语及该词素的意义代码。如果,在译语选择转换用字典中,与该词素的意义支配代码对应的词没有登载时,设初始值为该词素的意义支配代码。本实施例的译语选择转换用字典的格式示于图3。因为名词(连体词除外)支配动词、形容词或连体词的意义,因而名词词素的意义代码是动词、形容词或连体词的意义支配代码。且,动词及形容词的词素的意义代码是付词词素的意义支配代码,正是付词词素的意义代码才是其它付词的意义支配代码。于是,只要决定名词(连体词除外),其它语类的意义支配代码就可通过上述的逻辑积演算及译语选择转换用字典求得。名词词素的意义代码的决定方法是首先把该名词词素的所有的意义代码均与其各自相邻的词素的意义支配代码进行逻辑积演算,然后,通过演算结果,令出现率最高的代码为该词素的意义代码。如果演算结果是零(null),这个名词词素的意义代码即是初始值的意义代码。以下面的中间构造为例作说明。
又,这里,S-code是各节点的词素的所有的意义代码,d_code意味它是各节点的词素的所有的意义代码及意义支配代码。通过上述的演算方法,因为名词词素的“私”、“字引”的意义代码只有S5010和S848e,所以把动词“引く”的全部的意义支配代码与“私”、“字引”的意义代码进行逻辑积演算,得到意义支配代码S848e。然后,参照译语选择转换用字典,能自动地获得作为词素“私”、“字引”、“引く”的汉语译语的“我”、“字典”、“查”。
图1是本发明的机器翻译装置的系统构成图。在图1中,10是通过键盘等输入装置,向系统输入待处理的原始语言的语句的原始语言输入部。15是利用解析用字典1将已输入的语句,进行构文、语意的解析,获得依存于原始语言的中间构造,并在缓冲器45中贮存的原始语言解析、中间构造生成部。构文、语意差异调整部20从缓冲器45取出原始语言的中间构造,参照差异调整转换用字典2,把依存于原始语言的构文、语意的中间构造作成依存于目的语言的中间构造,并把该处理结果贮存在缓冲器45中。25是意义支配代码、意义代码选择部,它通过构文、语意差异调整部20输入已得到的目的语言的中间构造,把中间构造的各词素与在译语选择转换用字典3中贮存的该词素的所有意义支配代码及中间构造的邻近关连节点的意义代码相对照,通过示于图2的处理过程,获得各词素的意义支配代码及意义代码,然后,把该处理结果贮存在缓冲器45中。30是把贮存在上述缓冲器45中的中间构造的各节点的意义支配代码或意义代码与译语转换用字典3相对照、取出各节点的词素的适当的译语,存贮到缓冲器45中的译语选择部。35是通过译语选择部把贮存在缓冲器45中的目的语言的中间构造(也称为深层构造)转换成目的语言的表层构造(即翻译结果)、在缓冲器45中加以贮存的目的语言生成部。40是通过输出手段,输出贮存在缓冲器45中的翻译结果的目的语言输出部。
对于上述那样构成的本实施例的机器翻译装置,以“彼は難しい颜をした。”为例,说明其动作。该句子首先输入到原始语言输入部10,送到原始语言解析、中间构造生成部15。原始语言解析、中间构造生成部15参照解析用字典进行语言解析,展开成中间构造并贮存到缓冲器45中。构文、语意差异调整部20从缓冲器45取出该原始语言的中间构造,参照差异调整转换用字典2,作出依存于目的语言的中间构造,得到示于图4的中间构造(依存构造),把它贮存在缓冲器45中。然后,意义支配代码、意义代码选择部25如上述那样随从图2所示的处理过程,确定各词素的意义支配代码、意义代码。下面,详细说明该意义支配代码、意义代码选择部25的动作。
首先,通过图2(1)的初始设定步骤50,设定初始值,然后,通过根据图3那样记录的各关连词素的译语选择转换用字典取出各节点i的节点检出手段51,能获得下述那样的结果,从而得到图4的中间构造。
D(彼)=φS(彼)={S5030}R(彼)={する}D(颜)={S320,S611,…}S(颜)={S320,S611,…}R(颜)={難しぃ,する}
D(難しい)={S320,S608,…}S(難しい)={S692a,S165a,…}R(難しい)={颜}D(する)={S096,S129,…}S(する)={S361}R(する)={彼,颜}又,这里,D(i)表示节点i的所有的意义支配代码,S(i)表示i的所有的意义代码,R(i)表示i的全部的关连节点。
然后,通过图2(1)的名词节点判定处理步骤52、修饰语判定处理步骤53,判定可能处理的节点有(彼、颜),因而进入步骤61的处理。由于在(彼、颜)这二个节点中,具有关连节点,流程进到逻辑积演算步骤62的处理,决定(彼、颜)这二个词素的意义支配代码。对于“颜”这一节点,作“難しい”及“する”这二个关连节点的支配代码的逻辑积运算,得到的组(ヤット)T如下所示T(難しい)=S(颜)∩D(難しい)={S320,S611,…}∩{S320,S608,…}={S320}T(する)=S(颜)∩D(する)={S320,S611,…}∩{S096,S129,…}=φ通过同样的方法,对于“彼”的节点,与关连节点“する”的逻辑演算结果如下面所示。
T(する)=S(彼)∩D(する)={S5030}∩{S096,S129,…}=φ
因此,通过步骤63的判断处理,使节点(颜)及节点(彼)分别进入步骤66、64的处理。于是能获得支配(颜)=S320支配(彼)=S5030又,这里,支配(i)表示节点i的意义支配代码。然后,通过步骤65的处理,能获得意义(颜)=S320意义(彼)=S5030又,这里,意义(i)表示节点i的意义代码。此后,流程返回到图2(1)的名词节点判定处理步骤52作判定,因为已没有名词节点,故流程进入修饰语节点判定处理步骤54。这时,符合条件的节点只有“難しい”。由此,流程进入图2(3)的处理。R(難しい)首先通过步骤80的处理,由于判断为不是零,因而作步骤81的处理。意义(颜)通过上述处理,因为不是零,流程进入步骤85的判定处理,能获得支配(難しい)=S320然后,通过步骤83的处理得到意义(難しい)=S692a流程继续进入步骤84的处理。通过该判断结果返回图2(1)的修饰语节点处理步骤54。这时,因为不存在其它的修饰语节点,流程进入动词节点判定处理步骤55。如果判断为有“する”的节点,则又进入图2(3)的处理流程。与上述方法同样地,能获得支配(する)=S320意义(する)=S361然后流程返回图2(1)的动词节点判定处理步骤55。由于通过动词节点判定处理步骤55、副词节点判定处理步骤56、以上以外的节点判定处理步骤57,未处理的节点已不存在,完成意义支配代码、意义代码的选择。然后,进入图1的译语选择部。通过得到的各节点的意义支配代码,参照译语选择转换用字典3,选择译语。通过示于图3的译语转换用字典3的内容,因为在“颜”的译语中,意义支配代码S320的语义是“表情”,选择“表情”作为“颜”的译语。对于其它单词也同样进行,得到以下的结果。
lex(颜)=表情lex(難しい)=不高兴lex(彼)=他lex(する)=露出又,这里,lex表示对于节点i的译语。
目的语生成部35,根据构文、语意差异调整部20得到的中间构造,把这些译语进行组织,产生目的语言,得到句子“他露出不高兴的表情”并最后,目的语言输出部40把它输出。
通过以上的动作,本实施例中绝对不会作出“他做出困难的表情”这样可笑的翻译,而能得到确切的翻译句子。
若根据本发明,由于可能进行不仅考虑特定对象的节点的意义,也考虑关连节点的意义的译语选择,解决了多义性,能获得恰当的译语。由此,能提高自动机器翻译的质量,减少使用者的介入。又因为,使用意义代码、意义支配代码,通过数学演算,能得到重要的信息,故不必把所有的关连信息贮存在字典中,既节省贮存器且实行时的效率也高,实用性很大。
权利要求
1.一种机器翻译装置,其特征在于,它包括贮存对原始语言的各词素,表示该词素的意义分类的意义代码、作为该词素可能关连的词素的意义代码的意义支配代码及与该意义支配代码相对应的目的语言的译语的译语选择转换用字典;对于解析已输入的原始语言的语句而得到的中间构造的各节点的词素,取贮存在所述译语选择转换用字典中的该节点的意义支配代码和与该节点关连的节点的意义代码的逻辑积,决定该节点的意义支配代码与意义代码的意义支配代码、意义代码选择部;对各节点,在与所述译语选择转换用字典保持的所述节点的词素相对应的目的语言的译语中,从所述译语选择转换用字典中,选择与所述意义支配代码、意义代码选择部求出的意义支配代码对应的译语的译语选择部。
全文摘要
一种机器翻译装置,它包括贮存原始语言各词素的意义代码、与该词素可能关连的词素的意义支配代码及与该意义支配代码对应的目的语言译语的译语转换用字典;对解析原始语言而得到的中间构造的各节点的词素,作该节点的意义支配代码和与该节点关连的节点的意义代码的逻辑积,决定该节点的意义支配代码与意义代码的意义支配代码、意义代码选择部;选择与所述意义支配代码对应译语的译语选择部。具有自动翻译及优质、高效、节省贮存器的优点。
文档编号G06F17/28GK1053308SQ9010949
公开日1991年7月24日 申请日期1990年11月22日 优先权日1989年12月29日
发明者郭俊桔 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1