句义表达式的生成方法、机器翻译及电子词典的制作方法

文档序号:6420670阅读:134来源:国知局
专利名称:句义表达式的生成方法、机器翻译及电子词典的制作方法
技术领域
本发明涉及数据处理技术,特别涉及计算机自然语言处理技术。
背景技术
利用计算机技术来实现在不同自然语言之间的自动翻译一直是技术人员的努力方向,但是由于自然语言的复杂多样性以及不同语种之间存在着的大量复杂的对应关系,因此现有的机器翻译系统的准确率和译文的可接受程度都比较低,始终没有达到实用水平。
以往机器翻译是基于语法分析和基于统计方法两大类,这两大类方法都难于做到实用。
以往的机器翻译三到五步——汉语切分、语法分析、语义分析、转换和形成,其中转换必须在双语中进行。通常通过中间语言的机器翻译方法也需要四到六步——汉语切分、语法分析、语义分析、转换成为中间语言、目标语言的转换和形成,其中两个转换都是在中间语言和相关语言的双语中进行。
2001年12月27日提交的发明名称为“基于语义语言的机器翻译系统及方法”的中国专利申请No.01131689.6揭示了一种基于语义的机器翻译方法,用于将原始语种的原文自动地翻译成一个或多个目的语种的译文,该方法包括如下步骤提取原文的一句;根据语义单元表示库,对该句进行语义分析,从而得到该句的句义表达式;根据语义单元表示库,将该句义表达式用目的语种的表示展开;将展开后的句子作为译文输出(其全部内容被包含于此,以供参考)。所述方法的翻译只需两步,而且N种自然语言之间互译只需要研制N套翻译系统,不需要一般的N(N-1)/2套,也不需要一般引入中间语言的2N套系统,翻译质量可以有效提高。在进行语义分析得到句义表达式的过程中,如果仅用现有的搜索匹配方法,无论是横向优先还是纵向优先,都是复杂和费时的。

发明内容
因此,本发明的一个方面,提供了一种高效的通过语义分析得到句义表达式的方法,即,利用语义单元表示库自动为一个句子生成句义表达式的方法,其中该句子为原始语种的句子并且所述语义单元表示库至少包括所述原始语种的语义单元表示,所述方法包括根据所述语义单元表示库的原始语种的表示,编制语义单元表示树索引库;根据所述语义单元表示树索引库,为该句子中的每个字提取以该字为实量开始的语义单元表示树;逐字地对所述提取出的语义单元表示树进行剪枝;以及根据所述语义单元表示树中没有被剪掉的语义单元,求出该句子的句义表达式。
本发明的另一个方面,提供了一种自然语言机器翻译方法,用于将原始语种的句子翻译成一个或多个目标语种的译文,包括通过前面描述的生成句义表达式的方法,生成所述句子的句义表达式,其中所述语义单元表示库还包括对应的所述一个或多个目标语种的语义单元表示;以及根据所述语义单元表示库,将所述生成的句义表达式展开为所述一个或多个目标语种的译文。
本发明的另一个方面,提供了一种利用语义单元表示库自动为一个句子句义表达式的产生装置,其中该句子为原始语种的句子,并且所述语义单元表示库至少包括所述原始语种的语义单元表示,所述装置包括语义单元表示树索引库,用于记录按照所述语义单元表示库中所述原始语种语义单元的表示中实量的顺序、为所述语义单元表示库编制的索引;语义表示树提取装置,用于根据所述语义单元表示树索引库,为该句子中的每个字提取以该字为实量开始的语义单元表示树;语义表示树剪枝装置,用于逐字地对所述提取出的语义单元表示树进行剪枝;以及句义表达式生成装置,用于根据所述提取出的语义单元表示树中经所述语义表示树剪枝装置剪枝后剩余的语义单元,求出该句子的句义表达式。
本发明的另一个方面,提供了一种自然语言机器翻译系统,用于将原始语种的句子翻译成一个或多个目标语种的译文,包括语义单元表示库,记录有语义单元对应的两个或两个以上语种的语义单元表示;前面描述的句义表达式的产生装置;以及句义表达式展开装置,用于按照语义单元表示库中记录的目的语种的语义单元表示,将句义表达式的产生装置生成的句义表达式展开为目的语种的语句。
本发明的另一个方面,提供了一种自动根据上下文缩小词义解释范围的词语解释方法,用于利用语义单元表示库对原始语种的句子中的一个词提供一个或多个目标语种的解释,所述语义单元表示库含有原始语种的语义单元表示和对应的一个或多个目标语种的语义单元表示,所述方法包括根据所述语义单元表示库的原始语种的表示,编制语义单元表示树索引库;根据所述语义单元表示树索引库,为该句子中的所述希望提供解释的词及其之前的每个字,提取以该字为实量开始的语义单元表示树;逐字地对所述提取出的语义单元表示树进行剪枝;以及将所述希望提供解释的词对应的语义单元表示树中没有被剪掉的语义单元所对应的目标语种的语义单元表示,提供作为解释。
本发明的另一个方面,提供了一种根据上下文缩小词义解释范围的电子词典,用于为原始语种的词语提供一个或多个目标语种的解释,包括语义单元表示库,记录有原始语种的语义单元表示和对应的一个或多个目标语种的语义单元表示;语义单元表示树索引库,用于记录按照所述语义单元表示库中所述原始语种语义单元的表示中实量的顺序、为所述语义单元表示库编制的索引;字取出装置,用于从原始语种的句子中取出一个字;语义表示树提取装置,用于从所述语义单元表示树索引库,为原始语种的字提取以该字为实量开始的语义单元表示树;语义表示树剪枝装置,用于对所述提取出的语义单元表示树进行剪枝;以及解释输出装置,用于将所述提取出的语义单元表示树中经所述语义表示树剪枝装置剪枝后剩余的语义单元对应的目标语义单元表示,作为解释输出。


相信通过以下结合附图对本发明具体实施方式
的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的一个实施例的生成句义表达式的方法的流程图;图2是根据本发明的一个实施例的生成句义表达式的方法中剪枝过程的详细流程图;图3是根据本发明的一个实施例的生成句义表达式的方法中剪枝过程的详细流程图;图4是展示根据本发明的一个实施例的句义表达式的产生装置的结构的方块图;图5是展示根据本发明的一个实施例的机器翻译系统的结构的方块图;图6是根据本发明的一个实施例的自动根据上下文缩小词义解释范围的词语解释方法的流程图;图7是展示根据本发明的一个实施例的根据上下文缩小词义解释范围的电子词典的结构的方块图。
具体实施例方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
生成句义表达式的方法如前所述在基于语义的机器翻译中,根据原文的语句生成句义表达式的处理过程是非常关键的,直接影响机器翻译的效率和译文的准确性。为此,本发明提供了一种生成句义表达式的方法。图1是根据本发明的一个实施例的生成句义表达式的方法的流程图。下面就参照该图对该实施例的生成句义表达式的方法进行说明。
首先在步骤101,根据语义单元表示库的原始语种的表示,编制语义单元表示树索引库。如中国专利申请No.01131689.6中说明的那样,语义单元表示库是记录一种或多种自然语言的语义表示的数据集合。通常在语义单元表示库中包含有每个语义单元对应的两个或两个以上语种的语义单元表示、语义单元类型以及语义单元的虚量(参数部分)的类型要求(如果由虚量的话),下面的表1示例性地列举了一个多语种语义单元表示库的内容,当然,本领域技术人员可以作出各种变化,本发明对此没有特别限定。
表1.多语种语义单元表示库的示例

具体地,根据本实施例,步骤101,按照所述语义单元表示库中所述原始语种语义单元的表示中实量的顺序,为所述语义单元表示库编制索引,从而使得开始实量相同的语义单元集中在一起,作为语义单元表示树索引库。例如,假设需要生成句义表达式的句子是英文的句子,则在本步骤,根据语义单元表示库中每个语义单元的英文语义表示中实量的顺序,排序编制索引。下面的表2示例性地展示了在语义单元表示树索引库中内容的示例,其中包含了一个以“more”为实量开始的语义单元表示树。
表2.语义单元表示树索引库的示例

再V一些N;VN2J,而且J;JSL多;SL比N2的多;S比J的多;毫不<犹疑>地V;非N所能描述;N数不清的;越来越多;越来越<a>;更多更好地位高贵和低贱的人死于酒者多于溺于水者;加油干;贫贱夫妻;有勇无谋;空喊而不做实事;疲劳不堪;伤不重,吓倒不小;杞人忧天害多益少;破烂不堪;名不符实;言外有意;意在言外;S大半都J-S;SL左右;十分无礼|非常勇敢;杞人忧天;太多了;不只一次;特别会V;非常高兴;出乎意外地令人满意完全没有睡着;完全没有睡着;比N卓卓有余;人多热闹,人少多吃或多或少;欲速而不达;法律愈多,犯人就愈多;

口角;大约;不关你的事;N的前途暗礁重重;前途暗礁重重;加油干;加油堆上去;相当F;比N2多的N;比J多的N;A比A2多;根据本发明的一个优选实施例,为了提高在后面描述的剪枝过程的效率,在编制语义单元表示树索引库时,对于那些原始语种语义单元表示中包含由一个虚量隔开的两个或多个实量串的语义单元,或者换句话说对于那些在语义单元表示中虚量和实量交替出现的语义单元,进一步以该语义单元表示中后面一个实量串开始的部分作为“子树”加到语义单元表示树索引库中。
具体地说明,下面的表3列举了一些语义单元表示的可能形式。
表3.语义单元表示可能形式的示例


(其中实量串-S,虚量串-X,不同语言的语义单元表示形式可能一样)下面的表4~6举例说明了以语义单元表示中后面一个实量串开始的部分作为“子树”加到语义单元表示树索引库中的情况。
表4.需要进一步处理的语义单元

比N2的多;非N所能描述;N数不清的;N的前途暗礁重重;比N2多的N;比J多的N;A比A2多;将表4的各个语义单元处理成为以下一棵主树和一个子树集表5.主树集

比N2的多;非N所能描述;N数不清的;N的前途暗礁重重;比N2多的N;比J多的N;A比A2多;表6.子树集(若干棵子树)


接着在步骤105,从需要生成句义表达式的句子中取出一个字(或单词)。在此,按照各个字(或者单词)在句子中的顺序依次取出。
接着在步骤110,根据语义单元表示树索引库,为该取出的字提取以该字为实量开始的语义单元表示树。具体地,由于语义单元表示树索引库中已经是按照原始语种的语义单元表示的实量部分排序了,因此,只需将以该实量为开始的所有语义单元连续提取出即可。
接着在步骤115,对于已经提取出的语义单元表示树进行剪枝,从而减少各个提取出的语义单元表示树中剩余的语义单元,并且随着该句子中更多字被用于剪枝处理,最终希望每个字对应的语义单元表示树中都只剩下一个语义单元。具体地,剪枝过程分为实量剪枝和虚量剪枝,在后面将逐个进行详细说明。
接着在步骤120,判断是否该句子中的全部子已经被取出处理过了。如果没有全部处理完,则返回到步骤105取出该句子中下一个字(或者单词);如果全部处理完毕,则进行到步骤125。
在步骤125,根据剪枝剩下的语义单元求出句义表达式。具体地,通过将剩下的语义单元的原始语种的表示进行代入,如果可以得到原始的句子,则将相应的语义单元进行相同的代入就可以得到句义表达式。后面还将结合具体例子对本步骤进行详细描述。
图2和图3是根据本发明的一个实施例的生成句义表达式的方法中剪枝过程的详细流程图。如图2和3所示,剪枝过程包括虚量剪枝(步骤201)和实量剪枝(步骤205)。
所谓实量剪枝,就是将句子中后面取出的字(或者单词)与前面已经提取出的表述树中语义单元表示的实量进行比较,如果一致则保留,如果不一致则剪掉。例如假如句子中间包括“more”这个单词,则在刚刚取出这个单词时,与该单词对应的表示树中会包括表2中的全部语义单元;当取出该句子中“more”后面的第一个单词,假设为“than”,那么就可以将“more”对应的表示树中所有“more”后面的实量不是“than”的语义单元剪掉。这样依此类推,随着后面的字的取出处理,前面与各个字对应的表示树中的语义单元会越来越少。
所谓虚量剪枝,就是将提取出的表示树中语义单元表示的虚量类型要求与相应位置已经确定的语义单元的类型进行比较,将不匹配的语义单元从表示树中剪掉。由于一个语义表示中可能在一个实量的前面和后面出现虚量,所以虚量剪枝,如图3所示,包括前侧虚量剪枝(步骤305)和后侧虚量剪枝(步骤310)。
下面就以“I buy a beautiful vase.”为例,结合表7说明上述剪枝过程。其中表7.1展示了有关的语义单元,表7.2展示了剪枝过程。
表7.1“I buy a beautiful vase.”的有关语义单元

表7.2“I buy a beautiful vase.”的剪枝过程

如表7所示,首先取出第一个单词“I”,并在语义单元表示树索引库中找出以该单词为实量开始的语义单元表示树(例如包含多个语义单元表示,未列出)。由于只有一个以该单词为实量开始的语义表示,所以直接确定该语义单元(例如,语义单元ID为5090),匹配成功。
接着取出下一个单词“buy”,在语义单元表示树索引库中找出以“buy”为实量开始的语义单元表示树;同时,对前面“I”的表示树进行实量剪枝,将其中实量不匹配的语义单元剪掉。在本例中,假设经过实量剪枝,“I”的表示树中就只剩下ID为5090的语义单元了,因此在此就已经确定“I”的语义单元。进而,对“buy”的表示树中,实量“buy”前的虚量类型不是N人的语义单元剪掉(前侧虚量剪枝)。
接着取出下一个单词“a”,在语义单元表示树索引库中找出以“a”为实量开始的语义单元表示树;同时,对前面“I”和“buy”的表示树进行实量剪枝,将其中实量不匹配的语义单元剪掉。
接着取出下一个单词“beautiful”,在语义单元表示树索引库中找出以“beautiful”为实量开始的语义单元表示树;同时,对前面“I”、“buy”和“a”的表示树进行实量剪枝,将其中实量不匹配的语义单元剪掉。
接着取出下一个单词“vase”,在语义单元表示树索引库中找出以“vase”为实量开始的语义单元表示树;同时,对前面“I”、“buy”、“a”和“beautiful”的表示树进行实量剪枝,将其中实量不匹配的语义单元剪掉。此时,假设“I”、“a”和“beautiful”的表示树中都只剩下一个语义单元。由于已经到达句子的末尾,不再取词。而且“vase”的表示树中所有后面还有实量或虚量的语义单元表示都可以剪掉,因此也只剩下一个语义单元(ID为3050)。
接着对“beautiful”和“vase”的确定的语义单元进行类型转换,根据类型处理规则,将形容义A(“beautiful”的类型)+事物义N(“vase”的类型)转换为事物义N。
具体的语义单元类型处理规则有多个,下面的表8示例性地列举了一些,以供参考。
表8.类型处理规则举例

然后利用转换得到的类型(事物义N)对“buy”的表示树进行后侧虚量剪枝,并最终确定“buy”的语义单元(ID为4009)。至此剪枝过程结束。
下面说明,根据剪枝剩下的语义单元求出句义表达式的步骤125。在剪枝结束后,在句子的每个字(或单词)对应的表示树中,理想的话,都只剩下一个语义单元表示。在这种情况下,如果将这些语义单元表示代入能够得到原始的句子,则只需将语义单元也按照其原始语种表示代入作相应的代入,即可得到句义表达式。
但是,也有可能经过剪枝处理之后,从剩下的语义单元表示,通过代入得不到原句子,即“无解”;或者得到多个句子,即“多解”,在多解的情况下,其翻译就会出现“歧义”。下面的表9就展示了多解(歧义)情况的一个例子。
表9.“I saw a girl with telescope.”多解情况的例子。

由上表可知,经过剪枝处理,剩下了7个语义单元,在此为了简便,假设语义单元ID分别为1至7。其中,与“saw”对应的表示树中剩下了两个语义单元1和3,并且这些剩下的语义单元表示有两种代入方式可以得到原始句子,其对应的句义表达式有两个1(4,6(7),5)和3(4,2(6(7),5))。因此,这个英文句子是“歧义”。
进而,如果再次展开为中文表示的话(翻译为中文),可以得到两个译文“我用望远镜看见一个女孩”和“我看见一个戴着望远镜的女孩”。
自然语言机器翻译方法在同一发明构思下,本发明还提供了一种自然语言机器翻译方法,用于将原始语种的句子翻译成一个或多个目标语种的译文。具体地,就是利用包括原始语种的语义单元表示和对应的一个或多个目标语种的语义单元表示的语义单元表示库,通过前面描述的生成句义表达式的方法,根据生成原始句子(待译句子)的句义表达式;然后,根据语义单元表示库中目标语种的语义单元表示,将所述生成的句义表达式展开为目标语种的译文。
这样就可以快速准确地将待译句子翻译为一文。
句义表达式的产生装置在同一发明构思下,本发明还提供了一种利用语义单元表示库自动为一个句子句义表达式的产生装置。图4是展示根据本发明的一个实施例的句义表达式的产生装置的结构的方块图。
如图4所示,该句义表达式的产生装置400包括语义单元表示树索引库401,用于记录按照语义单元表示库中原始语种(该句子的语种)语义单元的表示中实量的顺序、为语义单元表示库编制的索引;语义表示树提取装置405,用于根据语义单元表示树索引库405,为该句子中的每个字提取以该字为实量开始的语义单元表示树;语义表示树剪枝装置410,用于逐字地对提取出的语义单元表示树进行剪枝,具体地,执行前面描述的实量剪枝和虚量剪枝的过程;句义表达式生成装置415,用于根据提取出的语义单元表示树中经语义表示树剪枝装置410剪枝后剩余的语义单元,求出该句子的句义表达式,具体地,执行前面描述的步骤125。
优选地,句义表达式的产生装置400的语义表示树剪枝装置410还包括实量剪枝装置,用于根据所述提取出的语义单元表示树中各个语义单元的原始语种语义表示的实量,对所述提取出的语义单元表示树剪枝;虚量剪枝装置,用于根据所述提取出的语义单元表示树中各个语义单元的原始语种语义表示的虚量,对所述提取出的语义单元表示树剪枝。
进而,实量剪枝装置,从所述提取出的语义单元表示树中,将语义单元的原始语种语义表示的实量与所述句子中后续字不匹配的分支去掉。
优选地,该虚量剪枝装置,从所述提取出的语义单元表示树中,将语义单元的原始语种语义表示的虚量的类型与所述句子的对应部分中确定的语义单元的类型不匹配的分支去掉。
优选地,该虚量剪枝装置,从所述提取出的语义单元表示树中,将语义单元的原始语种语义表示中在实量之前的虚量的类型与前面确定的语义单元的类型不匹配的分支去掉(前侧剪枝),并且从所述提取出的语义单元表示树中,将语义单元的原始语种语义表示中在实量之后的虚量的类型与后面确定的语义单元的类型不匹配的分支去掉(后侧剪枝)。
优选地,该虚量剪枝装置,当出现两个或多个连续的语义单元时进行类型流转换处理。
自然语言机器翻译系统在同一发明构思下,本发明还提供了一种自然语言机器翻译系统,用于将原始语种的句子翻译成一个或多个目标语种的译文。图5是展示根据本发明的一个实施例的机器翻译系统的结构的方块图。
如图5所示,该机器翻译系统500包括语义单元表示库510,记录有语义单元对应的两个或两个以上语种的语义单元表示,即,原始语种的语义单元表示和一个或多个目标语种的语义单元表示;句义表达式的产生装置400,与前面描述的句义表达式的产生装置400相同;句义表达式展开装置520,用于按照语义单元表示库中记录的目的语种的语义单元表示,将句义表达式的产生装置生成的句义表达式展开为目的语种的语句。
自动根据上下文缩小词义解释范围的词语解释方法在同一发明构思下,本发明还提供了一种自动根据上下文缩小词义解释范围的词语解释方法,用于利用语义单元表示库对原始语种的句子中的一个字或词提供一个或多个目标语种的解释。假设用户希望得到一个原始语种的句子中第i个字(或者其实量包含该字为最后一个字的词)的目标语种的解释,本实施例的方法就是要自动地向用户提供这种解释,并且与一般电子词典提供解释的方式不同,本实施例的方法可以根据该句子提供准确的解释,而不是将一个字或词的全部可能的解释罗列给用户。
图6是根据本发明的一个实施例的自动根据上下文缩小词义解释范围的词语解释方法的流程图。如图6所示,首先在步骤601,编制语义单元表示树索引库。这一步骤与前面实施例中描述的相应步骤(如图1的步骤101)基本相同,在此省略说明。
接着在步骤605,提取与第i个字及其之前的字对应的语义单元表示树,然后在步骤610,对已经提取出的语义单元表示树进行剪枝,具体剪枝过程与前面实施例中描述的步骤(图1的步骤101~115)基本相同,在此省略说明。而且,步骤605和610也可以是逐字进行的。
在此,对于剪枝的过程进一步说明,并且在此的说明也适用于前面实施例的情况。对于提取出的语义单元表示树中的每一个语义单元表示,在剪枝的过程中会有三种状态,称为剪枝状态正在剪枝、被剪掉和匹配成功。“被剪掉”是指由于实量或者虚量不匹配而被剪掉,“匹配成功”是指该语义表示与句子中的相应内容完全匹配而被确定,“正在剪枝”是指该语义单元表示正在被剪枝既未匹配成功又未被剪掉。其中,“匹配成功”和“被剪掉”都可以被认为是对该语义表示的剪枝结束。
接着在步骤615,判断与第i个字相关的语义单元表示是否剪枝结束。所谓与一个字相关的语义单元表示,是指被提取出的语义单元表示中的实量部分或者虚量部分包含该字的那些语义单元表示。这些相关的语义单元表示有可能会成为该字解释范围。本实施例的方法是通过剪枝(实量剪枝和虚量剪枝)进一步缩小该字的解释范围。
如果步骤615的判断为“是”,则进行到步骤625,否则进行到步骤618。在步骤618进一步判断句子中的全部字是否都已经被取出,如果还没有都被取出,则进行到步骤620取下一个字并返回到步骤610继续对已经提取出的语义单元表示树进行剪枝,缩小解释范围。如果在步骤618判断为句子中的全部字都已经被取出,则也进行到步骤625。
最后在步骤625,将剪枝剩下的与第i个自相关的语义表示对应的目标语中的语义单元表示作为该字在句子中的解释提供给用户。
由此,本实施例的方法,结合句子中的上下文,通过语义单元表示树的剪枝处理,可以更有针对性地向用户提供字(和词)的解释。
根据上下文缩小词义解释范围的电子词典在同一发明构思下,本发明还提供了一种根据上下文缩小词义解释范围的电子词典,用于为原始语种的词语提供一个或多个目标语种的解释。图7是展示根据本发明的一个实施例的根据上下文缩小词义解释范围的电子词典的结构的方块图。
如图7所示,本实施例的根据上下文缩小词义解释范围的电子词典700包括语义单元表示库701,记录有原始语种的语义单元表示和对应的一个或多个目标语种的语义单元表示;语义单元表示树索引库702,用于记录按照所述语义单元表示库中所述原始语种语义单元的表示中实量的顺序、为所述语义单元表示库编制的索引;字取出装置704,用于从原始语种的句子中取出一个字;语义表示树提取装置703,用于根据所述语义单元表示树索引库,为原始语种的字提取以该字为实量开始的语义单元表示树;语义表示树剪枝装置705,用于对所述提取出的语义单元表示树进行剪枝;解释输出装置706,用于将所述提取出的语义单元表示树中经所述语义表示树剪枝装置剪枝后剩余的语义单元对应的目标语义单元表示,作为解释输出。
本实施例的根据上下文缩小词义解释范围的电子词典700,在运行时可以实现前面实施例中描述的自动根据上下文缩小词义解释范围的词语解释方法。
优选地,语义表示树剪枝装置705还包括实量剪枝装置,用于根据所述提取出的语义单元表示树中各个语义单元的原始语种语义表示的实量,对所述提取出的语义单元表示树剪枝;以及虚量剪枝装置,用于根据所述提取出的语义单元表示树中各个语义单元的原始语种语义表示的虚量,对所述提取出的语义单元表示树剪枝。
进而,所述实量剪枝装置,从所述提取出的语义单元表示树中,将语义单元的原始语种语义表示的实量与所述句子中后续字不匹配的分支去掉。所述虚量剪枝装置,从所述提取出的语义单元表示树中,将语义单元的原始语种语义表示的虚量的类型与所述句子的对应部分中确定的语义单元的类型不匹配的分支去掉。
优选地,所述虚量剪枝装置,从所述提取出的语义单元表示树中,将语义单元的原始语种语义表示中在实量之前的虚量的类型与前面确定的语义单元的类型不匹配的分支去掉,并且从所述提取出的语义单元表示树中,将语义单元的原始语种语义表示中在实量之后的虚量的类型与后面确定的语义单元的类型不匹配的分支去掉。
优选地,所述虚量剪枝装置,当出现两个或多个连续的语义单元时进行类型流转换处理。
本领域技术人员应当理解,本发明中的根据上下文缩小词义解释范围的电子词典、机器翻译系统及它们的组成部分可以用硬件或软件的形式实现,并且,物理地各个组成部分也可以不在一起,而是操作上互相配合完成上述实施例中描述的功能。
以上虽然通过一些示例性的实施例对本发明的生成句义表达式的方法及装置、机器翻译系统、自动根据上下文缩小词义解释范围的词语解释方法和根据上下文缩小词义解释范围的电子词典进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。
权利要求
1.一种利用语义单元表示库自动为一个句子生成句义表达式的方法,其中该句子为原始语种的句子并且所述语义单元表示库至少包括所述原始语种的语义单元表示,所述方法包括根据所述语义单元表示库的原始语种的表示,编制语义单元表示树索引库;根据所述语义单元表示树索引库,为该句子中的每个字提取以该字为实量开始的语义单元表示树;逐字地对所述提取出的语义单元表示树进行剪枝;以及根据所述语义单元表示树中没有被剪掉的语义单元,求出该句子的句义表达式。
2.根据权利要求1所述的生成句义表达式的方法,其特征在于,所述为所述语义单元表示库编制索引的步骤,包括按照所述语义单元表示库中所述原始语种语义单元的表示中实量的顺序,为所述语义单元表示库编制索引。
3.根据权利要求2所述的生成句义表达式的方法,其特征在于,所述为所述语义单元表示库编制索引的步骤,还包括当所述原始语种语义单元的表示中出现由虚量隔开的两个或多个实量时,将后面的实量也依次加入作为所述索引中的一个条目。
4.根据权利要求1所述的生成句义表达式的方法,其特征在于,所述提取出的语义单元表示树进行剪枝的步骤,包括根据所述提取出的原始语种的语义单元表示树中各个语义单元表示的实量,对所述提取出的语义单元表示树剪枝;以及根据所述提取出的原始语种的语义单元表示树中各个语义单元表示的虚量,对所述提取出的语义单元表示树剪枝。
5.根据权利要求4所述的生成句义表达式的方法,其特征在于,所述根据实量对所述提取出的语义单元表示树剪枝的步骤,包括从所述提取出的原始语种的语义单元表示树中,将其实量与所述句子中后续字不匹配的分支去掉。
6.根据权利要求4所述的生成句义表达式的方法,其特征在于,所述根据虚量对所述提取出的语义单元表示树剪枝的步骤,包括从所述提取出的原始语种的语义单元表示树中,将其虚量与所述句子的对应部分中确定的语义单元的类型不匹配的分支去掉。
7.根据权利要求6所述的生成句义表达式的方法,其特征在于,所述将语义单元的原始语种语义表示的虚量的类型与所述句子的对应部分中确定的语义单元的类型不匹配的分支去掉的步骤,包括从所述提取出的原始语种的语义单元表示树中,将在实量之前的虚量与所述句子的对应部分的语义单元的类型不匹配的分支去掉;以及从所述提取出的原始语种的语义单元表示树中,将在实量之后的虚量与所述句子的对应部分的语义单元的类型不匹配的分支去掉。
8.根据权利要求6所述的生成句义表达式的方法,其特征在于,所述根据虚量对所述提取出的语义单元表示树剪枝的步骤,还包括当出现两个或多个连续的语义单元时进行类型流转换处理。
9.根据权利要求1所述的生成句义表达式的方法,其特征在于,所述求出该句子的句义表达式的步骤,包括将通过剩下的语义单元表示的代入能得到所述句子的对应的语义单元进行相同的代入得到句义表达式。
10.根据权利要求9所述的生成句义表达式的方法,其特征在于,所述求出该句子的句义表达式的步骤,还包括如果剩下的语义单元表示的代入无法得到所述句子,则判断该句子无解;以及如果剩下的语义单元表示的多个不同代入可以得到所述句子,则判断该句子有歧义。
11.一种自然语言机器翻译方法,用于将原始语种的句子翻译成一个或多个目标语种的译文,包括通过权利要求1~10所述的生成句义表达式的方法,生成所述句子的句义表达式,其中所述语义单元表示库还包括对应的所述一个或多个目标语种的语义单元表示;以及根据所述语义单元表示库,将所述生成的句义表达式展开为所述一个或多个目标语种的译文。
12.一种利用语义单元表示库自动为句子产生句义表达式的句义表达式产生装置,其中该句子为原始语种的句子,并且所述语义单元表示库至少包括所述原始语种的语义单元表示,所述装置包括语义单元表示树索引库,用于记录按照所述语义单元表示库中所述原始语种语义单元的表示中实量的顺序、为所述语义单元表示库编制的索引;语义表示树提取装置,用于根据所述语义单元表示树索引库,为该句子中的每个字提取以该字为实量开始的语义单元表示树;语义表示树剪枝装置,用于逐字地对所述提取出的语义单元表示树进行剪枝;以及句义表达式生成装置,用于根据所述提取出的语义单元表示树中经所述语义表示树剪枝装置剪枝后剩余的语义单元,求出该句子的句义表达式。
13.根据权利要求12所述的句义表达式的产生装置,其特征在于,当所述原始语种语义单元的表示中出现由虚量隔开的两个或多个实量时,将后面的实量也依次加入作为所述语义单元表示树索引库中一个条目。
14.根据权利要求12所述的句义表达式的产生装置,其特征在于,所述语义表示树剪枝装置还包括实量剪枝装置,用于根据所述提取出的原始语种语义单元表示树中各个语义单元表示的实量,对所述提取出的语义单元表示树剪枝;以及虚量剪枝装置,用于根据所述提取出的原始语种语义单元表示树中各个语义单元表示的虚量,对所述提取出的语义单元表示树剪枝。
15.根据权利要求14所述的句义表达式的产生装置,其特征在于,所述实量剪枝装置,从所述提取出的原始语种语义单元表示树中,将其实量与所述句子中后续字不匹配的分支去掉。
16.根据权利要求14所述的句义表达式的产生装置,其特征在于,所述虚量剪枝装置,从所述提取出的原始语种语义单元表示树中,将其虚量的类型与所述句子的对应部分中确定的语义单元的类型不匹配的分支去掉。
17.根据权利要求16所述的句义表达式的产生装置,其特征在于,所述虚量剪枝装置,从所述提取出的原始语种语义单元表示树中,将在实量之前的虚量的类型与所述句子的对应部分的语义单元的类型不匹配的分支去掉,并且从所述提取出的原始语种语义单元表示树中,将在实量之后的虚量的类型与所述句子的对应部分的语义单元的类型不匹配的分支去掉。
18.根据权利要求16所述的句义表达式的产生装置,其特征在于,所述虚量剪枝装置,当出现两个或多个连续的语义单元时进行类型流转换处理。
19.根据权利要求12所述的句义表达式的产生装置,其特征在于,所述句义表达式生成装置,将通过剩下的语义单元表示的代入能得到所述句子的对应的语义单元进行相同的代入得到句义表达式。
20.根据权利要求9所述的句义表达式的产生装置,其特征在于,所述句义表达式生成装置,如果剩下的语义单元表示的代入无法得到所述句子,则判断该句子无解,并且,如果剩下的语义单元表示的多个不同代入可以得到所述句子,则判断该句子有歧义。
21.一种自然语言机器翻译系统,用于将原始语种的句子翻译成一个或多个目标语种的译文,包括语义单元表示库,记录有语义单元对应的两个或两个以上语种的语义单元表示;权利要求12~20所述的句义表达式的产生装置;以及句义表达式展开装置,用于按照语义单元表示库中记录的目的语种的语义单元表示,将句义表达式的产生装置生成的句义表达式展开为目的语种的语句。
22.一种自动根据上下文缩小词义解释范围的词语解释方法,用于利用语义单元表示库对原始语种的句子中的一个词提供一个或多个目标语种的解释,所述语义单元表示库含有原始语种的语义单元表示和对应的一个或多个目标语种的语义单元表示,所述方法包括根据所述语义单元表示库的原始语种的表示,编制语义单元表示树索引库;根据所述语义单元表示树索引库,为该句子中的所述希望提供解释的字及其之前的每个字,提取以该字为实量开始的语义单元表示树;逐字地对所述提取出的语义单元表示树进行剪枝;以及将所述希望提供解释的词对应的语义单元表示树中没有被剪掉的语义单元所对应的目标语种的语义单元表示,提供作为解释。
23.根据权利要求22所述的自动根据上下文缩小词义解释范围的词语解释方法,其特征在于,还包括判断与所述希望提供解释的字相关的语义单元表示是否剪枝结束;以及如果判断为还未剪枝结束,则继续取出该句子中的下一个字,来对前面已经提取出的表示树进行剪枝。
24.根据权利要求23所述的自动根据上下文缩小词义解释范围的词语解释方法,其特征在于,还包括判断所述句子中的全部字是否已被取出;以及如果判断为全部字已被取出,则清除前面提取出的还没有匹配的语义单元表示。
25.根据权利要求22所述的自动根据上下文缩小词义解释范围的词语解释方法,其特征在于,所述提取出的语义单元表示树进行剪枝的步骤,包括根据所述提取出的原始语种语义单元表示树中各个语义单元表示的实量,对所述提取出的语义单元表示树剪枝;以及根据所述提取出的原始语种语义单元表示树中各个语义单元表示的虚量,对所述提取出的语义单元表示树剪枝。
26.根据权利要求25所述的自动根据上下文缩小词义解释范围的词语解释方法,其特征在于,所述根据实量对所述提取出的语义单元表示树剪枝的步骤,包括从所述提取出的原始语种语义单元表示树中,将其实量与所述句子中后续字不匹配的分支去掉。
27.根据权利要求25所述的自动根据上下文缩小词义解释范围的词语解释方法,其特征在于,所述根据虚量对所述提取出的语义单元表示树剪枝的步骤,包括从所述提取出的原始语种语义单元表示树中,将其虚量的类型与所述句子的对应部分中确定的语义单元的类型不匹配的分支去掉。
28.根据权利要求27所述的自动根据上下文缩小词义解释范围的词语解释方法,其特征在于,所述将语义单元的原始语种语义表示的虚量的类型与所述句子的对应部分中确定的语义单元的类型不匹配的分支去掉的步骤,包括从所述提取出的原始语种语义单元表示树中,将在实量之前的虚量的类型与所述句子的对应部分的语义单元的类型不匹配的分支去掉;以及从所述提取出的原始语种语义单元表示树中,将在实量之后的虚量的类型与所述句子的对应部分的语义单元的类型不匹配的分支去掉。
29.根据权利要求27所述的自动根据上下文缩小词义解释范围的词语解释方法,其特征在于,所述根据虚量对所述提取出的语义单元表示树剪枝的步骤,还包括当出现两个或多个连续的语义单元时进行类型流转换处理。
30.一种根据上下文缩小词义解释范围的电子词典,用于为原始语种的词语提供一个或多个目标语种的解释,包括语义单元表示库,记录有原始语种的语义单元表示和对应的一个或多个目标语种的语义单元表示;语义单元表示树索引库,用于记录按照所述语义单元表示库中所述原始语种语义单元的表示中实量的顺序、为所述语义单元表示库编制的索引;字取出装置,用于从原始语种的句子中取出一个字;语义表示树提取装置,用于根据所述语义单元表示树索引库,为原始语种的字提取以该字为实量开始的语义单元表示树;语义表示树剪枝装置,用于对所述提取出的语义单元表示树进行剪枝;以及解释输出装置,用于将所述提取出的语义单元表示树中经所述语义表示树剪枝装置剪枝后剩余的语义单元对应的目标语义单元表示,作为解释输出。
31.根据权利要求30所述的根据上下文缩小词义解释范围的电子词典,其特征在于,所述语义表示树剪枝装置还包括实量剪枝装置,用于根据所述提取出的原始语种语义单元表示树中各个语义单元表示的实量,对所述提取出的语义单元表示树剪枝;以及虚量剪枝装置,用于根据所述提取出的原始语种语义单元表示树中各个语义单元表示的虚量,对所述提取出的语义单元表示树剪枝。
32.根据权利要求31所述的根据上下文缩小词义解释范围的电子词典,其特征在于,所述实量剪枝装置,从所述提取出的原始语种语义单元表示树中,将其实量与所述句子中后续字不匹配的分支去掉。
33.根据权利要求31所述的根据上下文缩小词义解释范围的电子词典,其特征在于,所述虚量剪枝装置,从所述提取出的原始语种语义单元表示树中,将其虚量的类型与所述句子的对应部分中确定的语义单元的类型不匹配的分支去掉。
34.根据权利要求33所述的根据上下文缩小词义解释范围的电子词典,其特征在于,所述虚量剪枝装置,从所述提取出的原始语种语义单元表示树中,将在实量之前的虚量的类型与所述句子的对应部分的语义单元的类型不匹配的分支去掉,并且从所述提取出的原始语种语义单元表示树中,将在实量之后的虚量的类型与所述句子的对应部分的语义单元的类型不匹配的分支去掉。
35.根据权利要求33所述的根据上下文缩小词义解释范围的电子词典,其特征在于,所述虚量剪枝装置,当出现两个或多个连续的语义单元时进行类型流转换处理。
全文摘要
本发明提供了生成句义表达式的方法及装置、机器翻译方法及系统、自动根据上下文缩小词义解释范围的词语解释方法和根据上下文缩小词义解释范围的电子词典。其中为一个句子生成句义表达式的方法包括根据所述语义单元表示库的原始语种的表示,编制语义单元表示树索引库;根据所述语义单元表示树索引库,为该句子中的每个字提取以该字为实量开始的语义单元表示树;逐字地对所述提取出的语义单元表示树进行剪枝;以及根据所述语义单元表示树中没有被剪掉的语义单元,求出该句子的句义表达式。
文档编号G06F17/26GK1617133SQ20031011433
公开日2005年5月18日 申请日期2003年11月14日 优先权日2003年11月14日
发明者高小宇, 高庆狮, 胡玥 申请人:高庆狮
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1