复杂上下文相关处理技术的制作方法

文档序号：6412053阅读：498来源：国知局

专利名称：复杂上下文相关处理技术的制作方法
技术领域：
本发明涉及机器翻译中的复杂上下文相关处理技术，属于机器翻译技术领域。
复杂上下文相关处理是解决机器翻译中多义问题的主要手段。目前，绝大多数机译系统都回避了复杂上下文相关处理问题，而涉及上下文相关处理的一些理论，基本上也是无法实现的。
同样，在基于规则的机器翻译系统中，也很难处理复杂上下文相关问题。大多数机译系统只处理复杂相关问题中的最简单的情况，还有一些系统采用了程序包的方法，通过滚雪球的办法不断增加子程序来解决上下文相关问题。但从根本上说，它们并不能满足复杂上下文相关问题的处理，原因是效率太低，而且就事论事，遇到一种情况就加入一个子程序，给程序维护增加很大难度。另外，在子程序太多时，很难区分不同情况，带来了程序应用方面的模糊性。
因此，如何实现复杂上下文相关处理，便成为当前国内外机译研究的重要课题。
本发明的目的旨在提供一种复杂上下文相关处理技术，该技术可将全局问题局部化处理，既提高了区分多义的处理能力，又简化了复杂上下文相关的处理。
下面首先给出复杂上下文相关定义复杂上下文相关可定义为一个结构成分(或意段)的特征的选择与其左部和/或右部某一位置的结构成分(和/或意段)的特性有关，具体可分为以下几种情况(1)Property(A)<-context(L，B) & Property(B)成分A的特性与左部特定位置L的成分B的特性相关。
(2)Property(A)<-context(XL，B) & Property(B)成分A的特性与左部任意位置XL的成分B的特性相关。
(3)Property(A)<-context(R，B) & Property(B)成分A的特性与右部特定位置R的成分B的特性相关。
(4)Property(A)<-context(XR，B) & Property(B)成分A的特性与右部任意位置XR的成分B的特性相关。
上述情况中，B的特性只是临时用来决定A在句子中应表现的特性，而不决定B本身在句子中出现的特性。
本发明是通过如下方法实现的(一)把上述与规则头部模式和词条有关的上下文相关信息以函数的形式分别定义在规则和词条中。
(1)在规则中建立上下文相关函数，规则的形式为<头部>-><上下文相关函数>，<右部>，<转换体>
其中<头部>为被归约成分，<右部>为当前归约结果，<转换体>对应于该次归约的转换体，<上下文相关函数>为若干个上下文相关函数。
(2)在字典中建立上下文相关函数，字典中每个单词的形式为入口单词特征集合1 上下文相关函数11 译文11特征集合1 上下文相关函数12 译文12特征集合2 上下文相关函数21 译文21(二)上下文相关函数既定义了上下文相关信息，同时它也是嵌入规则和词条数据中的一种操作。其中，上下文相关信息包含了当前头部模式(或词条)在当前归约结果下与其相关的成分特性及其位置。
在规则中定义了上下文相关信息后，复杂上下文相关问题即可通过在不同规则中调用上下文相关函数来解决。由于不同规则应用时头部模式不同，而且调用上下文相关函数的参数也不同，因而上下文相关函数在不同时刻执行的效果也就不同，自然就区别了不同情况。
上下文相关函数被执行时，根据调用参数的要求在当前归约模式中查找所需成分及其特性；若查找范围还未归约，则先调用系统翻译处理机制本身对当前模式中相应内容进行归约，然后再查找所需成分及其特性，上下文相关条件成立，才对规则头部进行归约。
(三)词条中的上下文相关处理与规则类似。
本发明采用数据与操作一体化的技术，在规则和字典嵌入上下文相关信息及上下文相关操作，使上下文相关处理情况的判定只局限于其所对应的当前模式有关的情况，从而减少了操作的模糊性。这样就实现了全局问题局部化处理，既提高了区分多义的处理能力，又简化了复杂上下文相关的处理，有效地解决了复杂上下文相关处理这一难题。
以下结合附图和发明实例对本发明作详细描述。

图1是本发明的算法流程图；图2和图3均为归约过程中生成的结构树。
本发明是使用普通计算机实现的，其步骤为一.在规则和字典中嵌入上下文相关信息及上下文相关操作1.在规则中建立上下文相关函数规则的形式为<头部>-><上下文相关函数>，<右部>，<转换体>.
其中<头部>为被归约成分，<右部>为当前归约结果，<转换体>对应于该次归约的转换体。<上下文相关函数>为若干个函数，函数具体形式如下SEARCH(DIRECTION，RANGE，COMPONENT)其中，SEARCH表示查找相应成分，DIRECTION为L或R，分别表示向左或向右搜索，RANGE为左部或右部的某一特定范围，表示搜索范围，COMPONENT为相关成分及其所应具备的特性。
2.在字典中建立上下文相关函数字典中每个单词的形式为入口单词特征集合1 上下文相关函数11译文11特征集合1 上下文相关函数1n译文1n特征集合2 上下文相关函数21译文21单词可具有不同的特征集合。在具有相同特征集但不同的上下文情况下，可能有不同的译文。
词条中的上下文相关函数和规则中的上下文相关函数形式完全一样。
二.对每一条规则，首先进行头部匹配，若匹配成功，则执行下述算法流程(参见图1)(1)置当前SEARCH函数下标为0。
(2)当前SEARCH函数下标加1。若该下标对应SEARCH为空，则本次匹配成功结束。否则，转步骤(3)。
(3)若该SEARCH函数规定的查找范围已归约成功，则在此范围内判定规定的查找成分是否存在；否则执行(4)。
若规定的查找成分存在，则转(2)；否则，本次匹配失败结束。
(4)若该SEARCH函数规定的查找范围还未归约成功，则调用翻译处理机制对该段进行超前分析，即对该段提前进行归约。
(5)在超前分析的结果内，判定规定的查找成分是否存在。若该条件测试成功，则转(2)；若该条件测试不成功，本次匹配失败结束。
三.词条中的上下文相关处理与规则类似。
下面举例说明本发明算法的执行过程。
将句子“We know this computer.”和“We call this computer.”翻译成中文。这两句中均出现单词this，但其用法不同。假设现有字典词条1weNP “我们”词条2know VP(V1) “知道”词条3call VP(V2) “称...为”词条4this Q “这”词条5computer NP(台) “计算机”
现有规则规则1Q NP(台)->Search(L，(1，1)，VP(V1))，NP，Q台NP规则2Q->Search(L，(1，1)，VP(V2))，NP，Q.
规则3NP VP(V1) NP->，S，NP VP NP.
规则4NP VP(V2) NP NP->，S，NP VP NP NP其中，V1表示单宾语动词，V2表示双宾语动词，NP表示名词短语，VP表示动词短语，Q表示限定词，S表示句子。
对第一个句子进行如下归约(1)使用词条1、2、4、5将句子归约为NP VP(V1)Q NP(台).
(2)对于意段Q NP(台)，其左边为VP(V1)，规则1的上下文条件可满足，因而使用规则1将Q NP(台)归约为NP。得到句子归约结果为NP VP(V1)NP。
(3)使用规则3将NP VP(V1)NP归约为S。
归约过程中生成的结构树如图2所示。
根据规则1和3以及词条1、2、4、5，该句的译文为“我们知道这台计算机”。
对第二个句子进行如下归约(1)使用词条1、3、4、5将句子归约为NP VP(V2)Q NP(台).
(2)对于意段Q，其左边为VP(V2)，规则2的上下文条件可满足，因而使用规则2将Q归约为NP。得到句子归约结果为NP VP(V2)NP NP(台)。
(3)使用规则4将NP VP(V2)NP NP(台)归约为S。
归约过程中生成的结构树如图3所示。
根据规则2和4以及词条1、3、4、5，该句的译文为“我们称这为计算机”。
由此可以看出this在不同的上下文环境下其用法也不相同。
权利要求
1.一种使用计算机进行的复杂上下文相关处理技术，其步骤为(一)把与规则头部模式和词条有关的上下文相关信息以函数的形式分别定义在规则和词条中(1)在规则中建立上下文相关函数规则的形式为<头部>-><上下文相关函数>，<右部>，<转换体>其中<头部>为被归约成分，<右部>为当前归约结果，<转换体>对应于该次归约的转换体，<上下文相关函数>为若干个上下文相关函数，(2)在字典中建立上下文相关函数字典中每个单词的形式为入口单词特征集合1 上下文相关函数11 译文11特征集合1 上下文相关函数12 译文12特征集合2 上下文相关函数21 译文21(二)对每一条规则，首先进行头部匹配，若匹配成功，则执行句中上下文相关函数，根据上下文相关函数中调用参数的要求在当前归约模式中查找所需成分及其特性，若查找范围还未归约，则先调用系统翻译处理机制本身对当前模式中相应内容进行归约，然后再查找所需成分及其特性，上下文相关条件成立，才对规则头部进行归约；(三)词条中的上下文相关处理与规则类似。
全文摘要
本发明技术的步骤为:1.在规则和字典中嵌入上下文相关信息及上下文相关操作,规则的形式为:<头部>→<上下文相关函数>,<右部>,<转换体>;字典中每个单词的形式为:入口单词,特征集合,上下文相关函数,译文;2.对每一条规则,首先进行头部匹配,若匹配成功,则执行规则中的上下文相关函数,以判定当前头部模式的上下文相关条件是否成立,若成立才对当前模式中内容进行归约;3.与规则类似,进行词条中的上下文相关处理。本发明采用数据与操作一体化的技术,有效地解决了复杂上下文相关处理这一难题。
文档编号G06F17/28GK1180203SQ9711194
公开日1998年4月29日申请日期1997年7月2日优先权日1997年7月2日
发明者陈肇雄申请人:陈肇雄

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈肇雄
技术所有人：华建机器翻译有限公司
我是此专利的发明人

上一篇：基于不完备知识的推理技术的制作方法
上一篇：条码钞票以及条码钞票的数钞及扫描处理装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。