基于移动结构概念的句子结构分析及使用其的自然语言搜索的制作方法

文档序号:6482765阅读:207来源:国知局
专利名称:基于移动结构概念的句子结构分析及使用其的自然语言搜索的制作方法
技术领域
本发明涉及基于移动结构(mobile configuration)概念的句法分析以及使用该分析方法的自然语言搜索方法,并且具体来说,涉及基于将在子分类(subcategorization)信息中事先定义的语法角色(role)信息直接给予结构组分(constituent)从而能够主动响应自由语序语言的移动结构概念的句法分析方法和使用该分析方法的自然语言搜索方法。
背景技术
简单来说,句法分析的含义是使用计算机分析自然语言的句法结构。因此,对于这种句法分析,将自然语言知识传输给计算机用于实现是重要的。
开发用于处理自然语言的方法可以用教计算机一种语言来简单表示。对于这种传统的句法分析,使用了基于概率的方法。
在此,传统的基于概率的句法分析是一种通过其建立大量的语料库(corpus)并且语音部分的转换的局部结构和概率被从该语料库中提取出来并且随后将其和实际数据进行比较的方法。
然而,在这种传统的基于概率的句法分析中有着如下的限制。首先,由于不能保证大量的语料库能够涵盖人类能够构造的所有种类的句法结构,为了能够部分地克服这种限制,只有限制在预定领域内的语料库能被建立。因此,不能保证知识的完整性,并且使用的领域是受限的。
其次,当发现不正确的分析数据时,解决这个问题基本上是不可能的。这是因为概率不能由人来手动修改。为了解决这个问题,应当建立新的语料库,并且当规模超过预定等级时,存在概率不再改变的倾向性。
具体来说,应用了这些传统的基于概率的句法分析方法的韩语语法模型在广义上可以被划分为基于Choi Hyon-Pai(1937)的传统模型和来源于Chomsky(1965)的生成语法模型。
然而,由于作为句法分析基本要求的句法单元的确定并不一致,这两个模型无法令人满意。即,在前一种方法中,后置词(postposition)被认为是字,而字尾则被认为是语形学(morphological)单元。与此相反,在后一种方法中,后置词(或后置词的一部分)被认作是语形学单元,而字尾被认作是字。
因此,在传统的方法中,为了分析在组成给定输入数据的单元表达式(expression)之间的依存关系并掌握(capture)它们的语法功能,使用基于语法功能由结构位置确定的假定的二元(binary)结构的方法。
在这个二元结构中,如果句子“Naneun Kongwoneso Youngheereulmannata(S)(我在公园遇到Younghee),”被分析,则认为形成句子的全部单元被配对(paired)来形成该句子。该句子被划分成“Naneun(NP)”和“Kongwoneso Youngheereul mannata(VP)”,并且VP再次被划分为“Kongwoneso(PP)”和“Youngheereul mannata(V’)“,并且“V”’再次被划分为“Youngheereul(NP)”和“mannata(V)”。在这种结构中,同时在一个规则中定义支配关系(dominance relation)和优先关系。即,主语是直接由S控制的NP,位置是直接由VP控制的PP,直接宾语是直接由V控制的NP,并且以这种方式,其次定义语法功能。
在这个传统的二元结构中,句子的直接组分的语法功能由该组分在句子结构中的位置所确定。即使遵循韩语中谓语必须位于句子的结尾的字序的限制,在数学上,如果每个由4个直接组分形成的句子被配对并组织,则在数学上可能情况的数量是7(3×2×1+1),并且在句子是由5个组分形成的情况下,等价结构的数量可以最多为30(4×3×2×1+2×2)。因此,等价结构的数量呈几何级数增加。
不用说诸如韩语的这种自由语序语言,即使是在英语这种固定语序语言的情况中,前置短语在句子中倒置也不会改变句子的意思。这显示了语法功能不能由在句子中的位置来确定。
此外,当使用传统的二元结构用于分析时,由N个单元表达式表示的句子产生2(n-2)个结构等价情况。即,随着形成句子的多语素(polymorphemes)的数量的增加,等价句子结构的情况的数量几何增加。
二元结构的另一个问题在于无法预测组分位置的改变。在韩语的情况下,当一个句子的直接组分的数量为n时,改变字的位置的可能方式的数量为n!。
具体来说,能够处理这种自由语序句子的能力在处理口语数据中是很重要的,口语数据和书写数据不同,存在经常性的省略和倒置。然而,传统的二元结构方法不能完美地处理这个问题。
因此,用于说明使用字形变化(inflection)的印一欧语言的传统句法分析模型不适用用于韩语。由于这种内在限制,传统的句法分析方法的成功率只有大约50%到60%。
具体来说,这种传统句法分析方法遵循根据成分的使用形式定义语法功能的用法概念。根据这种用法概念,在下面的句子中1A.Youngheeneun haggyoeganda.(Younghee去学校。)1B.Cheolsooneun haggyoeganeunYoungheereul boatta.(Cheolsoo看见Younghee去上学。)在(1A)中的“ganda”和在(1B)中的“ganeun”都是动词“gada(去)”的形式。然而,在(1A)中的“ganda”结束一个句子,而在(1B)中的“ganeun”不结束一个句子,但是修饰/限制随后的字“Younghee”。因此,在传统语法中,“ganeun”的用法形式被称作为“名词前类型(pre-noun type)”。
然而,如果一个字同时是一个动词又是一个名词前类型,从传统的观点来看,分类不确定的问题是不可避免的。即,如果疑问中的“ganeun”是修饰“Younghee”的名词前类型,则名词前类型不能引导成分“haggyoe”,而如果“ganeun”是动词,其不能结束一个句子并且不能说明其是否能修饰随后的名词。
因此,为了解决这个问题,应当分析“ganeun”的内部结构,并且应该参考字干“ga-”和字尾“-neun”的结构。然而,传统的句法规则并不考虑字的内部结构(一种用法形式)。这样,不可能实现独立于人类语言学知识的引擎。
因此,由于传统句法分析的这些问题,目前还没有商业化的韩语句法分析方法。仅仅进行了实验室级别的试验。即使在机器翻译的情况中,韩语句法分析技术也是如此缺乏以致可用的只有从外语到韩语的机器。
此外,由于现有的基于传统句法分析操作的自然语言搜索引擎仅仅使用低级的句法分析,或是使用以多语素为单位的指数化(indexation),无法掌握在每个多语素中包含的语法关系,并且仅仅根据基于概率的方法来执行检索。因此,会检测到具有高使用频率的大量无意思的信息,并且很难检索到实质结果。


图1是由根据本发明的一个优选实施例的基于移动结构概念的句法分析方法执行的步骤的流程图;图2是更详细的示出图1的预处理例子的流程图;图3是更详细的示出图1的部分结构(partial structure)形成步骤的例子的流程图;图4是示出当使用基于本发明的移动结构概念的句法分析方法时的结果屏幕的例子的图;图5是根据本发明的一个优选实施例的使用基于移动结构概念的句法分析方法的自然语言检索方法中的步骤的流程图;图6是示出在根据本发明的一个优选实施例的使用基于移动结构概念的句法分析方法中的自然语言检索系统中的问题(检索字)输入屏幕和结果屏幕的例子的图。
图7到图11是逐步示出用于根据本发明的一个优选实施例的使用基于移动结构概念的句法分析方法中的自然语言检索方法的内部数据库的例子的图;和图12是示出根据本发明的一个优选实施例的使用基于移动结构概念的句法分析方法中的自然语言检索方法的打印屏幕的例子的图。
具体实施例方式
本发明的技术目的本发明提供一种基于移动结构概念的句法分析方法以及使用该分析方法的自然语言检索方法。通过该基于移动结构概念的句法分析方法能够提供能主动应付信息加速年代的需求的多种有用工具的开发所需的核心基础技术,并且该方法由于是基于严格的语言学成果的,因而具有鲁棒性、通用性以及高可靠性,以致可以在各个领域使用,并且通过改进在语言学知识和分析引擎之间的独立性,能够连续地和快速地改善性能以致其能够被非常有效和经济地利用。
本发明还提供了一种基于移动结构概念的句法分析方法和使用该分析方法的自然语言检索方法。通过该基于移动结构概念的句法分析方法,任何被打乱的句子(scrambled sentence)都能够被容易地分析而不需要附加的分析装置,而且通过将字尾按照字来处理并且通过根据短语的结构规则控制字尾的组合,语言学模型和分析引擎之间的独立性在该模型和引擎中能够得到高效的改善。
而且,本发明还提供了一种基于移动结构概念的句法分析方法和使用该分析方法的自然语言检索方法。通过该基于移动结构概念的句法分析方法,在形成句子的表达式之间的语法关系能够通过使用移动句法分析器的成分信息指数化来准确掌握,结果,用户请求的信息以和人类进行判断相同的方式来检索,从而能够提供准确的信息。
本发明的公开根据本发明的一个方面,在建立了用于分析输入句子的语素的语素字典程序、用于存储语法规则的语法规则数据库,以及用于存储句子的每个组分的属于中心字的子分类,诸如字干和字尾的细节的子分类数据库,以便基于将后置词和字尾都认作句法单元的标记理论来承认字形变化的字(inflective word)字尾的句法状态并且在语法上能够将字之间的组合关系定义为一个整体之后,提供了用于分析句法和说明句法的语法功能的句法分析方法,该方法包括分析语素,其中,如果输入要分析的句子,则根据所述语素字典程序以多语素为单位分析该语素的内容,并且在通过多语素在语素分析数据中选择了适合于输入数据的语素分析情况后,预处理被执行;和分析句法,其中通过使用所分析的语素,首先根据存储在语法规则数据库中的语法角色建立句子的部分结构,并且随后通过使用所述子分类数据库,建立整体结构,并且通过计算每个结构的权重值,确定最合适的优选情况并输出。
在该方法中,分析句法包括执行预处理,其中是否在多语素列表中包括句子构成由多语素列表程序确定,并且如果有多语素句子构成,则多语素构成被转换成多语素形式,并且字的意思由语义特征程序确定并包括在语素中;通过操作和重复内部闭环来形成部分结构,其中,如果输入用语音的语义特征部分标签的语素,该语素被当作单个语素对待,并且通过根据存储在语法规则数据库中的语法角色来确定是否局部结构规则被应用于所选的语素,形成局部结构,并且通过参照随后要处理的宾语和确定是否形成了循环局部结构,建立内部结构,并且如果没有其它的内部结构,重复执行下面的处理根据分类和句子构成以及基于子分类数据库和修饰语类型数据库的表达形式来形成整体结构;通过基于句子构成的位置或特性来计算每个结构的权重和选择最重要的结构来选择最优情况;和使用移动类型(树型)链接线来输出最优情况,以便在所确定的最优情况的整体结构、每个部分结构以及每个语素之间的关系由链接线对应连接和指示。
在所述句法分析方法中,所述语义特征程序是用于以预定类型来分类字的意思,所述意思是用于确定语素的句法特性和意思信息的要素,以便确定有助于减少在复合句子结构中的等价结构的意思和对于每个字形变化的字的修饰语的列表的程序;所述多语素列表程序是执行按照类型以便分类同一类型的后置词或具有后置功能的后缀的字特征的程序;所述语法规则数据库存储关于定义相应词根的语法角色的信息;子分类数据库存储关于能属于一个字形变化的字的组分的细节,以及可改变的字形变化的字尾的形式的信息;并且修饰语类型数据库存储关于后置词、字尾以及具有类似于后置词或字尾功能的后缀的通用特性的信息,其确定能够由核心字组合的局部结构的类型,作为确定多分支结构的等价结构的要素。
根据本发明的另一个方面,提供一种使用基于移动结构概念的句法分析方法的自然语言检索方法,用于通过输入自然语言问题来检索文件(句子),所述方法包括分析文件,在其中作为检索对象的文件的句子分析信息通过基于移动结构概念的句法分析方法存储在句子信息数据库中,在所述基于移动结构概念的句法分析方法中,建立用于存储句子的每个成分的属于中心字的子分类,诸如字干和字尾的细节的子分类数据库,以便承认字形变化的字字尾的句法状态并且字之间的组合关系能够被在语法上定义为一个整体;而且当输入期望被分析的句子时,分析语素的内容,并且使用分析的语素,根据存储在语法规则数据库中的语法角色首先建立句子的部分结构,并且随后,通过使用所述子分类数据库,建立整体的结构;分析问题句法,其中在文件信息数据库中,如果输入了自然语言的问题,则首先根据基于移动结构概念的句法分析方法分析问题的句法,句法分析结果被根据句法信息分解成字单元,掌握问题的疑问句类型,并且确定分解的细节的问题;检索文件,在其中在句子分析字典中确定的细节问题的标签的角色被转换为用于根据所期望的询问句类型检索的标签,在句子分析字典中检索具有转换了的用于检索的标签的字,并且基于检索的频度计算排序;和显示包括检索字、包括用于检索的标签的句子和包括该句子的文件的内容的结果。
本发明的效果根据本发明的基于移动结构概念的句法分析方法以及使用该句法分析方法的自然语言检索方法,如上所述,能够提供开发各种有用接口工具所需的核心基础技术并且能够提供鲁棒性和通用用法,以便该方法能够使用在计算机系统的全部领域。此外,由于连续和快速的性能改善,本发明是经济的。因此,即使是打乱的句子也能被快速和容易地分析,而不需要复杂的句法分析装置。而且,在形成句子的表达式之间的语法关系能够被准确地掌握以便用户请求的信息能以和人进行判断同样的方式来检索,并且能提供准确的信息。
优选实施例此后,将结合附图通过对本发明的优选实施例的说明详细说明根据本发明的基于移动结构概念的句法分析方法和使用该分析方法的自然语言搜索方法。
首先,本发明的基于移动结构概念的句法分析方法是一种基于子分类数据库的句法分析方法,该子分类数据库存储句子的每个组分的属于中心字的子分类,诸如字干和字尾的细节,以便基于标记理论确认(admit)字形变化的字尾的句法状态并且字之间的组合关系能在语法上定义为一个整体。
即,该句法分析方法可以说是一种基于知识的方法,因为其能通过将唯一的韩语语法模型和语言学知识直接输入到计算机来应用到所有的语言。将针对本发明的每个步骤说明该子分类数据库的例子。
在这个标记理论的核心语法模型中,后置词和字尾都被认作句法单元,即,字。例如,在上述的用法概念中,如果有如下的句子“Youngheeneunhaggyoeganda(Younghee去上学)”和“Cheolsooneun haggyoeganeunYoungheereul boatta(Cheolsoo看见Younghee去学校),”标记理论将“ganeun”的“-neun”和“ganda”的“-n-”和“-da”认作标记,并且将句子分类为如下的句法单元2A.[Younghee-neun haggyo-ega]-n-da.
2B.[Cheolsoo-neun[haggyo-ega]-neunYounghee-reul bo]-at-ta.
并且,每个标记的功能是不同的。
即,“ganeun”的“-neun-”扮演将动词短语和名词进行组合的角色,而“ganda”的“-n-”指示现在(进行)的形式,并且“-da”指示判断语气。因此,字之间的组合关系能够被定义为在语法上的一个整体,并且因此,在语法和分析引擎之间的独立性得到改善,并且识别不正确的分析数据或者改变(modification)变得容易。
同样,通过采用使用ID-LP格式的移动结构区分支配关系和优先关系,能够同等地识别由相同组分形成但是具有被打乱顺序的句子。
基于这种标记理论的根据本发明的一个优选实施例的基于移动结构概念的句法分析方法是通过句法分析描述句子的语法功能的句法分析方法。
在这个方法中,为了能够对被打乱的句子进行分析,后置词和字尾被确定为单独字并且语素的语法功能和特征被事先存储在数据库中,并且如果输入了需要分析的句子,通过使用每个成分的中心词的严格子分类细节,基于语义特征、后置词形式、以及包括在细节中的分类标识来执行句法分析。通过这样做,抑制了过多的产生(excessive generation),并且基于事先在子分类信息中定义的语法角色信息,在相应语素之间的关系由预定符号指定并且句子的语法关系被描述。广义来讲,该方法包括语素分析(步骤S1到S3)和句法分析(步骤S4到S10)。
在本发明的语素分析中,首先建立语素字典程序1和在其中存储语法规则的语法规则数据库4,在所述语素字典程序1中后置词和字形变化字尾被确定为独立词根并且以语素字典的形式存储该字尾的语法功能的特性。
如果在步骤S1输入期望分析的句子,则作为句子结构的最小单元的语素在步骤S2由语素字典程序4来分析,并且语音的部分在语音部分附加步骤S3中被加标签。
在此,指示语法功能的标签和简称被附加到分类后的语素。如图4的句法分析结果窗口的右手边窗口所示,组分被分类为语素,每个语素都是具有意思的最小单元,诸如主语和主语后置、宾语和宾语后置以及谓语和谓语字尾,并且标签被附加到相应的语素并且语素的类型通过在标签中标记简称(np、jc、pv等)来指示。
随后,在本发明的句法分析步骤S4到S10,句子的部分结构根据分类的语素的语法规则被首先形成,并且根据表达形式建立整个结构。随后,通过计算每个结构的权重,确定最优情况并且由预定的符号指定每个语素之间的关系并且描述句子的语法关系。如图1所示,句法分析包括预处理步骤S4、部分结构形成步骤S5、整体结构形成步骤S6和S7,和整体结构完成步骤S7到S10。
在此,在预处理步骤S4,如图2所示,如果在步骤41输入用语音部分作标签的语素,是否具有多语素类型的句子构成由在步骤S42中的多语素列表程序3确定。如果具有多语素句子结构,其在步骤S43被转换成多语素形式。语素的意思由语义特征字典程序2来确定,并且如果在步骤44需要语义特征上的语素,则在步骤S45添加语义特征语素。
此时,如下例证的语义特征字典程序2是确定句子部分的核心字的意思信息的要素,并且为减少在复合句子结构中的等价结构做出贡献,并且,通过类型,执行对于诸如通用名词的字的意思的分类,以便能够确定每个字形变化的字的修饰语列表。
<语义特征字典程序的例子>
@root bab(煮好的饭)@pos nc@type concrete@subtype food@property solid……@root haggyo(学校)@pos nc@type concrete|abstract@subtype organization……并且,如下所示的多语素列表程序3,通过类型分类来执行,以便使用相同形式或具有后置词功能的后缀来分类后置的字特征。
<多语素列表程序应用的例子>
jc<-e/jc dae/nx-ha/xsv-eoseo/ec……jc<-wa/jc gad/pa-i/xsa……pv<-*/nc-*/xsvpv<-*/nx-*/xsvnc<-*/nc-*/nx……ep<-??/etm-geod/nb-i/co{eptense=[fut];eporigin=[cep];}……随后,在图3所示的部分结构形成步骤S5中,如果语音标签的语素的语义特征部分在步骤S51输入,则在步骤S52处理单个语素,在步骤S53中根据存储在语法规则数据库4中的语法角色来确定是否具有局部结构,在步骤S54形成局部结构,在步骤S55参照要处理的随后的宾语,并且在步骤S56形成循环局部结构。该循环局部结构包括内部闭环操作步骤S53到S56,其中,通过再次建立部分局部结构,建立局部结构,并且在内部闭环循环步骤S5,如果其中没有其它局部结构,则选择下一个语素并且重复步骤。
在此,语法规则数据库4存储定义如下面例子所示的每个词根的语法角色的信息。
<规则字典例子>
N′<-NPm N′<5> {N′type=N′#1type;N′subtype=N′#1subtype;N′property=N′#1property;}……ADVP<-mag ADVP-s<4> ;magsubtype**[degree];]{ADVPsubtype=ADVP#1subtype;}……随后,如图1所示,整体结构形成步骤S6和S7包括在步骤S6基于子分类数据库5和修饰语类型数据库6根据句子和表达式形式的分类来形成整体结构,在步骤S7确定是否检查了另一种形式的有效矩阵,并且随后重复随后的矩阵的部分结构形成步骤S5。
在此,子分类数据库5存储句子每个组分属于中心词的子分类的细节,诸如字干和字尾,以便基于将后置词和字尾都认作句法单元的标记理论来承认字形变化的字尾的状态,并且在字之间的组合关系能够在语法上被定义为一个整体。如下面例子所示,在中心词,“meogda(吃)”,存储“meog-”可能的的字形变化的字尾的形式的信息。
<子分类数据库应用例子>
meogNP(subtype~=[human|animal];jcval*=<i>)[c_sbj]NP(type~=[concrete];subtype~=[food|medicine|abstract|fuel];jcval*=<eu|>)[c_obj]{A_Typel}pv……meogiNP(jcval*=<i>;!!(nbval);type~=[alive])[c_sbj]NP(jcval*=<ege>;type~=[alive])[c_dat] subtype~=[food|liquid])[c_obj]{A_Typel}pv……此外,修饰语类型数据库6存储关于后置词的通用特征的信息,或者具有后置词的功能的作为确定多分支结构等价物的要素的后缀的信息,如下面例子所示。
<修饰语类型数据库应用>
#BOATA_TypelADVP(subtype**[manner])[a_manner]ADVP(subtype**[time])[a_temp]ADVP(subtype**[motive])[a_reason]…NP(subtype**[time];!!(jcval)&&nbval)[a_occurrence]NP(subtype~=[place|space|spot];jcval**<eseo>)[a_loc]NP(type**[concrete];jcval**<ro>)[a_instr]…VPn(etnval==[gi];jeval==[e])[a_motive]VPf(mood~=[declarative];jcval==[go])[a_reason]A_Type2……A_Type3…………#BOAT随后,如图1所示,整体结构完成步骤S7到S10包括在步骤S7基于句子构成的位置和特性来计算相应结构的重要性权重,在步骤S8选择最优情况,和输出所选的最优情况。
在这个最优情况输出步骤S10中,如图4的句法分析结果窗口的左手边窗口所示,标记移动类型(树型)连接线以便用线来指示完成的整体结构、各个内部结构和外部结构,以及各个语素之间的对应关系。
因此,通过依赖于开发的适用于韩语和语言学知识的语法模型,能够保证比传统的基于概率的方法高得多的精度。并且,对于简单的句子来说,原则上,由于识别方法和人一样,取决于知识建立的程度,能够期望接近100%的处理率。
此外,通过采用移动结构,即使是被打乱的句子也能被准确和一致地分析,该方法可以应用于所有的语言领域、不会产生由于域的改变带来的附加开销,并且由于采用多分支结构,能够减少不需要的分析。因此,识别错误的原因变得简单而且在知识和引擎之间的独立性是高的,以致能够快速地执行对于不正确分析的校正。
而且,和传统的二元结构中等价结构随着几何级数增长不同,由于多分支结构分析具有作为词根的语法功能,从而使句法分析变得容易,并且在其中省略和倒置经常发生的口语数据能够被完美地分析,相对于多语素的数量的增长,等价结构呈算数级数增长。
同时,实现基于这种移动结构概念的句法分析方法的句法分析器包括诸如微处理器或CPU的控制各种输入和输出装置的控制单元,和诸如RAM、ROM或者硬盘的存储各种类型信息的存储装置。
控制单元包括语素字典程序1、语义特征字典程序2和图1中的多语素列表程序3。存储装置包括存储语法角色的语法规则数据库4、子分类数据库5和修饰语类型数据库6。
即,控制单元被如此编程,以致如果输入要分析的句子,其根据语素字典程序1分析句子的每个语素,并且首先根据存储在语法规则数据库4中的语法角色建立句子的部分结构,随后基于存储在子分类数据库5中的子分类信息建立整体结构。并且随后,控制单元计算每个结构的权重,选择优选情况,通过预定的符号指定在相应语素之间的关系,并且描述该句子的语法关系。
因此,本发明的句法分析器不使用在其中从结构推断语法角色的方法,而使用将语法功能本身认作词根的方法,并且通过使用子分类信息,指定了语法功能。
此外,由于仅仅提供语音部分的列表对于分类信息是不够的,本发明的句法分析器描述每个成分的意思信息以便清除等价结构并且只产生最简单的语法结构。
为了如此,这样来设计该系统,在步骤S1到S3的语素分析中,相应字的语义特征能够被示出,并且作为结果,能够准确识别可能的语法关系。
而且,每个子分类帧(frame)请求用于该帧承认的修饰语类型。因此,通过根据在整体结构形成步骤S6中根据修饰语形式描述类型,能够避免产生不必要的等价结构并且能够执行适当的句法分析。
同时,使用本发明的基于移动结构概念的句法分析方法的自然语言检索方法是这样一种检索方法,通过其如果输入了自然语言形式的问题,搜索文件和句子并且找到和返回期望的知识。如图5所示,并且更概括地示出在图1,该方法包括使用该句法分析方法的文件分析步骤S1到S10、文件搜索步骤S130到S180、以及结果显示步骤S190到S220。
即,如图1所示的不具有输入句子而具有输入文件的文件分析是基于在其中语素的语法功能和特征事先被存储在数据库中的移动结构概念的句法分析方法。并且,如果输入需要分析的句子,通过使用词根,定义了语素,并且根据和在定义的语素中被定义为字尾的语素相匹配的数据库的语法支配关系,在相应语素之间的关系由预定的符号指定,以便描述该句子的语法关系。在文件分析步骤中,作为分析的对象的文件的句子分析信息被以句子分析字典的形式存储在索引数据库中,并且这和如上所述的句法分析方法中相同。
在完成这种准备步骤后,在问题句法分析步骤S110和S120中,如果在步骤S100输入提问期望信息的自然语言形式的问题,通过如上所述的基于移动结构概念的句法分析方法,询问句子的句子构成在步骤S110中被分析。在步骤S120,该句子构成分析的结果被根据句子构成信息逐字分解,并且通过掌握问题的疑问形式,基于存储事先输入的句子信息的句子信息数据库10的详细问题确定该问题。
在此,自然语言形式的询问句子是能由人基于人的思路容易地理解的人类语言。如图6顶端的“检索字”窗口所示的,这种句子的一个例子是“NoogaCheolsooreul joahani?(谁喜欢Cheolsoo?)”。
因此,在这个问题句法分析步骤之后,图6所示的问题分析结果(询问分析器)的句子构成,“Nooga Cheolsooreul joahani?”能够被定义为“SUB(主语)OBJ(宾语)HEAD(谓语)”。
作为参考,图6中央的窗口“整体索引量”示出了事先在文件分析步骤分析的文件的数量“47”、分析的句子的数量“92”和分析的字的数量“257”。
随后在文件检索步骤的句子类型确定步骤130,使用作为对象的字典数据库13在字典中确定的细节问题的标签的角色被改变为根据所期望的疑问句的形式进行检索的角色,并且具有用于检索的改变了的标签的字在步骤S130从字典数据库13中检索出来。
即,如图6所示,分析疑问句子的形式并且得出“Nooga=>疑问字,主语”。据此,在其中检索标签的角色在于指示一个宾语的“Cheosooreul”被不变地转换成一个宾语或主语,并且该标签被转换成“Cheolsoo/nc”,并且作为疑问谓语的“Joahani?”被转换成通用谓语“joaha/pv”,并且这些被在句子分析字典(字典)中搜索。
在此,文件检索步骤130可以包括根据用户的选择通过特殊检索规则信息11和名词系统数据库12产生用于特殊检索模式的条件的特殊检索模式条件产生步骤S150。作为替代,文件检索步骤130可以包括用于执行字典数据库13的通用检索的通用检索模式条件产生步骤Sl60。
该通用检索模式是在其中通过仅仅使用句法分析的信息和仅仅基于问题的句法分析结果的检索方法,搜索已经分析的文件数据库并且提取和提供匹配内容。
这个通用检索模式可以使用通过其提取和提供匹配给定问题直接组分的数据的成分匹配检索方法。或者,该通用检索模式可以使用意思匹配检索方法,通过该方法,形成问题的组分被包括,但是提取和提供包含了语义上和作为核心字的谓语类似的谓语的数据。
同时,特殊检索模式是当问题中包括特殊表达式时,基于该表达式,检索和提供在语义上依赖于给定组分的内容的方法。例如,如果输入问题,“Cheolsooga mooseun kwaileul meogeonni?(Cheolsoo吃了什么水果?)”,则具有Cheolsoo吃预定类型水果内容的文件,包括“Cheolsooga sagwareulmeogeodda(Cheolsoo吃了一个苹果),”被作为期望的句子提取和提供。
即,对于这种特殊检索模式,使用诸如特殊检索规则信息11和名词系统数据12的关于名词语义层级结构的数据库。
随后,如图8所示,为了产生在其中角色倒置的反向文件数据库14,在步骤S170,访问该数据库并返回结果,并且如图9所示在步骤180具有被转换成AND和OR条件的多个结果的检索标签的字的检索频度被计算。
即,如图9和10所示,第一文件的第一句话“Youngheeneun Cheolsooreuljoahanda.(Younghee喜欢Cheolsoo.)”,第23句话“YoungheeneunCheolsooreul joahanda.(Younghee喜欢Cheolsoo.)”,第60句话“Youngheeneun Cheolsooreul joahanda.”被检索到。
随后,在结果显示步骤S190到S220,如图11所示,诸如检索字、包含检索标签的句子、包含该句子的文件信息和文件内容的多种结果在步骤S190确定。在步骤S200中根据频率计算排序。在步骤S210,包含这些的文件信息数据库15被读出并且外部信息被参照。最终,结果在步骤S220输出。
因此,如图12所示,如果诸如“Nooga Cheol sooreul joahani?(谁喜欢Cheolsoo?)”的自然语言问题被在检索字窗口输入,在问题句法分析窗口后置词和字尾被作为语素分析并显示为“Noo/np”、“ga/jc”、“Cheolsoo/nc”、“reul/jc”、“joaha/pv”、“ni/et”和“?/s”。
这些是用具有检索标签的字检索的,并且该结果被显示在检索结果窗口中。在检索结果窗口中,诸如“Cheolsooneun Soonjado joahanda?(Cheolsoo也喜欢Soonja?)”的句子可以和句子“Younghee likes Cheolsoo”一起显示,以便询问者能进行全面的确定。
同时,虽然未示出,使用这种自然语言检索方法的自然语言检索系统包括诸如微处理器或CPU的用于控制各种输入和输出装置的控制单元、诸如RAM、ROM或硬盘的用于存储各种类型信息的存储装置。在该存储装置中,以存储文件的句子分析信息的句子分析字典(字典)的形式建立索引数据库,所述文件是由基于移动结构概念的句法分析方法检索的对象。在该句法分析方法中,事先在数据库中存储语素的语法功能和特征,并且如果输入要分析的句子,通过使用词根,定义了语素,并且根据和在定义的语素中被定义为字尾的语素相匹配的数据库的语法支配关系,在相应语素之间的关系由预定的符号指定,以便描述该句子的语法关系,同时,控制单元被如此编程,如果在索引数据库中输入自然语言的问题,则通过如上所述的基于移动结构概念的句法分析方法,分析该询问句的句子构成;通过对句子构成分析的分析结果进行分析,根据句子构成信息逐字分解该结果;通过掌握问题的疑问形式,确定用于该句子分析字典的分解的详细问题;在句子分析字典中确定的详细问题的标签被角色转换为根据所期望的询问句的形式的检索标签;在句子分析字典中检索具有转换了的检索标签的字并且计数检索的频度;并且以频度顺序显示检索字、包含检索标签的句子和包含该句子的文件的内容。
因此,本发明中实施的自然语言检索系统收集要索引的文件,随后对形成每个文件的句子进行索引,并且再次根据句法分析器的输出结果以每个句子的成分对语法功能进行索引,以便如果具有包含相关信息的文件,则能够准确地发现和提供该文件。
例如,除了在附图中所示的“Nooga Cheolsooreul joahani?”,如果诸如“Cheolsooga noogureul mannadni?(Cheolsoo会见了谁?)”或者“Cheolsooga mannan sarameun?(Cheolsoo去见了谁?)”的句子被输入,则问题的焦点在于“manada(会见)”的宾语。因此,通过搜索具有作为主语的“Cheolsoo”和具有谓语“manada”的宾语的句子,能够提供结果。
因此,由于该方法包括意思信息,在疑问句的情况下,类似的表达式被自动确定,以便能够快速和准确地检索并且能够进行包含甚至是意思计算的智能检索。
此外,能够显著改善检索结果的相关性,并且超越于简单的匹配检索,甚至考虑语法关系的准确和智能的检索也能进行。
而且,基于这种句法分析和自然语言检索的韩语-外语语言翻译机器具有新的市场。此外,能够新创造处理智能语言的各种市场。
例如,参照附图如上描述了和韩语应用相关的本发明的一个实施例。然而,本发明能够被应用到具有后置词或词尾具有重要性的其它语言,例如日语。使用该句法分析器的自然语言检索系统还可以被应用到计算机必须理解人类语言的所有领域,例如,在人工智能计算机的提问和回答系统中或者在诸如Yahoo的因特网门户网站的搜索引擎中。
因此,本发明的范围并不由上述的说明来确定,而是由所附的权利要求所确定的,在不脱离由所附权利要求及其法律等价物定义的本发明的范围的前提下可以对所说明的实施例进行变动和修改。
权利要求
1.一种用于分析句法和描述所述句法的语法功能的句法分析方法,在建立了用于分析输入句子的语素的语素字典程序、用于存储语法规则的语法规则数据库以及用于存储句子的每个成分的属于中心字的子分类,诸如字干和字尾的细节的子分类数据库,以便基于将后置词和字尾两者都认作句法单元的标记理论,承认字形变化的字尾的句法状态,并且字之间的组合关系能够被在语法上定义为一个整体后,所述方法包括分析语素,其中,如果输入要分析的句子,则根据所述语素字典程序以多语素为单位分析该语素的内容,并且在通过多语素在语素分析数据中选择了适合于输入数据的语素分析情况后,预处理被执行;和分析句法,其中通过使用所分析的语素,首先根据存储在语法规则数据库中的语法角色建立句子的部分结构,并且随后通过使用所述子分类数据库,建立整体结构,并且通过计算每个结构的权重值,确定最合适的优选情况并输出。
2.如权利要求1所述的方法,其中所述分析句法包括执行预处理,其中是否在多语素列表中包括句子构成由多语素列表程序确定,并且如果有多语素句子构成,则多语素构成被转换成多语素形式,并且字的意思由语义特征程序确定并包括在语素中;通过操作和重复内部闭环来形成部分结构,其中,如果输入用语音的语义特征部分标签的语素,该语素被当作单个语素对待,并且通过根据存储在语法规则数据库中的语法角色来确定是否局部结构规则被应用于所选的语素,形成局部结构,并且通过参照随后要处理的宾语和确定是否形成了循环局部结构,建立内部结构,并且如果没有其它的内部结构,重复执行下面的处理根据分类和句子构成以及基于子分类数据库和修饰语类型数据库的表达形式来形成整体结构;通过基于句子构成的位置或特性来计算每个结构的权重和选择最重要的结构来选择最优情况;和使用移动类型(树型)链接线来输出最优情况,以便在所确定的最优情况的整体结构、每个部分结构以及每个语素之间的关系由链接线对应连接和指示。
3.如权利要求2所述的方法,其中,所述语义特征程序是用于以预定类型来分类字的意思,所述意思是用于确定语素的句法特性和意思信息的要素,以便确定有助于减少在复合句子结构中的等价结构的意思和对于每个字形变化的字的修饰语的列表的程序;所述多语素列表程序是执行按照类型以便分类同一类型的后置词或具有后置功能的后缀的字特征的程序;所述语法规则数据库存储关于定义相应词根的语法角色的信息;子分类数据库存储关于能属于一个字形变化的字的组分的细节,以及可改变的字形变化的字尾的形式的信息;并且修饰语类型数据库存储关于后置词、字尾以及具有类似于后置词或字尾功能的后缀的通用特性的信息,其确定能够由核心字组合的局部结构的类型,作为确定多分支结构的等价结构的要素。
4.一种使用基于移动结构概念的句法分析方法的自然语言检索方法,用于通过输入自然语言问题来检索文件(句子),所述方法包括分析文件,在其中作为检索对象的文件的句子分析信息通过基于移动结构概念的句法分析方法存储在句子信息数据库中,在所述基于移动结构概念的句法分析方法中,建立用于存储句子的每个成分的属于中心字的子分类,诸如字干和字尾的细节的子分类数据库,以便承认字形变化的字字尾的句法状态并且字之间的组合关系能够被在语法上定义为一个整体;而且当输入期望被分析的句子时,分析语素的内容,并且使用分析的语素,根据存储在语法规则数据库中的语法角色首先建立句子的部分结构,并且随后,通过使用所述子分类数据库,建立整体的结构;分析问题句法,其中在文件信息数据库中,如果输入了自然语言的问题,则首先根据基于移动结构概念的句法分析方法分析问题的句法,句法分析结果被根据句法信息分解成字单元,掌握问题的疑问句类型,并且确定分解的细节的问题;检索文件,在其中在句子分析字典中确定的细节问题的标签的角色被转换为用于根据所期望的询问句类型检索的标签,在句子分析字典中检索具有转换了的用于检索的标签的字,并且基于检索的频度计算排序;和显示包括检索字、包括用于检索的标签的句子和包括该句子的文件的内容的结果。
5.如权利要求4所述的方法,其中,所述检索文件包括执行通用检索模式(步骤),其中,仅仅使用句法分析的信息,并且仅仅基于问题的句法分析的结果,搜索已经分析过的文件数据库并且提取和提供匹配内容;和执行特殊检索模式(方法),其中,当在问题中包括特殊表达式时,根据检索器的选择,由特殊检索规则信息和名词系统数据产生用于特殊检索模式的检索条件,并且基于该条件,检索和提供语义上取决于预定成分的内容,其中,所述通用检索步骤是由成分匹配检索方法和意思匹配检索方法形成的,通过所述成分匹配检索方法,提取和提供匹配给定问题的直接组分的数据,并且通过所述意思匹配检索方法,包括形成问题的组分并提取和提供包括作为核心字的谓语和语义上类似的谓语的数据,并且所述特殊检索步骤使用特殊检索规则信息和诸如名词系统数据库的基于名词的语义层级结构的数据库。
全文摘要
本发明提供一种基于移动结构概念的句法分析方法,以及使用该句法分析方法的自然语言搜索方法。所述句法分析方法包括在建立了用于分析输入句子的语素的语素字典程序,和存储句子的每个成分的属于中心字的子分类,诸如字干和字尾的细节的子分类数据库,以便基于将后置词和字尾认作句法单元的标记理论来承认字形变化的字的句法状态,并且字之间的组合关系能被在语法上被定义为一个整体之后的语素分析和句法分析。在语素分析中,如果输入了期望要分析的句子,该语素的内容根据语素字典程序以多语素的单位被分析,并且在通过多语素操作在语素分析数据中选择了适合于输入数据的语素的分析情况后,执行预处理。在句法分析中,使用分析的语素,根据存储在语法规则数据库中的语法角色首先建立句子的部分结构,并且随后,通过使该子分类数据库建立整体的结构。随后通过计算每个结构的权重值,确定最适合的最优情况并输出。因此,任何被打乱的句子都能够被容易和快速地分析,而不需要任何复杂的句法分析装置。而且,能够准确掌握在形成句子的表达式之间的关系,以便用户请求的信息以和人类进行判断同样的方式来检索,并且能够提供准确的信息。
文档编号G06F17/27GK1777888SQ200480011055
公开日2006年5月24日 申请日期2004年4月22日 优先权日2003年4月24日
发明者禹蕣朝 申请人:禹蕣朝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1