语言形态分析器的制作方法

文档序号:82566阅读:252来源:国知局
专利名称:语言形态分析器的制作方法
技术领域
本发明涉及一种用于分析自然语言的技术,具体涉及一种用于从文本识别和提取形态词(Morphologically Derived Word,MDW)的方法和使用所述方法的装置。
背景技术
自动识别和提取形态词(以下简称为MDW)是自然语言处理(NLP)的前提。形态分析用于自动分词、信息检索(IR)、机器翻译(MT)、文本语音转换(TTS)和其他NLP应用。例如,在IR领域中,如果一个人要在因特网上搜索与“洗澡”相关联的内容,则传统的搜索引擎仅仅可以获得包含“洗澡”的内容。但是,不能获得大量与作为“洗澡”的MDW的“洗了澡”、“洗过澡”等相关联的内容。因此,识别和提取MDW显得十分重要。
形态词MDW在本质上更动态,并且通常通过多产的形态变化过程而形成。因此,我们不能收集所有的MDW,并且人工地标注它们的句法类别和含义。而且,正是那些有争议的MDW,很可能在不同的分词标准和不同的NLP应用中被不同地处理。
虽然存在用于英语形态分析(如有限状态形态)的公知技术,但是它们由于两个原因而难于扩展应用到汉语。首先,汉语形态规则不象英语那样“通用”。例如,在多数情况下,可以使用规则“名词+s→复数名词”来产生英语复数名词。但是,汉语名词中仅仅只有一个小子集可以通过使用相对应规则“名词+们→复数名词”而变成复数(例如朋友们“friends”),而其他的(例如南瓜“pumpkins”)不能。其次,不能使用当前的有限状态网络来实现由汉语形态分析——诸如重叠中的复制、合并和分离——需要的操作。
“Chinese Word SegmentationA Pragmatic Approach”onMSR-TR-2004-123 by Jianfeng Gao,et.al.,Natural Language Computing Groupof Microsoft Research,Asia(以下称为“出版物1”)中已经提出了一种汉语形态分析的方法。按照在出版物1中所述的方法,所有的MDW仅仅被收集和并入形态词库中,并且它涉及三个步骤(1)候选词(candidate)产生;(2)统计过滤;以及(3)语言选择;但是,在所述出版物中未给出如何实现所述三个步骤的细节。在以往的工作中,没有提出过完整的具有限制的汉语形态词构词语法。出版物1提供了一种汉语形态词构词语法,但是没有用于防止产生无效MDW的限制条件。
“Customizable Segmentation of Morphologically Derived Words inChinese”by Andi Wu on Computational Linguistics and Chinese LanguageProcessing,Vol.8,No.1,February 2003,pp.1-28(以下称为“出版物2”)中已经提出了一种用于构造MDW的方法。按照在出版物2中所述的方法,通过应用一组词形成规则,在句子分析期间动态地建立所有的MDW。但是,在出版物2中未给出关于词形成规则以及使用了什么算法的细节。
而且,出版物1仅仅预先将MDW收集到词库中,出版物2仅仅在句子分析期间动态地建立MDW,它们都没有给出如何实现MDW收集和建立的细节。
“Design of Chinese Morphological Analyzer”Huihsin Tseng,et.al.,Instituteof Information Science of Academia Sinica,Taipei in the First Sighan Workshopon Chinese Language Processing,Taipei,September,2002(以下称为“出版物3”)中已经提出了一种用于汉语形态分析器的方法。按照在出版物3中所述的方法,所设计的汉语形态分析器包含三个主要功能1)将复合词切分为形态素序列,2)标注那些形态素的词性,和3)识别形态素之间的形态句法关系。出版物3仅仅可以分析作为输入的复合词,并且产生复合词中的形态素之间的形态句法关系,当所述输入是文本时,该方法不适用。出版物3以两个阶段来识别MDW,首先,它识别重叠和合并的MDW,然后它识别其他种类的MDW。
“An Augmented Chart Data Structure with Efficient Word Lattice ParsingScheme in Speech Recognition Applications”Lee-Feng Chien,et.al.Dept.ofComputer Science and Information Engineering,National Taiwan University,Taipei,Taiwan in Proceedings of the 13th conference on Computational linguistics-Volume 2,August 1990,Pages60-65(以下称为“出版物4”)中已经提出了一种用于解析词格的使用扩大表的表解析算法。按照所述方法,传统的词格被增强以便能处理语音识别应用中遇到的严重的歧义。
因此,需要一种用于诸如汉语之类的语言的形态分析器,它可以有效且高效地从文本识别和提取MDW,并且迅速地获得MDW的句法、语义和形态模式信息。

发明内容本发明的目的是提供一种使用诸如汉语之类的语言的、具有限制条件的形态词构词语法的方法和装置,用于通过下述方式来识别和提取MDW不仅通过查找诸如GKB的形态词库,而且通过利用带词格的表分析算法,应用汉语形态词构词语法,在运行时动态识别和提取MDW,以在统一的框架下一次性识别所有种类的MDW,并且输出包括MDW的句法类别、形态模式或构造模式的丰富信息。
按照本发明的一个方面,提供了一种通过计算机根据预定义的形态词构词语法从文本识别和提取所述语言的形态词(MDW)的方法,所述方法包括步骤加载形态词构词语法的计算机可读规则;输入文本,并且按照所述语言的标点符号来从输入文本中获得句子;形成每个句子的词格,所述词格包括至少一个元素,每个元素对应于句中一个字或一个可能的词;通过使用与所加载的形态词构词语法规则相结合的表解析算法来解析每个句子的词格以从词格的一个或多个元素中获得MDW候选词;以及输出所获得的MDW候选词。
按照本发明的另一个方面,提供了一种装置,用于根据语言的预定义形态词构词语法来从文本识别和提取所述语言的形态词(MDW),所述装置包括加载单元,用于加载形态词构词语法的计算机可读规则;输入单元,用于输入文本;切分单元,用于按照语言的标点符号而将所输入的文本切分为句子;词格形成单元,用于形成每个句子的词格,所述词格包括至少一个元素,每个元素对应于在句子中一个字或一个可能的词;解析单元,通过使用与所加载的形态词构词语法规则相结合的表解析算法来解析每个句子的词格以从词格的一个或多个元素中获得MDW候选词;以及,输出单元,用于输出所获得的MDW候选词。
通过阅读下面的详细说明和附图,本发明将变得更加清楚,其中图1示出了按照本发明的一个实施例的汉语形态分析器的体系结构的方框图;图2示出了按照本发明的一个实施例的汉语形态词构词语法的所有MDW模式;图3-1和图3-2示出了以XML格式存储的图2中的原始汉语形态词构词语法;图4示出了在图2中的原始汉语形态词构词语法的文件类型定义(DTD);图5是用于说明语法处理部件的处理流程图;图6是用于说明从文本中识别和提取MDW部件的处理流程图;图7是用于说明词格形成部分中的处理的处理流程图;图8是已切分并且标注有词性的句子的词格示例;图9是仅被切分但是没有标注词性的句子的词格示例;图10是原始句子的词格示例;图11是用于说明表解析部分的处理流程图;图12是用于说明候选词过滤部分的处理流程图;图13是用于说明POS分配部分的处理流程图;图14是用于说明从GKB提取MDW的部件的处理流程图;图15是已切分并且标注有词性的句子的词格的另一个示例;图16示出了为给定位置0添加的一些边的图15的词格;图17示出了为给定位置1添加的一些边的图16的词格;图18示出了为给定位置2添加的一些边的图17的词格;图19示出了为给定位置3添加的一些边的图18的词格;图20示出了为给定位置4添加的一些边的图19的词格;图21示出了为给定位置5添加的一些边的图20的词格;图22示出了为给定位置6添加的一些边的图21的词格;图23示出了为给定位置7添加的一些边的图22的词格;图24示出了为给定位置8添加的一些边的图23的词格;图25示出了为给定位置9添加的一些边的图24的词格;图26示出了为给定位置10添加的一些边的图25的词格;和图27示出了为给定位置11添加的一些边的图26的词格。
具体实施方式1.汉语形态分析器的体系结构虽然本发明具有许多不同形式的实施例,在附图中示出并且在此详细说明特定实施例,应该理解为本公开应当被当作本发明的原理的一个示例,并且不欲将本发明限定到所示出和公开的特定实施例。现在参照附图来说明本发明的优选实施例。
本发明的方法用于通过计算机根据预定义形态词构词语法从文本识别和提取所述语言的形态词。所述方法包括加载形态词构词语法的计算机可读规则;输入文本,并且按照所述语言的标点符号来从输入文本获得句子;形成每个句子的词格,所述词格包括至少一个元素,每个元素对应于句子中一个字或一个可能的词;通过使用与所加载的形态词构词语法的规则相结合的表解析算法来解析每个句子的词格以从词格的一个或多个元素中获得MDW候选词;并且输出所获得的MDW候选词。使用本发明的方法,可以实现本发明的目的。
为了实现所述方法,图1是示出了按照本发明的一个实施例的汉语形态分析器的体系结构的方框图。所述汉语形态分析器包含三个主要部件,它们在图1中从左到右是语法处理部件、从文本识别和提取MDW的部件和从诸如GKB的词库源提取MDW的部件。语法处理部件具有原始汉语形态词构词语法(A.1)、语法处理部分(A.2)和数字化语法知识库(A.3)。从文本识别和提取MDW的部件具有文本(A.4)、文本加载部分(A.5)、句子切分部分(A.6)、词格形成部分(A.7)、语法应用部分(A.8)、词典应用部分(A.9)、基本词库(A.10)、表解析部分(A.11)、候选词过滤部分(A.12)、POS分配部分(A.13)、输出部分(A.14)和人工检查部分(A.15)。所述从诸如GKB的词库源提取MDW的部件具有诸如GKB的词库源(A.16)、从诸如GKB部分的词库源提取MDW的部分(A.17)和形态词库(A.18)。
利用上下文无关语法的自然语言处理系统一般需要将文本格式的语法加载到诸如用于运行程序的计算机内存之类的计算机可读形式中。在下面的说明中,向内存加载的情况将作为优选示例给出,以便加速随后的处理。语法处理部件将原始汉语形态词构词语法(A.1)编码为数字化语法知识库(A.3),语法处理部分(A.2)`实现编码功能。原始汉语形态词构词语法(A.1)存储自然语言的原始规则和它们的限制。数字化语法知识库(A.3)存储从在外部设备存储的原始语法中获得的数字化语法和其他数字化信息。当形态分析器解析文本(A.4)时通过语法应用部分(A.8)加载数字化语法知识库(A3)到内存中。关于语法知识库的详细信息,请参见语法处理部分和汉语形态词构词语法的说明。
从文本识别和提取MDW的部件从文本(A.4)识别和提取MDW。该文本(A.4)可以是已切分且标注有词性的文本,或者仅仅是已切分文本,或该文本是原始文本而没有明确的词边界和POS信息。文本加载部分(A.5)向内存加载文本(A.4),句子切分部分(A.6)接受输入的文本,然后将所述文本切分为句子列表。词格形成部分(A.7)形成每个句子的词格。它接受列表中每个句子,在形成词格过程中在必要的情况下调用语法应用部分(A.8)和词典应用部分(A.9)来获得帮助。词典应用部分(A.9)向内存中加载基本词库(A.10)和形态词库(A.18),如果句子仅仅被切分但是没有标注词性,则向被切分的句子中的词分配POS;如果句子是原始的句子,没有词的边界和词性信息,则词典应用部分(A.9)将所述句子切分为词,并且向这些词分配POS。语法应用部分(A.8)向内存中加载数字化语法知识库(A.3),并且帮助词格形成部分(A.7)将POS字符串转换为数字。
表解析部分(A.11)接受由词格形成部分(A.7)形成的词格作为输入,并且应用表解析算法以提取和识别所有可能的MDW候选词,然后将候选词置于候选词池(candidate pool)中。
候选词过滤部分(A.12)从候选词池获得候选词,根据规则除去一些无效候选词,然后它调用POS分配部分(A.13)向过滤后的MDW分配POS,并且将所述结果置于结果池中。输出部分(A.14)从结果池获得所述结果,并且向外部设备输出它们。最后,如果需要的话,人工检查部分(A.15)进行人工检查,并且将所检查的MDW置于形态词库(A.18)中。
GKB(A.16)是由北京大学计算语言研究所经过二十余年开发的现代汉语词典,它包含丰富的形态信息。从GKB提取MDW的部分(A.17)从其提取MDW,并且将它们存储在形态词库(A.18)中。因为开发者已经检查了形态信息,因此,不再需要人工检查。形态分析器可以从诸如GKB的这种词库源提取MDW。这里采用GKB只是实施本发明的一个例子,显然也可以采用其他包含汉语语法信息的任何词库。
2.语法处理部件语法处理部件处理原始汉语形态词构词语法,并且输出数字化语法知识库。原始形态词构词语法描述了包含限制条件的形态模式。预定义的限制条件包括形态词构词语法中定义的MDW中汉字个数限制、MDW中汉字拼法(orthography)关系限制和MDW中汉字的成词限制。这些规则以XML格式存储。语法知识库包括终结符列表、非终结符列表、用于表解析的预测信息和数字化语法。
2.1原始汉语形态词构词语法一种汉语形态词构词语法被提出。本发明使用自顶向下(top-down)解析技术,该技术直接利用规则处理自然语言,所述规则描述了可能的汉语形态变化现象。所述汉语形态词构词语法被特别设计用于从文本提取和识别MDW,它是一种带有限制条件的CFG,用于过滤由表解析器产生的无效候选词。在此,语法的终结符可以是在自然语言中出现的任何字,语法的非终结符用于表示一个或多个终结符或其他非终结符的组成的符号序列。
上下文无关语法(CFG)是用于自然语言建模的设备;参见例如“ThreeModels for the Description of Language”,N.Chomsky,IRI Transactions onInformation Theory,2(3),113-124,1956。CFG由一组非终结符,终结符,以及使用这些符号组成的重写规则构成。每个重写规则由左侧(LHS)和右侧(RHS)组成。其中,左侧由单个非终结符组成,而右侧由终结符和非终结符的序列组成。
例如,在表1中列出汉语形态词构词语法的子集,而用于产生MDW的实际语法将会更大和更复杂;所述规则可以用于产生MDW。一般地,所产生MDW候选可以是这些语法规则能够产生的终结符的任何序列。由这些规则产生的表达式的一些示例是“伪代码”“物理学”“物理学者”“跳个舞”“有说有笑”。
表1汉语形态词构词语法的子集在表1中,序号1-5的规则定义了MDW的模式。序号6-16的规则被存储在基本词库(A.10)中,它们定义词的词性。约束条件被定义特定规则上,以便限制产生能力。将在表3中描述关于约束条件的详细信息。
在汉语形态词构词语法中,人工总结了6中形态变化现象,它们是附加(affixation)、趋向动词派生、结果动词派生、离合词派生、重叠和合并。每种现象有几种MDW模式,并且每个模式表示一种MDW构造模式。例如,模式“MP_Pre_N”表示一个前缀及其后跟随的具有名词词性的词可以构成一个前缀MDW,并且所述模式被描述为规则<MP_Pre_N><Pre><N>。
按照在语法中的终结符的类型,将规则分成两类,它们是基于词的规则和基于汉字的规则(一个汉字是一个汉语字符)。在基于词的规则中的每个终结符是POS,基于汉字的规则中的每个终结符是表示它是汉字的<W>。使用基于汉字的规则来表示重叠和合并现象,使用基于词的规则来表示其他种类的现象。图2示出了在语法中的所有模式。
在汉语形态词构词语法中使用19种POS。表2列出了它们全部。在它们中间,‘n’、‘m’、‘v’、‘a’、‘s’、‘b’、‘r’、‘q’、‘d’、‘f’和‘t’与在GKB中相同,‘pre’、‘sfx’、‘vq’、‘dbzh’、‘vj’、‘vjh’、‘zhlg’和‘w’仅被设计用于按照本发明的一个实施例的MDW识别和提取。‘pre’被定义用于前缀识别和提取,‘sfx’被定义用于后缀识别和提取,‘vq’被定义用于趋向动词识别和提取,‘vj’和‘vjh’被定义用于结果动词识别和提取,‘dbzh'被定义用于趋向动词、结果动词和离合动词识别和提取,‘zhlg’被定义用于结果动词和离合动词识别和提取。
表2按照本发明的一个实施例在汉语形态词构词语法中使用的所有POS为了禁止一些无效的MDW候选词产生和加速解析过程,一些约束条件被设计作用在一些规则上。表3示出了它们全部。
表3按照本发明的一个实施例的在汉语形态词构词语法中使用的约束条件图2示出了按照本发明的一个实施例的汉语形态词构词语法的MDW模式。原始汉语形态词构词语法在外部设备中被存储为XML格式。图3-1和图3-2是具有约束条件的完整语法规则。图4示出了语法的文件类型定义(DTD)。在DTD文件中已经说明了每个元素。
或者,有可能原始汉语形态词构词语法未被编码为数字化语法知识库。计算机在运行时间直接读取和使用它。因此,处理速度将会较低。
2.2数字化语法知识库数字化语法知识库(A.3)存储从原始汉语形态词构词语法获得的数字化语法和其他数字化信息。表4列出了语法的所有数字化信息。
表4数字化语法知识库2.3语法处理部分它处理作为输入的原始汉语形态词构词语法,并且输出数字化语法知识库。图5是语法处理部分的详细流程图。它在B.1步骤中首先加载原始汉语形态词构词语法,然后它在B.2和B.3步骤中提取语法中非终结符列表和POS列表。在所述两个步骤中,然后将每个非终结符和POS编码为整数,因此可以在步骤B.4中编码为数字化语法。为了计算在解析中使用的预测信息,在步骤B.5中将计算每个符号的First集和Follow集,并且在步骤B.6中将产生预测信息。在步骤B.2、B.3、B.4和B.6中,非终结符列表、POS列表、数字化语法和预测信息的对应结果将在步骤B.7中输出到数字化语法知识库。即,数字化语法知识库由它们组成。在文章“A Comparison of Rule-InvocationStrategies in Context-Free Chart Parsing”,Wirtn,Mats(1987).Proceedings of 3rdConference of the European Chapter of the ACL,Copenhagen,Denmark,pp.226-233中说明了用于产生和利用预测信息的许多策略。
3.从文本识别和提取MDW的部件图6是按照本发明的一个实施例的从文本识别和提取MDW的部件的流程图。当所述部件开始工作时,文本加载部分在步骤C.1向内存中加载要分析的文本。语法应用部分在步骤C.2向内存中加载数字化语法知识库,并且在步骤C.3,如果所述部件具有形态词库,则词典应用部分向内存中加载基本词库和形态词库。然后,在步骤C.4,句子切分部分将文本切分为句子列表。在步骤C.5,所述部件逐个地分析句子。在步骤C.6,词格形成部分借助于语法应用部分和词典应用部分来形成每个句子的词格。在步骤C.7,表解析部分解析在步骤C.6形成的词格以获得所有可能的MDW候选词,并且将它们置于候选词池中。然后,候选词过滤部分从候选词池获得每个候选词以检查是否它是有效的候选词,它将抛弃无效候选词并且将有效候选词放在结果池中,这些将在步骤C.8进行。在步骤C.9,POS分配部分借助于词典应用部分而获得每个有效候选词,并且向其分配POS。然后,它调用输出部分以输出具有POS的有效候选词以进行人工检查,这些是分别在步骤C.10和C.11中进行的,在检查后,这些有效形态词库可以用于以后的MDW提取。在步骤C.12中,所述部件检查是否当前处理的句子是在文本中的最后句子。如果是,则处理将结束。如果不是,则处理将进行到步骤C.5以从文本获得下一个句子。
3.1文本要分析的文本可以是原始文本或带标注的文本。
对于原始文本,它由在字之间没有定界符的串组成,例如“中华民族是一个勤劳的民族”。
对于带标注的文本,以空格来定界每个词。例如“中华民族 是 一个 勤劳的 民族”。如果标注的文本有POS信息,则使用斜线“/”将每个词及其POS分离,例如“中华民族/n是/v一个/m勤劳的/a民族/n”。
3.2POS集在原始汉语形态词构词语法中使用的POS集是北京大学POS集的扩展。下面是除了北京大学POS集之外的附加POSpre 诸如“阿”的前缀sfx 诸如“老”的后缀vq 诸如“出去”的趋向动词vj 诸如“铲除”的结果动词vjh 在其POS是vj的词后的动词,诸如“掉”zhlg 像“着、了、过”那样的汉字的POSdbzh 像“得、不、着”那样的汉字的POSW 每个汉字的POS3.3文本加载部分在步骤C.1中,文本加载部分从外部设备向内存中加载要分析的文本。或者,所述文本可以在运行时间从计算机可读的记录介质被输入到计算机中,而不是将其加载到内存中。
3.4语法应用部分在步骤C.2,语法应用部分将数字化语法知识库加载到内存中。通过这个部分来操作关于语法的所有信息,并且这将帮助表解析器在步骤C.7创建边,并且帮助输出部分在步骤C.10输出从这个系统获得的MDW的模式。在文章“A Comparison of Rule-Invocation Strategies in Context-Free Chart Parsing”,Wirtn,Mats(1987).Proceedings of 3rd Conference of the European Chapter ofthe ACL,Copenhagen,Denmark,pp.226-233中说明了用于产生和利用预测信息的许多策略。
3.5词典应用部分在步骤C.3,词典应用部分向内存中加载基本词库和形态词库,这个部分将使用在基本词库和形态词库中的所有信息。如果没有以往收集的MDW,则形态词库开始不存在。这个部分将帮助词格形成部分在步骤C.6创建词格,并且帮助POS分配部分向MDW分配POS。
3.6句子切分部分在步骤C.4,句子切分部分按照汉语标点符号而将文本切分为句子列表,因此从文本识别和提取MDW的部件可以在步骤C.5、C.6、C.7、C.8、C.9和C.10以逐个句子的方式来处理文本。
3.7词格形成部分汉语形态分析器运行在词格上;词格是一个偏序集,并且在所述集中,每个元素信息由begin(开头)、end(结尾)、cat(类别)和name(名称),所述开头是元素在句子中的开始位置点,所述结尾是元素在句子中的结束位置点,所述类别是词性,所述名称是元素的名称(请参见出版物4的第二页)。在本发明的词格中有三种元素,它们是基于词的元素,其名称是词,并且所述词包含两个或更多的汉语字符(汉字),例如在图10中的“人民/n(2,3)”;基于汉字的元素,所述元素的名称是汉字,并且该汉字不能形成单个字的词,例如在图10中的“诞/w(7,7)”;和混合元素,其名称是汉字,但是所述汉字也是单个字的词,例如图10中的“人/n/w(2,2)”。
图7示出了用于形成一个句子的词格的步骤;所述句子可以是原始或带注释的句子。在步骤D.1接收作为输入的所述句子,然后在步骤D.2将句子切分为独立的字(每个汉字)以形成基于汉字的元素。在步骤D.3检查所述句子是否切分了。如果所述句子未切分,则在步骤D.7,如果存在形态词库,那么将从基本词库和形态词库获得所有的可能词及其POS。如果所述句子已被切分了,则将在步骤D.4检查所述句子是否被标注了POS,如果所述句子被切分但是未被标注POS,则在步骤D.5从基本词库和形态词库获得POS;如果所述句子被标注有POS,则在步骤D.6从被切分标注的句子中获得每个词和该词的POS。步骤D.3、D.4、D.5、D.6和D.7将形成基于词的元素。请注意如果在一个位置,一个汉字可以形成单个字的词,则所述元素形成混合元素,例如在图10中的“人/n/w(2,2)”。在获得所有的元素时,它们将按照它们在句子中的位置而形成词格。在步骤D.8,将所获得的每个元素填入词格中。
图8示出了来自已切分和标注词性的句子“仔细/d掂量掂量/v”的词格的示例。图9示出了来自已切分但是未标注POS的句子“中华人民共和国 诞生 了”的词格的一个示例,图10示出了来自未切分的句子“中华人民共和国诞生了”的词格的示例。
在图10中,在词格中有下列元素1)中/n/w(0,0)2)中华/n(0,1)3)中华人民/n(0,3)4)中华人民共和国/n(0,6)5)华/w(1,1)6)华人/n(1,2)7)人/n/w(2,2)8)人民/n(2,3)9)民/w(3,3)10)共/w(4,4)11)共和/n(4,5)12)共和国/n(4,6)13)和/v/w(5,5)14)国/w(6,6)15)诞/w(7,7)16)诞生/v(7,8)17)生/a/v/w(8,8)
18)了/w(9,9)其中,2)、3)、4)、6)、8)、11)、12)和16)是基于词的元素,5)、9)、10)、14)、15)和18)是基于汉字的元素,而1)、7)、13)和17)是混合元素。
3.8表解析部分图11是表解析部分中的处理的流程图。在图15-27中所示的处理中,以下面的方式来使用图2中所示的MDW模式如果在词格中的一个元素是前缀,并且其后随词性为名词、数词、动词、形容词、处所词和区别词之一的在所述词格中的一个元素,则在所述词格中的这两个元素产生一个附加派生的MDW;如果词性为名词、代词、量词、动词、形容词、副词、方位词、数词、区别词和时间词之一的在所述词格中的一个元素,并且其后随元素是后缀的在所述词格中的一个元素,则在所述词格中的这两个元素产生一个附加派生的MDW;如果在所述词格中的一个元素是前缀,并且其后随词性为名词的在所述词格中的一个元素、并且随后后随作为后缀的在所述词格中的一个元素,则在所述词格中的这三个元素产生一个附加派生的MDW;如果词性为名词的在所述词格中的一个元素,并且其后随在所述词格中的连续两个元素都是后缀,则在所述词格中的这三个元素产生一个附加派生的MDW;如果词性为动词的在所述词格中的一个元素,并且其后随词性为方向动词的在所述词格中的一个元素,则在所述词格中的这两个元素产生动词派生的MDW;如果词性为动词的在所述词格中的一个元素,并且其后随词性为dbzh的在所述词格中的一个元素、然后后随词性为方向动词的在所述词格中的一个元素,则在所述词格中的这三个元素产生一个趋向动词派生的MDW;如果词性为动词的在所述词格中的一个元素,并且其后随词性为zhlg的在所述词格中的一个元素、然后后随词性为名词的在所述词格中的一个元素,则在所述词格中的这三个元素产生一个离合动词派生的MDW;如果词性为动词的在所述词格中的一个元素,并且其后随词性为量词的在所述词格中的一个元素、然后后随词性为名词的在所述词格中的一个元素,则在所述词格中的这三个元素产生一个离合动词派生的MDW;
如果词性为动词的在所述词格中的一个元素,并且其后随连续的三个词性分别为zhlg,量词和名词的在所述词格中的连续三个元素,则在所述词格中的这四个元素产生一个离合动词派生的MDW;如果词性为动词的在所述词格中的一个元素,并且其后随连续的三个词性分别为dbzh,zhlg和名词的在所述词格中的连续三个元素,则在所述词格中的这四个元素产生一个离合动词派生的MDW;如果词性为结果动词的在所述词格中的一个元素,并且其后随词性为vjh的在所述词格中的一个元素,则在所述词格中的这两个元素产生一个结果动词派生的MDW;如果词性为结果动词的在所述词格中的一个元素,并且其后随词性为dbzh的在所述词格中的一个元素、然后后随词性为vjh的在所述词格中的一个元素,则在所述词格中的这三个元素产生一个结果动词派生的MDW;如果词性为结果动词的在所述词格中的一个元素,并且其后随词性为dbzh的在所述词格中的一个元素、然后后随词性为zhlg的在所述词格中的一个元素,则在所述词格中的这三个元素产生一个结果动词派生的MDW;如果词性为结果动词的在所述词格中的一个元素,并且其后随词性为dbzh的在所述词格中的一个元素、然后后随词性为dbzh的在所述词格中的一个元素,则在所述词格中的这三个元素产生一个结果动词派生的MDW;如果在所述词格中的两个连续元素都词性为W、并且在所述词格中的所述两个元素彼此相同,则在所述词格中的这两个元素产生一个重叠派生的MDW;如果在所述词格中的三个连续元素都词性为W、并且在所述词格中的所述三个元素之二彼此相同但是与另外一个不同,则在所述词格中的这三个元素产生一个重叠派生的MDW;如果在所述词格中的四个连续元素都词性为W、并且在所述词格中的所述四个元素的前两个彼此相同并且与其他两个不同、或者在所述词格中所述四个元素的第一个和第三个彼此相同并且与其他两个不同,或者在所述词格中所述四个元素的第一个和第四个彼此相同并且与其他两个不同,则在所述词格中的这四个元素产生一个重叠派生的MDW;如果在所述词格中的三个连续元素都词性为W、并且在所述词格中的所述三个元素的第一个和第二个构成一个基本词并且在所述词格中的三个元素的第一个和第三个构成一个基本词、或者在所述词格中的所述三个元素的第一个和第二个构成一个基本词并且在所述词格中的三个元素的第二个和第三个构成一个基本词,并且所述基本词可以在基本词库中找到,则在所述词格中的这三个元素产生一个合并派生的MDW。
表解析部分接受作为输入的、从在图6中的步骤C.6获得的词格(E.1),并且对于在所述词格中的给定位置,从左到右对其进行一次解析;它进行下面的三个步骤扫描(E.3)解析器扫描与所述给定位置相关联的在所述词格中的元素,并且产生非活动的边。在这个步骤中,解析器计算基于词的元素中包含的汉字的拼法关系和基于词的元素中包含的汉字的计数,然后存储所述结果以用于以后使用。
自顶向下预测(E.4)对于每个规则,解析器试图向表添加原始活动边。在这个步骤中,解析器使用预测信息,检查与所述规则相关联的OTH、FBW和HCRM的限制条件。如果不满足任何条件,则不产生对应的活动边。这些措施将大大地降低产生的原始活动边的数量。
合并(E.5)当活动边和非活动边满足合并条件和预定义的限制条件时,解析器合并活动边和非活动边以产生新的活动边或非活动的边。如果由合并操作产生的边是非活动的,则它是MDW候选词,并且它将被置入候选词池中。所述部件检查是否当前的位置是在句子中的最后位置(E.6)。如果肯定,则处理将结束。如果否定,则处理将进行到E.2。在步骤E.2中,将当前位置改变为在句子中的下一个位置,并且将进行到步骤E.3。
出版物“NLTK TutorialChart Parsing(NLTK指南表解析)”已经给出了关于表解析原理的清楚指南,并且另一个名为“General Syntactic Processor&Chart Parsing(in Chinese)(一般句法处理器和表解析)”(汉语),Feng Zhiwei.Journal of Contemporary Linguistics,2002(4),2002,Beijing的出版物也给出了关于表解析如何工作的说明。本发明着重于在如下的特征●一次(in one pass)解析一般,句法解析器用于解析句子,并且解析结果应当覆盖在句子中的所有词。与句法解析器不同,形态分析器需要找到在一个句子中的所有MDW。每个MDW将不覆盖整个句子,而是覆盖句子的一个分段。一般,窗口技术用于将所述句子切分为几个分段,并且象句法解析器解析句子那样解析每个分段。在本发明中,我们应用一次解析技术,这意味着我们不必将句子分段并且将句子作为整体进行解析。具有词格的表数据结构使得我们能够从开头到结尾解析句子,并且可以从表提取所有的MDW候选词。例如,在句子“同学们都高高兴兴地走进去”中,“同学们”是前缀派生MDW,“高高兴兴”是重叠派生MDW,并且“走进去”是趋向动词MDW。表解析器可以一次从所述句子识别和提取所有MDW。
●计算基于词的元素中包含的汉字的拼法关系当解析器在步骤E4中期望产生每个重叠模式的每个原始活动边时,解析器需要计算元素中包含的汉字的拼法关系。在步骤E3中,解析器计算在元素中包含的汉字的拼法关系,并且存储起来以便步骤E4使用。通过这种方式,解析器仅需计算一次,但是可以将结果用于所有的重叠模式。
●使用预测信息我们使用预测信息来限制产生无效的活动边。从语法处理部件获得预测信息,并且在解析之前将其加载到内存中。一旦解析器期望产生一个元素的模式,则它将通过查找预测信息而检查是否活动边是有效的。使用预测信息可以加速解析处理,并且大大地降低内存使用。
●检查在基于词的元素中的汉字个数每个重叠规则具有规定在有效MDW中包含的汉字的个数的约束,例如,规则“MR_ABACW+W+W+W”具有约束<C type=‘HCRM’>4</C>,这意味着有效MDW应当正好包括四个汉字,因此当解析器期望产生一个元素的这种原始活动边时,它将检查在所述元素中包含的汉字的个数。如果所述计数不满足所述约束,则它将不产生原始活动边。
●检查在基于词的元素中包括的汉字的拼法关系每个重叠规则具有几个限制条件,所述限制条件描述在有效MDW中两个汉字的拼法关系相同或不同。例如,规则[MR_ABACW+W+W+W]表示第一个汉字与第三个相同,第一个汉字与第二个汉字不同,第一个汉字与第四个汉字不同,且第二个汉字与第四个汉字不同。因此,当解析器期望产生一个元素的这种原始活动边时,它将检查在元素中包含的汉字的拼法关系,如果它不满足所述约束,则它将不产生原始活动边。
参见图15,它示出了已切分且标注了词性的句子的词格的另一个示例,其中,带标注的句子“同学/n 们/sfx 都/d 高高兴兴/a 地/d 走/v 进去/vq”被给出为一个示例,在这个示例中,“同学们”是前缀派生MDW,“高高兴兴”是重叠派生MDW,并且“走进去”是趋向动词派生MDW。随后的步骤示出了解析器如何工作和在解析处理期间如何使用限制条件。
为了更清楚地说明解析处理,我们使用语法的一个子集,解析器以相同的方式来处理整个语法,所述小语法被示出如下(a)MS_n_sfx→n+sfx(b)MS_r_sfx→r+sfx(c)MVQ_v_vq→v+vq(d)MR_AABB→W+W+W+W并且其限制条件如下<C type=′1′name=′OTH′>0=1</C>
<C type=′1′name=′OTH′>2=3</C>
<C type=′1′name=′OTH′>0!2</C>
<C type=′3′name=′HCRM′>4</C>
(e)MR_ABAC→W+W+W+W并且其限制条件如下<C type=′1′name=′OTH′>0=2</C>
<C type=′1′name=′OTH′>0!1</C>
<C type=′1′name=′OTH′>0!3</C>
<C type=′1′name=′OTH′>1!3</C>
<C type=′3′name=′HCRM′>4</C>
(f)MR_ABA→W+W+W,及其约束并且其限制条件如下<C type=′1′name=′OTH′>0!1</C>
<C type=′1′name=′OTH′>0=2</C>
<C type=′3′name=′HCRM′>3</C>
1.从已切分且带词性标注的句子获得词格信息,如果所述句子没有POS信息或未切分,则可以借助词典应用部分从词库获得词格信息。
本发明的解析器接受作为输入的图15中所示的词格。
2.解析表解析器从第一位置(0)到最后位置(11)解析词格,在每个给定位置,解析器逐个地执行三个步骤(扫描→自顶向下预测→合并)。
对于位置0图16示出了为位置0添加的一些边的、在图15中的词格。
扫描产生下面的非活动边元素(同/w(0,0))的E1((0,1),W→同.)元素(同学/n(0,1))的E2((0,2),n→同学.)并且计算在元素(同学/n(0,1))中包含的汉字的汉字个数和的汉字间拼法关系。
自顶向下预测对于在小语法中的每个规则试图产生活动边,但是此时,将检查预测信息和各种约束,以便禁止无效的活动边产生。
对于规则(b)MS r sfx→r+sfx,它期望第一POS是‘r’,但是当前的POS是‘w’或‘n’,因此所述规则不能产生活动边,对于规则(c)出于相同的原因而不能产生活动边。这种预测信息已经在语法处理部分中被计算出,并且通过语法应用部分而被加载到内存中以供解析使用。
对于规则(d)MR_AABB→W+W+W+W,它期望所述元素的汉字个数应当是4(‘HCRM’约束),但是在所述元素中的所述汉字个数不等于4,因此所述规则不引发活动边,对于规则(e)和(f)出于相同的原因也不引发活动边。
在这个步骤中,仅仅规则(a)通过所述检查,并且引发活动边E3((0,0),MS_n_sfx→.n+sfx)。
合并合并非活动边和活动边以在下面的条件下形成新边([i,j]A->α·Bβ)+([j,k]B->γ.)->([i,k]A->αB·β)如果β是空的,则新的边是非活动的边,否则它是活动边。
到目前为止,将组合E3+E2以产生新的活动边E4((0,2)MS_n_sfx→n+.sfx)。
对于位置1参见图17,示出了为给定位置1添加的一些边的在图16中的词格。
扫描产生非活动的边元素(学/w(1,1))的E5((1,2),W→学.)。
自顶向下预测无操作。
合并无操作。
对于位置2参见图18,示出了具有为给定位置2添加的一些边的在图17中的词格。
扫描产生两条非活动的边,它们分别是E6-1((2,3)sfx->们.)和E6-2((2,3)W->们.)。
自顶向下预测无操作。
合并E4((0,2)MS_n_sfx→n+.sfx)+E6-1((2,3)sfx->们.)=E7((0,3)MS_n_sfx→n+sfx.),它是非活动的边,并且MDW候选词被包含在这个非活动边中,所述系统将其置于候选词池中以进行进一步的过滤。
对于位置3参见图19,示出了具有为给定位置3添加的一些边的在图18中的词格。
扫描产生两条非活动的边,它们分别是E8-1((3,4)d->都.)和E8-2((3,4)W->都.)。
自顶向下预测无操作。
合并无操作。
对于位置4参见图20,示出了具有为给定位置4添加的一些边的在图19中的词格。
扫描产生两条非活动的边,它们分别是E9((4,5)W->高.)和E10((4,8)a->高高兴兴.),并且得出在词格中的词格元素(高高兴兴/a[4,7])中的拼法关系和所述词格元素的汉字个数,然后存储所述结果以供将来使用。
自顶向下预测产生活动边E11((4,4)MR_AABB->.W+W+W+W)。规则(e)不能产生活动边,这仅仅是因为它不满足‘OTH’条件。规则(f)不能产生活动边,这仅仅是因为它不满足‘HCRM’条件。其他规则不能产生活动边,这仅仅是因为它们不满足预测信息。
合并合并E9和E11以产生新活动边E12((4,5)MR_AABB->W+.W+W+W)。
对于位置5参见图21,示出了具有为给定位置5添加的一些边的在图20中的词格。
扫描为元素(高/W(5,5))产生一条非活动的边E13((5,6)W->高.)。
自顶向下预测无操作。
合并E12+E13->E14((4,6)MR_AABB->W+W+.W+W)。
对于位置6参见图22,示出了具有为给定位置6添加的一些边的在图21中的词格。
扫描为元素(兴/W[6,6])产生一条非活动的边E15((6,7)W->兴.)。
自顶向下预测无操作。
合并E14+E15->E16((4,7)MR_AABB->W+W+W+.W)。
对于位置7参见图23,示出了具有为给定位置7添加的一些边的在图22中的词格。
扫描为在词格中的元素(兴/W[7,7])产生一条非活动的边E17((7,8)W->兴.)。
自顶向下预测无操作。
合并E16+E17->E18((4,8)MR_AABB->W+W+W+W.),并且所述边是包含MDW候选词的非活动边,所述系统将所述候选词置于候选词池中以进行进一步的过滤检查。
对于位置8参见图24,示出了具有为给定位置8添加的一些边的在图23中的词格。
扫描为元素(地/d/W[8,8])产生两条非活动的边E19((8,9)W->地.)和E20((8,9)d->地.)。
自顶向下预测无操作。
合并无操作。
对于位置9参见图25,示出了具有为给定位置9添加的一些边的在图24中的词格。
扫描为元素(走/v/W[9,9])产生两条非活动的边E21((9,10)W->走.)和E22((9,10)v->走.)。
自顶向下预测对于规则(c),产生原始活动边E23((9,9)MVQ_v_vq→.v+vq),其他规则不满足预测信息检查。
合并E23+E22->E24((9,10)MVQ_v_vq→v+.vq)。
对于位置10参见图26,示出了具有为给定位置10添加的一些边的在图25中的词格。
扫描分别为元素(进/w[10,10])和(进去/vq[10,11])产生两条非活动的边E25((10,11)W->进.)和E26((10,12)vq->进去.)。同时,计算在元素(进去/vq[10,11])中的汉字的汉字个数和拼法关系。注意,‘12’是系统自动添加来表示句子的结尾的最后位置。
自顶向下预测无操作。
合并E24+E26->E27((9,12)MVQ_v_vq→v+vq.),并且它是一条非活动边,MDW候选词被包含在所述非活动边中,所述系统将其置于候选词池中以进行进一步的过滤检查。
对于位置11参见图27,示出了具有为给定位置11添加的一些边的在图26中的词格。
扫描为元素(去/W[11,11])产生一条非活动边E28((11,12)W->去.)。
自顶向下预测无操作。
合并无操作。
从这个示例,已经逐步地演示了解析处理,虽然语法是本发明定义的语法的一个子集,但是事实上,所述处理是类似的,并且以相同的方式来使用约束。
虽然在表解析处理中通过使用元素——每个对应于在句子中的一个字或一个可能的词——和使用关于POS的信息与关于元素在句子中的位置的信息来形成词格的情况中描述了上述的示例,但是本发明不应当被理解为限于本示例。本领域的技术人员根据本申请而能够实现本发明的其他方式应当落入本发明的范围和精神内。
3.9候选词过滤部分过滤器从候选词池获得候选词,并且根据汉语形态词构词语法而滤除无效的候选词。汉语形态词构词语法分配对于一些规则的HCSV约束。图12描述了滤除无效候选词和选择有效候选词的主要步骤。
它在步骤F.1中从要处理的候选词池获得一个候选词,然后它在步骤F.2将检查是否所述候选词包含任何非汉字字符,诸如数字、ASCII等。如果候选词有一些非汉字字符(具有图12中的标志“是”),则候选词被当作无效者,并且将被抛弃。流程再次进行到步骤F.1,直到所述池变空。
如果候选词没有任何非汉字字符(具有图12中的标志“否”),则过滤器将在步骤F.3检查候选词的长度是否有效;所述约束在表3中被描述为‘HCSV’的类型。如果所述长度是无效的(具有图12中的标志“否”),则候选词将被抛弃,并且流程将再次进行到步骤F.1,直到所述池变空。
如果候选词的长度是有效的,具有图12中的标志“是”,则过滤器在步骤F.4将检查所述句子是否是切分的句子。如果句子是未被切分的(具有图12中的标志“否”),则它将被看作有效者,并且将在图12中的步骤F.7被置于结果池中。
如果所述句子是被切分的(具有图12中的标志“是”),则过滤器将在步骤F.5检查候选词的边界是否对应于所述句子的切分边界。如果所述边界是无效的(具有图12中的标志“否”),则所述候选词将被抛弃,并且流程将再次进行到步骤F.1,直到所述池变空。如果边界有效,则过滤器将在图12中的步骤F.6从同一位置获得最长的候选词。有可能存在来自在所述句子中的同一位置的具有不同长度的几个候选词,所述最长的候选词被认为是有效的,并且将抛弃其他的候选词。
在上述的步骤F.1、F.2、F.3、F.4、F.5和F.6后,将获得候选词结果,并且将执行步骤F.7。所述步骤用于将被认为是有效的候选词置于结果池中。
3.10POS分配部分这个部分按照每个MDW的类型而向每个MDW分配POS;图13描述了这个部分的主要步骤。
它在步骤G.1从结果池获得每个有效的候选词,并且在步骤G.2检查是否它是动词派生的MDW(趋向动词派生词、结果动词派生词、离合词派生词)。如果是,则POS分配部分将在步骤G.3向其分配动词词性。
如果所述MDW不是动词派生的MDW(具有图13中的标志“否”),则它在步骤G.4将检查是否所述MDW是附加派生的MDW。如果是,则它在步骤G.5按照附加信息而分配构造POS。在GKB中汇总了附加的构造POS。
如果所述MDW不是附加派生的(具有图13中的标志“否”),则仅仅剩下重叠和合并的MDW。POS分配部分将在步骤G.6检查是否所述句子被标注有POS。如果在步骤G.7所述句子被标注有词性了(具有图13中的标志“是”),则将从所述句子获得MDW的POS。
如果所述句子未被标注POS(具有图13中的标志“否”),则它在步骤G.8将检查是否在词库中查找MDW中成功。如果在步骤G.9中可以在词库中找到MDW,则向所述MDW分配从词库获得的POS。
如果在步骤G.10中还未从词库中找到所述MDW,则对于重叠MDW,其POS被分配为其词干的POS,对于合并MDW,其POS也被分配作为其词干的POS。例如,对于重叠MDW“高高兴兴”,其POS被分配为其词干“高兴”的POS,对于合并MDW“国内外”,其POS被分配为其词干“国内”和“国外”的POS。
当一个MDW已经被处理时,该部分将获得另一个MDW直到候选词池为空。
3.11输出部分这个部分向外部设备输出来自结果池的MDW以进行人工检查。MDW包含四个以逗号分离的信息字段字段1词的拼法字段2MDW的POS字段3MDW的模式字段4MDW的构造模式字段3表示MDW构造的类型。它们是在图2中所述的模式之一。MDW的构造模式表示形成MDW的模式的汉字(汉语字符)个数序列。例如,MDW“蹦起来”具有“12”模式,它表示使用蹦(1)和起来(2)来构造MDW。而且,用户可以选择性地按照他的要求而输出上述四个字段的至少一个。
3.12人工检查部分从文本提取MDW有时预先需要人工检查,这是因为从文本获得的在3.11中所述的MDW的信息不可能对于每个域都是正确的。将对于MDW进行修改或删除。在被检查后,向形态词库添加该MDW。如果形态分析器用于从输入的文本动态地识别MDW,这个步骤将被省略,并且所述MDW候选词将用于以后的阶段,诸如句子分析。
而且,从文本识别和提取MDW的部件可以具有元素信息添加部件,用于向每个元素添加每个词的词性信息和其在句子中的位置的信息,所述部件在附图中未示出。并且,表解析部分(A.11)可以具有拼法计算部件,用于计算基于词的词格的汉字的拼法关系,所述部件在附图中未示出。
4.从GKB提取MDW的部件在GKB中已经汇总了丰富的形态信息。这个部件从GKB提取MDW。图13描述了这个部件的流程图。
GKB按照词的类别而具有许多子数据库。所述部件从名词、动词、形容词、副词、量词和数词的子数据库提取MDW。
在步骤H.1中,所述部件向内存中加载副词的子数据库,并且从其提取MDW,然后将MDW置于形态词库(H.7)中。
在步骤H.2中,所述部件向内存中加载形容词的子数据库,并且从其提取MDW,然后在步骤H.7中将MDW置于形态词库中。
在步骤H.3中,所述部件向内存中加载量词的子数据库,并且从其提取MDW,然后在步骤H.7中将MDW置于形态词库中。
在步骤H.4中,所述部件向内存中加载动词的子数据库,并且从其提取MDW,然后在步骤H.7中将MDW置于形态词库中。
在步骤H.5中,所述部件向内存中加载数词的子数据库,并且从其提取MDW,然后在步骤H.7中将MDW置于形态词库中。
在步骤H.6中,所述部件向内存中加载名词的子数据库,并且从其提取MDW,然后在步骤H.7中将MDW置于形态词库中。
事实上,本发明可以从诸如GKB之类的词库源提取MDW。只有所述词库源支持形态信息,才以这种方式收集形态词库。即使这样的词库源不存在,则MDW分析器可以动态地从文本识别和提取所有的MDW,并且向形态词库中存储它们。
所述优选实施例给出了从文本和诸如GKB之类的词库源提取MDW,形态分析器可以动态地从输入的文本识别MDW。人工检查步骤是在提取MDW和识别MDW之间的差别,在动态识别期间,将省略所述检查,并且MDW候选词将用于以后的阶段,诸如句子分析。
如上所述,本发明可以从三种文本识别和提取MDW,并且所述文本可以是已切分和标注有词性的文本,或者仅仅是已切分文本,或该文本是原始文本而没有明确的词边界和POS信息。而且,本发明可以从诸如GKB之类的词库源提取MDW。
如上所述,本发明使用表解析算法来从三种文本识别和提取MDW。具有由本发明提出的基于词和基于汉字(汉语字符)的规则的汉语形态词构词语法被设计来从文本识别和提取MDW。一些类型的限制条件在解析期间被分配到汉语形态词构词语法以禁止一些无效的候选词的产生,并且一些类型的限制条件用于在解析后过滤掉无效的候选词。并且使用扩充词格的表解析用于汉语形态分析。
如上所述,使用由本发明获得的丰富句法类别、形态模式或构造模式来表示MDW。按照本发明的形态分析器可以从文本提取MDW,并且将它们存储在形态词库中。形态分析器也可以通过应用一组形态词构词规则来在运行时动态地建立MDW。可以通过形态分析器在统一的框架下一次完成所有六种MDW的提取和识别。
虽然基于汉语而提供了上述的说明性示例和描述,应当明白,本领域的技术人员可以基于本公开而将本发明容易地应用到具有形态词构词语法的任何其他语言,诸如汉语、日语、韩语等。
虽然已经结合特定的实施例而描述了本发明,但是显然,本领域的普通技术人员可以根据上述说明而进行许多替代、修改、交换和改变,因此,本发明意欲涵盖落入权利要求
的范围内的这样的替代、修改和改变。例如,使用具有自顶向下和深度优先策略的表解析算法的本发明支持其他解析策略,诸如自底向上(bottom-up)、广度优先(breadth-first)和混合(hybrid)策略。
产业上的应用本发明以中国或其他国家中的电信运营商的增值市场为目标。作为在中文NLP中的前提,它可以被集成到其他中文NLP应用中,诸如万维网搜索引擎、文本到语言合成、自然口语对话等。从这个角度,本发明应当对于MIND池、DATALEDGE池、3D Avatars有意义,并且应当是法国电信集团实现变为在全球市场上的综合通信公司的目标的关键部件。
权利要求
1.一种通过计算机根据预定义的形态词构词语法从文本识别和提取所述语言的形态词(MDW)的方法,所述方法包括步骤加载形态词构词语法的计算机可读规则;输入文本,并且按照所述语言的标点符号来从输入文本中获得句子;形成每个句子的词格,所述词格包括至少一个元素,每个元素对应于句中一个字或一个可能的词;通过使用与所加载的形态词构词语法规则相结合的表解析算法来解析每个句子的词格以从词格的一个或多个元素中获得MDW候选词;以及输出所获得的MDW候选词。
2.按照权利要求
1的方法,其中,通过将预定义的形态词构词语法编码为数字化语法知识库而形成所述形态词构词语法的计算机可读规则,并且所述数字化语法知识库被加载到计算机的内存中。
3.按照权利要求
1的方法,其中,在词格形成步骤中,使用词库来从句子获得词,所述词库包括基本词库和基本词库外加形态词库之一。
4.按照权利要求
3的方法,其中,所述语言是具有形态词构词语法的汉语、日语、韩语和其他语言之一,在汉语的情况下,所述基本词库包括直接基于GKB的规范的现代汉语语法信息词典(GKB)。
5.按照权利要求
1的方法,还包括步骤过滤每个所获得的MDW候选词,并且如果所获得的MDW候选词按照形态词构词语法被检查为无效的MDW候选词,则除去它,其中,对于每个句子的词格一次执行所述解析。
6.按照权利要求
1的方法,还包括步骤按照形态词构词语法向每个MDW候选词分配词性,并且输出步骤中以“词的拼法、MDW的词性、MDW的模式或MDW的构造模式”的形式输出所获得的MDW候选词信息。
7.按照权利要求
1的方法,其中,所述语言是汉语,并且所述形成步骤还包括将所述句子切分为单个汉字以形成在词格中的基于汉字的元素,其中,汉字是汉语字符;以及通过向每个基于词的元素添加该词的词性信息和该词在句子中的位置信息而获得基于词的元素,其中所述获得步骤还包括检查所述句子是否未切分、仅仅被切分、或已切分且标注有词性;如果所述句子是未切分的,则从词库中获得词以及该词词性信息;如果所述句子已切分但是未标注词性,则从词库获得每个词的词性;以及如果所述句子已切分且标注有词性,则从句子中获得每个词的词性。
8.按照权利要求
7的方法,其中,所述解析步骤还包括扫描每个元素,并且产生非活动的边,其中,计算和存储基于词的元素的汉字的拼法关系;对于汉语形态词构词语法中每条数字化规则,当该规则满足所有必需的预定义的限制条件时,添加一条跨越词格中元素的原始活动边;当活动边和非活动边满足合并条件和预定义的限制条件时,合并所述活动边和非活动边以产生MDW候选词,以及其中,所述预定义的限制条件包括形态词构词语法中预定义的MDW中的汉字个数限制,汉字拼法关系限制和汉字成词限制。
9.按照权利要求
8的方法,其中,所述过滤步骤还包括如果检查到MDW候选词包含任何非汉字的字符,则丢弃所述MDW候选词;如果按照汉语形态词构词语法中包含的限制而检查到MDW候选词的汉字个数是无效的,则丢弃所述MDW候选词;以及如果输入文本被切分,则如果检查到MDW候选词的边界与被切分的文本中的切分边界不对应,则丢弃所述MDW候选词。
10.按照权利要求
6的方法,其中,所述语言是汉语,并且所述词性分配步骤还包括以下步骤如果检查到MDW候选词是趋向派生动词、结果派生动词和离合动词之一,则向所述MDW候选词分配动词词性;如果检查到所述MDW候选词是附加派生的MDW候选词,则向该MDW候选词分配构造词性;如果检查到文本标注有词性,则从所述文本获得词性;以及如果文本未标注词性,则通过在词库中查找而获得MDW候选词的词性。
11.按照权利要求
10的方法,其中,预定义的形态词构词语法包括自然汉语的规则及其限制,其中,所述规则有附加派生规则、趋向动词派生规则、结果动词派生规则或离合词派生规则,这些规则是基于词的规则与用于表示重叠派生或合并派生的基于汉字的规则;其中,基于词的派生规则包括下面四种规则的一种或多种第一种是附加派生规则,包括如果在所述词格中的一个元素是前缀,并且其后随词性为名词、数词、动词、形容词、处所词和区别词之一的在所述词格中的一个元素,则在所述词格中的这两个元素产生一个附加派生的MDW;如果词性为名词、代词、量词、动词、形容词、副词、方位词、数词、区别词和时间词之一的在所述词格中的一个元素,并且其后随元素是后缀的在所述词格中的一个元素,则在所述词格中的这两个元素产生一个附加派生的MDW;如果在所述词格中的一个元素是前缀,并且其后随词性为名词的在所述词格中的一个元素、并且随后后随作为后缀的在所述词格中的一个元素,则在所述词格中的这三个元素产生一个附加派生的MDW;如果词性为名词的在所述词格中的一个元素,并且其后随在所述词格中的连续两个元素都是后缀,则在所述词格中的这三个元素产生一个附加派生的MDW;第二种是趋向动词派生规则,包括如果词性为动词的在所述词格中的一个元素,并且其后随词性为方向动词的在所述词格中的一个元素,则在所述词格中的这两个元素产生动词派生的MDW;如果词性为动词的在所述词格中的一个元素,并且其后随词性为dbzh的在所述词格中的一个元素、然后后随词性为方向动词的在所述词格中的一个元素,则在所述词格中的这三个元素产生一个趋向动词派生的MDW;第三种是离合动词派生规则,包括如果词性为动词的在所述词格中的一个元素,并且其后随词性为zhlg的在所述词格中的一个元素、然后后随词性为名词的在所述词格中的一个元素,则在所述词格中的这三个元素产生一个离合动词派生的MDW;如果词性为动词的在所述词格中的一个元素,并且其后随词性为量词的在所述词格中的一个元素、然后后随词性为名词的在所述词格中的一个元素,则在所述词格中的这三个元素产生一个离合动词派生的MDW;如果词性为动词的在所述词格中的一个元素,并且其后随连续的三个词性分别为zhlg,量词和名词的在所述词格中的连续三个元素,则在所述词格中的这四个元素产生一个离合动词派生的MDW;如果词性为动词的在所述词格中的一个元素,并且其后随连续的三个词性分别为dbzh,zhlg和名词的在所述词格中的连续三个元素,则在所述词格中的这四个元素产生一个离合动词派生的MDW;第四种是结果动词派生规则,包括如果词性为结果动词的在所述词格中的一个元素,并且其后随词性为vjh的在所述词格中的一个元素,则在所述词格中的这两个元素产生一个结果动词派生的MDW;如果词性为结果动词的在所述词格中的一个元素,并且其后随词性为dbzh的在所述词格中的一个元素、然后后随词性为vjh的在所述词格中的一个元素,则在所述词格中的这三个元素产生一个结果动词派生的MDW;如果词性为结果动词的在所述词格中的一个元素,并且其后随词性为dbzh的在所述词格中的一个元素、然后后随词性为zhlg的在所述词格中的一个元素,则在所述词格中的这三个元素产生一个结果动词派生的MDW;如果词性为结果动词的在所述词格中的一个元素,并且其后随词性为dbzh的在所述词格中的一个元素、然后后随词性为dbzh的在所述词格中的一个元素,则在所述词格中的这三个元素产生一个结果动词派生的MDW;其中,基于汉字的规则包括下面两种规则的至少之一,第一种是重叠派生规则,包括如果在所述词格中的两个连续元素都词性为W、并且在所述词格中的所述两个元素彼此相同,则在所述词格中的这两个元素产生一个重叠派生的MDW;如果在所述词格中的三个连续元素都词性为W、并且在所述词格中的所述三个元素之二彼此相同但是与另外一个不同,则在所述词格中的这三个元素产生一个重叠派生的MDW;如果在所述词格中的四个连续元素都词性为W、并且在所述词格中的所述四个元素的前两个彼此相同并且与其他两个不同、或者在所述词格中所述四个元素的第一个和第三个彼此相同并且与其他两个不同,或者在所述词格中所述四个元素的第一个和第四个彼此相同并且与其他两个不同,则在所述词格中的这四个元素产生一个重叠派生的MDW;第二种是合并派生规则,包括如果在所述词格中的三个连续元素都词性为W、并且在所述词格中的所述三个元素的第一个和第二个构成一个基本词并且在所述词格中的三个元素的第一个和第三个构成一个基本词、或者在所述词格中的所述三个元素的第一个和第二个构成一个基本词并且在所述词格中的三个元素的第二个和第三个构成一个基本词,并且所述基本词可以在基本词库中找到,则在所述词格中的这三个元素产生一个合并派生的MDW,以及其中,所述限制包括OTH、FBW、HCRM和HCSV的一个或多个,其中,OTH限制规定两个汉字的拼法相同或不同,OTH限制被定义用于重叠MDW的识别和提取;FBW限制规定两个汉字形成一个在基本词库中找到的基本词,FBW限制被定义用于合并MDW的识别和提取;HCRM限制规定基于词的元素的汉字个数应等于形态词构词规则中定义的汉字个数,HCRM限制被定义用于重叠MDW的识别和提取;而HCSV限制规定一个MDW候选词的汉字个数应当等于形态词构词规则中定义的汉字个数,HSCV限制被定义用于离合MDW候选词的过滤。
12.按照权利要求
11的方法,其中,OTH限制使用‘=’来表示所述两个汉字应当相同,使用‘!’来表示所述两个汉字应当不同,在试图获得元素的模式之前检查HCRM限制;如果基于词的元素的汉字个数不等于预定义模式的汉字个数,则排除所述模式而不进一步解析所述元素。
13.一种装置,用于根据语言的预定义的形态词构词语法来从文本识别和提取所述语言的形态词(MDW),所述装置包括加载单元,用于加载形态词构词语法的计算机可读规则;输入单元,用于输入文本;切分单元,用于按照语言的标点符号而将所输入的文本切分为句子;词格形成单元,用于形成每个句子的词格,所述词格包括至少一个元素,每个元素对应于在句子中一个字或一个可能的词;解析单元,通过使用与所加载的形态词构词语法规则相结合的表解析算法来解析每个句子的词格以从词格的一个或多个元素中获得MDW候选词;以及,输出单元,用于输出所获得的MDW候选词。
14.按照权利要求
13的装置,还包括数字化语法处理单元,用于将预定义的形态词构词语法编码为数字化语法知识库,以提供所述形态词构词语法的计算机可读规则,并且在计算机的内存中加载数字化语法知识库。
15.按照权利要求
14的装置,还包括词库提供单元,用于提供从句子获得词的词库,所述词库包括基本词库和基本词库外加形态词库之一。
16.按照权利要求
15的装置,其中,所述语言是具有形态词构词语法的汉语、日语、韩语和其他语言之一,在汉语的情况下,所述基本词库包括现代汉语语法信息词典(GKB)。
17.按照权利要求
13的装置,其中,所述装置还包括过滤单元,用于过滤每个所获得的MDW候选词,并且如果按照形态词构词语法检查到所获得的MDW候选词为无效者则除去它,其中,对于每个句子的词格一次执行所述解析。
18.按照权利要求
13的装置,其中,所述装置还包括词性分配单元,用于按照形态词构词语法向每个MDW候选词分配词性,并且输出单元以“词的拼法、MDW的词性、MDW的模式或MDW的构造模式”的形式输出所获得的MDW候选词信息。
19.按照权利要求
13的装置,其中,所述语言是汉语,并且所述装置还包括元素信息添加单元,用于向每个元素添加每个词的词性信息和该词在句子中的位置信息,并且所述词格形成单元执行下述处理将所述句子切分为单个汉字以形成在词格中基于汉字的元素,其中,汉字是汉语字符;检查所述句子是否未切分、仅仅被切分或已切分并且标注有词性;如果所述句子未切分,则从词库获得词以及该词的词性;如果所述句子已切分但是未标注词性,则从词库获得词的词性;以及如果所述句子已切分且标注有词性,则从句子获得每个词的词性。
20.按照权利要求
19的装置,其中,所述解析单元还包括拼法计算单元,用于计算基于词的元素的汉字的拼法关系;其中,所述解析单元扫描每个元素,并且产生非活动的边;对于汉语形态词构词语法中每条数字化规则,当该规则满足所有必需的预定义的限制条件时,添加一条跨越词格中元素的原始活动边;当活动边和非活动边满足合并条件和预定义的限制条件时,合并所述活动边和非活动边以产生MDW候选词,以及其中,所述预定义的限制条件包括形态词构词语法中预定义的MDW中的汉字个数限制,汉字拼法关系限制和汉字成词限制。
专利摘要
本发明提供了一种自然语言形态分析器和一种通过计算机根据形态词构词语法从文本中识别和提取所述语言的形态词(MDW)的方法,所述方法包括以下步骤加载形态词构词语法的计算机可读规则;输入文本,并且按照该语言的标点符号来从输入文本获得句子;形成每个句子的词格,所述词格包括至少一个元素,每个元素对应于句子中一个字或一个可能的词;通过使用与所加载的形态词构词语法规则相结合的表解析算法来解析每个句子的词格以从词格的一个或多个元素中获得MDW候选词;以及输出所获得的MDW候选词。本发明可以有效且高效地从文本识别和提取MDW,并且迅速获得MDW的句法、语义和形态模式信息。
文档编号G06F17/27GK1991819SQ200510135590
公开日2007年7月4日 申请日期2005年12月30日
发明者毛新年, 李珩, 董远 申请人:北京法国电信研发中心有限公司导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1