汉语基本名词短语的识别及其规则的生成方法和装置的制作方法

文档序号:6574674阅读:253来源:国知局
专利名称:汉语基本名词短语的识别及其规则的生成方法和装置的制作方法
技术领域
本发明涉及信息处理技术,具体地,涉及汉语基本名词短语的识别规 则的生成方法和装置以及基于所生成的识别规则的汉语基本名词短语的识 别方法和系统,背景技术利用计算机处理自然语言一直是计算机科学技术领域的一个重要研究 方向。在对自然语言的处理过程中,能否准确地识别出自然语言句子中的 名词短语对于获得整个句子的正确理解来说是至关重要的。依照认知科学 的观点,必须首先识别、学习和理解文本中的实体或者概念,才能4艮好地 理解自然语言文本,而这些实体和概念大都是由文本句子中的名词短语所 描述的.因此,掌握文本中的名词短语,是把握文本所要表达的主要意思 的首要任务.此外,在名词短语中,还存在着基本名词短语的概念,其是首先在英文中提出的,即Base Noun Phrase (BaseNP) 。 BaseNP在英文中定义为 "简单的非嵌套的名词短语",即一个BaseNP内部不能再包含有更小的 名词短语。汉语中的基本名词短语与英语中相似,也是由基本的词单元组 成而不包含其它的名词短语。但是,汉语的基本名词短语与英语中所指的 又并不完全相同,如"信息检索理论"、"企业承包合同"和"出口商品 价格指数"等汉语基本名词短语,并不完全满足上述定义,但它们却是汉 语中重要的基本名词短语。根据汉语的特点,其基本名词短语的构成大致 包括"BaseNP+BaseNP" 、 "BaseNP+名词"、"限定性定语+BaseNP"和"限定性定语+名词"等形式。当然,还包括专用词汇,很多专用词汇本 身就是以短语的形式存在的。由于基本名词短语在自然语言中的重要地位,使得基本名词短语的识 别技术也成为自然语言处理领域中的一个重要研究方向。基本名词短语识 别的主要任务是根据上下文环境正确识别出基本名词短语的左右边界。基本名词短语的识别才支术可以广泛地应用到机器翻译(Machine Translation)、信息检索(Information Retrieve)、文本分类(Text Classification)、文摘(Abstraction)、主题内容分析和文本处理等面向 用户的应用系统中。由于对于基本名词短语的识别直接关系到文本分析和 文本处理的正确性,所以改U本名词短语的识别技术对于提高这些应用 系统的性能有较大的现实意义。目前,在汉语基本名词短语的识别中,主要采用有指导的统计学习方 法。其基本思想是利用训练语料中的信息作为先验概率,来对识别语料的 标注概率作估计。由于统计学习方法与具体语言之间的相对独立性,使得 其成为当前比较受关注的方法。但是,统计学习方法通常建立一个被数值 描述的数学模型,由于这个数学模型不能被人直观地理解,所以通常不能 被进一步地修改和扩充。从而,在统计学习方法中,存在着由于不能针对 于自然语言中的特殊问题来修改现有的数学模型、因而不能克服广泛存在 于自然语言之中的稀疏问题的现象。同时,如果采用统计学习方法,则所 建立的数学模型的尺寸通常会比较大,从而将会占用系统中比较大的内存 空间,同时将会降低系统识别汉语基本名词短语的速度。因此,需要设计出一种新的汉语基本名词短语的识别规则的生成技术 以及基于所生成的识别规则的汉语基本名词短语的识别技术,以解决这些 问题,发明内容本发明正是鉴于上述现有技术中的问题提出的,其目的在于提供一种 汉语基本名词短语的识别规则的生成方法和装置以及基于所生成的识别规则的汉语基本名词短语的识别方法和系统,以便能够生成可被进一步修改和扩充的汉语JM^名词短语的识别规则,并进而利用这些识别规则来实现 对汉语基本名词短语的识别,同时能够进一步节约系统资源并提高识别速 度。根据本发明的一个方面,提供一种汉语基本名词短语的识别规则的生成方法,包括根据汉语训练语料创建关于汉语基本名词短语的语言信息 表;以及利用粗集理论对上述语言信息表进行处理,以生成汉语基本名词 短语的识别规则集。根据本发明的另 一个方面,提供一种汉语基本名词短语的识别方法, 包括对待识别的汉语句子进行分词及词性标注;利用有限自动机对上述 待识别的汉语句子进行汉语基本名词短语的识别,以获得汉语基本名词短 语识别结果候选;以及利用上述的汉语基本名词短语的识别规则的生成方 法所生成的汉语S^名词短语的识别规则集对上述汉语基本名词短语识别 结果候选进行校验。根据本发明的另一个方面,提供一种汉语基本名词短语的识别规则的 生成装置,包括语言信息表创建单元,用于根据汉语训练语料创建关于 汉语基本名词短语的语言信息表;以及识别规则生成单元,用于利用粗集 理论对上述语言信息表进行处理,以生成汉语基本名词短语的识别规则集。根据本发明的另一个方面,提供一种汉语基本名词短语的识别系统, 包括分词及词性标注单元,用于将待识别的汉语句子分词为各汉语基本 词,并为所分出的各汉语基本词标注词性;有限自动机单元,用于对上述 待识别的汉语句子进行汉语基本名词短语的识别,以获得汉语基本名词短 语识别结果候选;上述的汉语基本名词短语的识别规则的生成装置,用于 生成汉语基本名词短语的识别规则集;以及识别结果校验单元,用于利用 上述汉语基本名词短语的识别规则的生成装置所生成的汉语基本名词短语 的识别规则臬对上述汉语基本名词短语识别结果候选进行校验。


相信通过以下结合附图对本发明具体实施方式
的说明,能够使人们更 好地了解本发明上述的特点、优点和目的。图1是根据本发明实施例的汉语基本名词短语的识别规则的生成方法的流程图;图2是困1的方法中利用粗集理论生成汉语基本名词短语的识别规则 的过程的示意图;图3是困1的方法中对利用粗集理论生成的汉语基本名词短语的识别规则进一步处理的过程的示意图;图4是根据本发明实施例的汉语基本名词短语的识别方法的流程图; 图5是困4的方法中利用有限自动机识别汉语基本名词短语的过程的示意图;图6是图4的方法中利用祁^据图1的方法所生成的识别规则对汉语基 本名词短语候逸进行校验的过程的示意图;图7是根据本发明实施例的汉语基本名词短语的识别系统的方框图;以及图8根据本发明实施例的汉语基本名词短语的识别规则的生成装置的 方框图.具体实施方式
在现有的自然语言处理领域中,利用规则的方法U本名词短语的识 别中经常采用的方法。因为语言一般可认为;U現则性较强的学科,虽然规 则之间、规则本身有其复杂性和特殊性,但大多数的语言本身还都是符合 规则的.利用规则识别基本名词短语的方法的基本思想就是将人类用于识 别基本名词短语的语言学知识编写成若千条规则,利用这些规则对待识别 文本中的基本名词短语进行自动识别.规则的获取过程一般是这样的首 先从已经标注有基本名词短语信息的训练语料中得到组成基本名词短语的 词性组合,然后去掉某一指标小于设定阈值的词性组合,而将最后剩余的 词性组合作为规则。规则的生成直接影响到识别结果的精确度.本发明的目的就在于利用粗集理论从训练语料中抽取出能够被进一步 修改和扩充的汉语基本名词短语的识别规则,并基于所生成的这些识别规 则来实现汉语基本名词短语的识别,下面就结合附图对本发明的各个优选实施例进行详细的说明。首先,描迷本发明的汉语基本名词短语的识别规则的生成方法。图1是根据本发明实施例的汉语基本名词短语的识别规则的生成方法的流程图。如图1所示,首先,在步骤105,输入汉语训练语料。具体地, 在本步骤中,输入满足汉语语法规范的汉语训练语料,这些汉语训练语料 可以来源于专门的训练语料库,也可以是由用户选定的。在本实施例中,为了确保所生成的识别规则的准确性,在该供学习用 的汉语训练语^输入之前,其中的句子应已被分词为各汉语基本词,且 被分词出的各汉语基本词已被标注了词性,并且该汉语训练语料中由两个 或两个以上的汉语基本名词构成的汉语基本名词短语应已祐人工正确识别 并标记了出来。其中,所标注的词性应是^l据国家相关标准进行划定的, 并且,只要所采用的划分标准前后始终一致,就不会影响本发明的汉语基 本名词短语的识别规則的生成,也不会影响到本发明的汉语基本名词短语 的识别的准确度。图2是利用图1的方法生成汉语基本名词短语的识别规则的过程的示 意图。参照围2,其上部所示出的信息片断即是在步骤105中所输入的汉 语训练语料的一部分的示例,可以看出,在该汉语训练语料被输入之前, 其中的句子已被进行了分词及词性标注,且其中的汉语基本名词短语"(税 ^t/NN财务/NN物价/NN)"、"(美/NR朝/NR) " 、 " (^Jl/NN)"、 "(公司/NN)"和"(微lt/NR公司/NN)"等也已被正确地识别并标记 了出来。其中,在图2所示的汉语训练语料中,各汉语基本词后的"/"后 的大写英文字母组合NR、 NN等即是该汉语基本词的词性标注,其采用标 准的词性表示,其中NN表示名词,NR表示专有名词等等。接着,在步骤110,从上述汉语训练语料中抽取出正确的汉语基本名 词短语及其相关上下文信息.具体地,在本步骤中,首先,从该汉语训练语料中抽取出已;fcE确识别并标记出的各汉语基本名词短语;然后,为所 抽取出的各汉语基本名词短语从上述汉语训练语料中左右各抽取出 一个相 邻的汉语基本词及其相应的词性标注,作为该汉语基本名词短语的相关上 下文信息。其中,所抽取出的各汉语基本名词短语中包括构成该汉语基本 名词短语的各汉语基本名词及其相应的词性标注。以困2所示的汉语训练语料为例,在其被输入的情况下,在步骤110语"(税^NN财务/NN物价/NN)"、"(美/NR朝/NR) " 、 " (M /NN)"、"(公司/NN),,和"(微^/NR公司/NN)"等以及各汉语基 本名词短语的相关上下文"......的/DEG"、"大/JJ......"、"......欢迎/VV"、"取得/W...…"、"跨国/JJ"、"就/AD"等,返回到困1,在步骤115,确定所抽取出的各汉语基本名词短语的类别, 在本步碟中,类别的划分主要是根据构成汉语基本名词短语的各汉语基本 名词之间的组合关系来进行的。即例如根据构成汉语基本名词短语的各汉 语基本名词之间的并列关系、限定关系的不同,而将各汉语基本名词短语 划分到不同的类别中。其中,各类别的标识可由用户来选定,也可简单地 采用1、 2、 3等来表示,例如,以闺2中所示的三个汉语基本名词构成的汉语基本名词短语为 例,可存在三种类别三个汉语基本名词并列组合而成的汉语基本名词短 语属于一个类别,即图中的类别1;前两个汉语基本名词组合作为对后一 个汉语基本名词的限定的汉语基本名词短语属于一个类别,即图中的类别 2;前一个汉语基本名词作为对后两个汉语基本名词并列组合的限定的汉语 基本名词短语属于一个类别,即困中的类别3。接着,在步骤120,根据在上面的步骤105-115中所获得的信息来创建 语言信息表,即根据上述所抽取出的各汉语基本名词短语及其相关上下文 信息、类别等来创建语言信息表。具体地,在本实施例中,在该语言信息 表中,对于所抽取出的各汉语基本名词短语均设定一个条目,并在该条目 中,将构成该汉语基本名词短语的各汉语基本名词及其词性、该汉语基本名词短语的类别、作为该汉语基本名词短语的上下文的汉语基本词及其词 性等信息相关联进行记录。此外,在各条目中,对于各汉语基本词的记录 是按其在上述汉语训练语料的句子中出现的顺序来进行的,且对于各汉语 基本词,紧邻其后记录其词性。仍以图2为例,其中间部分即示出了一个根据本实施例的语言信息表 的示例,该语言信息表是根据该困上部的信息片断而创建的。在该语言信 息表中,对于所抽取出的各汉语基本名词短语,在其相应的条目中均按出 现在上述信息片段中的先后顺序记录有作为该汉语基本名词短语的左右上 下文的汉语基本词(分别以WL、 WR表示)及其词性(分别以PL、 PR 表示)、构成该汉语基本名词短语的各汉语基本名词(分别以W1、 W2、 W3......表示)及其词性(分别以P1、 P2、 P3......表示),其中"Class"表示该汉语基本名词短语的类别。需要说明的是,困2中的示例语言信息表仅是为了说明而示意性地呈 现的,而并非意味着要对本发明进行限制,只要能够达到本发明的目的, 可采用任何的形式来呈现有关所抽取出的汉语基本名词短语及其相关上下 文的信息,而并非一定是上述的语言信息表的形式。返回到困1,在步骤125,利用粗集理论中的属性约减和规则生成理论 对上述语言信息表进行处理,以生成汉语基本名词短语的识别规则集。在 本实施例中,上述识别规则集中的各识别规则采用IF-THEN的形式,此 外,在本实施例中,在生成识别规则集的同时,还要记录所生成的各识别 规则在上述语言信息表中的匹配程度,即该识别规则在该语言信息表中的 命中次数。需要说明的是,粗集理论是本领域中的公知技术,其不仅可以用于对 特征项进行加权,还能同时进行约简,剔除文档向量中的冗余信息。粗集 方法的最大优点是不需要附加信息或先验知识,这一点是其他方法无法做 到的,如模糊集方法与概率统计或证据理论方法中,往往需要模糊隶属函 数、基本概率指派函数(Basic Probability Assignment, BPA)和有关统计概率分布等,而这些信息有时并不容易得到。粗集以其独到的方法能有效地处理许多涉及不确定性的问题,这些问题包括 (1)不确定或不精确知识的表达 (2 )经验学习并从经验中获取知识 (3)不一致信息的分析 U)根据不确定、不完整的知识进行推理(5) 在保留信息的前提下进行约简(6) 近似决策分类(7) 识别并评估数据之间的依赖关系本领域的技术人员可以利用各种具体的实现方式根据粗集理论来实现 步骤125,只要能够实现本发明的目的即可。仍以图2为例,其下部所示出的即为利用粗集理论所得到的识别规则 集的示例。其中,"(Pl=NR)AND(W3=M)->(Class=2)"、 "(P1-JJ) AND (\¥1=/>司)=> (Class=3 )"和"(W3-物价)=> (Class-l)等分 别是利用粗集理论对困2的中间部分所示的语言信息表进行处理而得到的 识别规则,其中,在该识别规则集中,与各识别规则对应的"support"表 示该识别规则在上述语言信息表中的匹配程度,即该识别规则在上述语言信息表中的命中次数.再次返回到图l,在步骤130,对上述识别规则集进行过滤。具体地, 在本步骤中,删除该识别规则集中匹配程度低于预定值的识别规則。在本 实施例中,将上述预定值设定为2,即认为匹配程度低于2的识别规则是 噪声,从而将这些识别规则从该识别规则集中删除。但在其他实施例中, 也可采用其他的方法来对识别规则集中的识别规则进行过滤。此外,由于识别规则的匹配程度越高,就表示该识别规则的普遍性越 高,从而表明划分的精度越松险,而识别规则的匹配程度越低,表示该识 别规则的普遍性越低,从而表明划分的精度也越细。因而,考虑到这样的 亊实,在预定值的选取时,还需要注意适当的选取范围,而不能使其过大 或过小。图3是图1的方法中对利用粗集理论生成的汉语基本名词短语的识别规则集进一步处理的过程的示意图。参照图3,其上部所示出的是利用粗 集理论根据汉语训练语料所生成的识别规则集的示例。在此情况下,如果 将上述预定值设定为2,而对该识别规则集进行过滤,则其中匹配程度Support低于2的识别规则(W3-物价)-> (Class=l)将会被删除,而匹配程度Support不低于2的识别规则"(P1=NR) AND (W3-^S炎)=> (Class=2) " 、 " (Pl-JJ) AND (\¥1=^司)=> (Class=3)"被保留, 从而得到图3的中间部分所示的过滤后的识别规则集。接着,返回到困l,在步稞135,对上述识别规则集进行修改和扩充。 就步骤125或130所生成的识别规则集而言,其所涵盖的识别范围一般都 是有限的,因为所采用的汉语训练语料不可能涵盖所有汉语基本名词短语。 但是,汉语的特点却是语义丰富,同义词普遍。因此,为了提高利用本实 施例所生成的识别规则集的适用普遍性及权威性,需要对该识别规则集进 行修改和扩充。具体地,在本步骤中,利用同义词词典等根据汉语名词中 的同义词或者具有类似含义的词汇对上述识别规则集进行修改和扩充。仍以图3为例,其下部所示出的即是对中间部分所示的识别规则集进 行同义词扩充后而得到的识别规则集的一部分。其中,识别规则"(P1=JJ) AND (\¥1=企业)=> (Class=3)"是对识别规则"(P1=JJ) AND (Wl= 公司)=> (Class=3)"进行同义词扩充而得到的新的识别规则。以上,就是对本实施例的汉语基本名词短语的识别规则的生成方法的 描述。从以上描述可知,本实施例的汉语基本名词短语的识别规则的生成 方法利用粗集理论从汉语训练语料中生成汉语基本名词短语的识别规则, 而能够获得与现有的统计学习方法相当的效果。但是,本实施例的方法与 统计学习方法又有不同之处,其在于利用粗集理论所生成的汉语基本名 词短语的识别规则能够被很好地理解,从而可以被进一步修改和扩充。此 外,利用本实施例的方法来生成识别规则并不需要很大的数据处理量,并 且所生成的识别规则也不需要占用太多的系统资源,从而将有助于系统处 理效率的进一步提高。以下,详细描述本发明的汉语基本名词短语的识别方法。图4是根据本发明实施例的汉语基本名词短语的识别方法的流程图。 本实施例的汉语基本名词短语的识别方法利用了上面结合图1所描述的汉 语基本名词短语的识别规则的生成方法所生成的识别规则集。如图4所示, 首先,在步骤405,输入待识别的汉语句子。在这里,待识别的句子可能 是一些文章,或者是一些文字段落。接着,在步骤410,将上述汉语训练语料中的句子分词为各汉语基本 词,并为所分词出的各汉语基本词标注词性。为了实现本步骤,需JH吏用 分词和词性标注技术。关于分词及词性标注,其已经是非常成熟的技术, 有许多关于这类技术的文献可以参考,并且由于其并不是本发明的特征所 在,所以本发明对此并没有特别的限制。接着,在步骤415,利用有限自动机(Finite State Machine, FSM) 对上述待识别的汉语句子进行汉语基本名词短语的识别,以获得汉语基本 名词短语识别结果候选。有限自动机处理是语言研究和处理中常用到的一种处理方式,其是一 种能够识别自然语言的抽象的装置,其并不具有物理的实体,而是表示计 算机运算方式的抽象的逻辑关系系统,其一般是以识别自然语言的程序的 方式来实现的。这样的抽象自动机可以用#验所输入的符号串是否为语 言中合格的句子,如果是合格的句子,自动机就接收它,如果不是,则不 予接收。图5是利用有限自动机识别汉语基本名词短语的过程的示意图,其中 当被输入该困上部所示的待识别的汉语句子之后,有限自动机将根据程序 设定进行汉语基本名词短语的识别。具体地,在图5中,"......了/AS国家/NN重点/NN工程/NN的/DEG......,大型/JJ企业/NN工作/NN委员会/NN, /PU......"为所输入的、已被分词并带有词性标注的待识别句子,其中"/"后为相应的汉语基本词的词性标注。对于该所输入的待识别句子, 在利用有限自动M行汉语基本名词短语的识别时,即得到如图5下部所 示的初步的识别结果(国家/NN重点/NN工程/NN)、(企业/NN工作/NN 委员会/NN)等,在本实施例中称之为汉语基本名词短语识别结果候选。需要指出的是,图5中所示的有限自动机的识别过程仅是为了说明而 示意性地呈现的,而并非意味着要对本发明进行限制。当然,图5中所示 的待识别的汉语句子也绝不是限制性的,对于任何所输入的待识别句子, 都可以利用有限自动机、利用与图5类似的方式来进行识别,并且本发明 可使用任何现在已知或将来可知的有限自动机来实现步骤415。返回到困4,在步骤420,利用上面图1的方法所生成的汉语基本名词 短语的识别规則集对上述有限自动机所获得的汉语基本名词短语识别结果 候选进行校验。具体地,在本步壤中,首先将上述各待校验的汉语基本名 词短语识别结果候选与上述识别规则集中的各识别规则进行匹配,以从中 找出适用于该汉语基本名词短语识别结果候选的识别规则;然后判断各汉 语基本名词短语识别结果候选是否符合所适用的识别规则;对于不符合所 适用的识别规則的汉语JM^名词短语识别结果候选,根据所适用的识别规 则对其进行修改,从而得到汉语基本名词短语的最终识别结果。结合图6来对步稞420进行说明,图6是利用识别规则集对汉语基本 名词短语识别结果候选进行校验的过程的示意图。这里的校验针对的是上 述有限自动机所获得的汉语基本名词短语识别结果候选(图5下部所示的 (国家/NN重点/NN工程/NN )、(企业/NN工作/NN委员会/NN)等)。具体地,参照图6,其下部所示的"(P1=NR) AND (W3-会谈)=〉 (Class=2) 、 ( P1=JJ) AND (Wl-公司)=> (Class=3) 、 ( P1=JJ) AND (Wl-企业)=〉(Class=3)"即是预先利用图1的方法所生成的识 别规则集的示例。其中的各识别规则隐含地包括两部分内容,即"If部 分和"Then"部分,图6下部所示的&见则中的"(P1=NR) AND (W3= 会谈)"、"(Pl-JJ) AND (Wl-公司)"和"(P1=JJ) AND (Wl= 企业)"属于"If部分,而"(Class=2)"和"(Class=3)"则属于"Then" 部分。在步骤420中将待校验的汉语基本名词短语识别结果候选与识别规 则进行匹配,即是将该待校验的汉语基本名词短语识别结果候选与识别规 则中的"ir部分进行匹配。在此情况下,如果匹配,则按相应的规则中 的"Then"部分对该待校验的汉语基本名词短语识别结果候选进行校验,并进而在该识别结果候选不符合Then部分的规定的情况下,将其^"改为 Then部分所规定的形式。图6的中间部分即示例性地给出了利用下部所示 的识别规则集对图6上部所示的汉语基本名词短语识别结果候选进行校验 后而得到的识别结果,其中图6上部所示的识别结果候选"(企业/NN工 作/NN委员会/NN)",被按照图6下部所示的识别规则集中所适用的识 别规则"(P1-JJ) AND (\¥1=企业)=> (Class=3 )"修改为图6的中部 所示的最终的识别结果"(企业/NN)(工作/NN委员会/NN)"。需要指出的是,图6中所示的校验过程仅是为了说明而示意性地呈现 的,而并非意味着要对本发明进行限制,并且图6中所示的示例识别规则 及汉语基本名词短语识别结果候选也并非是特例。返回到困4,在步骤425,输出汉语基本名词短语的识别结果。具体地, 在本步骤中,将上述利用识别规则集进行校验后的汉语基本名词短语识别 结果候选作为最终的识别结果输出。以上,就是对本实施例的汉语基本名词短语的识别方法的描述。从以 上描述可知,本实施例的汉语基本名词短语的识别方法,对于待识别的汉 语句子首先利用有限自动机获得汉语基本名词短语识别结果候选,这一过 程虽然能够保证一定的识别精度,但仍需要进一步提升识别准确性。因此, 本实施例利用预先根据图1的方法所生成的识别规则集对这些汉语基本名 词短语识别结果候选进行进一步的校验,并对其中不符合识别规则的汉语 基本名词短语识别结果候选进行修改,来得到最终的识别结果。从而,本 实施例的识别结果的精度进一步提高。此外,由于本实施例所采用的识别 规则集能够被进一步修改和扩充,所以对于特殊的情况也能够进行应对。 并且,由于该识别规则集所占用的系统资源少,所以系统的处理速度也能 够得到相应的提高。在同一发明构思下,图7是根据本发明实施例的汉语基本名词短语的 识别系统的方框图。如图7所示,本实施例的汉语基本名词短语的识别系 统70包括输A7输出单元71、分词及词性标注单元72、有限自动机单元73、 汉语基本名词短语的识别规则的生成装置74、识别结果校验单元75。其中,输A/输出单元71用于接受上述待识别的汉语句子的输入,并 输出识别结果校验单元75所获得的最终的汉语基本名词短语的识别结果。分词及词性标注单元72用于将通过输"输出单元71输入的待识别的 汉语句子分词为各汉语基本词,并为所分出的各汉语基本词标注词性。该 分词及词性标注单元72可利用现在已知或将来可知的分词及词性标注技 术来实现。有限自动机单元73用于对上述所输入的、被分词后的待识别的汉语句 子进行汉语基本名词短语的识别,以获得汉语基本名词短语识别结果候选。 在本实施例中,有限自动机单元73可参照前面结合图5对有限自动机的描 述来具体实现,也可使用任何现在已知或将来可知的有限自动机来实现。汉语基本名词短语的识别规则的生成装置74用于生成汉语基本名词 短语的识别规则集。识别结果校验单元75用于利用上述汉语基本名词短语的识别规则的 生成装置74所生成的汉语基本名词短语的识别规则集对上述有限自动机 单元73所获得的汉语基本名词短语识别结果候选进行校验。具体地,如困7所示,识别结果校验单元75进一步包括识别规则匹配 单元751、规则符合判定单元752和识别规则修改单元753。其中,识别规则匹配单元751用于将上述有限自动机单元73所获得的 汉语基本名词短语识别结果候选与上述汉语基本名词短语的识别规则的生 成装置74所生成的识别规则集中的各识别规则进行匹配,以找出适用于该 汉语基本名词短语识别结果候选的识别规则。规则符合判定单元752用于确定上述有限自动机单元73所获得的汉语 基本名词短语识别结果候选是否符合识别规则匹配单元751所确定的适用 的识别规则.识别结果修改单元753用于对于不符合适用的识别规则的汉语基本名 词短语识别结果候选,根据该适用的识别规则对其进行修改。以下结合附困详细描述上述汉语基本名词短语的识别规则的生成装置74。图8是根据本发明实施例的汉语基本名词短语的识别规则的生成装置 的方框图。如困8所示,本实施例的汉语基本名词短语的识别规则的生成 装置74包括输入单元741、抽取单元742、类别确定单元743、语言信息 表创建单元744、识别规则生成单元745、识别规则过滤单元746、识别规 则修改扩充单元747和存储单元748。其中,输入单元741用于接受汉语训练语料的输入。该汉语训练语料 已被分词为各汉语基本词,且被分词出的各汉语基本词已被标注了词性,抽取单元742用于从上述汉语训练语料中抽取出已被正确识别并标记 的汉语基本名词短语以及其中各汉语基本名词的词性标注并为所抽取出的 各汉语基本名词短语从上述汉语训练语料中左右各抽取出 一个相邻的汉语 基本词及其相应的词性标注,作为该汉语基本名词短语的相关上下文信息。类别确定单元743用于确定上述所抽取出的各汉语基本名词短语的类别。语言信息表创建单元744用于根据上述抽取单元742所抽取出的各汉 语基本名词短语及其相关上下文信息、类别确定单元743为各汉语基本名 词短语所确定的类别等创建语言信息表。其具体实现可参照上面结合图1 所作的描述来进行。识别规则生成单元745用于利用粗集理论中的属性约减和规则生成理 论对上述语言信息表进行处理,以生成汉语基本名词短语的识别规则集, 并统计上述汉语基本名词短语的识别规则集中的各识别规则在上述语言信 息表中的匹配程度。识别规则过滤单元746用于删除上述汉语基本名词短语的识别规则集 中匹配程度低于预定值的识别规则。为了使本实施例的汉语基本名词短语的识别规则的生成装置74所生 成的识别规则更具适用性和权威性,其还包括识别规则修改扩充单元747, 用于根据同义词词典等对上述汉语基本名词短语的识别规则集进行修改扩充,例如利用与各识别规则中的汉语基本词的同义词来生成新的识别规则 等。存储单元748用于存储上述语言信息表以及中间或最终的汉语基本名 词短语的识别规则集。存储单元748可利用通常的存储器或存储设备来实现。以上,就是对本实施例的汉语基本名词短语的识别系统的描述。从以 上描述可知,本实施例的汉语基本名词短语的识别系统具有与现有的统计 学习方法相当的识别效果。但是,本实施例所使用的是根据粗集理论从汉 语训练语料中生成的汉语基本名词短语的识别规则集,该识别规则集能够 被很好的理解,从而可以被进一步修改和扩充,因而利用本实施例对于特 殊的情况也能够进行应对。此外,由于该识别规则集不需要占用过多的系 统资源,从而4吏得系统的处理效率和速度都能够得到提高。本实施例的汉语基本名词短语的识别系统及其各个组成,可以由专用 的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。 并且,本实施例的汉语基本名词短语的识别系统,操作上可以实现前面结合图4说明的实施例的汉语基本名词短语的识别方法。以上虽然通过一些示例性的实施例对本发明的汉语基本名词短语的识 别规则的生成方法和装置以及汉语基本名词短语的识别方法和系统进行了 详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在 本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些 实施例,本发明的范围仅以所附权利要求为准。
权利要求
1. 一种汉语基本名词短语的识别规则的生成方法,包括根据汉语训练语料创建关于汉语基本名词短语的语言信息表;以及利用粗集理论对上述语言信息表进行处理,以生成汉语基本名词短语的识别规则集。
2. 根据权利要求1所述的汉语基本名词短语的识别规则的生成方法, 其中上述汉语训练语料中的句子已被分词为各汉语基本词,且各汉语基本 词已被标注了词性,并且该汉语训练语料中包括已被正确识别并标记的、 由两个或两个以上的汉语基本名词构成的汉语基本名词短语。
3. 根据权利要求2所述的汉语基本名词短语的识别规则的生成方法,骤进一步包括从上述汉语训练语料中抽取出已被正确识别并标记的汉语基本名词短 语以及其中各汉语基本名词的词性标注;以及为上述所抽取出的各汉语基本名词短语从上述汉语训练语料中左右各 抽取出 一个相邻的汉语基本词及其相应的词性标注,作为该汉语基本名词 短语的相关上下文信息。
4. 根据权利要求3所述的汉语基本名词短语的识别规则的生成方法, 其中上述根据汉语训练语料创建关于汉语基本名词短语的语言信息表的步 骤进一步包括确定上述所抽取出的各汉语基本名词短语的类别。
5. 根据权利要求4所述的汉语基本名词短语的识别规则的生成方法, 其中上述所抽取出的各汉语基本名词短语的类别是根据该汉语基本名词短 语中的各汉语基本名词的组合关系而确定的。
6. 根据权利要求4或5所述的汉语基本名词短语的识别规则的生成方 法,其中上述根据汉语训练语料创建关于汉语基本名词短语的语言信息表 的步骤进一步包括对于上述所抽取出的各汉语基本名词短语,将其中的各汉语基本名词 及其词性标注、该汉语基本名词短语的类别及其相关上下文信息相关联进 行记录,作为上述语言信息表中关于该汉语基本名词短语的一个条目。
7. 根据权利要求1或2所述的汉语基本名词短语的识别规则的生成方 法,其中上述利用粗集理论对上述语言信息表进行处理的步骤进一步包括利用粗集理论中的属性约减和规则生成方法对上述语言信息表进行处理。
8. 根据权利要求1或2所述的汉语基本名词短语的识别规则的生成方 法,其中上述利用粗集理论对上述语言信息表进行处理的步骤进一步包括统计上述汉语基本名词短语的识别规则集中的各识别规则在上述语言信息表中的匹配程度。
9. 根据权利要求8所述的汉语基本名词短语的识别规则的生成方法, 还包括删除上述汉语基本名词短语的识别规则集中匹配程度低于预定值的识 别规则.
10. 根据权利要求1或2所述的汉语基本名词短语的识别规则的生成 方法,还包括对上述汉语基本名词短语的识别规则集进行修改和扩充。
11. 根据权利要求1或2所述的汉语基本名词短语的识别规则的生成 方法,其中上迷识别规则集中的各识别规则是IF-THEN类型的识别规则。
12. —种汉语基本名词短语的识别方法,包括 对待识别的汉语句子进行分词及词性标注;利用有限自动机对上述待识别的汉语句子进行汉语基本名词短语的识 别,以获得汉语基本名词短语识别结果候选;以及利用权利要求1-11中任意一項所述的汉语基本名词短语的识别规则的 生成方法所生成的汉语基本名词短语的识别规则集对上述汉语基本名词短 语识别结果候逸进行校验.
13. 根据权利要求12所述的汉语基本名词短语的识别方法,其中上述利用权利要求l-ll中任意一项所述的汉语基本名词短语的识别规則的生成 方法所生成的汉语基本名词短语的识别规则集对上述汉语基本名词短语识别结果候选进行校验的步骤进一步包括将上迷汉语基本名词短语识别结果候选与上述汉语基本名词短语的识 别规则集中的各识别规则进行匹配,以找出适用于该汉语基本名词短语识 别结果候选的识别规则;利用上述适用于该汉语基本名词短语识别结果候选的识别规则对该汉 语基本名词短语识别结果候选进行校验。
14. 根据权利要求13所述的汉语基本名词短语的识别方法,其中利用 上述适用于该汉语基本名词短语识别结果候选的识别规则对该汉语基本名 词短语识别结果候选进行校验的步骤进一步包括判断上述汉语基本名词短语识别结果候选是否符合该适用的识别规 则;以及对于不符合该适用的识别规则的汉语基本名词短语识别结果候选,根 据该适用的识别规则对其进行修改。
15. 根据权利要求12-14中任意一项所述的汉语基本名词短语的识别 方法,还包括获取待识別的汉语句子;以及输出上述经过校验后的汉语基本名词短语识别结果候选。
16. —种汉语基本名词短语的识别规则的生成装置,包括 语言信息表创建单元,用于根据汉语训练语料创建关于汉语基本名词短语的语言信息表;以及识别规則生成单元,用于利用粗集理论对上述语言信息表进行处理, 以生成汉语基本名词短语的识别规则集。
17. 根据权利要求16所述的汉语基本名词短语的识别规则的生成装 置,还包括抽取单元,用于从上述汉语训练语料中抽取出已被正确识别并标记的 汉语基本名词短语以及其中各汉语基本名词的词性标注并为所抽取出的各汉语基本名词短语从上述汉语训练语料中左右各抽取出 一个相邻的汉语基 本词及其相应的词性标注,作为该汉语基本名词短语的相关上下文信息。
18. 根据权利要求17所述的汉语基本名词短语的识别规则的生成装 置,还包括类型确定单元,用于确定上述所抽取出的各汉语基本名词短语的类别。
19. 根据权利要求18所述的汉语基本名词短语的识别规则的生成装 置,其中上述语言信息表创建单元对于上述所抽取出的各汉语基本名词短 语,将其中的各汉语基本名词及其词性标注、该汉语基本名词短语的类别 及其相关上下文信息相关联进行记录,作为上述语言信息表中关于该汉语 基本名词短语的一个条目。
20. 根据权利要求16-19中任意一项所述的汉语基本名词短语的识别 规则的生成装置,其中上述识别规则生成单元还统计上述汉语基本名词短 语的识别规則集中的各识别规则在上述语言信息表中的匹配程度。
21. 根据权利要求20所述的汉语基本名词短语的识别规则的生成装 置,还包括识别规則过滤单元,用于删除上述汉语基本名词短语的识别规则集中 匹配程度低于预定值的识别规则。
22. 根据权利要求16所述的汉语基本名词短语的识别规则的生成装 置,还包括识别规則修改扩充单元,用于对上述汉语基本名词短语的识别规则集 进行修改和扩充。
23. 根据权利要求16所述的汉语基本名词短语的识别规则的生成装 置,还包括输入单元,用于接受上述汉语训练语料的输入。
24. —种汉语基本名词短语的识别系统,包括 分词及词性标注单元,用于将待识别的汉语句子分词为各汉语基本词,并为所分出的备汉语基本词标注词性;有限自动机单元,用于对上述待识别的汉语句子进行汉语基本名词短语的识别,以获得汉语基本名词短语识别结果候选;权利要求16-23中任意一项所述的汉语基本名词短语的识别规则的生 成装置,用于生成汉语基本名词短语的识别规则集;以及识别结果校验单元,用于利用上述汉语基本名词短语的识别规则的生 成装置所生成的汉语基本名词短语的识别规则集对上述汉语基本名词短语 识别结果候选进行校验。
25. 根据权利要求24所述的汉语基本名词短语的识别系统,其中上述 识别结果校验单元进一步包括识别规則匹配单元,用于将上述有限自动机单元获得的汉语基本名词的识别规則集中的各识别规则进行匹配,以找出适用于该汉语基本名词短 语识别结果候选的识别规则;规则符合判定单元,用于确定上述汉语基本名词短语识别结果候选是 否符合上述识别规则匹配单元所确定的适用的识别规则;以及识别结果修改单元,用于对于不符合适用的识别规则的汉语基本名词 短语识别结果候选,根据该适用的识别规则对其进行修改。
26. 根据权利要求24或25所述的汉语基本名词短语的识别系统,还 包括输A/输出羊元,用于接受上述待识别的汉语句子的输入,及输出上述 识别结果校验单元校验后的汉语基本名词短语识别结果候选。
全文摘要
本发明提供一种汉语基本名词短语的识别规则的生成方法和装置以及基于其所生成的汉语基本名词短语的识别规则的汉语基本名词短语的识别方法和系统。该汉语基本名词短语的识别规则的生成方法包括根据汉语训练语料创建关于汉语基本名词短语的语言信息表;以及利用粗集理论对上述语言信息表进行处理,以生成汉语基本名词短语的识别规则集。本发明能够生成可被进一步修改和扩充的汉语基本名词短语的识别规则,并进而利用这些识别规则来实现对汉语基本名词短语的识别,同时能够进一步节约系统资源并提高识别速度。
文档编号G06F17/27GK101271448SQ20071008911
公开日2008年9月24日 申请日期2007年3月19日 优先权日2007年3月19日
发明者江 朱, 王海峰, 岩 赵 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1