中文命名实体中特征词项的识别方法和系统的制作方法

文档序号:6610315阅读:327来源:国知局
专利名称:中文命名实体中特征词项的识别方法和系统的制作方法
技术领域
本发明涉及中文信息处理和信息检索领域中的词语识别,特别涉及一 种对命名实体中特征词项的识别方法及相应系统。
背景技术
自然语言处理,是计算机科学领域与人工智能领域中的一个重要问 题。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和 方法。随着计算机和互联网的广泛应用,计算机可处理的自然语言文本数 量空前增长,面向海量信息的文本挖掘、信息提取、跨语言信息处理、人 机交互等应用需求急速增长,自然语言处理的对象也从小规模受限语言处 理转向大规模真实文本处理,其研究必将对人们的生活产生深远的影响。中文信息处理是指研究如何利用计算机对汉语信息进行自动处理。汉 语是一门意合语言,和西方语言相比,缺少显式的标记,在语法、语义、 语用方面也更加灵活,这就增加了计算机理解和处理的难度。要让计算机 能够处理中文信息,尚有许多困难需要克服。目前,中文信息处理已经在 语音识别、分词、机器翻译等领域取得了一些成果。中文信息自动化处理 程度的提升,将对我国的科技、文化、经济、安全等带来可观的效益。信息检索是研究如何从纷繁复杂的大量信息中,快速、准确地获取所 需信息的技术。信息检索技术经过多年的发展,目前已经相当成熟,新型 信息检索技术正朝智能化、动态化、多样化、个性化等方向发展。命名实体(Named Entity,NE)是指文本中具有特定意义的实体,可以表 示现实世界中的抽象或者具体的事物,主要包括人名、地名、机构名、专 有名词等。要正确地理解文本就要正确地识别命名实体。命名实体识别是 信息抽取(Information Extraction)、 自动问答(Question Answering)、机 器翻译(Machine Translation )等技术的重要基础。命名实体(NE)由一个或多个特征词项(Feature Words Item,简称FWI) 组成,特征词项在其所在命名实体中有一定独立意义。例如命名实体"南 京市白下区长清牛羊肉经营部"所包含的特征词项包括南京市,白下区, 长清,牛羊肉,经营部。从命名实体中识别出正确的特征词项,有利于对分词结果进行有效地纠正,提高分词的正确率,未登陆词识别的正确性。有助于信息检索中关 键词查询和自然语言查询的分析。但在现有技术中,缺少利用计算机从中 文命名实体中自动识别特征词项的相关方法。发明内容因此,本发明的目的是克服现有技术中不具备从中文命名实体中识别 特征词项的相关方法的缺陷,从而提供一种中文命名实体中特征词项的识 别方法。为了实现上述目的,本发明提供了 一种中文命名实体中特征词项的识别方法,包括步骤l)、对待识别的命名实体进行分词操作,得到候选命名实体; 步骤2 )、对所述的候选命名实体进行用于复合连续单字的初步处理,得到第一计算结果;步骤3)、根据所述的候选命名实体和所述的第一计算结果建立词典,根据所述的第一计算结果建立词境词典;所述词典和所述词境词典统称为词典库;步骤4)、参考所述的词典库,对所述的第一计算结果至少做一次复合 处理,每一次复合处理后,根据处理结果扩充所述词典库,在下一次复合 处理时,所参考的词典库为扩充后的词典库;步骤5 )、根据复合处理后的结果得到所识别的特征词项。 上述技术方案中,在对所述第一计算结果做多次复合处理过程中,参 考词典库,对经过复合处理的第一计算结果进行修正处理,并根据修正处理的结果对所述词典库中的词典进行扩充。上述技术方案中,所述的步骤4)具体包括以下步骤步骤4-l)、参考词典库,对所述的第一计算结果做复合处理,从而得到第二计算结果,然后根据所述的第二计算结果,对所述词典库进行扩充; 步骤4-2)、参考扩充后的词典库,对所述第一计算结果再次进行复合处理,得到第三计算结果,然后根据所述第三计算结果扩充词典库;步骤4-3)、参考扩充后的词典库,对所述的第一计算结果进行修正处理,更正第一计算结果中错误的特征词项或词,得到第四计算结果,然后
用所述的第四计算结果扩充词典库;步骤4-4)、参考扩充后的词典库,对所述的第四计算结果再次进行复 合处理,得到第五计算结果,然后用所述的第五计算结果扩充词典库;步骤4-5)、参考扩充后的词典库,对所述的第五计算结果进行复合处 理,得到第六计算结果。上述技术方案中,所述的初步处理是将候选命名实体中的连续单字进 行复合操作。所述的初步处理通过第一计算过程实现,所述的第一计算过程是指将 所述候选命名实体中的连续单字复合;将位于所述候选命名实体开头的单 字与其右面的第一个词复合;将位于所述候选命名实体结尾的单字与其左 面的第一个词复合。上述技术方案中,所述的词典中包含有词和特征词项,以及与词和特 征词项对应的词频。上述技术方案中,所述的词境词典记录了每个单字左右出现的词或特 征词项,以及这些词或特征词项的词频。上述技术方案中,所述的复合处理是指对所述的候选命名实体分别运行多个计算过程,在运行其中一个计算 过程时,对所述候选命名实体中的每个单字得到一个左权重值或右权重值 或左右复合权重值,将每个单字在所述多个计算过程中所得到的所有左权 重值相加,所有右权重值相加,所有左右复合权重值相加;最后判断单字 的左右复合权重值的和是否大于0,若大于0,则认为所述复合处理的结 果为左右复合权重值的和,若左右复合权重值的和为0,则所述复合处理 的结果为左权重和与右权重和中值较大的一个。上述技术方案中,所述的多个计算过程是指所述第二计算过程、第三 计算过程、第四计算过程、第五计算过程、第六计算过程、第七计算过程、 第八计算过程和第九计算过程中的至少两个。上述技术方案中,所述的第二计算过程是指根据所述候选命名实体中 的单字的词性,为所述单字设置向左复合、向右复合或左右复合的权重。上述技术方案中,所述的第三计算过程是指当候选命名实体中的单字 与其临近的词或特征词项复合后的结果存在于所述词典中时,将复合后的 结果认为是特征词项。上述技术方案中,所述的第四计算过程是指当候选命名实体中的单字
与其临近的词或特4正词项复合后的结果不存在于所述词典中时,从词典中 寻找与复合后的特征词项类似的特征词项。上述技术方案中,所述的第八计算过程是指对候选命名实体中某个单 字左边的词或特征词项,将词典中所有以此词或特征词项开头的各个特征词项的词频相加;对于其右面的词或特征词项,^1夸词典中所有以此词或特 征词项结尾的各个特征词项的词频相加;比较两次相加的结果,为单字增 加与词频高的词或特;f正词项间的权重。上述技术方案中,所述的修正处理是对所述第一计算结果进行特征词 项的{多正和词的{奮正。上述技术方案中,所述的特征词项的修正是指:过程,'在运;;其中一个计算过^时,对每:单字得;一个左权重值或右权重值或左右复合权重值;将每个单字在所述多个计算过程中所得到的所有 左权重值相加,所有右权重值相加,所有左右复合权重值相加;最后判断 单字的左右复合权重值的和是否大于0,若大于0,则认为所述复合处理 的结果为左右复合权重值的和,若左右复合权重值的和为0,则所述复合 处理的结果为左权重和与右权重和中值较大的一个。上述技术方案中,所述的多个计算过程是指第五计算过程、第六计算 过程、第七计算过程、第九计算过程和第十计算过程中的至少两个。上述技术方案中,所述的第五计算过程是指对候选命名实体中的某一 单字,在所述词典中所有包含该单字的特征词项中,比较单字出现在开头 或结尾的次数,根据所述次数的多少增加单字的左权重或右权重。上述技术方案中,所述的第六计算过程将候选命名实体中某个单字与 其左面的词或特征词项复合形成第一特征词项,再将单字与其右面的词或 特征词项复合得到第二特征词项,分别选择第 一特征词项的结尾和第二特 征词项的开头;若所述开头或结尾均在词典中存在,则比较两者在词典中 的词频,若所述开头的词频大于所述结尾的词频或词典中只有开头存在, 则增加单字的左权重;若所述结尾的词频大于所述开头的词频或词典中只 有结尾存在,则增加单字的右权重。上述技术方案中,所述的第七计算过程是指对候选命名实体中的单 字,比较与该单字临近的词或特征词项的词频,增加所述单字与词频低的 词或特征词项间的权重。
上述技术方案中,所述的第九计算过程是指对于候选命名实体中的某 个单字,在所述词境词典中,寻找与所述单字对应的条目,在所述条目中, 若所述单字左面的词或特征词项的词频大于所述单字右面的词或特征词 项的词频,则增加单字的左权重,若所述单字左面的词或特征词项的词频 小于所述单字右面的词或特征词项的词频,则增加单字的右权重。上述技术方案中,所述的第十计算过程包括对特征词项开头的修正和 对特征词项结尾的^[奮正;其中,对特征词项开头的修正是指首先,将第一特征词项左边的字与所述的第一特征词项分开,成为单 字,使候选命名实体成为包含单字的候选命名实体;然后,记录所述单字右边的词或特征词项在词典中的词频m,将所述 单字与其左边的词或特征词项复合形成第二特征词项;记录所述第 一特征词项在词典中的词频n,得到h产n/m,若复合前单字右边的词或特征词项 在词典中不存在,则令h产0;接着,令复合前单字左边的词或特征词项在词典中的词频为x,所述 第二特征词项在词典中的词频为y,记h2=y/x,若复合前单字左边的词或 特征词项在词典中不存在,则令h产0;最后,判断l^与h2间的大小,若h户h2,增加单字的左权重;反之, 增加单字的右权重;对特征词项结尾的修正是指首先,将第一特征词项右边的字与所述的第一特征词项分开,变成单 字,使候选命名实体成为包含单字的候选命名实体;然后,记录单字左边的词或特征词项在词典中的词频m,将单字与其 右边的词或特征词项复合形成第二特征词项;记录第一特征词项在词典中 的词频n,得到h产n/m,若复合前单字左边的词或特征词项在词典中不存 在,则令h产0;接着,令复合前单字右边的词或特征词项在词典中的词频为x,所述 第二特征词项在词典中的词频为y,记h^y/x,若复合前单字右边的词或 特征词项在词典中不存在,则令112=0;最后,判断ln与h2间的大小,若h户h2,增加单字的左权重;反之, 增加单字的右权重。上述技术方案中,所述的对词的修正是指对所述第 一 结果中的两个字的词或长度等于两个字的特征词项分别 运行多个计算过程,在运行其中一个计算过程时,对每个单字得到一个左权重值或右权重值或左右复合权重值;将每个单字在所述多个计算过程中 所得到的所有左权重值相加,所有右权重值相加,所有左右复合权重值相 加;最后判断单字的左右复合权重值的和是否大于0,若大于0,则认为 所述复合处理的结果为左右复合权重值的和,若左右复合权重值的和为0, 则所述复合处理的结果为左权重和与右权重和中值较大的一个。上述技术方案中,所述的多个计算过程是指第十一计算过程、第十二 计算过程和第十三计算过程中的至少两个。上述技术方案中,所述的第十一计算过程是指将候选命名实体中只包含有两个字的词和特征词项拆分成两个单字, 若左边的单字与其左边的词或特征词项复合所形成的特征词项,以及右边 的单字与其右边的词或特征词项复合所形成的特征词项,都存在于词典 中,则拆分所述的只包含有两个字的词和特征词项,否则,不做拆分操作。上述技术方案中,所述的第十二计算过程是指将候选命名实体中只包含有两个字的词和特征词项拆分成两个单字,新的特征词项,若左边新形成的特征词项不存在于词典中,而右边新形成则此词应被拆分,且在右边形成特征词项,反之亦然。上述技术方案中,所述的第十三计算过程是指将候选命名实体中只包含有两个字的词和特征词项拆分成两个单字, 两个单字分别与其左边的词或特征词项和右边的词或特征词项形成两个特征词项,新生成的两个特征词项在词典中均不存在,若左边新形成的特 征词项的结尾的词在词典中存在,且词频大于阈值,则此词应被拆分,且 在左边形成特征词项,若右边新形成的特征词项的开头的词在词典中存 在,且词频大于阈值,则此词应被拆分,且在右边形成特征词项。本发明还提供里一种中文命名实体中特征词项的识别系统,包括分词 模块、初步处理模块、词典、词境词典和复合处理模块;其中,所述的分词模块用于对待识别的命名实体进行分词操作,得到候选命 名实体;所述的初步处理^^块对所述的候选命名实体进行初步处理,得到第一
计算结果;所述的词典中包含有词和特征词项,以及与词和特征词项对应的词频;所述的词境词典记录了每个单字左右出现的词或特征词项,以及这些 词或特征词项的词频;所述的复合处理模块对所述的第 一计算结果做复合处理。上述技术方案中,还包括修正模块,所述的修正模块对所述复合处理 模块得到的处理结果进行修正,更正错误的词或特征词项。本发明的优点在于1、 本发明无需借助上下文,即可实现对中文命名实体中特征词项的 识别和理解,提高了自然语言理解和信息检索的准确率。2、 本发明适用范围广,可以很好弥补分词,未登陆词识别上的缺陷。3、 本发明还可实现对命名实体进行合适认知粒度的概念划分。


以下,结合附图来详细说明本发明的实施例,其中图1为利用本发明的特征词项识别系统进行特征词项识别的示意图;图2为本发明的中文命名实体中特征词项的识别方法的流程图。
具体实施方式
下面结合附图和具体实施方式
对本发明做进一 步说明。 本发明的对命名实体中特征词项的识别方法的基本思想是采用现有 的分词程序对命名实体进行分词,然后根据分词结果创建词典和词境词 典,利用词典和词境词典,对分词后的候选命名实体进行计算和处理,得 到命名实体中的特征词项,同时根据处理结果扩充词典;最后将特征词项返回给用户。在对上述进行详细说明前,首先对汉语命名实体的形成规律和构词方 法进行整理,总结命名实体中的特征词项的语法特征和构词规律,从中抽 象出共同的计算过程基本符号描述■ NE:表示命名实体;■ cNE:表示候选命名实体,即命名实体NE分词后的结果;■ FWI:表示特征词项; ■ word:表示至少包含两个汉字以上的词或特征词项;■ ch:表示一个汉字;■ string: 表示ch或word;■ vp:表示任意词性,包括用户自定义词性; ,pos:表示词或字的词寸生;麗user_pos:用户自定义的表示经程序合成的特征词项的符号,本发明 中令user—pos= "/ ,,;■ resemble (FWI,FWI》表示特征词项FWI!与FW^相似;■ strlen(string):表示计算字符串string的长度;■ lef t—word (string):表示string所在的cNE中,string左边的词或 字或特征词项,strlen (left—word (string) )=0表示string位于cNE 的开头,strlen(left醫word(string))=2表示在cNE中string的左边 为字,strlen (lef t_word (string) )=4表示在cNE中string的左边为 词或特4正词项;園 right—word (string):表示在cNE中string右边的词或字或特征词 项,strlen (right—word (string)) =0表示string位于cNE的结尾, strlen (right—word (string))=l表示在cNE中string的右边为字, strlen (right—word (string))=4表示在cNE中string的右边为词或 特征词项;■ diction:表示词典;■ word—diction:表示词境词典;■ word-diction (ch):表示词境词典中ch的词境;■ diet ion (word):表示词典中含有词或特征词项;■ fq (diet ion (word)):表示word在词典中的频率;■ Form (word, ch):表示word与ch顺序复合,即词或特征词项word与 汉字ch按其出现顺序连接,例如Fora("下关","区")="下关区", Form("糖","烟酒")="糖烟酒";■ w(weight —left):表示单字向左边复合的权重函数,初始值为0;■ w(weight-right):表示单字向右边复合的权重函数,初始值为0;■ w(weight-middle):表示左右向单字复合的权重函数,初始值为0;■ Is—Head (string):表示string在词典中所有词或特征词项中作为开 头出现的次数; ■ Is—Tail (string):表示string在词典中所有词或特^正词项中作为结 尾出现的次数;■ Split(word):表示word为两个字的词或特征词项时,将word拆分 成两个独立的单字;■ Left(ch" ch2):表示ch!和ch2相邻出现时,选取c&;.■ Right (ch!, ch2):表示ch!和化2相邻出现时,选取ch2;■ Head (string):表示string开头的词或特;f正词项;■ Tail (string):表示string结尾的词或净争;f正词项。 在对计算过程中所使用的符号进行上述说明后,再对本发明中所涉及的各个计算过程进行说明。在对下述计算过程的说明中,为了方便理解, 采用了具体实施例中所提到的几个例句,读者可结合例句对各个计算过程 的实现进行理解。第一计算过程第一计算过程用于实现对连续单字的复合操作。第一 计算过程可以包括以下三个步骤1、 连续单字复合;2、 位于开头的单字与其右面的第一个词复合;3、 位于结尾的单字与其左面的第一个词复合。 第 一计算过程的形式定义和计算如下jFbra(Ze力—word (c/z),询 Fonw(cA, r妙f _ word (c/z))c/z € ciVE a欲/ew(/^/ — won/ (c//)) = 2a s^7e"(Wgfe — woni (c/z)) = 2e cTV£* a — (询=0a欲/—r妙Z — (c//)) = 4 c/2 e c層a— wo y/(c/z)) = 4美食/n 园/ng",运用第一计算过程其中,"表示并且;e表示属于'例如cNE="阿/j 凡/d 提/v 后的结果为"阿凡提/~ 美食园/~"。第二计算过程第二计算过程是指满足词性序列为 a+vp,b+vp,m+vp,vp+g,vp+p/c+vp的字符串可以组成特征词项,从而根据单 字的词性,为单字设置向左复合、向右复合或左右复合的权重。根据汉语的构词规则,形容词,数词,区别词应该位于其他词性的前 面。例如,cNE="鸿兴隆/~ 大/a 酒楼/n 有限公司/n", ch="大", 因为词性序列满足a+n,故ch应与其右面的词复合得FWI-大酒楼/ 。在
cNE中ch词性为a,b,m,增加单字的右权重,ch词性为g,增加单字向左 权重,ch为c或p,增加左右复合单字的权重。 第二计算过程的形式定义和计算如下需要注意的是,由于分词程序将"与"的词性定为p(介词),故词性 序歹'J vp+p+vp,特指形如"word/vp+与/p + word/vp"的字符串。如"中 国/ns 科学院/n 南京/ns 地理/n 与/p 湖泊/n 研究所/n"中的"地 理/n 与/p 湖泊/n",而"长江/ns 给/p 排水/vn 集团/n"虽然满足 vp+p+vp的词性序列,但不能增加左右复合单字的权重。第三计算过程第三计算过程是指当单字与其临近的词或特征词项复 合后的结果存在于词典中,则将复合后的结果认为是特征词项。第三计算过程的具体实现如下首先将候选命名实体中某个单字与其 左面的词或特征词项复合形成特征词项1,再将单字与其右面的词或特征 词项复合得特征词项2;若特征词项1与特征词项2均在词典中出现,且 特征词项1的词频大于特征词项2,则增加单字的左权重;反之,则增加 单字的右权重;若只有特征词项1在词典中存在,则增加单字的左权重; 若只有特征词项2在词典中存在,则增加单字的右权重。第三计算过程的形式定义和计算如下例如cNE="白下区/~人民政府/1朝/p 天宫/n 办事处/n", ch-"朝",right—word(ch)-right—word("朝")="天宫", Form(ch,right—word(ch))=Form("朝,,,"天宫")="朝天宫",词典中存在 FWI="朝天宫",left_word(ch)=left_word("朝")="人民政府,,, Form(left_word(ch),ch)=Form("人民政府","朝,,)="人民政府朝",而词 典中不存在"人民政府朝,,,故f3(ch,cNE)=f3("朝","白下区/~人民政 府/1 朝/p 天宫/n 办事处/n,, )=w(weight—right)。第四计算过程第四计算过程是指当复合后的特征词项不存在于词典 中时,从词典中寻找与复合后的特征词项类似的特征词项。_ rz'gfe)在dVE中c湖性为",6,附 w(we/g/zf—/e/0 在ciV五中c/3词性g w(we妙f —在c7VE中c/2词性/ ,c
第四计算过程的具体实现步骤如下首先将候选命名实体中某个单字 与其左面的词或特征词项复合形成特征词项1,再将单字与其右面的词或 特征词项复合得特征词项2,特征词项1与特征词项2在词典中不存在; 若词典中存在与特征词项1和特征词项2类似的词,计算在词典中与特征 词项1类似的特征词项的词频m和与特征词项2类似的特征词项的词频n, 若m〉n,则增加单字的左权重;反之,增加单字的右权重。若词典中只存 在与特征词项1类似的特征词项,则增加单字的左权重;若词典中只存在 与特征词项2类似的特4正词项,增加单字的右斥又重。此处的"类似"不涉及语义中的相似,而是语法结构的相似。如"科 技园"与"牡丹园"相似。第四计算过程的形式定义和计算如下例如cNE-"六合/ns 区/n教育局/n", ch="区",left_word(ch)= "1 六合,,,left—unit_word= Form(left—word(ch),ch)="六合区",right_word(ch)= "教育局",right—unit—word= Form(right—word(ch),ch)="区教育局",词 典既不存在"六合区",也不存在"区教育局",但词典中有"栖霞区"和 "白下区,,等与"六合区,,相类似的特征词项。故f4(ch,cNEW区","六 合/ns 区/n教育局/n', )=w(weight—left)。第五计算过程第五计算过程是针对某些单字在词典中的各个特征词 项中位置比较固定,而出现在结尾的次数和出现在开头的次数悬殊较大时 的情况,比较在词典中所有包含此单字的特征词项中,此单字出现在开头 或结尾的次数,若单字处于开头的次数大于处于结尾的次数,则增加单字 的右权重,反之,增加单字的左权重。例如,"区"多出现在特征词项的 结尾位置,"人,,多出现在特征词项的开头位置。第五计算过程的形式定义和计算如下例如cNE="六合/ns 区/n教育局/n", ch- "区,,,"区"在当前 词典中所有包含"区"字开头或结尾的特征词项中,"区"出现在开头的w( w/沐—/e力 /y—设ac/ (c/z) > /y—Ta// (c/ ) 次数为0,出现在结尾的次数为1次,故f5(ch,cNE)=f5("区","六合/ns 区/n 教育局/n,, )=w(weight_left)。第六计算过程第六计算过程针对特征词项中的开头或结尾大多为词 的情况。特征词项的开头或结尾应为词典中存在的词或特征词项。如特征 词项"十字街"、"博酒店"和"师范大学"。第六计算过程的具体实现如下首先将候选命名实体中某个单字与其 左面的词或特征词项复合形成特征词项1,再将单字与其右面的词或特征 词项复合得到特征词项2。记特征词项1的结尾为A,特征词项2的开头 为B,若A、 B均在词典中存在,比较A、 B在词典中的词频,若A的词 频大于B的词频或词典中只有A存在,则增加单字的左权重;若B的词 频大于A的词频或词典中只有B存在,则增加单字的右权重。第六计算过程的形式定义和计算如下例如,cNE="柏克斯/~ 电热器/n 具/vg 制造厂/n", ch="具" left—word(ch)=left_word( "具" )= "电热器", left_unit—word=Form(left_word(ch),ch)="电热器具",Tail(left一unit—word)= "器具",词典中存在"器具,,,right—word(ch)=right—word("具")="制造 厂,,, right—unit_word=Form(right_word(ch),ch)="具制造厂 ,,, Head(right—unit—word)="具制"或Head(right—unit—word)="具制造",词 典中不存在这两个特征词项,故f6("具","柏克斯/ 电热器/n具/vg制 造厂/n,, )=w(weight_left)。第七计算过程第七计算过程是针对低词频的词或特征词项对与其临近的单字具有更大的结合度(单字优先与临近的低词频的词或特征词项复合)的情况。特征词项越具体,越难以被分词程序识别,会被分成连续的单字,即使分词程序可以将特征词项的某部分识别,其词频也会非常低,故低词频的词或特征词项更应该与其临近的单字复合。第七计算过程的具体实现步骤包括对于候选命名实体中的单字,分 别考察其左边的词或特征词项和右边的词或特征词项在词典中的词频,若左边的词或特征词项的词频小于右边的词或特征词项的词频或词典中只/e力—wwY—won3 = _Fonw(/e_/ _ wo y/(c/z),c/0wmY—word = Forw(c/ ,n'g似—HWYi (c/z))
有右边的词或特征词项,则增加单字的左纟又重;若右边的词或特征词项的词频小于左边的词或特征词项的词频或词典中只有左边的词或特^正词项,则增加单字的右权重。第七计算过程的形式定义和计算如下「 w(we/沐—举)为(血"》w(/ey 14wd(cA)》 < 为(血"'o"(r妙/ mwv^(c/ ))) /7(c/2,c_/V£)=」 一 一 一例如,cNE="南京/ns 义/ng 联益/nz 实业/n 有限公司/n", ch= "义,,,fq(diction(left—word(ch)))=fq(diction("南京,,))=8 , fq(diction(left_word(ch)))=fq(diction("联益,,))=2, f7("义,,,"南京/ns 义 /ng 联益/nz 实业/n 有限^^司/n,, )=w(weight—right)。第八计算过程第八计算过程针对某些词或特征词项在词典中的各个 特征词项中的位置基本固定的情况。第八计算过程的具体实现步骤包括首先对候选命名实体中某个单字 左边的词或特征词项,将词典中所有以此词或特征词项开头的各个特征词 项的词频相加得m;对于其右面的词或特征词项,将词典中所有以此词或 特征词项结尾的各个特征词项的词频相加得n。若111>11,增加单字的左权 重;反之,则增加单字的右权重。某些词或特征词项在包含其的特征词项中出现的位置比较固定,出现 在结尾的次数和出现在开头的次数悬殊较大,例如,"北京"多出现在特 征词项的开头位置,"茶庄"多出现在特征词项的结尾位置。第八计算过程的形式定义和计算如下<formula>formula see original document page 20</formula>例如,cNE="白/d 下/v 区/n 人民政府/1 朝/p 天宫/n 办 事处/n", ch-"朝",left—word(ch)="人民政府",Is_Head(left_word(ch))=0, right_word(ch)= "天宫,,, Is—Tail(right—word(ch))=l , Is_Tail(right_word(ch))>Is—Head(left—word(ch)), f8("朝,,,"白/d 下/v 区 /n 人民政府/1 朝/p 天宫/n 办事处/n,, )=w(weight—right)。第九计算过程第九计算过程针对位于词境词典中的高频词或高频特 征词项具有更大结合度的情况。第九计算过程的具体实现包括对于候选命名实体中的某个单字,记 其左面的词或特征词项为A,右面的词或特征词项为B,在词境词典中,
寻找此单字对应的条目,若A的词频大于B的词频,则增加单字的左权重; 反之,增加单字的右权重。词境词典存储某个单字出现的环境,即记录某个单字出现时,其两侧 出现的词或特征词项。若不同的特征词项包含相同的更小的特征词项,且 此更小的特征词项不能被分词程序识别,它会被分词程序切割成相同的字 符串。则此时对于更小的特征词项中被切出的单字,其一侧的词在词境词 典中的词频会远远大于另 一侧的词。第九计算过程形式定义和计算如下w(w妙f—— 一例如cNE-"白马/nr 镇/n 人民政府/l", cl^"镇",left—word(ch)= "白马",fq(word一diction(ch))=fq(word—diction("白马,,))=2 , right_word(ch)="人民政府",fq(word—diction(ch))=fq(word—diction("人民 政府,,))=1, f9("镇,,,"白马/nr 镇/n 人民政府/l" )=w(weight—1 eft)。第十计算过程第十计算过程针对特征词项的词频与其包含词的词频 比率越大,特征词项结合度越大的情况。特征词项具有一定的封闭性,故 特征词项的词频与其包含词的词频比率越大,特征词项结合度越大,此特 征词项越可能正确。第十计算过程包括对特征词项开头的修正以及对特征词项结尾的修正。修正特征词项开头的过程包括记特征词项为特征词项1,再将特征 词项1左边的字与特征词项分开,变成单字。使候选命名实体成为包含单 字的候选命名实体。令单字右边的词或特征词项在词典中的词频为m,将 单字与其左边的词或特征词项复合形成特征词项2。特征词项1在词典中 的词频为n,记h!^/m,若复合前单字右边的词或特征词项在词典中不存 在,则令h尸0;令复合前单字左边的词或特征词项在词典中的词频为x, 所述第二特征词项在词典中的词频为y,记hfy/x,若复合前单字左边的 词或特征词项在词典中不存在,则令hf0;若h^h2,增加单字的左权重; 反之,增加单字的右权重。修正特征词项结尾的过程包括记特征词项为特征词项1,再将特征词项1右边的字与特征词项分开,变成单字。使候选命名实体成为包含单字的候选命名实体。令单字左边的词或特征词项在词典中的词频为m,将 单字与其右边的词或特征词项复合形成特征词项2。特征词项1在词典中 的词频为n,记h!^n/m,若复合前单字左边的词或特征词项在词典中不存 在,则令h产0;令复合前单字右边的词或特征词项在词典中的词频为x, 所述第二特征词项在词典中的词频为y,记hfy/x,若复合前单字右边的 词或特征词项在词典中不存在,则令112=0;若h一h2,增加单字的左权重; 反之,增加单字的右权重。第十计算过程的形式定义w(wezg/^」W)_ 一 —_ >嗜似—ra/Zo(尸orm(/妙LviWY/(c/z),c/ ),rz^/^—,喊c/ ))w(wei^一r妙0 — 一 _例如,cNE-"白马/nr 镇白龙村/ 村民/n委员会/n", ch="镇", left_word(ch)="白马",Form(left—word(ch),ch)- "白马镇", left—ratio(Form(left_word(ch),ch),left—word(ch))=left—ratio("白马镇","白 马,,)=0.2, right—word(ch)="白龙村",Form(ch,right—word(ch))="镇白 龙才于",right一ratio(Form(ch,right—word(ch)),right—word(ch))=right—ratio("镇 白龙村","白龙村")=0。 f10("镇","白马/nr镇白龙村/ 村民/n委 员会/n" )=w(weight—left)。由于分词程序存在交集歧义,故会错误地切分命名实体,而分词的错 误会导致最终获取错误的特征词项,所以在本计算过程中需要对候选命名 实体中的词进行修正,如"海装上/~ 海军/n代局/ 南京/ns 招待所 /n"中的"海军"。此外,在第一计算过程会错误的合并连续单字,如"白 马/nr镇上/n洋村/~村民/n委员会/n"中的"洋村"。将候选命名实 体中所有两个字的词或特征询项拆成两个单字,根据左右词对于相邻单字 的结合度,重新判定此词或特征词项是否正确的被分词。在下述的第十一计算过程、第十二计算过程和第十三计算过程的实现 过程中都采用了以下公式<formula>formula see original document page 22</formula>
其中,left—unit—word表示将候选命名实体中两个字的词拆开后,左边 的单字与其左边的词复合形成的新的特征词项;right—unit—word表示将候选命名实体中两个字的词拆开后,右边的单 字与其右边的词复合形成的新的特征词项。第十一计算过程若一个词被拆分成两个单字,且两个单字分别与其 左词和右词形成的两个特征词项均在词典中存在,则此词应被拆分,且形 成两个特征词项。第十一计算过程的具体实现步骤包括将候选命名实体中的只包含有 两个字的词和特征词项拆成两个单字,将左边的单字与其左边的词或特征 词项复合,形成特征词项1;将右边的单字与其右边的词或特征词项复合, 形成特征词项2;若特征词项1与特征词项2在词典中都存在,则将原来 的候选命名实体变成拆分后的状态;若有一个在词典中不存在,则将候选 命名实体恢复到拆分前的状态。第十一计算过程的形式定义例如cNE- "南京/ns 下关/ns 区热/~河南路/- 办事处/n", word="区热,,,Left(Split(word))=Left("区,,,"热")="区", left—word(Left(Split(word》)=left—word("区,,)="下关", Form(left一word(Left(Split(word))), Left(Split(word)))=Form("区","下关,,)= "下关区"-left—unit—word, Right(Split(word))=Right("区,,,"热")="热", right—word(Right(Split(word)))=right—word("热")="河南路", Form(right_word(Right(Split(word))), Right(Split(word)))=Form("热,,,"河 南路")="热河南路"=right—unit—word,"热河南路","下关区"均在词 典中存在,f12(word,cNE)= f12("区热","南京/ns 下关/ns 区热/~ 河 南路/~ 办事处/11)=1第十二计算过程是指若一个词或特征项词被拆分成两个单字,两个单字分别与其左边的词或特征词项和右边的词或特征词项形成两个新的 特征词项,若左边新形成的特征词项不存在于词典中,而右边新形成特征 词项在词典中词频大于阈值且新形成的特征词项的长度大于阈值,则此词 应寻皮拆分,且在右边形成特征词项,反之亦然。第十二计算过程的具体实现步骤包括将候选命名实体中的两个字的血riow(/ey —,Y ——a血打'ow(/妙/"—娜7"—hw力否则
词和特征词项,拆成两个单字,将左边的单字与其左边的词或特征词项复合,形成特征词项1;将右边的单字与其右边的词或特征词项复合,形成 特征词项2;若特征词项l在词典中不存在,且特征词项2在词典中存在, 并特征词项2的词频与长度大于分别设定的阈值,或者特征词项2在词典 中不存在,且特征词项1在词典中存在,并特征词项1的词频与长度分别 大于设定的阈值,则将原来的候选命名实体变成拆分后的状态;若不满足 上述两种情况,则将候选命名实体恢复拆分前的状态。 第十二计算过程的形式定义<formula>formula see original document page 24</formula>例如cNE="白马/nr镇上/n 洋村/~村民/n委员会/n", word= "镇上",left—word("镇上")="白马",Form("白马","镇,,)="白马 镇","白马镇"在词典中存在,而"上洋村"不存在,Length("白马镇,,)=6, fq(diction(白马镇》〉threshold。所以f13("镇上,,,"白马/nr 镇上/n 洋村 /~村民/n委员会/n")="白马镇/ 上洋村/~村民/n委员会/n"。第十三计算过程若一个词或特征词项被拆分成两个单字,两个单字 分别与其左边的词或特征词项和右边的词或特征词项形成两个特征词项, 新生成的两个特征词项在词典中均不存在,若左边新形成的特征词项的结 尾的词在词典中存在,且词频大于阈值,则此词应被拆分,且在左边形成 特征词项,若右边新形成的特征词项的开头的词在词典中存在,且词频大 于阈值,则此词应纟皮拆分,且在右边形成特征词项。第十三计算过程的具体实现步骤包括将候选命名实体中的两个字的 词和特征词项,拆成两个单字,将左边的单字与其左边的词或特征词项复 合,形成特征词项1;将右边的单字与其右边的词或特征词项复合,形成 特征词项2。若特征词项1和特征词项2在词典中都不存在,而特征词项 l的结尾为词典中的词,且词频大于设定的阈值,或者特征词项2的开头 在词典中存在,且词频大于设定的阈值,则将原来的候选命名实体变成拆 分后的状态;若不满足上述两种情况,则将候选命名试题恢复拆分前的状态。第十三计算过程的形式定义:<formula>formula see original document page 25</formula>例如cNE-"海装上/ 海军/n代局/~ 南京/ns 招待所/11",^0^= "海军",right—unit—word="军代局",left—unit—word="海装上海",均不 存在于词典中。Tail("海装上海")="上海",且fq(diction("上 海"))=3>threshold。上述第十二计算过程和第十三计算过程中所提到的阈值的大小可根 据命名实体的数量而定。在对各个计算过程以及计算过程中所使用的符号进行说明的基础上, 参考图2,对本发明的方法进行详细说明。 步骤IO、输入待识别的命名实体; 在本实施例中,,ii殳所输入的待识别命名实体如下 南京市白下区长清牛羊肉经营部;白马镇白龙村村民委员会;海装上 海军代局南京招待所;白马镇人民政府;白马镇中心幼儿园;朝天宫派出 所;鸿兴隆大酒楼有限公司;白下区人民政府朝天宫办事处;栖霞区教育 局;柏克斯电热器具制造厂;南京卫生器具厂;南京义联益实业有限公司; 白马镇上洋村村民委员会;六合区教育局;白下区朝天宫街道张府园社区 居民委员会;热河南路幼儿园;南京下关区热河南路办事处;上海饭店; 上海浦东发展银行;上海人民电缆厂;下关区民政局。在后续的操作中,将对上迷待命名实体是如何完成特征词项识别的过 程进行说明。步骤20、对待识别的命名实体进行分词操作,得到候选命名实体;在 本步骤中,分词操作是指在中文句子中,由于词与词之间不像西文那样具 有天然的分隔,而对句子所做的词语分割操作。由于分词操作是本领域普 通技术人员所公知的现有技术,因此,在本步骤中,对分词操作的具体实 现不做详细说明,在具体实现时,可采用例如中国科学院ICTCLAS分词系 统,Abot汉语分词系统和第三代智能分词系统3GWS等多种分词系统中的 任何一种分词系统。在本实施例中,选用了中国科学院ICTCLAS分词系统。
对于候选命名实体中的每个分割段,若其包含一个汉字则将其称为单字;若其包含两个汉字以上(包括两个汉字)称为词。故分词后所得到的候 选命名实体由单字和词组成,步骤10所输入的命名实体在分词操作后的结果如下南京市白下区长清牛羊肉经营部==〉南京市/113 白/d 下/v 区长 /n 清/tg 牛羊肉/n 经营/vn 部/n;白马镇白龙村村民委员会-》白马/nr 镇/n 白/a 龙/n 村/n 村民/n委员会/n;海装上海军代局南京招待所==>海/11 装/v 上/f 海军/n 代/q 局/n 南京/ns 招待所/n;白马镇人民政府==>白马/1^ 镇/n 人民政府/l;白马镇中心幼儿园-》白马/nr 镇/n 中心/n 幼儿园/n;朝天宫派出所-岭朝/p 天宫/n 派出所/n;鸿兴隆大酒楼有限公司-力鸿/ag 兴隆/a 大/a 酒楼/n 有限公 司/n;白下区人民政府朝天宫办事处==>白/(1 下/v 区/n 人民政府/1 朝/p 天宫/n 办事处/n;栖霞区教育局-岭栖/vg 霞/ng 区/n 教育局/n;柏克斯电热器具制造厂-力柏/ng克/v斯/rg 电热器/n 具/vg制 造厂/n;南京卫生器具厂-力南京/ns 卫生/an 器具/n厂/n; 南京义联益实业有限公司-》南京/ns 义/ng 联益/nz 实业/n 有 限/厶司/n;白马镇上洋村村民委员会-〉白马/nr镇上/n洋/ag村/n村民/n 委员会/n;六合区教育局-力六合/ns 区/n教育局/n;白下区朝天宫街道张府园社区居民委员会==>白/(1 下/v 区/n 朝 /tg 天宫/n 街道/n 张/q 府/ng 园/ng 社区/n 居民/n 委员会/n;热河南路幼儿园==>热/& 河南/ns 路/n 幼儿园/n;南京下关区热河南路办事处-岭南京/ns 下关/ns 区/n 热/a 河南 /ns 路/n 办事处/n;上海饭店-^上海/ns饭店/n;
上海浦东发展银行-一上海/ns 浦东/ns 发展/vn银行/n; 上海人民电缆厂-岭上海/ris人民/n 电缆/n厂/n; 下关区民政局-兮下关/ns 区/n 民政局/n。其中,符号"==>"表示每个命名实体分词后的结果。分词结果中的 ns, j,n,f,v,nr等标注是分词系统自带的,表示每个字或词的词性。其中, a表示形容词,ag表示形素词,an表示名形词,d表示副词,f表示方位 词,l表示习用i吾,n表示名词,ng表示名i吾素,nr表示人名,ns表示;也 名,nz表示其它专名,n表示名词,p表示介词,q表示量词,rg表示代 词性^吾素,tg表示时i吾素,v表示动词,vg表示动"i吾素,vn表示名动词。步骤30、对候选命名实体进行初步处理,得到一个结果,该结果被称 为第一计算结果;在本步骤中,所述的初步处理是指将候选命名实体中的连续单字进行 复合操作,这一操作过程可用第一计算过程表示。步骤10所输入的实例在经过第一计算过程后得到如下结果f"南京市/ns 白/d 下/v 区长/n 清/tg 牛羊肉/n 经营/vn 部/n)-南京市/ns 白下/ 区长/n 清/tg 牛羊肉/n 经营部/ ;f"白马/nr 镇/n 白/a 龙/n村/n 村民/n委员会/n卜白马 /nr 镇白龙村/ 村民/n委员会/n;f〈海/n 装/v 上/f 海军/n 代/q 局/n 南京/ns 招待所 /n)-海装上/ 海军/n 代局/~ 南京/ns 招待所/n;f!(白马/nr 镇/n 人民政府/l)=白马/nr 镇/n 人民政府/l;f!(白马/nr 镇/n 中心/n 幼儿园/n)-白马/nr 镇/n 中心/n 幼 儿园/n;t(朝/p 天宫/n 派出所/n)-朝天宫/ 派出所/n;A(鸿/ag 兴隆/a 大/a 酒楼/n 有限公司/n卜鸿兴隆/ 大/a 酒楼/n 有限公司/n;fj白/d 下/v 区/n人民政府/1 朝/p 天宫/n 办事处/n)-白 下区/ 人民政府/1 朝/p 天宫/n 办事处/n;f!(栖/vg 霞/ng 区/n教育局/11)=栖霞区/ 教育局/n;L(柏/ng 克/v 斯/rg 电热器/n 具/vg 制造厂/n)-柏克斯/~ 电热器/n具/vg 制造厂/n;fj南京/ns 卫生/an 器具/n 厂/n)-南京/ns 卫生/an 器具厂/~;f!(白马/nr镇上/n 洋/ag村/n村民/n委员会/n)-白马/nr镇 上/n洋村/~村民/n委员会/n;fi(六合/ns 区/n 教育局/11)=六合/ns 区/n 教育局/n;f!(白/d 下/v 区/n 朝/tg 天宫/n 街道/n 张/q 府/ng 园/ng 社区/n 居民/n 委员会/n)-白下区朝/~ 天宫/n 街道/n 张府园/~ 社区/n居民/n委员会/n;f!(热/a 河南/ns 路/n 幼儿园/n)-热河南/ 路/n 幼儿园/n;f!(南京/ns 下关/ns 区/n 热/a 河南/ns 路/n 办事处/n)二南 京/ns 下关/ns 区热/~河南/ns 路/n 办事处/n;f,(上海/ns 饭店/n)=上海/ns 饭店/n;f!(上海/ns 浦东/ns 发展/vn 银行/n)-上海/ns 浦东/ns 发展/vn 银行/n;t(上海/ns人民/n 电缆/n 厂/n)-上海/ns人民/n 电缆厂/~;t(下关/ns 区/n 民政局/n)-下关/ns 区/n 民政局/n。经过第一计算过程后,分词后的命名实体中,单字只会出现在两个词 中间。规定第一计算结果及其以后所有计算结果中的每个分隔段,若其包 含一个汉字则仍将其称为单字。若包含两个汉字以上(包括两个汉字)且标 记为~的,则将其称为特征词项,否则仍称其为词。步骤40、根据分词后的结果和所得到的第一计算结果建立词典,根据 第 一计算结果建立词境词典,并将词典和词境词典合称为词典库。本步骤中,所建立的词典中包含有词和特征词项以及与词和特征词项 对应的词频。建立词典的过程为将命名实体的分词结果中的词和第一计 算结果中的特征词项放入词典中,若词典没有此词或特征词项,则将此词 或特征词项的词频设为1;若词典中有此词或特征词项,则将此词或特征 词项的词频加1。根据本实施例中的具体实例,可建立一个相应的词典,该词典中的内 容为南京市 2 委员会6幼儿园 4 办事处4区长2 海军2 天宫 4牛羊肉2; 经营 1 南京 8;招待所2 派出所2;兴隆1白马 8;村民4; 人民政府4;中心 2; 酒楼2;有限公司4;教育局4;电热器2;制造厂2;卫生2;器具1; 联益2;实业 2;镇上 2;六'合 2;街道2;社区2;居民2;河南 3;下关 4;河西2;居委会2;上海6;饭店2;浦东2;发展2;银行2;人民2;电缆1;白下1;经营部1;镇白龙村1;海装上1;代局 1;朝天宫1;鸿兴隆1;白下区 1;栖霞区1;柏克斯1;器具厂1;洋村1;白下区朝1;张府园1;热河南1;区热1;电缆厂1;民政局 20在本步骤中,所建立的词境词典记录了每个单字左右出现的词或特征 词项,以及这些词或特征词项的词频。建立词境词典的过程是把每一个命 名实体的第一计算结果中的单字放入词境词典,并以单字为索引建立索引 词典,索引词典中包含单字在每个候选命名实体中左右的词或特征词项的 词频。根据本实施例中所提及的上述实例,可建立一个相应的词境词典,该词境词典的具体内容为清区长 1、牛羊肉 1;镇白马 2、人民政府1、中心 1;大鸿兴隆1、酒楼1;朝天宫 1、人民政府1;具电热器1、制造厂 1;义南京 1、联益 1;区六合 1、教育局 1、下关l、民政局 1;路热河南1、幼儿园 1、河南 l、办事处 1。步骤50、参考词典库,对第一计算结果做复合处理,从而得到第二计 算结果。在本步骤中,所述的复合处理是包括第二计算过程、第三计算过程、 第四计算过程、第五计算过程、第六计算过程、第七计算过程、第八计算 过程和第九计算过程在内的处理过程,在复合处理过程中,候选命名实体 要分别完成上述的计算过程,运行每一个计算过程都会对候选命名实体中 的每个单字得到一个左权重值(单字向左复合的权重)或右权重值(单字 向右复合的权重)或左右复合权重值(单字同时与左右复合的权重),将
每个单字在上述处理过程中所得到的所有左权重值相加,所有右权重值相 加,所有左右复合权重值相加。最后,判断该单字的左右复合权重值的和 是否大于0,若大于0,则认为复合处理的结果为左右复合权重值的和, 若左右复合权重值的和为0,则复合处理的结果为左权重和与右权重和中 值较大的 一个。所得到的复合处理的结果就是所述的第二计算结果。此处不再进行详细说明。步骤60、根据第二计算结果,对词典库中的词典进行扩充; 在本步骤中,对词典的扩充是要遍历第二计算结果的输入串中所有的特征词项和词,若所述的特征词项或词存在,则将词频加1,否则将此特征词项或词》丈入词典中,并将词频设为1。前述步骤40中所得到的词典经过扩充后的结果为南京市3;区长2;牛羊肉 3;经营1;白马10;村民6;委员会9;海军3;南京 12;招待所 3;人民政府6;中心3;幼儿园6;天宫5;派出所 3;兴隆1;酒楼2;有限公司5;办事处3;教育局6;电热器 2;制造厂3;卫生 3;器具1;联益2;实业 3;镇上 3;六合2;街道 3;社区 3居民3;河南 4;下关 5;居委会2;上海9;饭店3;浦东3;发展 3;银行 3;人民3;电缆 1;白下 2经营部2;镇白龙村2;海装上2;代局2;朝天宫 3鸿兴隆2;白下区2;栖霞区2;柏克斯2;器具厂 2洋村2;白下区朝2;张府园2;热河南1;区热 2电缆厂2;区长清1;白马镇2;大酒楼1;电热器具1义联益1;六合区1;热河南路l;下关区1;民政局 1河南路l。步骤70、以扩充后的词典库为参考,对第一计算结果再次执行复合处 理,得到第三计算结果,然后根据第三计算结果扩充词典库中的词典。在本步骤中,所涉及的复合处理与步骤50中所涉及的复合处理相同, 所涉及的扩充词典操作与步骤60中的操作相同,因此不再进行详细说明。步骤80、以扩充后的词典库为参考,对第一计算结果进行修正处理, 更正第 一计算结果中错误的特征词项或词,从而得到第四计算结果。
对第 一计算结果的修正处理包括对特征词项的修正和对词的修正。 对特征词项的修正是对第一计算结果中的长度大于2个字的特征词项 采用包括第五计算过程、第六计算过程、第七计算过程、第九计算过程和 第十计算过程在内的复合处理操作,选择最优解。在复合处理过程中,候 选命名实体要分别完成上述的计算过程,运行每一个计算过程都会对候选 命名实体中的每个单字得到一个左权重值(单字向左复合的权重)或右权 重值(单字向右复合的权重)或左右复合权重值(单字同时与左右复合的 权重),将每个单字在上述处理过程中所得到的所有左权重值相加,所有 右权重值相加,所有左右复合权重值相加。最后,判断该单字的左右复合权重值的和是否大于0,若大于0,则认为复合处理的结果为左右复合权 重值的和,若左右复合权重值的和为0,则复合处理的结果为左权重和与 右权重和中值较大的一个。所得到的复合处理的结果就是所述的第二计算 结果。对词的修正是对第 一 结果中的两个字的词或长度等于两个字的特征 词项釆用包括第十一计算过程、第十二计算过程和第十三计算过程在内的 复合处理操作,选择最优解。该复合处理操作的过程与前述的复合处理过 程相类似。步骤90、根据所得到的第四计算结果,扩充词典库中的词典。 对词典库扩充操作的实现在前文中已经有相应的说明,在本步骤中不再重复描述,只对本实施例中的具体实例在经过本步骤后的结果进行说明。本实施例中的具体实例经过本步骤后的结果分别为南京市5;区长2 委员会14;海军4 幼儿园10;天宫6牛羊肉 5;经营 1 南京 18;招待所5 派出所5;兴隆1白马12;村民9; 人民政府10;中心5; 酒楼2;有限公司7;办事处7;教育局10;电热器2;制造厂5;卫生5;联益2;实业 3;镇上4 居民5;河南4;下关6 上海15;发展5;银行5;人民 经营部4;镇白龙村3;海装上 鸿兴隆4;白下区6;栖霞区六合2;雄f道 5;社区 5; 居委会2;饭店5;浦东5;电缆1;白下 3; 代局 3;朝天宫 8; 柏克斯4;器具厂4;洋村3;白下区朝3;张府园4;热河南1;区热 3;
电缆厂4;区长清 2;白马镇 7;大酒楼 3;电热器具3; 义联益1;六合区 3;热河南路4;下关区 4;民政局 3; 河南路2;长清1;白龙村1;海装上海1;军代局 1。步骤IOO、以步骤90所扩充的词典为参考,对第四计算结果再次进行 复合处理,选取最优解,得到第五计算结果。在本步骤中,所述的复合处 理与步骤50中所涉及的复合处理过程相同,在本步骤中不再对其具体实 现加以i兌明。步骤110、根据第五计算结果对词典库中的词典进行扩充,再对第五 计算结果再次执行复合处理,选取最优解,得到第六计算结果。各个命名 实体的第六计算结果中的每个分隔片段,即词或特征词项,就是本发明方 法所要求取的命名实体的特征词项。前述实例在完成本步骤后的结果如下南京市/ns 白/d 下/v 区长/n 清/tg 牛羊肉/n 经营/vn 部 /n-〉南京市/ns 白下区/~长清/~牛羊肉/n 经营部/~;白马/nr 镇/n 白/a 龙/n村/n 村民/n 委员会/11==〉白马镇 /~白龙村/~村民/n委员会/n;海/n 装/v 上/f 海军/n 代/q 局/n 南京/ns 招待所/11==> 海装上海/~军代局/~南京/ns招待所/n;白马/nr 镇/n 人民政府/1==>白马镇/~ 人民政府/l;白马/nr 镇/n 中心/n 幼儿园/11==〉白马镇/~中心/n 幼儿园/n;朝/p 天宫/n 派出所/11==>朝天宫/~ 派出所/n;鸿/ag 兴隆/a 大/a 酒楼/n 有限公司/11==〉鸿兴隆/~ 大酒楼 /~ 有限公司/n;白/d 下/v 区/n人民政府/1 朝/p 天宫/n 办事处/n-〉白下 区/~ 人民政府/1 朝天宫/~ 办事处/n;栖/vg 霞/ng 区/n教育局/11==〉栖霞区/~ 教育局/n;柏/ng 克/v 斯/rg 电热器/n 具/vg 制造厂/n-力柏克斯/~ 电热器具/~ 制造厂/n;南京/ns 卫生/an 器具/n 厂/n- 南京/ns 卫生/an 器具厂/~;
南京/ns 义/ng 联益/nz 实业/n 有限7>司/:1==>南京/113 义联 益/~实业/n 有限公司/n;白马/nr 镇上/n 洋/ag 村/n 村民/n 委员会/n--〉白马镇/~ 上洋村/~村民/n委员会/n;六合/ns 区/n 教育局/11==〉六合区/~ 教育局/n;白/d 下/v 区/n 朝/tg 天宫/n 街道/n 张/q 府/ng 园/ng 社区/n 居民/n 委员会/11==>白下区/~ 朝天宫/~ 街道/n 张府园 /~社区/n 居民/n委员会/n;热/a 河南/ns 路/n 幼儿园/11==〉热河南路/~ 幼儿园/n;南京/ns 下关/ns区/n 热/a 河南/ns 路/n 办事处/11==>南京/ns 下关区/~热河南路/~ 办事处/n; 上海/ns 饭店/n-〉上海/ns 饭店/n;上海/ns 浦东/ns 发展/vn 银行/n-力上海/ns 浦东/ns 发展 /vn 银行/n;上海/ns 人民/n 电缆/n 厂/11==>上海/113 人民/n 电缆厂/~; 下关/ns 区/n 民政局/11==>下关区/~ 民政局/n。 上述实例所得到的特征词项识别结果如下南京市下区长清牛羊肉经营部南京市,白下区,长清,牛羊肉,经 营部;白马镇白龙村村民委员会白马镇,白龙村,村民,委员会; 海装上海军代局南京招待所海装上海,军代局,南京,招待所; 白马镇人民政府白马镇,人民政府; 白马镇中心幼儿园白马镇,中心,幼儿园;朝天宫派出所朝天宫,派出所; 鸿兴隆大酒楼有限公司鸿兴隆,大酒楼,有限公司; 白下区人民政府朝天宫办事处白下区,人民政府,朝天宫,办事处; 栖霞区教育局栖霞区,教育局; 柏克斯电热器具制造厂柏克斯,电热器具,制造厂; 南京卫生器具厂南京,卫生,器具厂; 南京义联益实业有限公司南京,义联益,实业,有限公司; 白马镇上洋村村民委员会白马镇,上洋村,村民,委员会; 六合区教育局六合区,教育局;
白下区朝天宫街道张府园社区居民委员会:白下区,朝天宫,街道, 张府园,社区,居民,委员会;热河南路幼儿园热河南路,幼儿园;南京下关区热河南路办事处南京,下关区,热河南路,办事处; 上海饭店上海,饭店;上海浦东发展银行上海,浦东,发展,银行; 上海人民电缆厂上海,人民,电缆厂; 下关区民政局下关区,民政局。本发明除了上述特征词项识别方法外,还提供了 一种与上述的特征词 项识别方法相对应的特征词项识别系统,它包括分词^t块、初步处理才莫块、 词典、词境词典和复合处理模块;其中,分词模块用于对待识别的命名实体进行分词操作,得到候选命名实体;初步处理模块对候选命名实体进行初步处理,得到第一计算结果; 所述的词典中包含有词和特征词项,以及与词和特征词项对应的词频;所述的词境词典记录了每个单字左右出现的词或特征词项,以及这些 词或特4正词项的词频;复合处理模块对第一计算结果做复合处理。本发明的特征词项识别系统还包括修正模块,该修正模块对复合处理 模块得到的处理结果进行修正,更正错误的词或特征词项。如图l所示,待识别的命名实体通过特征词识别系统的识别可得到所 要识别的特征词项。特征词项识别系统中各个模块的工作过程在前述对特 征词性的识别方法中已经有详细的说明,在此不再^t重复说明。本发明的特征词项识别方法和识别系统具有良好的识别效果。申请人 针对中国的机构名、城市名、地区名等命名实体做了大量实验,总共选取 了 80002个命名实体进行特征词项的识别,识别正确率高达99.3%。本发明还可实现对命名实体进行合适认知粒度的概念划分。人在对某 个命名实体进行理解时,首先会将其断成几部分,然后从最易理解的部分 入手,最终理解命名实体代表的意思。如命名实体"精瑞达灯饰制造公 司",人在对其进行理解时,会将其自然断成几部分"精瑞达""灯饰""制 造""公司",首先找到其中最易理解的,"公司,,知道这个命名实体表述 的是一个机构;"制造"表示此公司是生产某样东西的;"灯饰",表明这 个公司是生产灯饰的;"精瑞达",可能是不熟悉,但根据前面的理解,人 们会知道这个是指公司的名称。至此用户可以完全理解这个命名实体表示 的意思。分词不能将这个命名实体很好的拆分(分词会将命名实体断成"精 /瑞/达灯饰/制造/公司/"),本系统可以将每个命名实体很好的拆分成 用户所需要的几部分(精瑞达/ 灯饰/n制造/v公司/n)。最后所应乂明的是,以上实施例仅用以说明本发明的技术方案而非限制。 尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理 解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案 的精神和范围,其均应涵盖在本发明的权利要求范围当中。
权利要求
1、一种中文命名实体中特征词项的识别方法,包括步骤1)、对待识别的命名实体进行分词操作,得到候选命名实体;步骤2)、对所述的候选命名实体进行用于复合连续单字的初步处理,得到第一计算结果;步骤3)、根据所述的候选命名实体和所述的第一计算结果建立词典,根据所述的第一计算结果建立词境词典;所述词典和所述词境词典统称为词典库;步骤4)、参考所述的词典库,对所述的第一计算结果至少做一次复合处理,每一次复合处理后,根据处理结果扩充所述词典库,在下一次复合处理时,所参考的词典库为扩充后的词典库;步骤5)、根据复合处理后的结果得到所识别的特征词项。
2、 根据权利要求1所述的中文命名实体中特征词项的识别方法,其 特征在于,在对所述第一计算结果做多次复合处理过程中,参考词典库, 对经过复合处理的第一计算结果进行修正处理,并根据修正处理的结果对 所述词典库中的词典进行扩充。
3、 根据权利要求2所述的中文命名实体中特征词项的识别方法,其 特征在于,所述的步骤4)具体包括以下步骤步骤4-l)、参考词典库,对所述的第一计算结果做复合处理,从而得 到第二计算结果,然后根据所述的第二计算结果,对所述词典库进行扩充;步骤4-2)、参考扩充后的词典库,对所述第一计算结果再次进行复合 处理,得到第三计算结果,然后根据所述第三计算结果扩充词典库;步骤4-3)、参考扩充后的词典库,对所述的第一计算结果进行修正处 理,更正第一计算结果中错误的特征词项或词,得到第四计算结果,然后 用所述的第四计算结果扩充词典库;步骤4_4)、参考扩充后的词典库,对所述的第四计算结果再次进行复 合处理,得到第五计算结果,然后用所述的第五计算结果扩充词典库;步骤4-5)、参考扩充后的词典库,对所述的第五计算结果进行复合处 理,得到第六计算结果。
4、 根据权利要求1或2或3所述的中文命名实体中特征词项的识别 方法,其特征在于,所述的初步处理是将候选命名实体中的连续单字进行 复合操作。
5、 根据权利要求4所述的中文命名实体中特征词项的识别方法,其 特征在于,所述的初步处理通过第一计算过程实现,所述的第一计算过程 是指将所述候选命名实体中的连续单字复合;将位于所述候选命名实体开 头的单字与其右面的第一个词复合;将位于所述候选命名实体结尾的单字 与其左面的第一个词复合。
6、 根据权利要求1或2或3所述的中文命名实体中特征词项的识别 方法,其特征在于,所述的词典中包含有词和特4正词项,以及与词和特征 词项对应的词频。
7、 根据权利要求1或2或3所述的中文命名实体中特征词项的识别 方法,其特征在于,所述的词境词典记录了每个单字左右出现的词或特征 词项,以及这些词或特^正词项的词频。
8、 根据权利要求1或2或3所述的中文命名实体中特征词项的识别 方法,其特征在于,所述的复合处理是指对所述的候选命名实体分别运行多个计算过程,在运行其中一个计算 过程时,对所述候选命名实体中的每个单字得到一个左权重值或右权重值 或左右复合权重值,将每个单字在所述多个计算过程中所得到的所有左权 重值相加,所有右权重值相加,所有左右复合权重值相加;最后判断单字 的左右复合权重值的和是否大于0,若大于0,则认为所述复合处理的结 果为左右复合权重值的和,若左右复合权重值的和为0,则所述复合处理 的结果为左权重和与右权重和中值较大的一个。
9、 根据权利要求8所述的中文命名实体中特征词项的识别方法,其 特征在于,所述的多个计算过程是指所述第二计算过程、第三计算过程、 第四计算过程、第五计算过程、第六计算过程、第七计算过程、第八计算 过程和第九计算过程中的至少两个。
10、 根据权利要求9所述的中文命名实体中特征词项的识别方法,其 特征在于,所述的第二计算过程是指根据所述候选命名实体中的单字的词 性,为所述单字设置向左复合、向右复合或左右复合的权重。
11、 根据权利要求9所述的中文命名实体中特征词项的识别方法,其 特征在于,所述的第三计算过程是指当候选命名实体中的单字与其临近的 词或特征词项复合后的结果存在于所述词典中时,将复合后的结果认为是 特征词项。
12、 根据权利要求9所述的中文命名实体中特征词项的识别方法,其 特征在于,所述的第四计算过程是指当候选命名实体中的单字与其临近的 词或特征词项复合后的结果不存在于所述词典中时,从词典中寻找与复合 后的特征词项类似的特征词项。
13、 根据权利要求9所述的中文命名实体中特征词项的识别方法,其 特征在于,所述的第八计算过程是指对候选命名实体中某个单字左边的词相加;对于其右面的词或特征词项,将词典中所有以此词或特征词项结尾 的各个特征词项的词频相加;比较两次相加的结果,为单字增加与词频高的词或特征词项间的4又重。
14、 根据权利要求2或3所述的中文命名实体中特征词项的识别方法, 其特征在于,所述的修正处理是对所述第一计算结果进行特征词项的修正 和词的纟务正。
15、 根据权利要求14所述的中文命名实体中特征词项的识别方法, 其特征在于,所述的特征词项的修正是指对所述第一计算结果中长度大于2个字的特征词项分别运行多个计算 过程,在运行其中一个计算过程时,对每个单字得到一个左权重值或右权 重值或左右复合权重值;将每个单字在所述多个计算过程中所得到的所有 左权重值相加,所有右权重值相加,所有左右复合权重值相加;最后判断 单字的左右复合权重值的和是否大于0,若大于0,则认为所述复合处理 的结果为左右复合权重值的和,若左右复合权重值的和为0,则所述复合 处理的结果为左权重和与右权重和中值较大的一个。
16、 根据权利要求15所述的中文命名实体中特征词项的识别方法, 其特征在于,所述的多个计算过程是指第五计算过程、第六计算过程、第 七计算过程、第九计算过程和第十计算过程中的至少两个。
17、 根据权利要求9或16所述的中文命名实体中特征词项的识别方 法,其特征在于,所述的第五计算过程是指对候选命名实体中的某一单字, 在所述词典中所有包含该单字的特征词项中,比较单字出现在开头或结尾 的次数,根据所述次数的多少增加单字的左权重或右权重。
18、 根据权利要求9或16所述的中文命名实体中特征词项的识别方 法,其特征在于,所述的第六计算过程将候选命名实体中某个单字与其左 面的词或特征词项复合形成第 一特征词项,再将单字与其右面的词或特征 词项复合得到第二特征词项,分别选择第 一特征词项的结尾和第二特征词项的开头;若所述开头或结尾均在词典中存在,则比较两者在词典中的词 频,若所述开头的词频大于所述结尾的词频或词典中只有开头存在,则增 加单字的左权重;若所述结尾的词频大于所述开头的词频或词典中只有结 尾存在,则增加单字的右权重。
19、 根据权利要求9或16所述的中文命名实体中特征词项的识别方 法,其特征在于,所述的第七计算过程是指对候选命名实体中的单字,比 较与该单字临近的词或特征词项的词频,增加所述单字与词频低的词或特 征词项间的^又重。
20、 根据权利要求9或16所述的中文命名实体中特征词项的识别方 法,其特征在于,所述的第九计算过程是指对于候选命名实体中的某个单 字,在所述词境词典中,寻找与所述单字对应的条目,在所述条目中,若 所述单字左面的词或特征词项的词频大于所述单字右面的词或特征词项 的词频,则增加单字的左权重,若所述单字左面的词或特征词项的词频小 于所述单字右面的词或特征词项的词频,则增加单字的右权重。
21、 根据权利要求16所述的中文命名实体中特征词项的识别方法, 其特征在于,所述的第十计算过程包括对特征词项开头的修正和对特征词 项结尾的^f奮正;其中,对特征词项开头的修正是指首先,将第一特征词项左边的字与所述的第一特征词项分开,成为单 字,使候选命名实体成为包含单字的候选命名实体;然后,记录所述单字右边的词或特征词项在词典中的词频m,将所述 单字与其左边的词或特征词项复合形成第二特征词项;记录所述第一特征 词项在词典中的词频n,得到h产n/m,若复合前单字右边的词或特征词项 在词典中不存在,则令h尸0;接着,令复合前单字左边的词或特征词项在词典中的词频为x,所述 第二特征词项在词典中的词频为y,记hfy/x,若复合前单字左边的词或 特征词项在词典中不存在,则令hf0;最后,判断&与h2间的大小,若h^h2,增加单字的左权重;反之, 增加单字的右权重;对特征词项结尾的修正是指首先,将第一特征词项右边的字与所述的第一特征词项分开,变成单字,使候选命名实体成为包含单字的候选命名实体;然后,记录单字左边的词或特征词项在词典中的词频m,将单字与其 右边的词或特征词项复合形成第二特征词项;记录第 一特征词项在词典中 的词频n,得到h尸n/m,若复合前单字左边的词或特征词项在词典中不存 在,则令h产0;接着,令复合前单字右边的词或特征词项在词典中的词频为x,所述 第二特征词项在词典中的词频为y,记h产y/x,若复合前单字右边的词或 特征词项在词典中不存在,则令h2=0;最后,判断ln与h2间的大小,若h^h2,增加单字的左权重;反之, 增加单字的右权重。
22、 根据权利要求14所述的中文命名实体中特征词项的识别方法, 其特征在于,所述的对词的修正是指对所述第 一结果中的两个字的词或长度等于两个字的特征词项分别 运行多个计算过程,在运行其中一个计算过程时,对每个单字得到一个左 权重值或右权重值或左右复合权重值;将每个单字在所述多个计算过程中 所得到的所有左权重值相加,所有右权重值相加,所有左右复合权重值相 加;最后判断单字的左右复合权重值的和是否大于0,若大于0,则认为 所述复合处理的结果为左右复合权重值的和,若左右复合权重值的和为0, 则所述复合处理的结果为左权重和与右权重和中值较大的一个。
23、 根据权利要求22所述的中文命名实体中特征词项的识别方法, 其特征在于,所述的多个计算过程是指第十一计算过程、第十二计算过程 和第十三计算过程中的至少两个。
24、 根据权利要求23所述的中文命名实体中特征词项的识别方法, 其特征在于,所述的第十一计算过程是指将候选命名实体中只包含有两个字的词和特征词项拆分成两个单字, 若左边的单字与其左边的词或特征词项复合所形成的特征词项,以及右边 的单字与其右边的词或特征词项复合所形成的特征词项,都存在于词典 中,则拆分所述的只包含有两个字的词和特征词项,否则,不做拆分操作。
25、 根据权利要求23所述的中文命名实体中特征词项的识别方法, 其特征在于,所述的第十二计算过程是指将候选命名实体中只包含有两个字的词和特征词项拆分成两个单字, 两个单字分别与其左边的词或特征词项和右边的词或特征词项形成两个 新的特征词项,若左边新形成的特征词项不存在于词典中,而右边新形成 特征词项在词典中的词频大于阈值且新形成的特征词项的长度大于阈值, 则此词应净皮拆分,且在右边形成特征词项,反之亦然。
26、 根据权利要求23所述的中文命名实体中特征词项的识别方法, 其特征在于,所述的第十三计算过程是指将候选命名实体中只包含有两个字的词和特征词项拆分成两个单字, 两个单字分别与其左边的词或特征词项和右边的词或特征词项形成两个特征词项,新生成的两个特征词项在词典中均不存在,若左边新形成的特 征词项的结尾的词在词典中存在,且词频大于阈值,则此词应被拆分,且 在左边形成特征词项,若右边新形成的特征词项的开头的词在词典中存 在,且词频大于阈值,则此词应被拆分,且在右边形成特征词项。
27、 一种中文命名实体中特征词项的识别系统,其特征在于,包括分 词模块、初步处理模块、词典、词境词典和复合处理模块;其中,所述的分词模块用于对待识别的命名实体进行分词操作,得到候选命 名实体;所述的初步处理模块对所述的候选命名实体进行初步处理,得到第一 计算结果;所述的词典中包含有词和特征词项,以及与词和特征词项对应的词频;所述的词境词典记录了每个单字左右出现的词或特征词项,以及这些 词或特征词项的词频;所述的复合处理模块对所述的第一计算结果做复合处理。
28、 根据权利要求27所述的中文命名实体中特征词项的识别系统, 其特征在于,还包括修正模块,所述的修正模块对所述复合处理模块得到 的处理结果进行修正,更正错误的词或特征词项。
全文摘要
本发明提供一种中文命名实体中特征词项的识别方法,包括对待识别的命名实体进行分词操作,得到候选命名实体;对候选命名实体进行初步处理,得到第一计算结果;根据候选命名实体和第一计算结果建立词典,根据第一计算结果建立词境词典;所述词典和所述词境词典统称为词典库;参考词典库,对第一计算结果多次做复合处理,每一次复合处理后,根据处理结果扩充词典库,在下一次复合处理时,所参考的词典库为扩充后的词典库;根据多次复合处理后的结果得到所识别的特征词项。本发明还提供了一种中文命名实体中特征词项的识别系统。本发明无需借助上下文,即可实现对中文命名实体中特征词项的识别和理解,提高了自然语言理解和信息检索的准确率。
文档编号G06F17/30GK101118538SQ200710121868
公开日2008年2月6日 申请日期2007年9月17日 优先权日2007年9月17日
发明者岳小莉, 曹存根, 曹馨宇 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1