一种基于本体的中文人名消歧方法

文档序号:6503324阅读:140来源:国知局
一种基于本体的中文人名消歧方法
【专利摘要】本发明提供了一种基于本体的中文人名消歧方法,包括以下步骤:定义人物属性,定义出人物本体中涉及的概念、属性和关系;构建人物本体,根据人物的属性信息,定义一个底层、详细的应用本体,将人物本体定义为一个四元组PO={C,P,R,I},其中,C代表概念或类的集合,P代表数据属性或对象属性的集合,R代表概念之间、概念与概念的实例之间、概念与属性之间的关系集合,I代表实例集合,R代表四类核心关系:种类关系、部分关系、实例关系和属性关系,基于本发明的一种基于本体的中文人名消歧方法,可以有效解决中文人名的实体链接问题,较好的解决了人名误匹的问题,提高了识别效果。
【专利说明】一种基于本体的中文人名消歧方法

【技术领域】
[0001]本发明涉及自然语言处理领域,具体地是通过构建人物本体将中文人名和其拥有的属性信息建立联系,实现人名与真实实体之间的链接,以消解人名关键词的歧义的技术。

【背景技术】
[0002]人名消歧逐渐成为搜索资源的热点,人名歧义给人名查询、人物关系挖掘、敏感人物的信息过滤等应用上带来了众多不利的影响,当进行检索时,搜索引擎会返回大量包含该人名的网页,而且这些网页可能描述多个实体,同时人名有很高的歧义性,多人同名或者非人名。因此,近年来国内外开始逐步关注于人名消歧任务的研究。目前现有的方法大都是利用文档中的特征信息对出现人名的文档进行聚类,即将指向同一个人的文档集聚成一个个单独的类。然而,如何确定文档中出现的歧义人名所指向的现实生活当中的特定的人,仍然是一个亟待解决的问题。
[0003]本发明是基于斯坦福大学开发SUMO (Suggested Upper Merged Ontology)的本体构建“七步法”,以及人物的各种属性名称(如国籍、职业等),来对人物本体中的概念及其层次结构等方面进行定义,创建一个人体实例的知识库,主要针对人名词条在百度百科中的百科名片半结构(例如:姚明这样的名人)和人物简介非结构(例如:王伟这样的普通人)这两类信息,分别研究出基于HTML结构特征、基于自然语言理解和规则相结合这两类方式来对人物属性信息进行抽取,再利用Jena对抽取的信息本体实例化,建立一个树结构,从人物本体的概念层级和属性值层级上来研究人物本体实例之间的相似性,再结合人物实例的总体相似度衡量。
[0004]有鉴于此,发明人提供了一种基于本体的中文人名消歧方法。


【发明内容】

[0005]针对现有技术中的缺陷,本发明提供了一种基于本体的中文人名消歧方法,克服了现有技术的困难,根据网络信息先构建人物本体,当有人物信息时,提取其信息模块,创建人物实例,并与本体里的信息进行匹配,名字与目标实体列表中的相应实体的定义进行链接。例如,“姚明周围的文本,如“《前门情思大碗茶》”、“刘晓庆”等与当前人名有关的信息”,可以确定其是作曲家姚明,而不是锁定在篮球运动员姚明。
[0006]根据本发明的一个方面,提供一种基于本体的中文人名消歧方法,包括以下步骤:
[0007]定义人物属性,定义出人物本体中涉及的概念、属性和关系;
[0008]定义人物本体的概念及其结构,创建实体这个顶层类,再在其下层添加抽象和物质两大子类;
[0009]定义人物本体的属性,属性包括两个部分:数据属性和对象属性;
[0010]抽取人物属性;
[0011 ] 人名实例化,将人物本体中所有的概念创建相应的实例,主要是对本体中的概念所关联的属性进行赋值;
[0012]人物本体实例树匹配,通过在本体的概念层级上度量人物实例间的相似度以及在本体的属性值层级上度量人物实例间的相似度来衡量人物实例间的总体相似度;
[0013]相似度排序;以及
[0014]链接人名到最相似的人物实例。
[0015]优选地,所述人物属性为人物所具有的特征集合,包含人物名称属性、人物基本属性、人物介绍性属性、人物社会。
[0016]优选地,物质类下层定义人物这个概念实体,代表人物自身;
[0017]抽象类下层继续构建属性类,并在其下层,即中间层级上,继续添加人物名称、基本属性、介绍性信息、联系方式、值类、个人关系这六大概念类,将人物本体组织成一个具有上下位关系的树状结构。
[0018]优选地,所述抽取人物属性包括半结构文本的属性抽取,从网页中的所有百科名片中抽取出人物的基本信息,并转换为一种自定义的有结构的可扩展标记语言页面,主要将超文本标记语言结构的方式和半结构化文本抽取方式结合,搜集由人名对应的百科页面,对源码解析,确定所抽取的信息块,分析信息块的特征及超文本标记语言特征标签,归纳总结信息项的抽取规则,用于后续的大批量的百科页面的信息抽取。
[0019]优选地,所述抽取人物属性包括非结构文本的属性抽取,通过非结构的人物简介来描述人物的相关信息。
[0020]优选地,从三个方面来定义每个属性的抽取规则:属性信息的前后触发词、属性信息的自身特征以及属性信息的左右边界。
[0021]优选地,在本体的概念层级上度量人物实例间的相似度的计算公式如下:
[0022]

【权利要求】
1.一种基于本体的中文人名消歧方法,其特征在于,包括以下步骤: 定义人物属性,定义出人物本体中涉及的概念、属性和关系; 定义人物本体的概念及其结构,创建实体这个顶层类,再在其下层添加抽象和物质两大子类; 定义人物本体的属性,属性包括两个部分:数据属性和对象属性; 抽取人物属性; 人名实例化,将人物本体中所有的概念创建相应的实例,主要是对本体中的概念所关联的属性进行赋值; 人物本体实例树匹配,通过在本体的概念层级上度量人物实例间的相似度以及在本体的属性值层级上度量人物实例间的相似度来衡量人物实例间的总体相似度; 相似度排序;以及 链接人名到最相似的人物实例。
2.如权利要求1所述的一种基于本体的中文人名消歧方法,其特征在于:所述人物属性为人物所具有的特征集合,包含人物名称属性、人物基本属性、人物介绍性属性、人物社
O
3.如权利要求1所述的一种基于本体的中文人名消歧方法,其特征在于:所述物质类下层定义人物这个概念实体,代表人物自身; 抽象类下层继续构建属性类,并在其下层,即中间层级上,继续添加人物名称、基本属性、介绍性信息、联系方式、值类、个人关系这六大概念类,将人物本体组织成一个具有上下位关系的树状结构。
4.如权利要求1所述的一种基于本体的中文人名消歧方法,其特征在于:所述抽取人物属性包括半结构文本的属性抽取,从网页中的所有百科名片中抽取出人物的基本信息,并转换为一种自定义的有结构的可扩展标记语言页面,主要将超文本标记语言结构的方式和半结构化文本抽取方式结合,搜集由人名对应的百科页面,对源码解析,确定所抽取的信息块,分析信息块的特征及超文本标记语言特征标签,归纳总结信息项的抽取规则,用于后续的大批量的百科页面的信息抽取。
5.如权利要求1所述的一种基于本体的中文人名消歧方法,其特征在于:所述抽取人物属性包括非结构文本的属性抽取,通过非结构的人物简介来描述人物的相关信息。
6.如权利要求5所述的一种基于本体的中文人名消歧方法,其特征在于:从三个方面来定义每个属性的抽取规则:属性信息的前后触发词、属性信息的自身特征以及属性信息的左右边界。
7.如权利要求1所述的一种基于本体的中文人名消歧方法,其特征在于:在所述本体的概念层级上度量人物实例间的相似度的计算公式如下:
I[ 分别表示Cl, C2集合中的任意概念节点;sim (cj_,(4)表示概念节点对之间的相似性Aimc^P1, P2)表示两个人物实例Pl和P2在本体的概念层级上的相似性。
8.如权利要求1所述的一种基于本体的中文人名消歧方法,其特征在于:在所述本体的属性值层级上度量人物实例间的相似度的计算公式如下:
ξ, g分别表示I1, I2集合中的任意属性值节点;ν?ρ, vlq分别巧,g这两个任意属性值节点中的某个值;wv为赋予给某个属性值的权重;SVlp,SV2q分别表示属性值Vlp和V2q中包含的词的集合。
9.如权利要求1所述的一种基于本体的中文人名消歧方法,其特征在于:所述衡量人物实例间的总体相似度包括设P1与P2之间的一个匹配对为M = (P1, P2),最终两个人物实例之间的总体相似度的计算公式如下:
Simp (P1, P2) = ffc*Simc (P1, P2) + (1-Wc) ^Simi (P1, P2) 若两树之间的相似度超过一个预设的阈值,则判定这两个树是相似的。
【文档编号】G06F17/30GK104182420SQ201310202444
【公开日】2014年12月3日 申请日期:2013年5月27日 优先权日:2013年5月27日
【发明者】吕钊, 罗年洁 申请人:华东师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1