开放式实体及其类型识别方法

文档序号:6383029阅读:188来源:国知局
专利名称:开放式实体及其类型识别方法
技术领域
本发明涉及一种实体及其类型识别方法,特别涉及一种开放式实体及其类型识别方法。
背景技术
自然语言文本中的实体是承载信息的重要语言单位,实体的识别和分析在信息抽取、开放域问答、信息检索以及机器翻译等领域都占有非常重要的地位。1995年MUC-6会议第一次引入了命名实体的概念,主要是要识别出文本中出现的专有名称和有意义的数量短语并加以归类,包括人名、地名、机构名、时间、日期、货币和数量等。从应用需求看,传统命名实体的类别是远远不够的。例如产品名(如诺基亚N97)、会议名(如20国集团伦敦峰会)、疾病名(如甲型HlNl流感)、赛事名(如2010南非世界杯)等在商务、新闻、医药和体育领域都非常重要。虽然命名实体细分类方面已经有一些工作。自动内容抽取评测 ACE-2007 (Automatic Content Extraction)把实体分为七大类(Person, Location,Organization,Geo-Political Entity,Facility,Vehicle和Weapon)、45小类;Sekine andNobata设计了 4级共200个类别。但是不同应用需要不同命名实体分类体系,这些实体的类型更多、更细,而且有些实体类别是未知、或者是随时间演化的,不可能固定一种统一的分类体系。开放式实体的抽取和类型识别可以扩展和细化传统的实体类型,具有更加广泛的应用价值。由于传统的命名实体类别已经不能满足实际应用的需要,于是人们开始研究传统命名实体之外的实体识别。一般采用弱指导的方法抽取获得实体知识库资源,然后利用这些资源识别对应的实体。Ni等人基于Linked Open Data (LOD)对开放域的实体划分类别,利用了 LOD资源库中已存在的实体类别信息对未知的实体进行开放分类。但对于中文缺少这样的L0D,因此本课题将基于大规模的互联网语料,采用弱指导的模式匹配的方法抽取实体的类别,并可以构建出类似于本文LOD的实体类别层次知识库。Jain和Pennacchiotti介绍了一种基于模式匹配和聚类的方法从搜索引擎查询日志中抽取开放式实体。张慧城介绍了几种抽取互联网半结构化列表中实体的方法。但并非所有的实体都存在规范化的列表式网页,因此该方法并不能覆盖所有类型的实体。Mikr OS等人提出了一种从互联网数据中抽取开放式实体描述定义的方法,但未对实体的类型进行识别。齐振宇等人从句子结构出发,通过分类器得到含有命名实体的碎片序列,抽取文本中的中文开放式命名实体。但该文献也没有对获得的命名实体的类型进行识别,仅划分了边界。卡塞拉等人提供了与提供小组件有关的方法、计算机程序产品以及系统,所述小组件基于根据提取器所定义的模式提取的实体来生成内容。但需要用户参与抽取模式的设定,而本项目所使用的方法无需用户参与。Evans提出了一种开放域英文命名实体识别的方法框架。首先选取首字母大写的词串作为命名实体候选;然后构建启发式的Query到搜索引擎中检索上位词;在对上位词聚类,并打上类别标签作为实体类别;再对实体候选进行分类,完成开放域命名实体的识另IJ,但是中文无字母大写等信息。所以目前采用弱指导方法的实体识别方法还存在上述一些缺陷。

发明内容
本发明的目的是为了解决目前采用弱指导方法的实体识别方法存在上述缺陷的问题,本发明提供一种开放式实体及其类型识别方法。本发明的一种开放式实体及其类型识别方法,步骤一通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;步骤二 利用训练语料的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界;步骤三查询实例集中是否存在步骤二中所述实体,若存在,输出所述实体及对应的类型,结束;若不存在,则转入步骤四;步骤四基于模式匹配的方法进行实体的语义类抽取,扩充实例集,转入步骤三。本发明的优点在于,在边界识别时,利用训练语料资源的获取和统计模型形成方法以及特征的选取,命名实体知识库资源的获取及有效利用等;由于很难构建数量充足且类型完备的训练语料,本发明将结合开放域实体的特点,将重点研究弱指导的实体类型获取方法。此外,实体抽取和类型识别获得的结果可以按层次组织起来,形成实体语义知识库,即模式库。本发明实现对各种类型的实体的识别和分类,突破传统实体识别的局限性,并在此基础上构建一个大规模的实体类型层次的实例集,更好地为信息抽取、信息检索、机器翻译等上层应用提供支持。而本发明的方法面向整个互联网文本,覆盖范围更广。本发明将既进行边界划分,也进行类型识别。由于中文无字母大写等信息,所以本发明用机器学习的方法进行实体边界的识别,然后再采用步骤四模式匹配的方法识别其类别,并充分利用互联网信息的高冗余性保证准确率,并将构建实体层次知识库。


图1为本发明所述的开放式实体及其类型识别方法的流程示意图。图2为本发明所述的开放式实体及其类型识别方法中的基于模式匹配的方法进行实体的语义类抽取流程示意图。图3为本发明所述的开放式实体及其类型识别方法中的一种知识库的结构示意图。
具体实施例方式具体实施方式
一结合图1说明本实施方式,本实施方式所述的开放式实体及其类型识别方法,步骤一通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;步骤二 利用训练语料的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界;
步骤三查询实例集中是否存在步骤二中所述实体,若存在,输出所述实体及对应的类型,结束;若不存在,则转入步骤四;步骤四基于模式匹配的方法进行实体的语义类抽取,扩充实例集,转入步骤三。开放域实体和传统命名实体相比有以下两个特点类型更多,且不限定。例如包括药品名、产品名、电影名、书名、音乐名等等,很难由人工制定完备。类型更细,且有层次。例如传统命名实体包括机构名,但在开放域实体中机构名还可能继续细分,比如分为政府机关、学校、企业、球队、军队等更细的子类别。实体边界识别的训练语料可以使用人工标注,但耗时耗力。因此,本实施方式采用自动构建的方法,例如“Root可口可乐公司成立于1892年,总部设在美国乔亚洲亚特兰大。”中的“可口可乐”和“公司”这个依存对,它们之间的依存关系为修饰关系,方向由“公司”指向“可口可乐”,因此它表示“可口可乐”依存于“公司”。通过这样的依存关系等确定实体的边界,生成实体边界识别的训练语料。由于依存树库中的依存关系完全采用人工标注,准确度比自动得到的依存关系要高很多。而依存关系对于实体边界确定具有很大的帮助,这也是本实施方式使用该依存树库自动构建训练语料最重要的动机。在生成训练语料后,选取合适的统计机器学习方法,即条件随机域(ConditionalRandomField)模型,和有效的特征,训练模型。语义类抽取通常有基于模式匹配和基于分布相似性两种方法。有研究结果表明模式匹配方法更适合专有名词类语义类的抽取;分布相似性方法更适合动词、形容词等常用词语义类的抽取。本实施方式主要研究开放式命名实体的类别的抽取,即抽取命名实体的上位词,更适合使用模式匹配的方法。本实施方式的步骤一中所述汉语依存关系树库选择哈尔滨工业大学社会计算与信息检索实验中心人工标注的6万句汉语依存关系树库(HIT-1R Dependency Treebank)。
具体实施方式
二 结合图2说明本实施方式,本实施方式是对具体实施方式
一所述的开放式实体及其类型识别方法的进一步限定,步骤四中的基于模式匹配的方法进行实体的语义类抽取,扩充实例集的方法为利用种子集中的实例〈实体,类型〉在大规模生语料中抽取出模式,对所述模式进行过滤,选择出现频率较高的N个、抽取实例较多的M个模式扩充到模式库中;利用模式库中的模式在大规模生语料中抽取出新的实例〈实体,类型 >,所述新的实例〈实体,类型 > 中的实体为步骤二中所述实体,将所述新的实例〈实体,类型 > 扩充到实例集中,然后对所述实例集中的实例〈实体,类型 > 进行过滤,选择出现频率较高的I个、被多个模式匹配到的置信度较高的J个的实例〈实体,类型 > 扩充到种子集中,M、N、1、J均为正整数,如图2中的虚线流程。实体类型的获取可以采用上位词抽取或者上下位关系抽取技术,属于语义类(semantic class)抽取的范畴。如水果和苹果是一对上下位关系,水果是苹果的上位词(hypernym),苹果是水果的下位词(hyponym)。我们的任务就是抽取这样的上下位关系,构成知识库。语义类抽取通常有基于模式匹配和基于分布相似性两种方法。有研究结果表明模式匹配方法更适合专有名词类语义类的抽取;分布相似性方法更适合动词、形容词等常用词语义类的抽取。本实施方式的开放式实体的类型的抽取,即抽取命名实体的上位词,更适合使用模式匹配的方法。初始时,可以给定一些种子,也可以给定几个简单的模式(pattern),然后开始在大规模生语料上迭代挖掘,利用种子可以抽取出新的模式,利用模式可以抽取新的实例,选择高质量的实例作为新的种子,采用bootstrapping方法如此迭代下去,不断扩充实例集和模式库。若迭代从种子集开始,则需要由人工来制定上下位关系种子,可以表示为二元组,例如〈苹果,水果 >,< 咖啡,饮料 >,< 蒙古族,名族 > 等等。若迭代从模式库开始,则需人工制定一些模式,利用模式从语料库中抽取实例,并根据实例出现的频次等信息选择高质量的实例作为种子,然后再利用种子抽取更多的模式。得到的上下位关系实例可以连接到已有的知识体系下,构成知识库,即实例集,举例如图3所示。在实际应用中,即可利用知识库,结合上下文信息为文本中的命名实体打上类别标签。此外,由于数据稀疏问题,一部分实体的上位词无法由上述字符串模式抽取出来。也可以采用基于词汇相似度的方法将这部分实体也扩展到知识库中。首先从互联网抽取实体列表,然后计算列表中实体与知识库中实体或类型的相似度,将相似的实体链接到相同的位置,从而实现对知识库的扩展。本实施方式中的M的取值范围1-10 ;N的取值范围1-10 ;1的取值范围10_50 ;J的取值范围10-50 ;具体实施方式
三本实施方式是对具体实施方式
一或二所述的开放式实体及其类型识别方法的进一步限定,利用模式库中的模式在大规模生语料中抽取出新的实例〈实体,类型 >,所述新的实例〈实体,类型 > 中的实体为步骤二中所述实体,将所述新的实例〈实体,类型 > 扩充到实例集中,然后对所述实例集中的实例进行过滤,选择出现频率较高的I个、被多个模式匹配到的置信度较高的J个的实例〈实体,类型 > 扩充到种子集中;利用种子集中的实例〈实体,类型 > 在大规模生语料中抽取出模式,对所述模式进行过滤,选择出现频率较高的N个、抽取实例较多的M个的模式扩充到模式库中,M、N、1、J均为正整数,如图2中实线流程所示。本实施方式中的M的取值范围1-10 ;N的取值范围1-10 ;1的取值范围10_50 J的取值范围10-50。
具体实施方式
四本实施方式是对具体实施方式
一所述的开放式实体及其类型识别方法的进一步限定,利用训练语料和百科知识库的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界。但由于训练语料在时间和领域范围上的局限性,训练得到的统计模型很可能无法完全满足实际需要,一些专业的领域术语、新出现的实体名将无法被识别出来。随着维基百科(Wikipedia)、百度百科、互动百科等在线百科知识库的兴起,越来越多的高质量的词条被收录其中,涵盖了各行各业的专有名词、领域术语等,并且更新及时。抽取这些百科知识库的标题等结构化的信息,作为名词符合短语词典资源。而这些资源对于命名实体边界的识别是有帮助的,比如一些新出现的命名实体边界,未包含在训练语料中,而构成又比较特殊,利用百科知识库判断其边界。因此,将以百科知识库为指导,与统计模型结合进行命名实体边界的识别。结合时,可以将词典匹配作为预处理,生成特征融入模型中;也可以作为后处理,对统计模型识别的结果进行修正。
具体实施方式
五本实施方式是对具体实施方式
一所述的开放式实体及其类型识别方法的进一步限定,步骤二中所述有效特征为上下文特征、词性特征和动词依存关系特征;所述上下文特征为前后窗口为5的范围内的词;所述词性特征为前后窗口为5的范围内的词的词性;所述动词依存关系特征为根据某个动词出现在实体内部的可能性映射到一个三维特征值空间;所述三维特征值空间的三维坐标为别表示所述动词可以出现在实体内,所述动词不可以出现在实体内,所述动词不确定是否出现在实体内。采用的特征包括词汇、词性和动词的依存句法关系等。引入动词依存句法关系特征的原因是在汉语中,这种现象更为明显。汉语没有词形变化,因此动词不需要向英语中进行名词化或形容词化变形,即可包含在实体中,实体内的动词和实体外作为谓语的动词在词形上没有任何区别。例如“尼日利亚驻华大使馆”中的“驻”、“中国建设银行”中的“建设”。因此,本文采用了引入动词依存关系特征这种策略,期望通过提高对动词的判定准确度,与基本方法结合,以提高识别实体的效果。只引入动词依存关系,而不引入其他词性的依存关系,主要有以下两点考虑1)汉语依存关系判别准确率80%左右,如果全部引入用来识别实体,那么势必带来较大的错误累积。2)动词与周围词语发生依存关系的情况更多,可以综合考虑与某个动词发生的所有关系以决定该动词是否属于实体内部。
具体实施方式
六本实施方式是对具体实施方式
五所述的开放式实体及其类型识别方法的进一步限定,所述三维特征值空间的确定方法为统计训练语料中某个动词的动词依存关系处于实体内部和外部的比例,计算所述动词出现在实体内部的可能性分值A :A = valueRelln(rel)+valueRelOut(rel)
权利要求
1.开放式实体及其类型识别方法,其特征在于,它包括如下步骤步骤一通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;步骤二 利用训练语料的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界;步骤三查询实例集中是否存在步骤二中所述实体,若存在,输出所述实体及对应的类型,结束;若不存在,则转入步骤四;步骤四基于模式匹配的方法进行实体的语义类抽取,扩充实例集,转入步骤三。
2.根据权利要求1所述的开放式实体及其类型识别方法,其特征在于,步骤四中的基于模式匹配的方法进行实体的语义类抽取,扩充实例集的方法为利用种子集中的实例〈实体,类型〉在大规模生语料中抽取出模式,对所述模式进行过滤,选择出现频率较高的N个、抽取实例较多的M个模式扩充到模式库中;利用模式库中的模式在大规模生语料中抽取出新的实例〈实体,类型 >,所述新的实例 <实体,类型 > 中的实体为步骤二中所述实体,将所述新的实例〈实体,类型 > 扩充到实例集中,然后对所述实例集中的实例〈实体,类型 > 进行过滤,选择出现频率较高的I个、被多个模式匹配到的置信度较高的J个的实例〈实体,类型 > 扩充到种子集中,M、N、1、J均为正整数。
3.根据权利要求1所述的开放式实体及其类型识别方法,其特征在于,步骤四中的基于模式匹配的方法进行实体的语义类抽取,扩充实例集的方法为利用模式库中的模式在大规模生语料中抽取出新的实例〈实体,类型 >,所述新的实例 <实体,类型 > 中的实体为步骤二中所述实体,将所述新的实例〈实体,类型 > 扩充到实例集中,然后对所述实例集中的实例进行过滤,选择出现频率较高的I个、被多个模式匹配到的置信度较高的J个的实例〈实体,类型 > 扩充到种子集中;利用种子集中的实例〈实体,类型 > 在大规模生语料中抽取出模式,对所述模式进行过滤,选择出现频率较高的N个、抽取实例较多的M个的模式扩充到模式库中,M、N、1、J均为正整数。
4.根据权利要求1所述的开放式实体及其类型识别方法,其特征在于,所述步骤二为 利用训练语料和百科知识库的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界。
5.根据权利要求1所述的开放式实体及其类型识别方法,其特征在于,步骤二中所述有效特征为上下文特征、词性特征和动词依存关系特征;所述上下文特征为前后窗口为5的范围内的词;所述词性特征为前后窗口为5的范围内的词的词性;所述动词依存关系特征为根据某个动词出现在实体内部的可能性映射到一个三维特征值空间;所述三维特征值空间的三维坐标为别表示所述动词可以出现在实体内,所述动词不可以出现在实体内,所述动词不确定是否出现在实体内。
6.根据权利要求5所述的开放式实体及其类型识别方法,其特征在于,所述三维特征值空间的确定方法为统计训练语料中某个动词的动词依存关系处于实体内部和外部的比例,计算所述动词出现在实体内部的可能性分值A :
7.根据权利要求2或3所述的开放式实体及其类型识别方法,其特征在于,所述大规模生语料为纯文本形式。
8.根据权利要求1或2所述的开放式实体及其类型识别方法,其特征在于,步骤四中所述模式的形式为N〈SBV>: {v}[是]: {n}〈V0B>,其中N表示实体,?表示类型,<SBV>表示主谓关系句法信息,<V0B>表示动宾关系句法信息,M表示动词词性信息,In}表示名词词性信息,为词语分隔符。
全文摘要
开放式实体及其类型识别方法,涉及一种实体及其类型识别方法,为了解决目前采用弱指导方法的实体识别方法存在一些缺陷的问题。它包括一通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;二利用训练语料的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界;三查询实例集中是否存在步骤二中所述实体,若存在,输出所述实体及对应的类型,结束;若不存在,则转入步骤四;四基于模式匹配的方法进行实体的语义类抽取,扩充实例集,转入步骤三。它用于教学实验中。它用于识别开放式实体及其类型。
文档编号G06F17/30GK103034693SQ20121050999
公开日2013年4月10日 申请日期2012年12月3日 优先权日2012年12月3日
发明者秦兵, 付瑞吉, 刘挺 申请人:哈尔滨工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1