一种基于模式自学习的中文开放式关系抽取方法_2

文档序号:9417340阅读:来源:国知局
1、nr、ns、nt、nz、r等类型的单词聚合为n。对于给定例句而言,由于nr表示人名,根据上述聚合方法,最终得到的模式是“ SBV (n) -Root (V) -VOB (η) ”。
[0029]步骤102、待抽取文本进行模式匹配和实体关系元组抽取:
[0030]首先对待抽取语句按照步骤202所述,使用自然语言处理工具进行分词、词性标注和依存分析等操作。然后使用经步骤101学习得到的关系模式,对待抽取语句进行模式匹配,得到目标关系元组。基于模式匹配实现关系抽取的流程图如图3所示,包括如下步骤:候选实体识别、关系模式选择与关系抽取、关系扩展。
[0031]步骤301、候选实体识别:
为识别待抽取语句的中候选实体短语,首先选择其中的动词作为候选关系词。将该候选关系词视为依存关系树中的一个结点,若其左子树结点为名词,则将其作为候选实体的核心词。同理可以通过右子树识别候选关系词的另一候选实体的核心词。通过依存关系分析得到的仅仅是实体的核心词,为丰富候选实体的信息,需要将实体核心词和所在子树中名词性成分进行合并以实现实体扩展。
[0032]步骤302、关系模式选择和关系抽取:
[0033]在基于模式匹配实现关系抽取的过程中,会出现对于同一待抽取语句,可能存在多个模式同时适用的情况。针对这种情况,本发明根据先验概率进行模式选择。具体方法是,在步骤101的执行阶段,在进行模式学习的同时,统计所学习到的模式在训练语料中的出现频率,经归一化处理后作为模式的先验概率。当出现多个模式同时匹配某一语句的情况时,选择先验概率较高的模式作为关系抽取依据,从目标语句中抽取实体关系元组。
[0034]步骤303、关系扩展:
[0035]本步骤的主要任务是对抽取的动词性关系核心词进行扩展,同时可以将基于模式匹配抽取得到的二元关系扩展为多元关系。具体实现方法描述如下。
[0036]若待抽取语句中存在某个动词的依存分析角色为补足语(CMP),且该动词和抽取得到的关系元组中的核心动词间存在一条依存路径直接相连,则将该动词和关系元组中的核心动词进行合并。若待抽取语句中包含介词,而且有抽取得到的关系元组之外的实体与该介词相连,则将该二元关系扩展为多元关系。
[0037]步骤103、使用机器学习的方法对抽取的关系元组进行质量评估:
[0038]采用机器学习的方法对从中文语料中自动抽取出的实体关系进行质量评估,得到高质量的实体关系元组。本方法中使用逻辑斯蒂分类器进行质量评估,分类器采用浅层词法特征和语义特征进行构造,典型特征包括句子的长短、实体和关系词间的距离、实体和关系词的依存语义角色等。对该分类器采用人工构造的训练样本进行训练,训练样本通过应用本发明提出的实体关系抽取方法,对开放语料进行关系抽取而得到。样本经专家人工判别后分为两类,一类是正样本,表示关系抽取的结果正确,一类是负样本,表示关系抽取的结果不正确。经过训练的逻辑斯蒂分类模型将被用于质量评估,根据用户选定的置信区间,对本发明提出的关系抽取方法的输出结果进行自动评估,并过滤掉低置信度的结果。
[0039]本发明公布的一种基于模式自学习的中文开放式关系抽取方法具有以下特点:本发明通过高质量的实体关系元组和相应的句子语料学习得到依存路径关系模式,并用于抽取关系元组。本方法学习得到的依存路径模式中包含词汇的语义信息,相对于仅包含词法、句法信息的模式,提高了关系抽取的准确率和召回率。同时为减少关系抽取的信息损失,方法通过依存树对抽取的实体核心词进行扩展以及通过介词将二元关系扩展为多元关系。
[0040]尽管上面对本发明说明性的【具体实施方式】进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于【具体实施方式】的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
【主权项】
1.一种基于依存关系模式的开放式中文实体关系抽取方法,其特征在于,包括: 基于大量高质量的实体关系元组和相应语句的训练语料,通过本专利提出的模式学习方法得到实体和关系词之间的依存路径模式; 对待抽取文本进行分词、词性标注和依存分析等预处理,并使用之前学习得到的关系模式进行实体关系抽取; 采用机器学习的方法对从中文语料中自动抽取出的实体关系进行质量评估,得到高质量的实体关系元组。2.根据权利要求1所述的方法,其特征在于大量高质量的实体关系元组和相应语句的训练语料构建,所述方法包括: 利用知识库中已有大量高质量关系元组和百科页面信息框中关系元组,通过网络爬虫获得包含每个关系元组中实体和关系词的对应语句,以构建关系元组和相应语句的训练语料,用于模式学习。 利用中文开放式关系抽取系统关系抽取并选择高质量的关系元组,以构建包含关系元组和相应语句的训练语料,用于模式学习。3.根据权利要求1所述的方法,其特征在于利用大量高质量的实体关系元组和相应语句的训练语料学习得到实体和关系词之间的依存路径模式,所述方法包括: 利用自然语言处理工具对语句进行分词、词性标注和依存分析。结合训练语句依存分析结果和对应的高质量关系元组进行匹配学习得到实体和关系词之间的依存路径模式。4.根据权利要求3所述的方法,其特征在于对抽取的大量关系依存路径模式进行聚类: 通过训练语料学习得到的大量依存路径模式中,存在一些模式表示的实际含义相同但形式不同。因此,本发明依据词性对模型进行聚类以提高模式的覆盖率和粒度。5.根据权利要求1所述的方法,其特征在于,对待抽取文本进行预处理并使用学习得到的关系模式进行实体关系抽取,所述方法包括: 对待抽取文本进行分词、词性标注、依存分析,然后识别候选实体核心词和候选关系核心词,最后使用学习得到的模式抽取关系元组。 对同一待抽取语句有多个模式同时符合的情况,本发明选择其中高频率的二元关系模式抽取关系元组。然后对待抽取语句中包含介词的,通过介词扩展为多元关系。6.根据权利要求5所述的方法,其特征在于,识别语句中候选实体核心词以及通过依存分析树对候选实体进行扩展,所述方法包括 首先选择其中词性为动词的词汇作为候选关系词。若其依存左子树结点为名词,则将其作为候选实体的核心词。同理识别关系词的另一个候选实体的核心词。 为丰富关系元组中实体的信息,对识别的实体核心词进行实体扩展。具体的是将实体核心词和其所在的子树中名词性成分进行合并。7.根据权利要求5所述的方法,其特征在于,对初步抽取的关系元组中关系核心词进行扩展,所述方法包括 若语句中有动词的依存分析角色为CMP(Complement),且其和关系词在依存树中是直接相连的,则合并该动词和关系元组中核心动词。 若语句中有动词和关系词直接相连,则合并该动词和关系元组中核心动词。8.根据权利要求5所述的方法,其特征在于,对抽取的二元关系元组进行多元扩展,所述方法包括 对于抽取关系元组的语句,若其中包含介词,而且有新的实体和介词相连,则将该实体作为关系元组新的实体,达到多元扩展的效果。9.根据权利要求1所述的方法,其特征在于,对抽取的关系元组进行质量评估,所述方法包括 对抽取的关系元组采用机器学习的方法对抽取出的实体关系进行质量评估,得到高质量的实体关系元组。本方法结合使用了浅层词法特征和语义特征。
【专利摘要】开放式中文实体关系抽取是指在不限定语料领域和关系类别的前提下,自动地从中文语料中抽取出实体间的关系信息,得到实体关系元组。本发明公开了一种基于模式自学习的中文开放式关系抽取方法,包括如下三个主要步骤:首先,基于已有知识库获取高质量的实体关系元组和相应的句子作为训练语料,通过本发明提出的模式学习方法得到实体和关系词之间的依存路径模式;然后,对待抽取文本进行分词、词性标注和依存分析等预处理,并借助之前学习得到的关系模式进行实体关系抽取;最后,采用机器学习的方法对从中文语料中自动抽取出的实体关系进行质量评估,得到高质量的实体关系元组。
【IPC分类】G06F17/27
【公开号】CN105138507
【申请号】CN201510475450
【发明人】刘峤, 刘瑶, 秦志光, 其他发明人请求不公开姓名
【申请人】电子科技大学
【公开日】2015年12月9日
【申请日】2015年8月6日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1