基于关系语义模板自动构建的实体关系联合抽取方法及系统

文档序号:36888054发布日期:2024-02-02 21:21阅读:18来源:国知局
基于关系语义模板自动构建的实体关系联合抽取方法及系统

本发明涉及文本数据处理,特别涉及一种基于关系语义模板自动构建的实体关系联合抽取方法及系统。


背景技术:

1、实体关系抽取技术的目的是从一段非结构化或半结构化的自然语言文本中提取出(头实体,关系,尾实体)形式的三元组结构,方便计算机识别利用,从而令人类更好的从互联网上浩如烟海的冗杂信息中提取关键数据。实体关系抽取任务作为许多自然语言任务的重要前置任务,为下游的知识图谱、自动问答、智能搜索、情感分析等任务提供数据支撑,被大量应用于舆情管控、生物医药、新闻财经、机器翻译等领域,具有重要的理论研究价值和广泛的应用前景。实体关系抽取技术的研究由来已久,一般分为三个发展阶段。基于规则的实体关系抽取技术依赖人工标注规则,虽然抽取效果良好但是费时费力且需要领域知识的辅助,可移植性差,适用性不足;基于传统机器学习的实体关系抽取技术不需要设计规则,但是同样需要人工去选择特征,特征的有效性直接影响到抽取结果,存在特征提取误差传播问题,在大规模语料数据集上效果欠佳。而基于深度学习的实体关系抽取技术可以自动学习句子特征,减少了人工特征选择的步骤,改善了特征抽取过程中的误差积累问题,因此成为近年来实体关系抽取领域的研究热点。根据实体识别及关系分类两个子任务完成的先后顺序不同,基于深度学习的实体关系抽取方法可以分为管道式方法和联合抽取方法。管道式方法将实体关系抽取任务拆分成实体识别和关系分类两个子任务,灵活性较强,但是存在误差累积和实体冗余问题。联合抽取方法则通过统一编码的方式将两个子任务整合起来,缓解了管道方法中存在的误差累积问题,但是依旧存在实体嵌套、实体重叠、实体冗余等问题。

2、为了解决上述问题,目前有利用融合关系语义信息的联合抽取策略,因为其在解决实体冗余方面具有出色表现而被广泛采用。如现有的关系导向型级联抽取模型,将关系编码作为先验知识融入到句子编码中进行实体识别中,但是此方法只是利用了关系的表层语义信息,并没有深度挖掘关系的语义信息;又如基于关系语义模板的联合抽取方法,模型通过人工定义单一关系语义模板的方式,将关系转化为蕴含细粒度关系语义信息的模板,将实体识别任务建模为了模板填空任务,解决了实体重叠问题,实现了关系语义的深层表达,提高了实体关系抽取的准确率。尽管人工定义关系语义模板的方法实现了关系语义的深层表达,但是依然存在两个不足。一是自然语言在表达上丰富多样,人工定义的关系语义模板过于依赖专家经验,无法完全包含关系的所有语义信息。如关系“妻子”,既可以从“[mask]是[mask]的妻子”这个关系语义模板中得出,也可以从“[mask]是[mask]的丈夫”这一模板中得到;二是人工定义关系语义模板可移植性差且无法应用在大规模数据集上。以上两个问题,导致现有的融合关系语义的联合抽取模型在效果上有待提高。


技术实现思路

1、为此,本发明提供一种基于关系语义模板自动构建的实体关系联合抽取方法及系统,解决现有融合关系语义联合抽取模型存在的人工定义关系语义模板依赖专家经验、可移植性差等的问题,从关系语义模板自动构建的角度出发,为每个关系建立关系语义模板库,依据关系语义模板与句子之间相关性及实体三元组内部依赖性来提升关系分类及三元组抽取准确率。

2、按照本发明所提供的设计方案,一方面,提供一种基于关系语义模板自动构建的实体关系联合抽取方法,包含:

3、根据词性标注和句法依存分析提取关系语料中关系语义模板抽取规则,基于抽取规则构建目标关系语义模板库;

4、对目标文本句子进行编码表示并提取目标文本句子中蕴含的所有实体及候选关系集,并基于编码表示结果及候选关系集对应的关系语义模板库确定目标文本句子最终的关系集;

5、基于实体对-关系全矩阵及关系语义模板并通过注意力机制提取三元组与句子之间及三元组内部实体与关系之间的紧密联系程度,依据紧密联系程度输出目标文本句子中的实体关系三元组。

6、作为本发明基于关系语义模板自动构建的实体关系联合抽取方法,进一步地,根据词性标注和句法依存分析提取关系语料中关系语义模板抽取规则,基于抽取规则构建目标关系语义模板库,包含:

7、首先,对关系语料中选取句子进行词性标注,并基于位置信息和名词概念将相近的名词短语合并;

8、接着,基于合并后的句子确定句子中具有主谓关系和动宾关系的名词,通过与句子中已标注的实体对进行对比来标记句子中所有的实体对位置及核心词,其中,核心词为句子中的关系触发词;

9、然后,依据位置信息对标记的对应实体及关系触发词之间的字词进行剪枝,得到关系语义模板,并将其归入对应关系的关系语义模板库中;

10、最后,针对关系语义模板库中相似关系语义模板,基于关系语义信息将关系语义中句法相似度大于预设阈值的相似关系语义模板进行过滤;并基于核心词位置的词频确定对应关系语义模板库的标准核心词。

11、作为本发明基于关系语义模板自动构建的实体关系联合抽取方法,进一步地,基于核心词位置的词频确定对应关系语义模板库的标准核心词,包含:

12、在关系语料中基于tf-idf统计核心词位置的词频,将词频高于预设词频阈值的核心词作为对应关系语义模板库的标准核心词。

13、作为本发明基于关系语义模板自动构建的实体关系联合抽取方法,进一步地,对目标文本句子进行编码表示,包含:

14、利用预训练的bert模型作为编码器,基于该编码器对目标文本句子进行编码表示,得到目标文本句子对应的句子表示向量。

15、作为本发明基于关系语义模板自动构建的实体关系联合抽取方法,进一步地,提取目标文本句子中蕴含的所有实体,包含:

16、基于编码表示结果并利用级联标注策略将实体识别问题转化为实体标注问题,其中,级联标注策略利用两个二元分类器来标注实体的起始位置。

17、作为本发明基于关系语义模板自动构建的实体关系联合抽取方法,进一步地,提取目标文本句子中蕴含的候选关系集,包含:

18、将关系分类任务建模为多标签二分类任务,并基于编码表示结果对目标文本句子中所包含的关系进行分类,以提取目标文本句子中所蕴含的候选关系集。

19、作为本发明基于关系语义模板自动构建的实体关系联合抽取方法,进一步地,基于编码表示结果及候选关系集对应的关系语义模板库确定目标文本句子最终的关系集,包含:

20、利用bert模型对关系语义模板库进行编码,基于关系语义模板编码结果并利用注意力机制判断候选关系集中每个候选关系与句子的相关性,以利用相关性确定目标文本句子最终的关系集,其中,相关性为句子包含对应关系r的概率,且该概率表示为σ表示sigmod函数,为经过注意力机制后得到的关系ri的编码表示,b′r是偏置向量,且wr、w′r为模型参数,为关系ri所属的所有关系语义模板特征向量均值池化操作之后得到的编码表示,αik表示注意力得分函数。

21、作为本发明基于关系语义模板自动构建的实体关系联合抽取方法,进一步地,基于实体对-关系全矩阵及关系语义模板并通过注意力机制提取三元组与句子之间及三元组内部实体与关系之间的紧密联系程度,依据紧密联系程度输出目标文本句子中的实体关系三元组,包含:

22、首先,依据目标文本句子中的实体及关系构建实体对-关系全矩阵,并通过枚举获取目标文本句子中所有的候选实体关系三元组集合;

23、接着,通过注意力机制并依据关系语义模板提取候选实体关系三元组内部头尾实体与关系之间及三元组与句子之间的紧密联系程度;

24、然后,基于紧密联系程度来输出目标文本句子中所蕴含的所有实体关系三元组。

25、作为本发明基于关系语义模板自动构建的实体关系联合抽取方法,进一步地,所述紧密联系程度为预定义概率,该预定义概率是三元组作为目标文本句子中所蕴含的正确三元组的概率,其中,第i个候选三元组是目标文本句子中所蕴含的正确三元组的概率表示为:σ表示sigmod函数,wentity、w′entity为模型参数,bentity为偏置向量,为使用注意力机制之后第i个候选三元组对应的编码表示,且为由头实体、关系和尾实体表示向量经过拼接之后得到的第i个候选三元组特征编码表示,α′ik表示对应的注意力得分函数。

26、进一步地,本发明还提供一种基于关系语义模板自动构建的实体关系联合抽取系统,包含:模板构建模块、关系分类模块和三元组抽取模块,其中,

27、模板构建模块,用于根据词性标注和句法依存分析提取关系语料中关系语义模板抽取规则,基于抽取规则构建目标关系语义模板库;

28、关系分类模块,用于对目标文本句子进行编码表示并提取目标文本句子中蕴含的所有实体及候选关系集,并基于编码表示结果及候选关系集对应的关系语义模板库确定目标文本句子最终的关系集;

29、三元组抽取模块,用于基于实体对-关系全矩阵及关系语义模板并通过注意力机制提取三元组与句子之间及三元组内部实体与关系之间的紧密联系程度,依据紧密联系程度输出目标文本句子中的实体关系三元组。

30、本发明的有益效果:

31、本发明通过依存句法分析和词性标注对关系语料进行统计分析,提炼相应关系语义模板抽取规则,根据相应规则自动构建蕴含细粒度关系语义信息的模板,为每个关系建立关系语义模板库,克服了人工定义关系语义模板存在的依赖专家知识、可移植性差等问题;从关系语义模板蕴含的深层语义信息出发,通过注意力机制,依据关系语义模板与句子之间相关性,仅识别出与句子中相关联的关系,提高关系分类的效果;从三元组与句子的相关性及三元组内部头尾实体与关系的依赖性出发,基于关系语义模板并通过注意力机制抽取出实体关系三元组,提高三元组抽取的效果,便于在知识图谱、自动问答、智能搜索、情感分析等任务中的应用部署。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1