基于实体关系级别注意力机制的事件检测方法

文档序号:26007547发布日期:2021-07-23 21:26阅读:95来源:国知局
基于实体关系级别注意力机制的事件检测方法

本发明设计事件检测方法,具体来讲是一种基于实体关系级别注意力机制的事件检测方法,属于自然语言处理领域。



背景技术:

随着海量文本信息的出现以及深度学习技术的快速发展,如何快速、准确的获取用户感兴趣的事件信息,逐渐成为信息抽取领域的最具挑战的难题,而事件检测是信息抽取任务的重要环节,主要是为了从文本中找出引发事件的触发词,并为其分配正确的事件类型。此外,事件检测技术已应用于新闻消息归类、社会舆情分析等。



技术实现要素:

本发明主要针对于在触发词识别过程中,不能同时捕获重要的实体关系特征和词汇特征的问题提出的一种基于实体关系级别注意力机制的事件检测方法。

基于实体关系级别注意力机制的事件检测方法,按照如下步骤进行:

步骤1、对原始文本中的单词和实体关系进行编码,分别获取词汇级别向量序列和实体关系级别向量序列;

步骤2、将步骤1的词汇级别向量序列输入依存tree-lstm,获取句子的词汇级别表示;

步骤3、将步骤1的实体关系级别向量序列输入双向lstm,获取实体关系级别表示;

步骤4、利用词汇级别注意力机制获取句中第i个单词对第t个候选触发词的影响权重将句中的词汇级别表示加权平均,获取句子完整的语义信息

步骤5、利用实体关系级别注意力机制获取句中第j个实体关系对第t个候选触发词的影响权重将句中每个实体关系级别表示加权平均,获取句中完整的实体关系信息

步骤6、针对第t个候选触发词,对语义信息实体关系信息根节点词汇级别表示以及候选触发词的词汇级别表示进行拼接,然后进行触发词识别和分类;

进一步的,步骤1具体实现如下:

1-1.从kbp2017英文数据集标注文件中获取实体提及、实体类型、实体关系、事件触发词。kbp2017英文数据集一共定义了19种事件类型和21种实体关系(其中都包含“空”类型)。利用stanfordcorenlp工具对数据集中原始文本进行分句、分词以及获取单词的词性和每个句子的依存树结构。然后创建词性向量表、实体类型向量表、实体关系向量表以及触发词类型向量表,其中在每个向量表中定义”空”类型对应的向量。随机初始化这些向量,在训练的时候更新这些向量。

1-2.首先查询预训练的glove词向量矩阵、词性向量表、实体类型向量表。分别获取句子中每个词的词向量wi、词性向量wpos、实体类型向量we。然后查询实体关系向量表,获取句子中出现的每个实体关系对应的向量r。

1-3.每个单词真值向量为xi={wi,wpos,we},所以句子词汇级别向量序列w={x1,x2,...,xn-1,xn},实体关系级别向量序列r={r1,r2,...,rk-1,rk}。其中n是句子的长度、k为实体关系的个数(k有可能为0)。

进一步的,步骤2具体实现如下:

2-1.为了获取句子中每个单词的词汇级别表示,利用stanfordcorenlp工具解析每个句子生成依存树结构,其中,每个单词对应依存树结构中的一个节点。在依存树结构基础上构建依存tree-lstm,将w={x1,x2,...,xn-1,xn}作为依存tree-lstm的输入,获取每个单词的词汇级别表示,例如,第i个单词的词汇级别表示为以及包含整个句子信息的根节点的词汇级别表示为因此,句子的词汇级别表示序列其中i,root∈[1,n],n是句子的长度。

进一步的,步骤3具体实现如下:

3-1.为了获取句子中实体关系级别表示,将句中实体关系级别向量序列r={r1,r2,...,rk-1,rk}输入双向lstm,获取每个实体关系对应的前向隐含状态向量和后向隐含状态向量,例如,分别表示第j(j∈k)个实体关系对应的前向隐含状态向量和后向隐含状态向量。为了和步骤2中依存tree-lstm的每个单词的词汇级别表示维度一致,采用求平均的方式获取第j个实体关系级别表示因此,句子的实体关系级别表示序列其中,k是句子实体关系的个数。

进一步的,步骤4具体实现如下:

4-1.利用词汇级别注意力机制捕获重要的上下文信息,而候选触发词及其周围的单词应该获得更高的注意力权重。首先利用公式1计算候选触发词的词汇级别表示和第i个单词的词汇级别表示的相似度。

其中,ww和bw分别是相似度计算公式的权重矩阵和偏置项。然后根据st,i,获取第i个单词对第t个候选触发词的影响权重

这里的st,m表示句中第m个单词的词汇级别表示与候选触发词的词汇级别表示的相似度,其中,1≤m≤n。

对于第t个候选触发词,将句中每个单词的词汇级别表示加权平均获取句中完整的语义信息

进一步的,步骤5具体实现如下:

5-1.句子中往往包含多对实体关系,不同的实体关系对第t个候选触发词的影响不同。首先利用公式3计算候选触发词的词汇级别表示和第j个实体关系的实体关系级别表示的相似度:

其中,wr和br分别表示相似度计算公式的权重矩阵和偏置项。然后根据st,j,获取第j个实体关系对第t个候选触发词的影响权重:

这里的st,l表示句中第l个实体关系的实体关系级别表示与候选触发词的词汇级别表示的相似度,其中,1≤l≤k,而对于第t个候选触发词,将句中实体关系级别表示序列加权平均获取句中完整的实体关系信息

进一步的,步骤6具体实现如下:

6-1.触发词检测和识别是一个多分类的过程,针对第t个候选触发词,对步骤4的步骤5的根节点词汇级别表示以及候选触发词的词汇级别表示进行拼接,然后带入公式5进行触发词识别和分类:

ett=argmax(pt)公式6

其中,wt和bt是触发词多分类的权重矩阵和偏置项,pt表示第t个候选触发词触发事件类型的概率分布,而ett则表示第t个候选触发词触发的事件类型。

本发明有益效果如下:

针对现有技术的不足,提出一种基于实体关系级别注意力机制的事件检测方法。首先利用依存tree-lstm获取实体关系级别表示和双向lstm获取词汇级别表示,然后利用实体关系级别注意力和词汇级别注意力捕获对于当前候选触发词有重要影响的实体关系信息和句子语义信息。该模型不仅可以捕获较重要的句子语义信息,而且可以减少无关的实体关系特征对当前触发词的影响,从而提高了事件检测模型的性能。

附图说明

图1是本发明的整体实施流程图。

图2是本发明模型网络结构图。

具体实施方式

附图非限制性地公开了本发明所涉及优选实例的流程示意图;以下将结合附图详细地说明本发明的技术方案。

事件抽取是信息抽取研究的重要组成部分,是新闻热点抽取和社会舆情分析的常用技术基础。事件抽取就是从大量文本中找出事件提及,由事件触发词和事件论元组成。因此事件抽取主要包含事件检测和论元识别两个子任务。事件检测希望找出句子的所有触发词并为其分配正确的事件类型,事件检测结果的好坏直接影响论元识别和分类的性能。先前的工作直接将标注好的实体关系编码成词表示的一部分,结合词汇级别注意力获取重要的语义信息来提高事件检测模型的性能。但是,他们忽略了句子中往往有多对实体关系,和单词一样,不同的实体关系对候选触发词在识别过程中的影响不同。因此,为了同时获取重要的词汇级别特征和实体关系级别特征信息,我们提出了基于实体关系级别注意力机制的事件检测方法。

如图2所示,基于实体关系级别注意力机制的事件检测方法,按照如下步骤进行:

步骤1、对原始文本中的单词和实体关系进行编码,分别获取词汇级别向量序列和实体关系级别向量序列;

步骤2、将步骤1的词汇级别向量序列输入依存tree-lstm,获取句子的词汇级别表示;

步骤3、将步骤1的实体关系级别向量序列输入双向lstm,获取实体关系级别表示;

步骤4、利用词汇级别注意力机制获取句中第i个单词对第t个候选触发词的影响权重将句中的词汇级别表示加权平均,获取句子完整的语义信息

步骤5、利用实体关系级别注意力机制获取句中第j个实体关系对第t个候选触发词的影响权重将句中每个实体关系级别表示加权平均,获取句中完整的实体关系信息

步骤6、针对第t个候选触发词,对语义信息实体关系信息根节点词汇级别表示以及候选触发词的词汇级别表示进行拼接,然后进行触发词识别和分类;

进一步的,步骤1具体实现如下:

1-1.从kbp2017英文数据集标注文件中获取实体提及、实体类型、实体关系、事件触发词。kbp2017英文数据集一共定义了19种事件类型和21种实体关系(其中都包含“空”类型)。利用stanfordcorenlp工具对数据集中原始文本进行分句、分词以及获取单词的词性和每个句子的依存树结构。然后创建词性向量表、实体类型向量表、实体关系向量表以及触发词类型向量表,其中在每个向量表中定义”空”类型对应的向量。随机初始化这些向量,在训练的时候更新这些向量。

1-2.首先查询预训练的glove词向量矩阵、词性向量表、实体类型向量表。分别获取句子中每个词的词向量wi、词性向量wpos、实体类型向量we。然后查询实体关系向量表,获取句子中出现的每个实体关系对应的向量r。

1-3.每个单词真值向量为xi={wi,wpos,we},所以句子词汇级别向量序列w={x1,x2,...,xn-1,xn},实体关系级别向量序列r={r1,r2,...,rk-1,rk}。其中n是句子的长度、k为实体关系的个数(k有可能为0)。

进一步的,步骤2具体实现如下:

2-1.为了获取句子中每个单词的词汇级别表示,利用stanfordcorenlp工具解析每个句子生成依存树结构,其中,每个单词对应依存树结构中的一个节点。在依存树结构基础上构建依存tree-lstm,将w={x1,x2,...,xn-1,xn}作为依存tree-lstm的输入,获取每个单词的词汇级别表示,例如,第i个单词的词汇级别表示为以及包含整个句子信息的根节点的词汇级别表示为因此,句子的词汇级别表示序列其中i,root∈[1,n],n是句子的长度。

进一步的,步骤3具体实现如下:

3-1.为了获取句子中实体关系级别表示,将句中实体关系级别向量序列r={r1,r2,...,rk-1,rk}输入双向lstm,获取每个实体关系对应的前向隐含状态向量和后向隐含状态向量,例如,分别表示第j(j∈k)个实体关系对应的前向隐含状态向量和后向隐含状态向量。为了和步骤2中依存tree-lstm的每个单词的词汇级别表示维度一致,采用求平均的方式获取第j个实体关系级别表示因此,句子的实体关系级别表示序列其中,k是句子实体关系的个数。

进一步的,步骤4具体实现如下:

4-1.利用词汇级别注意力机制捕获重要的上下文信息,而候选触发词及其周围的单词应该获得更高的注意力权重。首先利用公式1计算候选触发词的词汇级别表示htw和第i个单词的词汇级别表示hiw的相似度。

其中,ww和bw分别是相似度计算公式的权重矩阵和偏置项。然后根据st,i,获取第i个单词对第t个候选触发词的影响权重

这里的st,m表示句中第m个单词的词汇级别表示与候选触发词的词汇级别表示的相似度,其中,1≤m≤n。

对于第t个候选触发词,将句中每个单词的词汇级别表示加权平均获取句中完整的语义信息

进一步的,步骤5具体实现如下:

5-1.句子中往往包含多对实体关系,不同的实体关系对第t个候选触发词的影响不同。首先利用公式3计算候选触发词的词汇级别表示和第j个实体关系的实体关系级别表示的相似度:

其中,wr和br分别表示相似度计算公式的权重矩阵和偏置项。然后根据st,j,获取第j个实体关系对第t个候选触发词的影响权重:

这里的st,l表示句中第l个实体关系的实体关系级别表示与候选触发词的词汇级别表示的相似度,其中,1≤l≤k,而对于第t个候选触发词,将句中实体关系级别表示序列加权平均获取句中完整的实体关系信息

进一步的,步骤6具体实现如下:

6-1.触发词检测和识别是一个多分类的过程,针对第t个候选触发词,对步骤4的步骤5的根节点词汇级别表示以及候选触发词的词汇级别表示进行拼接,然后带入公式5进行触发词识别和分类:

ett=argmax(pt)公式6

其中,wt和bt是触发词多分类的权重矩阵和偏置项,pt表示第t个候选触发词触发事件类型的概率分布,而ett则表示第t个候选触发词触发的事件类型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1