一种基于双向-GRU和改进的注意力机制的实体关系分类方法与流程

文档序号:17722542发布日期:2019-05-22 02:16阅读:652来源:国知局
一种基于双向-GRU和改进的注意力机制的实体关系分类方法与流程

本发明涉及人工智能领域,更具体的,涉及一种基于双向-gru和改进的注意力机制的实体关系分类方法。



背景技术:

随着互联网信息爆炸时代的到来,网路信息量高速增长,目前在海量的网络信息中抽取关系实体已经有了长足的进步。开放领域实体关系抽取式在1998年的muc会议上首次提出,实体关系抽取方法按抽取方式主要分为非自动抽取、半自动抽取和自动抽取,共3种抽取方式。非自动抽取方式,主要是基于纯人工的方式,进行实体及实体关系的分类工作,该方式优点是准确率高,但人工的参与人本过高。半自动抽取的方式,近年来发展迅猛,结合人工和机器共同完成实体关系抽任务,既能极大的减轻人的工作量,也能更好地发挥机器的优势。2008年在ace评测中,采用了基于知识库的抽取方法,但该方法依赖于知识库的质量和规模。此后,基于统计的汲取学习方法开始应用到自然语料的实体关系抽取领域,其中有少量标注语料的半监督机器学习方法,甚至是无监督学习方法。zhang等人提出将中文实体关系抽取看为一系列的分类问题,整个过程分为两个阶段:第一阶段是学习过程,用标注数据训练若干分类器;第二阶段是抽取过程,通过使用机器学习得到的分类器抽取中文实体名和它们的关系。基于svm的弱监督关系分类系统应用svm算法进行关系抽取,弱监督学习过程包括两个组件:一个底层有监督学习器和一个在其上的bootstrapping算法。机器学习分类算法的介入,使得实体关系抽取变得相对轻松,但简单将实体关系抽取应用为一系列的分类问题,带来的分类准确率相对较低。

神经网络的学习方法应用至关系抽取领域,也是近年来准确率提升的一大贡献者,而多层次的神经网络可以更好的学习语料,得到更佳的分类准确率。li将bi-lstm和注意力机制应用在电子病历的实体关系抽取任务,取得了较为满意的结果。然而bi-lstm结构相对于bi-gru结构复杂,且收敛速度较慢;原始的注意力机制针对我们这个限定大学教材语料会带来很低的准确率,不能够很好的适用我们限定领域的处理。



技术实现要素:

为了解决现有技术的不足,本发明提供了一种基于双向-gru和改进的注意力机制的实体关系分类方法,本发明将中文语料转化为词嵌入向量进行处理,而不是传统的one-hot向量,能够较好的解决中文语料带来的高维度问题;并且利用自行构建的常用实体集合,来有针对性的改进注意力机制,将同义词和近义词进行替换,更好地解决同义词和近义词分类时带来的准确率低的问题。

为实现以上发明目的,采用的技术方案是:

一种基于双向-gru和改进的注意力机制的实体关系分类方法,包括以下步骤:

步骤s1:对给定的语料构建实体库词的集合;

步骤s2:对给定的语料,结合位置特征,获得输入基本特征的向量;输入基本特征向量包括正序和逆序;

步骤s3:输入基本特征向量的正序,利用前向层的gru神经网络,得到前向的特征向量;其中,gru神经网络包含更新门zt和重置门rt,其具体如下:

rft=α(wr·[hft-1,xft])(1)

zft=α(wz·[hft-1,xft])(2)

其中,xft为基本特征向量的正序,rft为输入为基本特征向量的正序时的重置门,zft为输入为基本特征向量的正序时的更新门,α是激活函数;hft-1代表t-1时刻的隐藏状态,wr和wz表示参数矩阵,表示未更新时t时刻的隐藏层状态,hft表示更新时t时刻的隐藏层状态;

步骤s4:输入基本特征向量的逆序,利用后向层的gru网络,得到逆向的特征向量,具体步骤如下:

rbt=α(wr·[hbt-1,xbt])(4)

zbt=α(wz·[hbt-1,xbt])(5)

其中,xbt为基本特征向量的逆序,rbt为输入为基本特征向量的逆序时的重置门,zbt为输入是基本特征向量的逆序时的更新门,α是激活函数;hbt-1代表t-1时刻的隐藏状态,wr和wz表示参数矩阵,表示未更新时t时刻的隐藏层状态,hbt表示更新时t时刻的隐藏层状态;

步骤s5:将步骤s3得到的前向特征向量和步骤s4得到的逆向的特征向量进行叠加结合,得到文本特征向量;

具体步骤如下:

其中,为双向-gru网络的隐藏层状态;

步骤s6:结合步骤s5得到的文本特征向量以及步骤s1中构建好的实体库词的集合,利用基于改进过的词级别的注意力机制来捕获表示实体关系的内容:

m=tanh(ct)(10)

其中ct表示注意力机制层的输出,αtt表示注意力机制的权重值,ht表示t时刻隐藏层的状态,即步骤s5中得到的文本特征向量,st表示的是t时刻的记忆状态,η是激活函数,m是softmax的中间状态,yt是全连接层的输出,wo是参数矩阵;

则注意力机制层的网络输出为

yt=α(wo·m)(11)

步骤s7:利用步骤s6的输出来判断实体对应所属关系的类型,得到最终的结果,具体步骤如下:

其中ct表示注意力机制层的输出,m表示隐藏层状态的输出,st表示的是t时刻的记忆状态,mk是记忆的状态值。

优选的,步骤s1中具体步骤如下:

将给定材料中的文本文字进行分段和分句,得到未经过初步处理的原始语句,删除不符合处理需求的语句,对句子中的实体对进行手工的打标操作,标记出实体在句中的位置,在得到的打标好的语料库中,将每个句子语料标注出句子中的实体对所对应的实体关系类别。

优选的,步骤s2具体包括以下步骤:

输入基本特征的向量由输入语句本身s、句中的实体对的相对距离ee以及句中实体相对于句中的位置se三个向量构成;

输入语句本身s表征出整个句子;句中的实体对的相对距离ee表征出实体对之间的相对位置特征,即实体对之间的距离特征;句中实体相对于句中的位置se表征出实体1和实体2在句中的位置特征,即实体1和实体2在句子中出现的位置;

输入基本特征的向量的表示方式为,将三者进行叠加,得到x=[s,ee,se],将组合得到的向量输入到模型中进行训练。

优选的,所述的输入语句本身s、句中的实体对的相对距离ee以及句中实体相对于句中的位置se三个向量的求取方法如下:

输入语句本身s:对于给定的中文语料句子,利用分词工具,将句子分解成由多个词汇组合在一起,将其中对于分类没有意义的词汇去除,给定的句子s={s1,s2,....,sn},将每个句子转换成可以输入到神经网络中处理的低维度的句子级的向量s;

句中的实体对的相对距离ee:用列向量来表征每个实体对之间的相对距离,其向量ee是用one-hot表示方法来表示,表征出实体对之间的距离特征;

句中实体相对于句子的位置se:记录实体1和实体2的位置,实体的位置具体为指代实体词在语料句子中的位置,并将这个位置特征作为一个前期输入的特征。

与现有技术相比,本发明的有益效果是:

本发明将中文语料转化为词嵌入向量进行处理,而不是传统的one-hot向量,能够较好的解决中文语料带来的高维度问题,并且利用自行构建的常用实体集合,来有针对性的改进注意力机制,将同义词和近义词进行替换,更好的解决同义词和近义词分类时带来的准确率低的问题,同时引入了双向-gru模型,更好的学习实体上下的语境,能够对逻辑严谨的教材语料进行实体关系分类。

附图说明

图1为本发明的流程图。

图2为gru结构图。

图3为双向-gru局部图。

图4为局部语料展示图。

图5为部分分类结果图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1、图2、图3、图4、以及图5所示,一种基于双向-gru和改进的注意力机制的实体关系分类方法,包括以下步骤:

一种基于双向-gru和改进的注意力机制的实体关系分类方法,包括以下步骤:

步骤s1:对给定的语料构建实体库词的集合;

步骤s2:对给定的语料,结合位置特征,获得输入基本特征的向量;输入基本特征向量包括正序和逆序;

步骤s3:输入基本特征向量的正序,利用前向层的gru神经网络,得到前向的特征向量;其中,gru神经网络包含更新门zt和重置门rt,其具体如下:

rft=α(wr·[hft-1,xft])(1)

zft=α(wz·[hft-1,xft])(2)

其中,xft为基本特征向量的正序,rft为输入为基本特征向量的正序时的重置门,zft为输入为基本特征向量的正序时的更新门,α是激活函数;hft-1代表t-1时刻的隐藏状态,wr和wz表示参数矩阵,表示未更新时t时刻的隐藏层状态,hft表示更新时t时刻的隐藏层状态;

步骤s4:输入基本特征向量的逆序,利用后向层的gru网络,得到逆向的特征向量,具体步骤如下:

rbt=α(wr·[hbt-1,xbt])(4)

zbt=α(wz·[hbt-1,xbt])(5)

其中,xbt为基本特征向量的逆序,rbt为输入为基本特征向量的逆序时的重置门,zbt为输入是基本特征向量的逆序时的更新门,α是激活函数;hbt-1代表t-1时刻的隐藏状态,wr和wz表示参数矩阵,表示未更新时t时刻的隐藏层状态,hbt表示更新时t时刻的隐藏层状态;

步骤s5:将步骤s3得到的前向特征向量和步骤s4得到的逆向的特征向量进行叠加结合,得到文本特征向量;

具体步骤如下:

其中,为双向-gru网络的隐藏层状态;

步骤s6:结合步骤s5得到的文本特征向量以及步骤s1中构建好的实体库词的集合,利用基于改进过的词级别的注意力机制来捕获表示实体关系的内容:

m=tanh(ct)(10)

其中ct表示注意力机制层的输出,αtt表示注意力机制的权重值,ht表示t时刻隐藏层的状态,即步骤s5中得到的文本特征向量,st表示的是t时刻的记忆状态,η是激活函数,m是softmax的中间状态,yt是全连接层的输出,wo是参数矩阵;

则注意力机制层的网络输出为

yt=α(wo·m)(11)

步骤s7:利用步骤s6的输出来判断实体对应所属关系的类型,得到最终的结果,具体步骤如下:

其中ct表示注意力机制层的输出,m表示隐藏层状态的输出,st表示的是t时刻的记忆状态,mk是记忆的状态值。

作为一个优选的实施例,步骤s1中具体步骤如下:

将给定材料中的文本文字进行分段和分句,得到未经过初步处理的原始语句,删除不符合处理需求的语句,对句子中的实体对进行手工的打标操作,标记出实体在句中的位置,在得到的打标好的语料库中,将每个句子语料标注出句子中的实体对所对应的实体关系类别。

作为一个优选的实施例,步骤s2具体包括以下步骤:

输入基本特征的向量由输入语句本身s、句中的实体对的相对距离ee以及句中实体相对于句中的位置se三个向量构成;

输入语句本身s表征出整个句子;句中的实体对的相对距离ee表征出实体对之间的相对位置特征,即实体对之间的距离特征;句中实体相对于句中的位置se表征出实体1和实体2在句中的位置特征,即实体1和实体2在句子中出现的位置;

输入基本特征的向量的表示方式为,将三者进行叠加,得到x=[s,ee,se],将组合得到的向量输入到模型中进行训练。

作为一个优选的实施例,所述的输入语句本身s、句中的实体对的相对距离ee以及句中实体相对于句中的位置se三个向量的求取方法如下:

输入语句本身s:对于给定的中文语料句子,利用分词工具,将句子分解成由多个词汇组合在一起,将其中对于分类没有意义的词汇去除,给定的句子s={s1,s2,....,sn},将每个句子转换成可以输入到神经网络中处理的低维度的句子级的向量s;

句中的实体对的相对距离ee:用列向量来表征每个实体对之间的相对距离,其向量ee是用one-hot表示方法来表示,表征出实体对之间的距离特征;

句中实体相对于句子的位置se:记录实体1和实体2的位置,实体的位置具体为指代实体词在语料句子中的位置,并将这个位置特征作为一个前期输入的特征。

如图4所示的是构建的大学本科期间电子类专业的教材文本的语料库,第一列是实体1和实体2之间的关系属性,而句中的实体1和实体2则用<e1>、</e1>和<e2>、</e2>的标签进行实体标注。利用该语料的绝大部分进行模型训练,剩余部分进行模型测试,得到实体关系分类的准确率为82.14%。图5所示的为测试时得到的实体关系的分类结果,首列为后实体句子分类预测的实体关系。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1