双向GRU关系抽取数据处理方法、系统、终端、介质

文档序号:25045855发布日期:2021-05-14 12:10阅读:来源:国知局

技术特征:
1.一种基于关键词注意力的双向gru关系抽取数据处理方法,其特征在于,所述基于关键词注意力的双向gru关系抽取数据处理方法包括以下步骤:步骤一,对基准数据集进行预处理;步骤二,对步骤一预处理后的语料进行词向量化;步骤三,通过多头注意力机制对步骤二的词向量进行初步去噪处理;步骤四,使用bi

gru网络层对步骤三处理过的词向量进行编码,得到包含句子中的上下文信息的隐藏层向量;步骤五,将步骤四的隐藏层向量作为输入,传递至关键词注意力层中,通过将隐藏层输出结合实体对相对位置特征以及实体隐藏相似度特征,计算出关键词注意力权重;步骤六,将经过步骤五关键词注意力机制处理过的隐藏层向量输入至分类层,得到最终的关系抽取结果。2.如权利要求1所述的基于关键词注意力的双向gru关系抽取数据处理方法,其特征在于,所述步骤一预处理包括:将原始文件中的原始句子以及关系标签进行处理生成完整的句子字典和标签字典,并将编码修改为utf

8编码;去除句子中的标点符号以及重复句子和符号;使用nltk对数据集中的文本进行分词处理;所述步骤二进行词向量化包括:将分好词的语料使用预训练的emlo模型进行词向量的转化;emlo模型的输入层旨在将输入句子的语义信息和位置信息转换为向量,其中输入句子用{w1,w2,...,w
n
}表示,表示每个词与实体对的相对位置的向量;采用d
w
维的从elmo词嵌入预训练模型得到的词向量,elmo模型根据上下文推断出每个词对应的词向量;对于多义词加入了前后词的上下文理解;所述预训练模型的训练方法采用随机梯度下降法训练,关键词注意力机制使用交叉损失熵进行计算,所述损失函数的定义如以下公式所示:其中,|d|是训练数据集的大小,(s
(i)
,y
(i)
)是数据集中的第i个样本,采用adadelta优化器来最小化loss函数计算参数;在损失函数中加入l2正则化以防止过拟合,λ1,λ2是正则化的超参数;第二个正则化器试图强制模型处理真正重要的单词,并返回稀疏的权重分布;最终目标函数如以下等式所示:3.如权利要求1所述的基于关键词注意力的双向gru关系抽取数据处理方法,其特征在于,所述步骤三多头注意机制通过输入层输出的词向量序列构建序列的对称相似性矩阵;所述多头注意力机制包括:给定密钥k、查询q和值v作为输入,相当于词嵌入向量{x1,x2,...,x
n
},输出结果是一个具有输入句子上下文信息的特征序列;其中,关注模块将执行关注h次,计算过程如以下公式所示:
multihead(q,k,v)=w
m
concat[head1;...;head
r
];head
i
=attention(w
iq
q,w
ik
k,w
iv
v);其中,是线性变换的可学习参数,wm是按比例计算和串联时按比例放缩点积注意力的输出,w
iq
,w
ik
,w
iv
分别表示第i个头的查询、键和值。4.如权利要求1所述的基于关键词注意力的双向gru关系抽取数据处理方法,其特征在于,所述步骤四bi

gru网络层用于获取多头自注意层输出序列的上下文内信息;在信息提取的任务中,rnn是使用最多的模型;lstm相对于rnn引入了长期记忆和门结构,缓解rnn长期去依赖性的问题,但同时也增加模型的计算量;而gru则进一步优化lstm,只保留new gate和reset gate两个门操作;将gru单元对m
i
的处理记为gru(m
i
),获得用于计算上下文化单词表示的等式如以下公式所示:式所示:式所示:bi

gru的输入m是多头自注意层的输出,逐级输入到网络中;将每一时间步中的前向gru网络隐藏状态与后向gru网络隐藏状态进行并联,其中d
h
为gru网络单元隐藏状态的维度,用{h1,h2,...,h
n
}表示每一个词的隐藏状态向量,并用箭头表示方向。5.如权利要求1所述的基于关键词注意力的双向gru关系抽取数据处理方法,其特征在于,所述步骤五关键词注意力机制用于对隐藏层向量进行软选择,为一组标量的线性组合,权值用来表示模型对句子中某个词的关注程度,取值在0到1之间;为每个词引入一个状态变量z,当z为0时,表示对应的词与关系分类无关,如果z为1,则表示对应的词是句子中关系表达所需的词;每个句子都有对应的二元状态变量序列z;隐藏状态的期望值n为对应词被选中的概率,关键词注意力权重计算方法如以下公式所示:引入crf来计算隐藏序列的权重序列h={h1,h2,...,h
n
},推导出p(z
i
=1|h),h代表输入序列,h
i
代表第i个词的gru的隐藏输出;crf为一个概率框架,用于计算序列与序列之间的条件概率;crf定义在给定h的情况下一系列条件概率p(z
i
=1|h),如以下公式所示:=1|h),如以下公式所示:
其中,表示状态序列z的集合,z(h)是规范化常数,z
c
表示单个集合c给出的z的子集,ψ(z
c
,h)是该集合的潜在函数,用以下等式表示:使用两种特征函数进行计算,顶点特征函数ψ1(z
i
,h)和边缘特征函数ψ2(z
i
,z
i+1
);ψ1表示gru的输出h到状态变量z的映射,而ψ2是用于模拟两个状态变量在相邻时间步长的转换函数,分别如以下公式所示:ψ1(z
i
,h)=exp(w
h
f1+w
e
f2+b);+b);其中,w
h
和w
e
为线性变换的可学习参数,b为偏置项;将句子中的上下文信息映射成每个状态变量的特征分数,所述特征分数利用句子中的相对实体位置特征以及关键词特征,实体对特征和实体对隐藏的相似性特征t1和t2;(1)实体位置特征相对位置特征用于通过与隐藏层的输出量h
i
的连接来共同重新表示上下文信息以及实体位置关系;其中e
j
∈{1,2};位置嵌入与词嵌入类似,通过嵌入矩阵将相对位置标量转化为向量;其中l为最大句长,d
p
为位置向量的维度;(2)实体隐藏相似特征根据实体与其隐藏向量的相似性对实体进行分类;实体隐藏相似特征计算过程如以下公式所示:公式所示:其中,是在势向量空间中构造的一个势向量,用来表示相似实体的类;k是实体按其隐藏相似性分类的类数;第j个实体的隐藏相似度特征t
j
是根据第j个实体与隐藏层的输出he
j
的相似度加权计算出来的;实体特征是通过对实体位置和实体对的潜在类型表示对应的隐藏状态进行级联构建。6.如权利要求1所述的基于关键词注意力的双向gru关系抽取数据处理方法,其特征在于,所述步骤六分类层,包括:计算状态变量的输出分布的概率p,在注意力层之后添加softmax层,计算过程如以下公式所示:p(y|n)=softmax(w
y
n+b
y
);
其中,是偏差项,|r|是关系类别的数量,w
y
将隐藏状态n的期望值映射到关系标签的特征分数。7.一种基于关键词注意力的双向gru关系抽取数据处理系统,其特征在于,所述基于关键词注意力的双向gru关系抽取数据处理系统包括:数据集预处理模块,用于对基准数据集semeval

2010 task 8进行预处理;语料词向量化模块,用于通过emlo预训练模型对预处理后的语料进行词向量化;去噪处理模块,用于通过多头注意力机制对词向量进行初步去噪处理;词向量编码模块,用于使用bi

gru网络对初步去噪处理过的词向量进行编码,得到包含句子中的上下文信息的隐藏层向量;注意力权重计算模块,用于将隐藏层向量作为输入,传递至关键词注意力层中,通过将隐藏层输出结合实体对相对位置特征以及实体隐藏相似度特征,计算出注意力权重;关系抽取结果获取模块,用于将经过注意力机制处理过的隐藏层向量输入至分类层,得到最终的关系抽取结果。8.如权利要求7所述的基于关键词注意力的双向gru关系抽取数据处理系统,其特征在于,所述基于关键词注意力的双向gru关系抽取数据处理系统还包括:输入层、多头注意力层、bi

gru网络层、关键词注意力机制和分类层;所述输入层,用于将原始文件中的原始句子以及关系标签进行处理生成完整的句子字典和标签字典,并将编码修改为utf

8编码;去除句子中的标点符号以及重复句子和符号;使用nltk对数据集中的文本进行分词处理;将分好词的语料使用预训练的emlo模型进行词向量的转化;所述多头注意力层用于在输入层使用非固定的词向量,并在输入层后增加多头关注机制,多头注意机制属于一种特殊的自注意机制,通过输入层输出的词向量序列构建序列的对称相似性矩阵;所述bi

gru网络层用于获取多头自注意层输出序列的上下文内信息;所述关键词注意力机制用于对隐藏层向量进行软选择,为一组标量的线性组合,权值用来表示模型对句子中某个词的关注程度,取值在0到1之间;所述分类层,用于计算状态变量的输出分布的概率p。9.一种信息数据处理终端,其特征在于,所述信息数据处理终端包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~6任意一项所述的基于关键词注意力的双向gru关系抽取数据处理方法。10.一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行权利要求1~6任意一项所述的基于关键词注意力的双向gru关系抽取数据处理方法。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1