一种基于多语义特征的知识抽取方法

文档序号:33163487发布日期:2023-02-04 01:05阅读:29来源:国知局
一种基于多语义特征的知识抽取方法

1.本发明属于知识图谱知识抽取研究领域,具体涉及一种基于多语义特征的知识抽取方法。


背景技术:

2.知识图谱(knowledgegraph,kg)是以符号形式存储信息的结构化语义知识库。这种知识库由实体节点和关系组成,通过三元组(h,r,t)的方式进行表示。现有的知识图谱大多利用互联网中的文本数据,而60%到70%的互联网文本数据是以非结构化的电子文档形式存在的。知识抽取是自动从非结构化文本中提取有效信息的一类重要任务,也是构建知识图谱的关键一步,直接影响了知识图谱的构建质量和后续的应用效果。近年来,研究者对知识抽取的研究力度不断加大,相关的技术也在逐步进步,知识抽取已经成为情感分析、智能问答、个性推荐、机器翻译等智能应用的重要技术基础。如何自动、准确地从异构的海量数据源中获取知识,已经成为学术界和工业界研究的热点问题。
3.知识抽取是指从信息源中检测出实体并识别它们的语义关系。根据实体识别及关系分类两个子任务完成的先后顺序不同,知识抽取方法可以分为流水线方法和联合学习方法。流水线方法易于实现,每个部分更加灵活。联合学习方法可以考虑两个任务之间的潜在依赖性,解决交互缺失、信息冗余等问题。在早期阶段,联合抽取方法主要是基于传统机器学习的方法。它们虽然取得了一定的效果,但需要使用手工构造特征。
4.最近,随着深度神经网络的发展,知识抽取方法已相继获得最新成果。长短时记忆神经网络(longshort-termmemory,lstm)能够保护和控制信息流状态,有效地捕捉句子的长期依赖,因此基于lstm及其变体的知识抽取模型被广泛应用以及取得了一些突破然而,许多文献通过参数共享的联合抽取模型会导致实体和关系之间的有效信息丢失,对于考虑更多具有潜在语义信息方面的工作还存在一些不足。因此,对于潜在语境信息缺失的问题,特征向量准确性不高的问题仍然是研究的重点之一。


技术实现要素:

5.本发明要解决的技术问题是:针对潜在语境信息缺失的问题,提供一种基于多语义特征的知识抽取方法。
6.为实现上述目的,本发明采取的技术方案为:
7.一种基于多语义特征的知识抽取方法,具体是一种融合双向长短期记忆神经网络(bi-directionallongshort-termmemory,bi-lstm)和自注意力机制的知识抽取方法,首先,通过单词嵌入和字符嵌入得到词汇向量表示,然后输入到多头自注意力机制中以得到上下文向量表示。通过连接词汇向量和上下文向量获得具有多层次、多空间的丰富语义信息向量表示,接着通过bi-lstm更好地捕获双向的语义依赖。然后利用链式条件随机场(conditionalrandomfield,crf)实现实体识别,以及将预测的实体标签和底层特征向量连接输入到sigmoid,为实体实现一个或多个的关系分类。
8.基于多语义特征的知识抽取方法包括以下步骤:
9.步骤一、语义向量表示
10.给定一个句子w=w1,...,wn,wi,i=1,2,...,n表示句子中的单词,利用glov预训练语言模型进行词嵌入预处理,将每个单词wi转换成向量矩阵w
glove
,从而可以在神经网络模型中计算它们。
11.然后,对每个单词进行字符级向量表示。将单词的每个字符作为输入,利用bi-lstm神经网络捕捉单词的形态特征,得到字符级向量矩阵w
char
。将词嵌入和字符嵌入进行拼接,得到词汇向量x。
12.接着,本发明通过多头自注意力机制将上下文信息映射到多个语义空间来获得上下文嵌入。将词汇向量x矩阵变换得到查询向量q∈r
n*d
和一对键值向量k∈r
n*d
,v∈r
n*d
,然后计算比例点积关注度如下:
[0013][0014]
多头注意力使用不同的初始化矩阵线性计算键值和隐层h次。在每个时刻,注意力机制都是并行执行的。对于第i个头部,查询、键值和编码器隐层值相对于系数矩阵被描述为,w
iq
∈r
n*d/h
,w
ik
∈r
n*d/h
和w
iv
∈r
n*d/h
。然后计算缩放的点积注意力:
[0015]
headi=attention(qw
iq
,kw
ik
,vw
iv
)
ꢀꢀꢀꢀ
(2)
[0016]
所有h个平行头部的输出向量被连接在一起。最后,输出混合语义表示:
[0017]
x
context
=concat(head1,head2,...,headh)
·
waꢀꢀꢀꢀ
(3)
[0018]
其中,x
context
∈r
n*d
,wa∈r
d*d
为线性运算的权重矩阵。
[0019]
最后,为了挖掘句子丰富的语义信息,将词汇向量和含有上下文信息的语义向量进行拼接,得到最终的句子向量表示,即下一步骤的输入。
[0020]
步骤二、特征编码
[0021]
lstm单元由三个乘法门组成。遗忘门决定丢弃的信息;输入门确定更新的信息;输出门更新信息的状态。lstm主要通过三个门来保护和控制信息流动。本发明通过它的扩展bi-lstm获取过去和未来的信息。和分别表示正向的和反向的lstm在i时刻的输出,bi-lstm在i时刻的整个输出表示如下:
[0022][0023]
步骤三、实体识别
[0024]
本发明将实体识别任务表述为序列标记问题。一个实体一般由句子中几个连续的单词组成,因此采用bio标记方案,即使用b、i和o分别表示实体的开始、内部和外部,为实体中的每个单词分配一个标签。首先通过crf来计算每个单词的最可能的实体标签。计算标签得分:
[0025]s(e)
(hi)=v
(e)
f(w
(e)hi
+b
(e)
)
ꢀꢀꢀꢀꢀꢀꢀ
(5)
[0026]
其中f(
·
)为元素激活函数,v
(e)
∈r
p*l
,w
(e)
∈r
l*2d
,b
(e)
∈r
l
,d是lstm的隐藏大小,p为实体类型的种类,l为层宽。
[0027]
然后本发明通过线性链crf,考虑标签之间的顺序。对于输入单词wi,评分序列表示为:
[0028][0029]
其中,表示当wi标记为yi时的标记分数,t表示yi到y
i+1
的过渡分数。最后,计算句子w标记为标签序列的概率:
[0030][0031]
由于关系分类的预测在一定程度上依赖于实体识别的结果,把得到的实体信息作为嵌入向量gi输入到下一步骤,即zi=[hi;gi]。
[0032]
步骤四、关系分类
[0033]
本发明将关系抽取任务视为一个多头选择问题,可以有效地识别句子中的所有关系三元组,实现重叠关系的抽取。在本发明中,两个实体之间可以保持任何的关系类型,并且每个实体之间的语义关系是保持独立的。
[0034]
将一个句子w和一组关系标签r作为输入,目的是识别出句子中的关系三元组。给定关系标签rk,计算两个实体wi和wj之间的分数:
[0035]s(r)
(wj,wi,rk)=v
(r)
f(u
(r)
zj+w
(r)
zi+b
(r)
)
ꢀꢀꢀꢀ
(8)
[0036]
其中r,vr,d分别表示用于关系分类任务,权重矩阵,lstm隐藏单元数。f(
·
)表示激活函数。单词wj与wi之间具有关系类型rk概率被定义为
[0037]
pr(head=wj,label=rk|wi)=σ(s
(r)
(wj,wi,rk))
ꢀꢀꢀ
(9)
[0038]
其中σ是sigmoid函数。sigmoid假设所有关系都是相互独立的,并且它不会将所有关系的概率加起来为1。当概率大于0.5时,则认为两个实体之间存在某种关系。
[0039]
本发明与现有方法相比,具有如下优点:
[0040]
现有的知识抽取方法大多考虑了词汇层面的特征,忽略了潜在语境语义信息,然而模型的性能直接取决于所获得特征的准确性。针对该问题,本发明提出了一种新的关系三元组抽取方法。该方法首先对通过预训练语言模型获得单词向量表示,然后利用bi-lstm对字符级特征进行特征编码,以及通过多头自注意力机制对上下文语义信息进行编码,获得句子的内部结构以及长距离依赖关系。然后将不同层次的语义特征进行拼接,得到高效的语义表示,为实体识别和关系分类提供更准确的特征向量,有效提高了抽取关系三元组的性能。
附图说明
[0041]
图1为本发明的基于多语义特征向量的关系三元组抽取流程图。
[0042]
图2为本发明的字符向量嵌入结构表示图。
[0043]
图3为本发明的自注意力机制结构图。
[0044]
图4为本发明的句子语义表示结构图。
具体实施方式
[0045]
下面结合附图对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方案和具体的操作过程。
[0046]
如图1所示,本发明提出了一种基于多语义特征的知识抽取方法,具体包括以下步骤:
[0047]
步骤一:数据预处理。conll04数据集由来自新闻文章的1,441个句子组成,注释为四种实体类型(location,organization,people,other)和五种关系类型(work-for,kill,organization-based-in,lives-in,located-in)。将这些内容随机分为训练集、验证集和测试集。
[0048]
步骤二:语义向量表示。首先输入一个句子,利用glove对原始语料库进行词嵌入预处理,将句子转换成100维的向量矩阵其次将单词的每个字符作为输入,通过一个bi-lstm神经网络,如图2所示。设置lstm的隐藏维度为25,然后将两个最终状态连接在一起,得到字符级向量表示w
char
。将单词向量和字符向量进行拼接得到词汇向量表示。
[0049]
如图3所示为自注意力机制结构图。将词汇向量x输入到多头注意力机制中,将上下文信息映射到多个语义空间来获得上下文嵌入x
context

[0050]
为了挖掘句子丰富的语义信息,将不同模块的输出向量进行拼接,得到最终的句子向量表示。具体结构如图4所示。通过将词汇嵌入模块输入到多头自注意力机制中得到的上下文模块与词汇嵌入模块在连接层进行拼接,获得具有多层次语义信息的向量表示。
[0051]
步骤三:将步骤二得到的句子向量输入到bi-lstm进行特征编码,得到具有长距离依赖的句子表示hi。
[0052]
步骤四:通过线性链crf来计算每个单词的最可能的实体标签。比如,grandeisle被分别标记为b-location和i-location。如果一个单词不属于实体,则被标记为n。
[0053]
步骤五:通过上述公式(8)和公式(9)计算两个实体之间的关系类型。
[0054]
为了验证上述方法的有效性,将本发明方法在conll04数据集上进行实验并与基线结果进行比较。通过使用python和tensorflow机器学习库开发了本发明的方法模型。为了避免模型过度拟合,在输入层和隐藏层使用了不同的dropout率。并且通过adam优化器来优化模型。此外,当验证集上的结果在连续30个时期内没有得到提高时,就停止模型的训练。更详细的超参数设置如下表1所示。
[0055]
表1超参数设置
[0056]
[0057]
本发明选取精度(p)、召回率(r)和f1评分在数据集上进行评估预测结果。如果实体的边界和类型都正确,则判定该实体为正确的;当关系的类型和参数实体都正确时,关系就是正确的。
[0058][0059]
conll04数据集的实验结果如表2所示。结果表明该发明方法能够成功地共享实体和关系的关联信息,学习复杂的长距离相关性。本发明利用多特征语义信息的重要性,改进了知识三元组抽取任务的性能。
[0060]
表2 conll04数据集的实验结果
[0061][0062]
以上所述的实施例仅仅是对本发明的优选实例方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权力要求书确定的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1