一种基于共指消歧的文档级事件抽取方法

文档序号:35694968发布日期:2023-10-11 17:48阅读:32来源:国知局
一种基于共指消歧的文档级事件抽取方法

本发明涉及自然语言处理和深度学习,特别涉及一种基于共指消歧的文档级事件抽取方法。


背景技术:

1、作为信息抽取的重要组成部分,事件抽取技术是一种快速理解事件本质内容的关键技术。事件本身是一类特定的信息形式,指在特定的时间、特定的地点发生的某件事,涉及到一个或多个参与者,并且参与者在事件中扮演着不同角色。事件抽取技术旨在将此类信息从非结构化的自然文本中提取出,并组装成结构化形式的知识,具体定义为根据预先指定的事件类型和论元角色,识别给定自然语言句子中所有目标事件类型的事件,并抽取事件所对应的论元(即在事件中充当某些角色的实体)。例如:“王小明生于2022年9月27日,江苏南京人。”这个句子包含的事件对应的事件类型是出生,该事件类型包含的论元角色有姓名、出生日期和出生地点,该句子中与上述论元角色对应的论元分别是“王小明”、“2022年9月27日”和“江苏南京”。

2、按照数据粒度,事件抽取可以分为句子级和文档级。相比单个句子,文档级事件抽取更符合直觉,但相应地,难度也更高。文档级事件抽取面临的主要挑战有:一个事件的论元可能分散在文档的多个句子中;文档中混合了多个不同的事件,需要对其进行区分,并为不同的事件识别相应的论元。

3、为了解决上述挑战,一方面,针对先前数据集dcfee中一篇文档只有一个关键事件,而且不能有效地解决论元分散的问题,zheng等人提出新的数据集chfinann,此数据集是原来的10倍,其中大约30%的文档包含多个事件记录。另一方面,zheng等人提出了一种新的端到端模型doc2edag,它可以生成一个基于实体的有向无环图来实现文档级事件抽取,将填表任务转换为几个顺序扩展路径的子任务,这些子任务更易于处理。并且将抽取任务视作无需触发词参与的,以简化文档级别的事件标注。

4、为了缓解文档长序列难以编码的问题,2021年,huang等人利用长文本存在实体交互特点,即在同一个句子中存在的实体有更高的概率成为同一事件的论元,以及句子交互特点,即包含同一实体的句子倾向于叙述同一事件,将每个文档转换为无向无权图。每个事件可以表示为一个子图,称作句子团体,使用图注意网络提取多个事件,并通过根据角色预测论元来缓解角色重叠问题,即一个论元可以扮演多个角色的现象。

5、值得注意的是,文档数据中,特别是在公告通告等正式文件中,存在大量共指的语言现象,即实体的多种表达形式都指的是现实生活中同一实体。而目前的方法往往没有关注到这一点,一方面这会导致利用实体交互特点所构建的文档图有信息遗漏的问题,另一方面模型的参考答案只有一个,学习难度高。除此之外,目前的方法在检测句子团体,也就是识别表达同一事件的句子集合时,认为只要出现了目标实体的句子都属于该句子团体。这种方式过于粗糙,会引入噪声句子,在对句子团体进行事件抽取时会受到噪声的干扰。


技术实现思路

1、本发明的目的是解决现有技术忽略文档中的共指现象以及句子团体噪声的问题。一方面,基于共指消歧的文档级事件抽取方法,旨在构建更加完善的文档图,另一方面,利用句子级注意力机制抑制噪声问题,从而提升事件抽取模型的效果。

2、为实现上述目的,本发明提供一种基于共指消歧的文档级事件抽取方法,方法包括:

3、s1、对于输入的文档,通过命名实体识别获取文档中的所有命名实体,组成命名实体集合;

4、s2、对于输入的文档,通过共指消歧方法获取若干共指实体集合;

5、s3、利用命名实体集合、句子交互和共指实体集合,将文档转化成以句子为结点的同构图;

6、s4、提取句子内部的特征,获得句子结点si的特征向量vi;

7、s5、在同构图上对每个句子结点的特征向量使用注意力机制,将具有相似语义或主题的句子集合在一起,生成句子团体;

8、s6、对句子团体进行分类,获得事件类型,确定论元角色和论元。

9、进一步地,所述步骤s2包括:

10、s21、对文档中的每个句子进行分词处理,然后编码生成单词表示;

11、s22、利用句法依存树和成分树为文档构建基于单词和成分的异构图;

12、s23、将异构图输入卷积神经网络,获得融合局部句法信息和全局的文档特征的单词的融合表示;

13、s24、根据单词的融合表示,得到文档的所有跨度表示;

14、s25、枚举每个跨度表示,根据共指得分得到当前跨度表示对应的先行词,将表示同一事物的实体划分在一起,得到共指实体集合序列。

15、进一步地,所述步骤s22构建异构图的步骤包括:

16、(1)将每个单词表示作为异构图中的单词结点,将句法成分树中单词之外的其他结点作为成分结点,成分结点的表示由单词结点的表示计算获得:

17、

18、其中,是成分结点ci在成分树中其下第一单词的嵌入表示,是成分结点ci在成分树中其下最后一个单词的嵌入表示,是成分结点ci对应的成分类型的嵌入表示;

19、(2)异构图中的边通过邻接矩阵a∈r(m+t)×(m+t)表示,其中,元素为0表示不相连,句法依存树和句法成分树中的边构成句法依存边和句法成分边,如果单词结点在句法成分树中位于成分结点的最左边或者最右边,则构成一条句法成分边(如图3中虚线所示);将句子的句法根与前一个和下一个句子的根连接起来构成相邻句子边;将每个单词与前一个单词和下一个单词连接起来构成相邻单词边;图的所有结点上形成自循环边。

20、进一步地,所述步骤s23包括:

21、在图卷积网络中,迭代地更新每个结点i的融合表示

22、

23、其中,表示图卷积神经网络第k层产生的第i个单词的融合表示,v(i)表示第i个结点的一组相邻结点,和表示结点i和结点u之间的边类型为l时第k层的参数,l的取值为0~5,f为relu激活函数。

24、进一步地,所述步骤s24中跨度表示为:其中,xstart(i)和xend(i)表示跨度头尾边界的结点表示,是跨度spani中所有结点表示的权重和,根据注意力机制按照如下公式计算:

25、αt=ffnnα(xt)

26、

27、

28、其中,ffnnα为第一前馈神经网络,用于将每个单词的融合表示xt映射成非标准的注意力分数。

29、进一步地,在步骤s25中,获取先行词的步骤包括:

30、对于跨度spani,选取其前面的第j个跨度spanj,计算两个跨度的共指得分s(i,j),公式如下:

31、

32、sm(i)=ffnnm(gi)

33、s(i,j)=sm(i)+sm(j)+sa(i,j)

34、其中,ffnnsa为第二前馈神经网络,°表示向量对位相乘操作,sm(i)表示跨度i为一个实体提及的得分,ffnnm为第三前馈神经网络。

35、进一步地,所述步骤s4包括:

36、s40、对于同构图中第i个结点对应的si,判断其包含的所有命名实体,命名实体的个数记为l;

37、s41、对第i个句子si进行特征编码,采用bert编码得到最后一层的嵌入矩阵bi,对嵌入矩阵进行最大池化操作(池化为现有技术,不再赘述)。第i个句子si中包含的第t个实体的特征编码为:

38、et=maxpool(bi,j,bi,j+1,…,bi,k)

39、其中,j和k是实体t的首尾单词在句子si中的位置,重复该操作,得到句子si中所有实体的特征编码e1,e2,…,el;

40、s42、将所有实体的编码特征最大池化,得到实体级特征向量αi:

41、αi=maxpool(e1,e2,…,el)

42、同样的,在bi上采用最大池化得到句子级特征向量βi:

43、βi=maxpool(bi,1,bi,2,…,bi,r)

44、其中,r是句子si的单词数,即bert编码中的token个数;

45、s43、使用第二bilstm网络,得到结点的特征向量vi:

46、vi=bi-lstm(αi||βi)

47、其中,||表示串接操作。

48、s44、重复执行步骤s41-s43,得到同构图中每个句子结点对应的特征向量。

49、进一步地,步骤s5包括:

50、s51、图注意力机制的输入包括同构图的邻接矩阵auv,结点特征向量v=[v1,v2,…,vn],在图注意力机制中,计算邻居结点j对当前结点i的重要性,用注意力分数αij表示,公式为:

51、

52、其中,σ表示leakyrelu激活函数,f表示注意力机制中的全连接层,ni表示结点i的全部邻居结点;

53、s52、为了捕获更多的信息,采用k个头的多头注意力机制:

54、

55、其中,||表示拼接操作,表示第k个图注意力下结点j对当前结点i的得分;

56、将k头图注意力的输出v′i,i=1,2,…,n叠加,得到一个预测矩阵z,接着将其放入一个多层感知机mlp中,最后对其进行归一化操作,得到结点vi属于第j个句子团体的预测概率:

57、

58、若结点vi对应第j个句子团体的概率大于预定值,则将结点vi赋给该句子团体;

59、重复上述步骤,具有相似语义或信息的句子会被划分在同一个句子团体内,最后输出m个句子团体,一个句子团体代表一个事件。

60、s53、为文档构造隶属矩阵f={0,1}n×m,如果第i个句子在第j个句子团体内部,就设置fi,j=1,否则为0。

61、进一步地,步骤s6包括:

62、s61、将所有结点的特征编码序列v=[v1,v2…,vn]与隶属关系矩阵f∈{0,1+n×m对位相乘后,得到矩阵序列c=[c1,c2,…,cm]:

63、

64、其中,ci保留了第i个句子团体中的所有句子特征向量,表示对位相乘;

65、s62、对于每个句子团体ci,使用句子级别的注意力机制得到每个句子的得分αj:

66、gj=tanh(wsaci,j+bsa)

67、

68、其中,wsa和bsa为注意力机制的参数,gj为归一化之前的得分;

69、s63、通过全连接层计算输出句子团体ci的融合编码表示和事件类型概率分布公式为:

70、

71、

72、其中yet表示事件类型标签,wet和bet为全连接参数;

73、概率最高的对应的yet就是该句子团体对应的事件类型,通过预先定义的事件类型和论元角色的对应关系,得到每个事件类型的论元角色;

74、重复上述操作,获得每个句子团体对应的事件类型和论元角色;

75、s64、采用s62步骤中得到的注意力分数αj,通过对注意力分数加权求和,得到句子团体中实体的最终表示eentity:

76、

77、将句子团体中实体的最终表示eentity输入到sigmoid函数中,模拟论元分类的相对分数:

78、

79、其中w和b为全连接参数,对于每个论元角色,选择得分最高且超过预定阈值的实体作为该论元角色对应的论元;

80、重复上述操作,输出每个论元角色对应的论元。

81、进一步地,如果第i个句子在第j个句子团体内部,则设置fi,j=1,否则为0。

82、本发明提供的基于共指消歧的文档级事件抽取方法,与现有文档级事件抽取方法相比,具有如下有益效果:

83、(1)本发明考虑了实体共指消歧的现象,将被忽略的重要信息再次利用。

84、(2)本发明引入了句子级别的注意力机制,抑制了事件分类和论元分类过程中引入的句子噪声,降低无关句子的干扰,较好地解决了文档级事件抽取中论元分散的问题。

85、(3)本发明获得的句子团体,可以为提取的事件提供解释说明。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1