基于图自依赖网络的多事件抽取方法、系统、设备及介质与流程

文档序号:33526857发布日期:2023-03-22 07:22阅读:77来源:国知局
基于图自依赖网络的多事件抽取方法、系统、设备及介质与流程

1.本发明涉及自然语言处理信息抽取领域,具体而言,涉及了基于图自依赖网络的多事件抽取方法、系统、设备及介质。


背景技术:

2.事件抽取是从海量文本数据中提取用户感兴趣的结构化事件内容,并且将结构化的事件内容以一定的方式进行呈现。目前,事件抽取的方式主要分为两类,第一类是基于统计学和机器学习实现,第二类是基于深度神经网络实现。其中,基于统计学和机器学习的方式实际表现依赖于特征,虽然具有很强的可解释性,但是忽略了检测文本中深层次的语义信息,并且缺乏通用性,迁移到另一个领域数据集的学习结果不够理想,泛化能力不足;基于深度神经网络的方式忽略了多事件之间的依赖性,并且需要借助复杂的自然语言处理工具,如词性标注、解析树、句法距离等,难以让各种强有力的事件抽取框架在多语言多专业领域得到简便有效的运用。


技术实现要素:

3.本发明实施例提供一种基于图自依赖网络的多事件抽取方法、系统、设备及介质,解决了现有事件抽取无法考虑多事件之间的依赖性,并且需要借助复杂的自然语言处理工具才能完成事件抽取的问题。
4.在第一方面,本发明实施例中提供一种基于图自依赖网络的多事件抽取方法,所述方法包括以下步骤:
5.对检测文本进行文本编码处理,以得到初级预测信息h(x);
6.基于初级预测信息h(x),采用深度条件自依赖网络和图注意力网络进行多事件依赖关系建模,以得到全局事件信息h1(x);
7.基于初级预测信息h(x)和全局事件信息h1(x)输出触发词文本;
8.对检测文本进行文本编码处理,并且将触发词文本集成于检测文本中,以得到初级预测信息f(x);
9.基于初级预测信息f(x),采用深度条件自依赖网络和图注意力网络进行多论元依赖关系建模,以得到全局论元信息f1(x);
10.基于初级预测信息f(x)和全局论元信息f1(x)输出事件论元文本。
11.于上述实施例中,利用图自依赖网络挖掘多事件之间的依赖性,具体的,图自依赖网络包括深度条件自依赖网络和图注意力网络,其中,深度条件自依赖网络的思想是从检测文本中直接生成包含事件图信息的全局事件信息h1(x)和包含论元图信息的全局论元信息f1(x),无需借助其他的自然语言处理工具,允许学习不同触发词与论元的相关性,这两个关键特性使得图自依赖网络具有良好的扩展性和有效性。
12.作为本技术一些可选实施方式,采用深度条件自依赖网络和图注意力网络进行多事件依赖关系建模,以得到全局事件信息h1(x)的流程如下:
13.利用激活函数对初级预测信息h(x)进行归一化处理,以得到触发词的概率分布p1(x);
14.利用示性函数对概率分布p1(x)进行数据处理,以得到触发词初级预测值y1;
15.基于触发词初级预测值y1预测触发词字符节点位置,并且基于触发词字符节点位置构建事件图;
16.采用图注意力网络对事件图进行多事件依赖关系建模,以得到全局事件信息h1(x)。
17.于上述实施例中,利用深度条件自依赖网络的思想去建模多事件之间的依赖关系,这种建立依赖关系的方式对于各种领域的事件提取任务都是通用的,并且监督关系信息仅来自检测文本本身,而不需要任何额外的人工标注工作和自然语言处理工具。
18.作为本技术一些可选实施方式,采用深度条件自依赖网络和图注意力网络进行多论元依赖关系建模,以得到全局论元信息f1(x)的流程如下:
19.利用激活函数对初级预测信息f(x)进行归一化处理,以得到论元的概率分布p2(x);
20.利用示性函数对概率分布p2(x)进行数据处理,以得到论元初级预测值y2;
21.基于论元初级预测值y2预测论元字符节点位置,并且基于论元字符节点位置构建论元图;
22.采用图注意力网络对论元图进行多事件依赖关系建模,以得到全局论元信息f1(x)。
23.于上述实施例中,利用深度条件自依赖网络的思想去建模多论元之间的依赖关系,这种建立依赖关系的方式对于各种领域的事件提取任务都是通用的,并且监督关系信息仅来自检测文本本身,而不需要任何额外的人工标注工作和自然语言处理工具。
24.作为本技术一些可选实施方式,采用预先训练的文本编码器对检测文本进行文本编码处理
25.作为本技术一些可选实施方式,图注意力网络基于注意力机制获取多事件依赖关系和多论元依赖关系。
26.作为本技术一些可选实施方式,在对检测文本进行文本编码处理后,采用条件融合函数将触发词文本集成于检测文本中,以得到初级预测信息f(x)。
27.于上述实施例中,采用条件融合函数显式的建模触发词与论元之间的依赖关系,以进一步建立触发词与论元的连接,从而通过特征级交互来完善论元编码信息;通过充分构建多事件之间复杂的交互跟依赖信息,能提高多事件抽取的性能效果。
28.在第二方面,本发明提供一种基于图自依赖网络的多事件抽取系统,所述系统包括事件触发词提取器和事件论元提取器;
29.所述事件触发词提取器用于对检测文本进行触发词提取处理,以输出触发词文本;
30.所述事件论元提取器用于对触发词文本进行论元提取处理,以输出事件论元文本。
31.作为本技术一些可选实施方式,所述事件触发词提取器包括文本编码器、深度条件自依赖网络、图注意力网络以及触发词输出层;
32.所述事件论元提取器包括文本编码器、条件融合层、深度条件自依赖网络、图注意力网络以及论元输出层;
33.所述文本编码器用于对检测文本进行文本编码处理,以得到初级预测信息h(x);
34.所述深度条件自依赖网络首先对初级预测信息h(x)进行归一化处理,以得到触发词的概率分布p1(x),然后利用示性函数对概率分布p1(x)进行数据处理,以得到触发词初级预测值y1,最后基于触发词初级预测值y1预测触发词字符节点位置,并且基于触发词字符节点位置构建事件图;
35.所述图注意力网络用于对事件图进行多事件依赖关系建模,以得到全局论元信息f1(x);
36.所述触发词输出层用于预测触发词的开始位置和结束位置,然后基于初级预测信息h(x)和全局事件信息h1(x)输出触发词文本;
37.所述文本编码器用于对检测文本进行文本编码处理,以得到初级预测信息f(x);
38.所述条件融合层用于将触发词文本集成于检测文本中;
39.所述深度条件自依赖网络首先对初级预测信息f(x)进行归一化处理,以得到论元的概率分布p2(x),然后利用示性函数对概率分布p2(x)进行数据处理,以得到论元初级预测值y2,最后基于论元初级预测值y2预测论元字符节点位置,并且基于论元字符节点位置构建论元图;
40.所述图注意力网络用于对论元图进行多事件依赖关系建模,以得到全局论元信息f1(x);
41.所述论元输出层用于预测论元的开始位置和结束位置,然后基于初级预测信息f(x)和全局论元信息f1(x)输出论元文本。
42.在第三方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述一种基于图自依赖网络的多事件抽取方法。
43.在第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述一种基于图自依赖网络的多事件抽取方法。
44.本发明的有益效果如下:
45.1.本发明利用图自依赖网络挖掘多事件之间的依赖性,无需借助其他的自然语言处理工具,并且允许学习不同触发词与论元的相关性,这两个关键特性使得图自依赖网络具有良好的扩展性和有效性。
46.2.本发明采用条件融合函数显式的建模触发词与论元之间的依赖关系,以进一步建立触发词与论元的连接,从而通过特征级交互来完善论元编码信息,即通过充分构建多事件之间复杂的交互跟依赖信息,能提高多事件抽取的性能效果。
附图说明
47.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这
些附图获得其他相关的附图。
48.图1是根据本发明的实施例多事件抽取方法的流程图;
49.图2是根据本发明的实施例提取触发词文本的流程图;
50.图3是根据本发明的实施例提取论元文本的流程图。
具体实施方式
51.为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
52.同样应当理解的是,为了简化本发明揭示的表述,从而帮助对至少一个发明实施例的理解,前文对本发明实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本发明对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
53.实施例1
54.本发明提供一种基于图自依赖网络的多事件抽取方法,请参阅图1,所述方法如下:
55.(1)通过事件触发词提取器从检测文本中提取触发词文本,请参阅图2,主要包括以下步骤:
56.(1.1)通过预先训练的文本编辑器对检测文本进行文本编码处理,以得到初级预测信息h(x);其中,所述文本编辑器可以采用中文预训练语言模型,通过中文预训练语言模型输出初级预测信息h(x)。
57.(1.2)基于初级预测信息h(x),采用深度条件自依赖网络和图注意力网络(即图自依赖网络)进行多事件依赖关系建模,以得到全局事件信息h1(x)。
58.具体的,得到全局事件信息h1(x)的流程如下:
59.(1.21)利用激活函数对初级预测信息h(x)进行归一化处理,以得到字符是否会被预测为触发词的概率分布p1(x)。
60.(1.22)利用示性函数对概率分布p1(x)进行数据处理,以得到触发词初级预测值y1。
61.(1.23)基于触发词初级预测值y1预测触发词字符节点是否存在以及相应的位置,并且基于触发词字符节点位置构建事件图。
62.(1.24)采用图注意力网络对事件图进行多事件依赖关系建模,以得到全局事件信息h1(x);其中,图注意力网络基于注意力机制获取多事件依赖关系。
63.具体的,图自依赖网络包括深度条件自依赖网络和图注意力网络,其中,深度条件自依赖网络的思想是从检测文本中直接生成包含事件图信息的全局事件信息h1(x),即步骤(1.21)、步骤(1.22)以及步骤(1.23)是基于深度条件自依赖网络的思想实现。
64.(1.3)基于初级预测信息h(x)和全局事件信息h1(x)输出触发词文本。
65.即通过一个二进制标记器预测触发词的开始位置和结束位置,并且结合初级预测信息h(x)和全局事件信息h1(x),以开始位置和结束位置之间的标记构成一个完整的触发
词。
66.(2)通过事件论元提取器从检测文本中提取论元文本,请参阅图3,主要包括以下步骤:
67.(2.1)通过预先训练的文本编辑器对检测文本进行文本编码处理,并且采用条件融合函数将触发词文本集成于检测文本中,以得到初级预测信息f(x);其中,所述文本编辑器可以采用中文预训练语言模型,通过中文预训练语言模型输出初级预测信息f(x)。
68.具体的,在对触发词文本进行文本编码处理后,采用条件融合函数将外部的条件信息集成到初级预测信息f(x)中,采用条件融合函数显式的建模触发词与论元之间的依赖关系,以进一步建立触发词与论元的连接,从而通过特征级交互来完善论元编码信息;通过充分构建多事件之间复杂的交互跟依赖信息,能提高多事件抽取的性能效果。
69.(2.2)基于初级预测信息f(x),采用深度条件自依赖网络和图注意力网络进行多论元依赖关系建模,以得到全局论元信息f1(x)。
70.具体的,得到全局论元信息f1(x)的流程如下:
71.(2.21)利用激活函数对初级预测信息f(x)进行归一化处理,以得到字符是否会被预测为论元的概率分布p2(x)。
72.(2.22)利用示性函数对概率分布p2(x)进行数据处理,以得到论元初级预测值y2。
73.(2.23)基于论元初级预测值y2预测论元字符节点是否存在以及相应的位置,并且基于论元字符节点位置构建论元图。
74.(2.24)采用图注意力网络对论元图进行多事件依赖关系建模,以得到全局论元信息f1(x);其中,图注意力网络基于注意力机制获取多论元依赖关系。
75.具体的,图自依赖网络包括深度条件自依赖网络和图注意力网络,其中,深度条件自依赖网络的思想是从检测文本中直接生成包含论元图信息的全局论元信息f1(x),即步骤(2.21)、步骤(2.22)以及步骤(2.23)是基于深度条件自依赖网络的思想实现。
76.(2.3)基于初级预测信息f(x)和全局论元信息f1(x)输出事件论元文本。
77.即通过一个二进制标记器预测论元的开始位置和结束位置,并且结合初级预测信息f(x)和全局论元信息f1(x),以开始位置和结束位置之间的标记构成一个完整的论元。
78.为了更加清晰的说明本实施所述方法的处理过程,现给定一个检测文本,包含一个句子,多事件抽取任务应该识别句子中出现的触发词和论元。该任务通过下图中的示例进行了说明,该示例描述了两个事件,事件一由单词“hold”(事件触发词)触发,并且伴随其提取的论元“the three operators”(主语角色)和“an online press conference”(宾语角色),事件二由单词“release”触发,其提取的论元是“the three operators”(主语角色)和“the white paper”(宾语角色),具体情况请参阅表1:
[0079][0080]
表1
[0081]
实施例2
[0082]
本发明提供一种基于图自依赖网络的多事件抽取系统,所述系统包括:
[0083]
所述系统包括事件触发词提取器和事件论元提取器;
[0084]
所述事件触发词提取器用于对检测文本进行触发词提取处理,以输出触发词文本;
[0085]
所述事件论元提取器用于对触发词文本进行论元提取处理,以输出事件论元文本。
[0086]
于本发明实施例中,所述事件触发词提取器包括文本编码器、深度条件自依赖网络、图注意力网络以及触发词输出层;
[0087]
所述事件论元提取器包括文本编码器、条件融合层、深度条件自依赖网络、图注意力网络以及论元输出层;
[0088]
所述文本编码器用于对检测文本进行文本编码处理,以得到初级预测信息h(x);
[0089]
所述深度条件自依赖网络首先对初级预测信息h(x)进行归一化处理,以得到触发词的概率分布p1(x),然后利用示性函数对概率分布p1(x)进行数据处理,以得到触发词初级预测值y1,最后基于触发词初级预测值y1预测触发词字符节点位置,并且基于触发词字符节点位置构建事件图;
[0090]
所述图注意力网络用于对事件图进行多事件依赖关系建模,以得到全局论元信息f1(x);
[0091]
所述触发词输出层用于预测触发词的开始位置和结束位置,然后基于初级预测信息h(x)和全局事件信息h1(x)输出触发词文本;
[0092]
所述文本编码器用于对检测文本进行文本编码处理,以得到初级预测信息f(x);
[0093]
所述条件融合层用于将触发词文本集成于检测文本中;
[0094]
所述深度条件自依赖网络首先对初级预测信息f(x)进行归一化处理,以得到论元的概率分布p2(x),然后利用示性函数对概率分布p2(x)进行数据处理,以得到论元初级预测值y2,最后基于论元初级预测值y2预测论元字符节点位置,并且基于论元字符节点位置构建论元图;
[0095]
所述图注意力网络用于对论元图进行多事件依赖关系建模,以得到全局论元信息f1(x);
[0096]
所述论元输出层用于预测论元的开始位置和结束位置,然后基于初级预测信息f(x)和全局论元信息f1(x)输出论元文本。
[0097]
实施例3
[0098]
本发明提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行实施例1所述的一种基于图自依赖网络的多事件抽取方法。
[0099]
本实施例提供的计算机设备可以实现执行实施例1所述的方法,为避免重复,在此不再赘述。
[0100]
实施例4
[0101]
本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述的一种基于图自依赖网络的多事件抽取方法。
[0102]
本实施例提供的计算机可读存储介质可以实现执行实施例1所述的方法,为避免重复,在此不再赘述。
[0103]
其中,所述处理器可以是中央处理器(cpu,central processing unit),还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(application specific integrated circuit)、现成可编程门阵列(fieldprogrammable gate array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0104]
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的数据,实现发明中基于图自依赖网络的多事件抽取系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外,存储器可以包括高速随机存取存储器、还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0105]
基于图自依赖网络的多事件抽取系统如果以软件功能单元的形式实现并作为独
立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序可存储于一计算机可读存介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
[0106]
本发明已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
[0107]
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、rf、或类似介质,或任何上述介质的组合。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1