基于机器阅读理解的联合事件抽取方法及装置与流程

文档序号:31647107发布日期:2022-09-27 20:33阅读:38来源:国知局
基于机器阅读理解的联合事件抽取方法及装置与流程

1.本发明属于事件抽取领域,尤其是涉及一种基于机器阅读理解的联合事件抽取方法及装置。


背景技术:

2.相对于其他信息传递媒介,信息通过文本的形式流通通常更准确和高效。而随着互联网的快速发展,文本信息也呈现出爆发式的增长。从海量文本数据中提出有用的价值也成为了工业界中的一大难题。为克服这一难题,许多信息抽取技术应运而生。事件抽取技术则是信息抽取技术中的关键技术之一。其具体任务是判定给定文本数据是否含有事件,若含有事件则识别出事件的类型以及从文本数据抽取事件的相关元素,例如:事件主体、事件发生的时间和地点等。
3.现有技术中关于事件抽取的主要方法及其缺点如下:
4.1)模式匹配方法
5.模式匹配方法通过定义事件抽取模板进行事件抽取,需要一定的专业知识来进行模板的定义,难以覆盖所有的规则,且无法考虑到模式之外的句子特征,因而在精确率和召回率上都很难达到商业化的需求。
6.2)两阶段抽取方法
7.基于两阶段抽取的事件抽取方法通常将识别事件类型作为第一阶段,将抽取事件元素作为第二阶段。在第一阶段中,通常使用的方法是先识别出事件触发词,然后通过触发词来判别事件的类型。这种方法的缺点是在无触发词的事件抽取任务中无法工作。在第二阶段中,通过将事件元素的抽取看作是序列标注任务。通过使用条件随机场对输入文本中的每个字或词进行序列标注,从而抽取出事件元素。其缺点是不能抽取含有重叠的事件元素,且使用条件随机场的模型推理速度慢。此外,基于两阶段的事件抽取算法会有累计误差,即第一阶段的误差会传播到第二阶段,导致综合的抽取性能降低。
8.3)联合抽取方法
9.未来避免累积误差,基于联合抽取的事件抽取方法将事件类型识别和事件元素抽取通过一个模型来实现。目前的做法是将事件类型与事件元素结合成为一个新标签,然后使用序列标注的方法对输入文本进行序列标注。序列标注得到的结果通过解码得到事件类型和事件元素。该方法缺点是将事件类型与事件元素结合形成新标签会导致标签数量的剧增,使得数据变得稀疏。从而导致基于联合的方法的召回率和精确率均不如基于两阶段抽取的方法。


技术实现要素:

10.本发明要解决的技术问题是怎样能够快速且高精确率的从文本数据中进行事件抽取,提供了一种基于阅读理解的联合事件抽取方法及装置。
11.为解决该问题,本发明所采用的技术方案是:
12.一种基于阅读理解的联合事件抽取方法,包括以下步骤:
13.步骤1:将事件抽取任务作为机器阅读理解任务,根据拟抽取的事件类型和事件元素类型构造问句,并在所述事件类型和事件元素类型之间添加连接符号进行连接;
14.步骤2:将所构造的问句以及拟抽取的文本拼接并添加开头和结尾符号构造输入数据;
15.步骤3:将构造好的输入数据输入到事件抽取模型中进行事件抽取,得到与所构造的问句中事件元素类型相关的事件元素信息即答案。
16.进一步地,所述事件抽取模型包括:
17.步骤3.1:使用预训练模型bert对输入数据进行编码;
18.步骤3.2:在bert编码完成之后,取出所述问句中事件类型和事件元素类型对应的编码输出,分别通过注意力机制层之后与拟抽取的文本对应的输出编码进行合并;
19.步骤3.3:将合并后的数据输入到bilstm模型,得到拟抽取文本的方向信息;
20.步骤3.4:在bilstm模型输出端分别连接一层全连接层并使用sigmoid函数激活之后得到答案的开始位置序列和结束位置序列;
21.步骤3.5:根据开始位置序列和结束位置序列按照就近原则从文本中抽取答案。
22.进一步地,步骤2中所述构造输入数据的方法是:
23.步骤2.1:在所构造的问句末尾添加分隔标识符,然后与拟抽取的文本进行拼接;
24.步骤2.2:在拼接的数据前后加上开头标识符和结尾标识符构造出输入数据。
25.进一步地,还包括步骤4:将所有拟抽取的事件类型和事件元素类型构造成问句集,将问句集中的每一条问句与拟抽取的文本分别进行拼接构造输入数据输入到事件抽取模型中,得到与每一条问句相关的答案。
26.进一步地,在步骤2.1中还包括在拟抽取的文本前添加无答案的第一标识符和第二标识符,然后与所构造的问句一起进行拼接。
27.进一步地,根据无答案的第一标识符和第二标识符过滤掉无答案的输入数据,筛选出含有答案的输入数据。
28.本发明还提供了一种基于机器阅读理解的联合事件抽取装置,包括以下模块:
29.构造问句模块:用于将事件抽取任务作为机器阅读理解任务,根据拟抽取的事件类型和事件元素类型构造问句,并在所述事件类型和事件元素类型之间添加连接符号进行连接;
30.构造输入数据模块:用于将所构造的问句以及拟抽取的文本拼接并添加开头和结尾符号构造输入数据;
31.事件抽取结果输出模块:用于将构造好的输入数据输入到事件抽取模型中进行事件抽取,得到与所构造的问句中事件元素类型相关的事件元素信息即答案。
32.进一步地,所述事件抽取模型包括:
33.编码层:使用预训练模型bert对输入数据进行编码;
34.合并层:在bert编码完成之后,取出所述问句中事件类型和事件元素类型对应的编码输出,分别通过注意力机制层之后与拟抽取的文本对应的输出编码进行合并;
35.文本方向信息获取层:将合并后的数据输入到bilstm模型,得到文本的方向信息;
36.全连接层:在bilstm模型输出端分别连接一层全连接层并使用sigmoid函数激活
之后得到答案的开始位置序列和结束位置序列;
37.输出层:根据开始位置序列和结束位置序列按照就近原则从文本中抽取答案。
38.采用上述技术方案,本发明具有如下有益效果:
39.本发明提供的一种基于阅读理解的联合事件抽取方法及装置,将事件类型和事件元素同时进行抽取,相对于两阶段的事件抽取方法,本发明不存在累计误差或误差传播。相对于将事件类型与事件元素结合成为一个新标签,然后使用序列标注的方法对输入文本进行序列标注的联合抽取方法,本发明的输出只有事件元素的位置信息,模型更加简单,且不存在标签数量增加的问题。
附图说明
40.图1为事件抽取模型示意图;
41.图2为注意力机制层结构图;
42.图3为无答案抽取结果示意图;
43.图4为本发明系统流程图。
具体实施方式
44.下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
45.实施例一:
46.如图4所示,给出了本发明一种基于阅读理解的联合事件抽取方法的具体实施例,为了便于说明,实施例选择军事领域的数据集来对本发明提出的事件抽取方法进行说明。在军事领域数据集中存在各种军事活动事件。例如侦察事件、巡逻事件、演习事件等。这些事件中常用到的事件元素有时间、地点、主体、客体等。具体包括以下步骤:
47.步骤1:将事件抽取任务作为机器阅读理解任务,根据拟抽取的事件类型和事件元素类型构造问句,并在所述事件类型和事件元素类型之间添加连接符号进行连接;
48.本发明将事件抽取任务看作是机器阅读理解任务,通过类似于问答的形式从输入文本中直接抽取事件元素,即只需要一个模型就可以识别出事件类型和抽取出事件元素。机器阅读理解的做法通常是输入一个问句和一段文本,输出一段文本中关于一个问句的答案片段。因此,将事件抽取任务转化为机器阅读理解任务,就是要构造出一个含有事件类型信息和事件元素类型信息的问句,然后将问句和需要进行事件抽取的文本作为输入,然后将事件抽取需要抽取的事件元素作为答案进行输出。
49.在本实施例中,将事件类型和事件元素类型通过预先定义的连接符号“[and]”进行连接,例如“事件类型[and]事件元素类型”。
[0050]
步骤2:将所构造的问句以及拟抽取的文本拼接并添加开头和结尾符号构造输入数据;
[0051]
步骤2.1:在所构造的问句末尾添加分隔标识符,本实施例中使用“[sep]”作为分隔标识符,然后与拟抽取的文本进行拼接;
[0052]
步骤2.2:在拼接好的数据前后加上开头标识符“[cls]”和结尾标识符“[sep]”构
造出输入数据。
[0053]
将问句与文本拼接,并添加开头“[cls]”和结尾标识符“[sep]”构造出输入数据,例如,“[cls]事件类型[and]事件元素类型[sep]文本[sep]”。假设输入文本为“早上一架飞机在南海侦察”。则拼接后的句子为“[cls]侦察[and]时间[sep]早上一架飞机在南海侦察[sep]”。
[0054]
步骤3:将构造好的输入数据输入到事件抽取模型中进行事件抽取,得到与所构造的问句中事件元素类型相关的事件元素信息即答案。
[0055]
所述事件抽取模型,如图1所示,包括:
[0056]
步骤3.1:使用预训练模型bert对输入数据进行编码;利用bert强大的编码能力,将句子在编码时能够利用到所构造的问句的相关信息。
[0057]
步骤3.2:在bert编码完成之后,取出所述问句中事件类型和事件元素对应的编码输出,分别通过注意力机制层之后与拟抽取的文本对应的输出编码进行合并;注意力机制层使用自注意力的模式,即编码序列数据通过一个全连接层再经过softmax函数激活得到一组概率数据。将这组概率数据与编码序列数据进行相乘,再对编码序列数据进行求和得到注意力机制层的输出。
[0058]
为了充分利用到事件类型和事件元素类型的先验信息。本实施例通过注意力机制层充分利用问句中的事件类型信息和事件元素类型信息,无需人工构造复杂的问句。因此,可迁移性好、实现简单。注意力机制层如图2所示。
[0059]
步骤3.3:将合并后的数据输入到bilstm模型,得到文本的方向信息;
[0060]
步骤3.4:在bilstm模型输出端分别连接一层全连接层并使用sigmoid函数激活之后得到答案的开始位置序列和结束位置序列;
[0061]
步骤3.5:根据开始位置序列和结束位置序列按照就近原则从文本中抽取答案。本实施例中的就近原则是指答案的开始位置和结束位置按最短的距离来匹配。在附图1所示的模型输出中,有时候模型输出的开始位置和结束位置不一定只有一个1。有可能开始位置序列有一个1,而结束位置序列有两个1。这时候就近原则就是寻找与开始位置1最近的那个结束位置1。然后将这两个位置组成答案的开始位置和结束位置。
[0062]
步骤4:将所有拟抽取的事件类型和事件元素类型构造成问句集,将问句集中的每一条问句与拟抽取的文本分别进行拼接构造输入数据输入到事件抽取模型中,得到与每一条问句相关的答案。
[0063]
由于本发明是对文本中所包含的各种事件类型和事件元素类型进行抽取,因此,需要根据所要抽取的各种事件类型和事件元素构建所有的问句组成问句集,然后将问句集中的每一条问句与拟要抽取的文本分别进行拼接,然后输入到事件抽取模型中,提取出所有的事件元素之后,得到事件抽取结果,如图4所示。
[0064]
实施例二:
[0065]
由于文本中不一定含有所提问句的答案,需要对无答案的输入数据进行过滤,得到事件抽取结果。为了对无答案的输入数据进行过滤,本实施例与实施例一的区别在于:
[0066]
在步骤2.1中还包括在拟抽取的文本前添加无答案的第一标识符和第二标识符,然后与所构造的问句一起进行拼接。
[0067]
本实施例中,提出使用两个特殊字符“[start]”和“[end]”作为无答案的第一标识
符和第二标识符。例如添加无答案标识符后的拟抽取文本为“[start][end]文本”。将问句与文本拼接,并添加开头“[cls]”和结尾标识符“[sep]”构造出输入数据,例如,“[cls]事件类型[and]事件元素类型[sep][start][end]文本[sep]”。假设输入文本为“早上一架飞机在南海侦察”。则拼接后的句子为“[cls]侦察[and]时间[sep][start][end]早上一架飞机在南海侦察[sep]”。
[0068]
如果构造出的问句在输入文本中没有答案,即没有事件元素,则抽取出的答案为特殊字符“[start]”和“[end]”。例如对于输入数据:“[cls]巡逻[and]地点[sep][start][end]早上一架飞机在南海侦察[sep]”,输出为“[start][end]”。因为输入文本“早上一架飞机在南海侦察”是一个侦察事件,而不是一个巡逻事件。因此对于问句“[cls]巡逻[and]地点[sep]”,文本不存在答案。因此输出为无答案标识符“[start][end]”,如图4所示。模型输出无答案的结果如附图3所示。通过使用无答案的第一标识符和第二标识符,使得模型可以筛选和过滤出无答案的问句。
[0069]
所以本实施例还包括
[0070]
步骤5:根据无答案标识符过滤掉无答案的输入数据,筛选出含有答案的输入数据。从而得到一段文本的事件类型信息、事件元素类型信息、事件元素信息。
[0071]
本发明还提供了一种基于机器阅读理解的联合事件抽取装置,包括以下模块:
[0072]
构造问句模块:用于将事件抽取任务作为机器阅读理解任务,根据拟抽取的事件类型和事件元素类型构造问句,并在所述事件类型和事件元素类型之间添加连接符号进行连接;
[0073]
构造输入数据模块:用于将所构造的问句以及拟抽取的文本拼接并添加开头和结尾符号构造输入数据;
[0074]
事件抽取结果输出模块:用于将构造好的输入数据输入到事件抽取模型中进行事件抽取,得到与所构造的问句中事件元素类型相关的事件元素信息即答案。
[0075]
所述事件抽取模型包括:
[0076]
编码层:使用预训练模型bert对输入数据进行编码;
[0077]
合并层:在bert编码完成之后,取出所述问句中事件类型和事件元素类型对应的编码输出,分别通过注意力机制层之后与拟抽取的文本对应的输出编码进行合并;
[0078]
文本方向信息获取层:将合并后的数据输入到bilstm模型,得到拟抽取文本的方向信息;
[0079]
全连接层:在bilstm模型输出端分别连接一层全连接层并使用sigmoid函数激活之后得到答案的开始位置序列和结束位置序列;
[0080]
输出层:根据开始位置序列和结束位置序列按照就近原则从文本中抽取答案。
[0081]
在实施例中,为了证明本发明的实际抽取效果,使用本发明与两种目前事件抽取领域常用的基准模型进行对比实验。第一种用来对比的模型为两阶段模型,第一阶段使用多标签分类的方法,第二阶段使用bert+bilstm+crf方法,其中crf为条件随机场。第二种用来对比的模型为联合抽取模型,使用的方法为bert+bilstm+crf。实验结果如下表所示。本发明提出的方法bert+bilstm+mrc,mrc表示机器阅读理解(machine reading comprehension),其综合性能f1值相比于两阶段抽取方法提高2.1个百分点,相比于使用条件随机进行抽取的联合抽取方法提高5.5个百分点。
[0082][0083]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1