一种事件抽取方法和装置与流程

文档序号:21547359发布日期:2020-07-17 17:58阅读:来源:国知局

技术特征:

1.一种事件抽取方法,其特征在于,所述方法包括:

获得语句的向量化语义表示w1;

根据所述向量化语义表示w1中设置的token进行触发词识别,并根据所述向量化语义表示w1进行span的划分获得的相应的span语义表示进行实体识别;

对每一个token和span进行两两结合,并标记结合后的token和span是否为(触发词-论元)对。

2.根据权利要求1所述的事件抽取方法,其特征在于,所述获得语句的向量化语义表示w1包括:通过双向lstm网络模型或bert模型获得语句的向量化语义表示w1。

3.根据权利要求2所述的事件抽取方法,其特征在于,在通过双向lstm网络获得语句的向量化语义表示w1之前,所述方法还包括:将语句中的a个字符随机初始化为一个维度为[a,b]的b维向量d,其中,对于从0到a-1的索引id,每个id对应一个不同的字符;对于长度为s的语句,该语句中每一个字符能够在向量d中找到对应的id,从而获得维度为[s,d]的向量;

通过双向lstm网络获得语句的向量化语义表示w1包括:将维度为[s,d]的向量输入预设的双向lstm神经网络,将所述双向lstm神经网络的输出作为语句的向量化语义表示w1;

其中,所述向量化语义表示w1的维度为[s,d1];d1为2*lstm隐层节点数。

4.根据权利要求2所述的事件抽取方法,其特征在于,通过bert模型获得语句的向量化语义表示w1包括:将语句直接输入所述bert模型,将所述bert模型的输出作为语句的向量化语义表示w1;

其中,所述向量化语义表示w1的维度为[s,d1];d1=768。

5.根据权利要求1所述的事件抽取方法,其特征在于,所述方法还包括:

预先将触发词类型划分为x种,将实体类型划分为y种,将事件论元类型划分为z种,将所述触发词类型、所述实体类型以及所述事件论元类型以外的类型作为其他类型other;其中,x、y、z均为正整数;

在获得语句的向量化语义表示w1之前,进行以下任意一种或多种操作:

在语句中设置一个或多个token;每一个token用于标记当前词语是否为所述触发词类型;每个token表示x种类型中的任意一种;

根据设定的span宽度,对语句进行span划分,以将语句划分为多个span,并对每个span进行标记,以确定当前span是否属于实体类型;每个标记表示y种类型中的任意一种;

对标记的每一个token和span进行两两结合,并标记结合后的token和span是否为(触发词-论元)对。

6.根据权利要求5所述的事件抽取方法,其特征在于,所述根据所述向量化语义表示w1中设置的token进行触发词识别包括:

通过两层全连接神经网络和softmax层对每个token进行分类,获得维度为[s,x+1]的向量w2,向量w2表示每个token属于每一类型触发词的概率。

7.根据权利要求5所述的事件抽取方法,其特征在于,所述根据所述向量化语义表示w1进行span的划分获得的相应的span语义表示进行实体识别包括:

对所述向量化语义表示w1进行span划分,得到多个语义片段;对多个语义片段进行平均池化,得到每个span的表示w3;

将每个span的表示w3作为输入,使用两层全连接神经网络和softmax层对每个span进行分类,输出维度为[n,y+1]的向量w4,向量w4表示每个span属于每一类型实体的概率。

8.根据权利要求7所述的事件抽取方法,其特征在于,所述对所述向量化语义表示w1进行span划分,得到多个语义片段;对多个语义片段进行平均池化,得到每个span的表示w3包括:

获取设定的span的最大宽度max_span_width;根据span的宽度从1到max_span_width依次在所述向量化语义表示w1上进行选取,获得n个span的语义表示span_embedding;

对n个span的语义表示span_embedding进行平均池化,得到每个span的表示w3。

9.根据权利要求4所述的事件抽取方法,其特征在于,所述对每一个token和span进行两两结合,并标记结合后的token和span是否为(触发词-论元)对包括:

对所述向量化语义表示w1以及每个span的表示w3进行复制和变换,实现对每一个token和span的两两拼接组合,获得维度为[s,n,2*d1]的向量w5;

将向量w5作为输入,通过两层全连接神经网络和一层softmax层对向量w5进行分类,输出维度为[s,n,z+1]的向量w6;向量w4表示每个组合属于每一类型事件论元的概率。

10.一种事件抽取装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现如权利要求1-9任意一项所述的事件抽取方法。


技术总结
本申请公开了一种事件抽取方法和装置,该方法包括:获得语句的向量化语义表示W1;根据向量化语义表示W1中设置的token进行触发词识别,并根据向量化语义表示W1进行Span的划分获得的相应的Span语义表示进行实体识别;对每一个token和span进行两两结合,并标记结合后的token和span是否为(触发词‑论元)对。通过该实施例方案,能够获取更加有用的信息,具有较强的实际应用价值;操作简单,避免了因使用自然语言处理工具而导致的误差累积的问题;通过划分span的方式完美解决了序列标注存在的问题,效率更高,适用性更强。

技术研发人员:徐猛;付骁弈
受保护的技术使用者:北京明略软件系统有限公司
技术研发日:2020.03.17
技术公布日:2020.07.17
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1