一种事件抽取方法和装置与流程

文档序号：21547359发布日期：2020-07-17 17:58阅读：来源：国知局

技术特征：

1.一种事件抽取方法，其特征在于，所述方法包括：

获得语句的向量化语义表示w1；

根据所述向量化语义表示w1中设置的token进行触发词识别，并根据所述向量化语义表示w1进行span的划分获得的相应的span语义表示进行实体识别；

对每一个token和span进行两两结合，并标记结合后的token和span是否为(触发词-论元)对。

2.根据权利要求1所述的事件抽取方法，其特征在于，所述获得语句的向量化语义表示w1包括：通过双向lstm网络模型或bert模型获得语句的向量化语义表示w1。

3.根据权利要求2所述的事件抽取方法，其特征在于，在通过双向lstm网络获得语句的向量化语义表示w1之前，所述方法还包括：将语句中的a个字符随机初始化为一个维度为[a，b]的b维向量d，其中，对于从0到a-1的索引id，每个id对应一个不同的字符；对于长度为s的语句，该语句中每一个字符能够在向量d中找到对应的id，从而获得维度为[s，d]的向量；

通过双向lstm网络获得语句的向量化语义表示w1包括：将维度为[s，d]的向量输入预设的双向lstm神经网络，将所述双向lstm神经网络的输出作为语句的向量化语义表示w1；

其中，所述向量化语义表示w1的维度为[s，d1]；d1为2*lstm隐层节点数。

4.根据权利要求2所述的事件抽取方法，其特征在于，通过bert模型获得语句的向量化语义表示w1包括：将语句直接输入所述bert模型，将所述bert模型的输出作为语句的向量化语义表示w1；

其中，所述向量化语义表示w1的维度为[s，d1]；d1＝768。

5.根据权利要求1所述的事件抽取方法，其特征在于，所述方法还包括：

预先将触发词类型划分为x种，将实体类型划分为y种，将事件论元类型划分为z种，将所述触发词类型、所述实体类型以及所述事件论元类型以外的类型作为其他类型other；其中，x、y、z均为正整数；

在获得语句的向量化语义表示w1之前，进行以下任意一种或多种操作：

在语句中设置一个或多个token；每一个token用于标记当前词语是否为所述触发词类型；每个token表示x种类型中的任意一种；

根据设定的span宽度，对语句进行span划分，以将语句划分为多个span，并对每个span进行标记，以确定当前span是否属于实体类型；每个标记表示y种类型中的任意一种；

对标记的每一个token和span进行两两结合，并标记结合后的token和span是否为(触发词-论元)对。

6.根据权利要求5所述的事件抽取方法，其特征在于，所述根据所述向量化语义表示w1中设置的token进行触发词识别包括：

通过两层全连接神经网络和softmax层对每个token进行分类，获得维度为[s,x+1]的向量w2，向量w2表示每个token属于每一类型触发词的概率。

7.根据权利要求5所述的事件抽取方法，其特征在于，所述根据所述向量化语义表示w1进行span的划分获得的相应的span语义表示进行实体识别包括：

对所述向量化语义表示w1进行span划分，得到多个语义片段；对多个语义片段进行平均池化，得到每个span的表示w3；

将每个span的表示w3作为输入，使用两层全连接神经网络和softmax层对每个span进行分类，输出维度为[n,y+1]的向量w4，向量w4表示每个span属于每一类型实体的概率。

8.根据权利要求7所述的事件抽取方法，其特征在于，所述对所述向量化语义表示w1进行span划分，得到多个语义片段；对多个语义片段进行平均池化，得到每个span的表示w3包括：

获取设定的span的最大宽度max_span_width；根据span的宽度从1到max_span_width依次在所述向量化语义表示w1上进行选取，获得n个span的语义表示span_embedding；

对n个span的语义表示span_embedding进行平均池化，得到每个span的表示w3。

9.根据权利要求4所述的事件抽取方法，其特征在于，所述对每一个token和span进行两两结合，并标记结合后的token和span是否为(触发词-论元)对包括：

对所述向量化语义表示w1以及每个span的表示w3进行复制和变换，实现对每一个token和span的两两拼接组合，获得维度为[s,n,2*d1]的向量w5；

将向量w5作为输入，通过两层全连接神经网络和一层softmax层对向量w5进行分类，输出维度为[s,n,z+1]的向量w6；向量w4表示每个组合属于每一类型事件论元的概率。

10.一种事件抽取装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令被所述处理器执行时，实现如权利要求1-9任意一项所述的事件抽取方法。

技术总结
本申请公开了一种事件抽取方法和装置，该方法包括：获得语句的向量化语义表示W1；根据向量化语义表示W1中设置的token进行触发词识别，并根据向量化语义表示W1进行Span的划分获得的相应的Span语义表示进行实体识别；对每一个token和span进行两两结合，并标记结合后的token和span是否为(触发词‑论元)对。通过该实施例方案，能够获取更加有用的信息，具有较强的实际应用价值；操作简单，避免了因使用自然语言处理工具而导致的误差累积的问题；通过划分span的方式完美解决了序列标注存在的问题，效率更高，适用性更强。

技术研发人员：徐猛;付骁弈
受保护的技术使用者：北京明略软件系统有限公司
技术研发日：2020.03.17
技术公布日：2020.07.17

完整全部详细技术资料下载

当前第2页1 2