本发明涉及数据处理领域,具体涉及一种事件生成的方法、装置和电子设备。
背景技术:
1、事件是一种重要的知识形式,通常包含在大量的非结构化文本中,需要在上述非结构化文本中抽取出来。
2、现有技术中,通常采用序列标注的方式进行抽取,具体的,首先从非结构化文本中找到代表一个事件发生的触发词,然后再依次找到该事件中的各个论元。上述方法需要事先对事件的模式(schema)进行定义,然后根据定义的模式进行抽取,无法对模式以外类型的事件进行抽取,面对大量的非结构化文本,用户无法预先定义事件的全部模式,因此,在事件抽取时,会导致事件抽取结果不准确。
3、综上所述,如何对事件进行准确的抽取,是目前需要解决的问题。
技术实现思路
1、有鉴于此,本发明实施例提供了一种事件生成的方法、装置和电子设备,可以提高事件抽取结果的准确性。
2、第一方面,本发明实施例提供了一种事件生成的方法,该方法包括:获取至少一个目标非结构化文本;将所述至少一个目标非结构化文本输入到预先训练的统一预训练语言模型中,输出至少一个事件序列,其中,每个所述事件序列包括分隔符、触发词和论元;将至少一个所述事件序列进行反序列化处理,生成至少一个目标事件,其中,所述目标事件包括所述触发词和所述论元。
3、可选的,所述预先训练的统一预训练语言模型中包括生成模块和判别模块。
4、可选的,所述统一预训练语言模型的训练过程包括:
5、获取历史数据集,其中,所述历史数据集中包括历史非结构化文本和历史事件;
6、根据所述历史数据集交替训练所述生成模块和所述判别模块,更新所述统一预训练语言模型的主体参数;
7、根据更新后的所述统一预训练语言模型的主体参数,确定所述统一预训练语言模型。
8、可选的,根据所述历史数据集训练所述生成模块,更新所述统一预训练语言模型的主体参数,具体包括:
9、将所述历史事件进行序列化处理,生成历史事件序列,其中,所述历史事件序列中包括分隔符、触发词和论元;
10、根据所述历史非结构化文本和所述历史事件序列生成第一输入序列;
11、根据所述第一输入序列计算所述生成模块的生成损失;
12、根据所述生成损失更新所述统一预训练语言模型的主体参数。
13、可选的,响应于所述历史事件序列携带文本类别标签,所述第一输入序列包括cls语义向量,则所述生成损失包括生成任务损失和分类任务损失。
14、可选的,所述生成任务损失对应第一权重,所述分类任务损失对应第二权重,根据所述第一权重和所述第二权重的数值确定所述生成损失。
15、可选的,根据所述历史数据集训练所述判别模块,更新所述统一预训练语言模型的主体参数,具体包括:
16、将所述历史事件进行序列化处理,生成历史事件序列,其中,所述历史事件序列中包括分隔符、触发词和论元;
17、根据所述历史事件生成错误历史事件序列;
18、根据所述历史非结构化文本和所述历史事件序列、所述历史非结构化文本和所述错误历史事件序列分别生成第二输入序列;
19、根据所述第二输入序列计算所述判别模块的判别损失;
20、根据所述判别损失更新所述统一预训练语言模型的主体参数。
21、第二方面,本发明实施例提供了一种事件生成的装置,该装置包括:获取单元,用于获取至少一个目标非结构化文本;
22、处理单元,用于将所述至少一个目标非结构化文本输入到预先训练的统一预训练语言模型中,输出至少一个事件序列,其中,每个所述事件序列包括分隔符、触发词和论元;
23、生成单元,用于将至少一个所述事件序列进行反序列化处理,生成至少一个目标事件,其中,所述目标事件包括所述触发词和所述论元。
24、可选的,所述预先训练的统一预训练语言模型中包括生成模块和判别模块。
25、可选的,所述统一预训练语言模型的训练过程中:
26、所述获取单元还用于:获取历史数据集,其中,所述历史数据集中包括历史非结构化文本和历史事件;
27、该装置还包括:更新单元,用于根据所述历史数据集交替训练所述生成模块和所述判别模块,更新所述统一预训练语言模型的主体参数;
28、该装置还包括:确定单元,用于根据更新后的所述统一预训练语言模型的主体参数,确定所述统一预训练语言模型。
29、可选的,所述更新单元具体用于:
30、将所述历史事件进行序列化处理,生成历史事件序列,其中,所述历史事件序列中包括分隔符、触发词和论元;
31、根据所述历史非结构化文本和所述历史事件序列生成第一输入序列;
32、根据所述第一输入序列计算所述生成模块的生成损失;
33、根据所述生成损失更新所述统一预训练语言模型的主体参数。
34、可选的,响应于所述历史事件序列携带文本类别标签,所述第一输入序列包括cls语义向量,则所述生成损失包括生成任务损失和分类任务损失。
35、可选的,所述生成任务损失对应第一权重,所述分类任务损失对应第二权重,根据所述第一权重和所述第二权重的数值确定所述生成损失。
36、可选的,所述更新单元具体还用于:
37、将所述历史事件进行序列化处理,生成历史事件序列,其中,所述历史事件序列中包括分隔符、触发词和论元;
38、根据所述历史事件生成错误历史事件序列;
39、根据所述历史非结构化文本和所述历史事件序列、所述历史非结构化文本和所述错误历史事件序列分别生成第二输入序列;
40、根据所述第二输入序列计算所述判别模块的判别损失;
41、根据所述判别损失更新所述统一预训练语言模型的主体参数。
42、第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能中任一项所述的方法。
43、第四方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能中任一项所述的方法。
44、本发明实施例通过获取至少一个目标非结构化文本;将所述至少一个目标非结构化文本输入到预先训练的统一预训练语言模型中,输出至少一个事件序列,其中,每个所述事件序列包括分隔符、触发词和论元;将至少一个所述事件序列进行反序列化处理,生成至少一个目标事件,其中,所述目标事件包括所述触发词和所述论元。通过上述方法,可以提高事件抽取结果的准确性。
1.一种事件生成的方法,其特征在于,该方法包括:
2.如权利要求1所述的方法,其特征在于,所述预先训练的统一预训练语言模型中包括生成模块和判别模块。
3.如权利要求2所述的方法,其特征在于,所述统一预训练语言模型的训练过程包括:
4.如权利要求3所述的方法,其特征在于,根据所述历史数据集训练所述生成模块,更新所述统一预训练语言模型的主体参数,具体包括:
5.如权利要求4所述的方法,其特征在于,响应于所述历史事件序列携带文本类别标签,所述第一输入序列包括cls语义向量,则所述生成损失包括生成任务损失和分类任务损失。
6.如权利要求5所述的方法,其特征在于,所述生成任务损失对应第一权重,所述分类任务损失对应第二权重,根据所述第一权重和所述第二权重的数值确定所述生成损失。
7.如权利要求3所述的方法,其特征在于,根据所述历史数据集训练所述判别模块,更新所述统一预训练语言模型的主体参数,具体包括:
8.一种事件生成的装置,其特征在于,该装置包括:
9.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-6任一项所述的步骤。