事件信息抽取方法、装置及电子设备与流程

文档序号:30970174发布日期:2022-08-02 20:29阅读:68来源:国知局
事件信息抽取方法、装置及电子设备与流程

1.本技术涉及自然语言处理技术领域,尤其涉及一种事件信息抽取方法、装置及电子设备。


背景技术:

2.事件信息抽取是指把含有事件信息的非结构化的文本以结构化的形式呈现出来。事件信息抽取作为一种重要的信息抽取手段,广泛应用于事理图谱、情景生成、新闻摘要、信息检索等领域。
3.相关技术中,通常采用基于模式匹配的事件信息抽取方法对文本进行事件信息抽取,其中基于模式匹配的事件信息抽取方法是指首先构建不同事件类型的抽取模式或规则,再根据文本所匹配的模式或规则抽取事件信息,但是,这种方式需要预先由专业人员人工完成模式或规则创建工作,因此人力成本高,且对于不同领域场景下的事件信息抽取,需要创建不同的抽取模式或规则,因此可移植性较差。


技术实现要素:

4.本技术旨在至少在一定程度上解决相关技术中的技术问题之一。
5.本技术提出一种事件信息抽取方法、装置及电子设备,以解决相关技术中的事件抽取方法存在的人力成本高、可移植性差的技术问题。
6.本技术第一方面实施例提出了一种事件信息抽取方法,包括:获取待处理的语句;将所述语句输入序列标注模型,以获取所述语句对应的向量,以及所述语句中的实体以及触发词;针对每个实体触发词对,对所述语句对应的向量、对中触发词在所述语句中的位置向量、对中实体在所述语句中的位置向量进行拼接,得到拼接后向量;将多个所述拼接后向量输入文本分类模型,以获取所述语句中的事件信息。
7.本技术第二方面实施例提出了一种事件信息抽取装置,包括:第一获取模块,用于获取待处理的语句;第二获取模块,用于将所述语句输入序列标注模型,以获取所述语句对应的向量,以及所述语句中的实体以及触发词;拼接模块,用于针对每个实体触发词对,对所述语句对应的向量、对中触发词在所述语句中的位置向量、对中实体在所述语句中的位置向量进行拼接,得到拼接后向量;第三获取模块,用于将多个所述拼接后向量输入文本分类模型,以获取所述语句中的事件信息。
8.本技术第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本技术第一方面实施例提出的事件信息抽取方法。
9.本技术第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如本技术第一方面实施例提出的事件信息抽取方法。
10.本技术第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本技术第一方面实施例提出的事件信息抽取方法。
11.本技术提出的技术方案,具有如下有益效果:
12.通过获取待处理的语句后,将语句输入序列标注模型,以获取语句对应的向量,以及语句中的实体以及触发词,再针对每个实体触发词对,对语句对应的向量、对中触发词在语句中的位置向量、对中实体在语句中的位置向量进行拼接,得到拼接后向量,再将多个拼接后向量输入文本分类模型,以获取语句中的事件信息,实现了利用序列标注模型和文本分类模型,自动抽取语句中的事件信息,从而减少了人力成本,且对于不同领域场景下的语句均能实现准确抽取事件信息,可移植性强。
13.本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
14.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
15.图1为本技术实施例一所提供的事件信息抽取方法的流程示意图;
16.图2为本技术实施例二所提供的事件信息抽取方法的流程示意图;
17.图3为序列标注模型和文本分类模型的架构示意图;
18.图4为本技术实施例三所提供的事件信息抽取装置的结构示意图;
19.图5为本技术实施例四所提供的事件信息抽取装置的结构示意图;
20.图6示出了适于用来实现本技术实施方式的示例性电子设备的框图。
具体实施方式
21.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。
22.相关技术中,通常采用基于模式匹配的事件信息抽取方法对文本进行事件信息抽取,其中基于模式匹配的事件信息抽取方法是指首先构建不同事件类型的抽取模式或规则,再根据文本所匹配的模式或规则抽取事件信息,但是,这种方式需要预先由专业人员人工完成模式或规则创建工作,因此人力成本高,且对于不同领域场景下的事件信息抽取,需要创建不同的抽取模式或规则,因此可移植性较差。
23.本技术主要针对相关技术中的事件抽取方法存在的人力成本高、可移植性差的技术问题,提出一种事件信息抽取方法。
24.本技术实施例的事件信息抽取方法,在获取待处理的语句后,将语句输入序列标注模型,以获取所述语句对应的向量,以及语句中的实体以及触发词,再针对每个实体触发词对,对语句对应的向量、对中触发词在语句中的位置向量、对中实体在语句中的位置向量进行拼接,得到拼接后向量,再将多个拼接后向量输入文本分类模型,以获取语句中的事件信息,由此,实现了利用序列标注模型和文本分类模型,自动抽取语句中的事件信息,从而减少了人力成本,且对于不同领域场景下的语句均能实现准确抽取事件信息,可移植性强。
25.为了更好的理解本技术的技术方案,首先对一些名词进行介绍。
26.实体(entity),为一个语义类别中的对象或对象的集合,如人名、交通工具、公司名或地名等。
27.事件(event),为在真实世界中已经、可能或者将要发生的事情,一般包括时间、地点和人物等角色,如出生、死亡、地震或车祸等事件。
28.角色(role),为事件的参与者和属性,一般用实体来填充。如死亡者、死亡时间和事件地点就是死亡事件的角色,增持方、增持公司是增持事件的角色。
29.触发词(trigger),为用于识别事件的核心词(多数情况下为动词和名词)。如“生于”、“出生”等就是出生事件的触发词,“增持”是增持事件的触发词。
30.下面参考附图描述本技术实施例的事件信息抽取方法、装置、电子设备及存储介质。
31.图1为本技术实施例一所提供的事件信息抽取方法的流程示意图。
32.需要说明的是,本技术实施例以该事件信息抽取方法被配置于事件信息抽取装置中来举例说明,该事件信息抽取装置可以应用于任一电子设备中,以使该电子设备可以执行抽取语句的事件信息的功能。
33.其中,电子设备可以为个人电脑(personal computer,简称pc)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
34.如图1所示,该事件信息抽取方法可以包括以下步骤:
35.步骤101,获取待处理的语句。
36.其中,待处理的语句,为待进行事件信息抽取的语句,其可以是用户输入的语句,也可以是从网络上抓取的新闻、新闻评论等语句,也可以是通过其它方式获取的语句,本技术对此不作限制。另外,待处理的语句可以是中文、英文等任意语言类型的语句,本技术对此不作限制。
37.步骤102,将语句输入序列标注模型,以获取语句对应的向量,以及语句中的实体以及触发词。
38.其中,在示例性实施例中,可以预先训练得到序列标注模型,序列标注模型的输入为语句,输出为语句对应的向量、语句中的实体以及触发词,从而通过将待处理的语句输入序列标注模型,通过序列标注模型对待处理的语句进行处理,得到语句对应的向量、语句中的实体以及触发词。
39.以待处理的语句“a集团:2018年2月10日公告,b集团增持公司股票810.99万股”为例,将该语句输入序列标注模型,即可获取该语句中的实体:a集团、2018年2月10日、b集团、810.99万股,以及触发词:增持。
40.步骤103,针对每个实体触发词对,对语句对应的向量、对中触发词在语句中的位置向量、对中实体在语句中的位置向量进行拼接,得到拼接后向量。
41.可以理解的是,语句中的实体以及触发词可能分别包括一个或多个,比如语句中可能包括2个实体以及1个触发词,或者包括4个实体以及2个触发词。在本技术实施例中,可以将语句中的每个实体与每个触发词组合,构成实体触发词对。
42.举例来说,假设语句中包括3个实体:实体1、实体2、实体3,以及1个触发词:触发词
1,则根据这3个实体以及1个触发词可以构成以下3个实体触发词对:实体1和触发词1,实体2和触发词1、实体3和触发词1。假设语句中包括4个实体:实体1、实体2、实体3、实体4,以及2个触发词:触发词1、触发词2,则根据这4个实体以及2个触发词可以构成以下8个实体触发词对:实体1和触发词1,实体2和触发词1、实体3和触发词1、实体4和触发词1、实体1和触发词2,实体2和触发词2、实体3和触发词2、实体4和触发词2。
43.也就是说,实体触发词对的数量,为语句中包括的实体数量与触发词数量的乘积。
44.在示例性实施例中,获取语句对应的实体以及触发词后,针对每个实体,可以根据实体在语句中的位置,获取实体在语句中的位置向量,针对每个触发词,可以根据触发词在语句中的位置,获取触发词在语句中的位置向量。
45.进而,针对每个实体触发词对,可以将语句对应的向量、实体触发词对中的触发词在语句中的位置向量、实体触发词对中的实体在语句中的位置向量进行拼接,得到每个实体触发词对对应的拼接后向量。
46.需要注意的是,在将语句对应的向量、实体触发词对中的触发词在语句中的位置向量、实体触发词对中的实体在语句中的位置向量进行拼接时,需要按照语句对应的向量、实体触发词对中的触发词在语句中的位置向量、实体触发词对中的实体在语句中的位置向量的顺序进行拼接。
47.步骤104,将多个拼接后向量输入文本分类模型,以获取语句中的事件信息。
48.其中,语句中的事件信息,包括语句中的实体、触发词、以及实体的角色。
49.在示例性实施例中,得到待处理的语句中的每个实体触发词对对应的拼接后向量后,可以根据各个实体触发词对对应的多个拼接后向量,构造矩阵,并且,可以预先训练得到文本分类模型,文本分类模型的输入为语句的各个实体触发词对对应的多个拼接后向量构成的矩阵,输出为语句中的实体的角色,从而将多个拼接后向量构成的矩阵输入文本分类模型,可以获取待处理的语句中的各实体分别对应的角色,从而结合序列标注模型输出的语句中的实体、触发词,可以获取语句中的事件信息。
50.其中,根据各个实体触发词对对应的多个拼接后向量,构造矩阵时,矩阵的行数,可以为实体触发词对的数量,矩阵的列数,可以为各个拼接后向量的维度。
51.举例来说,以待处理的语句“a集团:2018年2月10日公告,b集团增持公司股票810.99万股”为例,在将语句输入序列标注模型,可以获取语句中的实体:a集团、2018年2月10日、b集团、810.99万股,以及触发词:增持,以及语句对应的向量。之后,可以获取每个实体在语句中的位置向量以及每个触发词在语句中的位置向量。并且,根据语句中的4个实体以及1个触发词,可以获取4个实体触发词对。针对每个实体触发词对,可以将语句对应的向量、实体触发词对中触发词在语句中的位置向量、实体触发词对中实体在语句中的位置向量进行拼接,从而得到4个拼接后向量。再将每个拼接后向量作为矩阵的一行元素,构建一个4行的矩阵,将这个4行的矩阵输入预先训练的文本分类模型,即可获取语句中的以下事件信息:事件类型为增持事件、时间为2018年2月10日、增持方公司为b集团、增持公司为a集团、股票数为810.99万股。其中,事件类型可以根据触发词确定。
52.本技术实施例提供的事件信息抽取方法,由于通过预先训练的序列标注模型和文本分类模型,可以自动抽取待处理的语句中的事件信息,从而减少了人力成本,并且,由于在抽取语句的事件信息时,结合了实体和触发词在语句中的位置,从而能够提高事件信息
抽取的准确度,另外,通过序列标注模型和文本分类模型进行事件信息抽取的方式,可以应用于不同领域场景,可移植性强。
53.本技术实施例的事件信息抽取方法,在获取待处理的语句后,将语句输入序列标注模型,以获取所述语句对应的向量,以及语句中的实体以及触发词,再针对每个实体触发词对,对语句对应的向量、对中触发词在语句中的位置向量、对中实体在语句中的位置向量进行拼接,得到拼接后向量,再将多个拼接后向量输入文本分类模型,以获取语句中的事件信息,由此,实现了利用序列标注模型和文本分类模型,自动抽取语句中的事件信息,从而减少了人力成本,且对于不同领域场景下的语句均能实现准确抽取事件信息,可移植性强。
54.通过上述分析可知,本技术实施例中,可以预先训练序列标注模型以及文本分类模型,以利用序列标注模型以及文本分类模型,对待处理的语句进行事件信息抽取,下面结合图2,对本技术实施例中的事件信息抽取方法中,用于进行事件信息抽取的序列标注模型和文本分类模型的训练过程进行说明。
55.图2为本技术实施例二所提供的序列标注模型和文本分类模型的训练过程的流程示意图。如图2所示,在图1所示实施例的基础上,步骤102之前,该事件信息抽取方法还可以包括以下步骤:
56.步骤201,获取依次连接的初始序列标注模型和初始文本分类模型。
57.步骤202,获取训练数据,其中,训练数据包括:样本语句以及对应的样本事件信息。
58.步骤203,以训练数据中的样本语句为输入,以样本语句对应的样本事件信息为输出,结合初始分类模型输出的预测事件信息和样本事件信息对初始序列标注模型和初始文本分类模型的系数进行联合调整,以实现训练。
59.具体的,可以获取依次连接的初始序列标注模型和初始文本分类模型,并获取包括样本语句以及对应的样本事件信息的训练数据,进而以训练数据中的样本语句为输入,以样本语句对应的样本事件信息为输出,结合初始分类模型输出的预测事件信息和样本事件信息对初始序列标注模型和初始文本分类模型的系数进行联合调整,以实现训练。
60.通过对初始序列标注模型以及初始文本分类模型的系数进行联合调整,可以避免初始序列标注模型以及初始文本分类模型的训练过程中的误差传递问题,提高模型的训练效果。
61.在示例性实施例中,参考图3,初始序列标注模型,可以包括:
62.依次连接的经过预训练的语义表示层、双向神经网络层、图向量层和实体触发词抽取层;
63.其中,语义表示层,用于获取语句中各个字对应的向量;
64.双向神经网络层和图向量层,用于结合各个字对应的向量,获取语句对应的向量;
65.实体触发词抽取层,用于结合语句对应的向量,抽取语句中的实体以及触发词。
66.其中,经过预训练的语义表示层、双向神经网络层、图向量层构成初始序列标注模型的共享编码层。
67.经过预训练的语义表示层,可以是任意经过预训练的能够获取语句中各个字对应的向量的层,比如,语义表示层例如可以为经过预训练的语义表示模型中的语义编码层,比如bert模型或者roberta模型等语义表示模型中的语义编码层等。其中,语义表示模型的预
训练,指的是采用多个领域下的语料对初始的语义表示模型进行训练。语料,例如为新闻、聊天对话、论文等,以便语义表示模型中的语义编码层能够学习到大量的语言知识。将语句输入预训练的语义表示层,即可获取语句中各个字对应的向量。
68.双向神经网络层,可以在语句对应的向量中保留语句中字之间的序列信息,因此,本技术实施例中,可以在序列标注模型中设计双向神经网络层,利用双向神经网络层,结合各个字对应的向量,获取语句对应的向量。其中,双向神经网络层的输入为各个字对应的向量,将预训练的语义表示层输出的各个字对应的向量,输入双向神经网络层,可以获取语句对应的向量。
69.在示例性实施例中,双向神经网络层,例如可以为bi-lstm(bidirectional long short term memory,双向长短时间记忆)网络。
70.图向量层,例如可以为图神经网络gcn模型中的编码层,其可以以字为单位,建立句法依存树,得到语句的知识图谱,进而获取知识图谱的向量。本技术实施例中,将双向神经网络输出的语句对应的向量输入图向量层,从而图向量层可以在语句对应的向量中增加字之间的关系等信息,得到语句对应的新的向量。
71.实体触发词抽取层,可以为任意能够实现实体识别、词性标注等功能的层,例如可以将crf(conditional random field,条件随机场)模型作为序列标注模型中的实体触发词抽取层。将图向量层输出的语句对应的向量输入到实体触发词抽取层,实体触发词抽取层即可结合语句对应的向量,抽取语句中的实体以及触发词。
72.初始文本分类模型,可以是任意能够实现文本分类的模型,本技术对此不作限制。比如,初始文本分类模型例如可以是textcnn模型。
73.在示例性实施例中,以初始序列标注模型包括依次连接的经过预训练的语义表示层、双向神经网络层、图向量层和实体触发词抽取层为例,可以以训练数据中的样本语句为输入,以样本语句对应的样本事件信息为输出,结合初始分类模型输出的预测事件信息和样本事件信息对初始序列标注模型中语义表示层的后3层系数、双向神经网络层的系数、图向量层的系数、实体触发词抽取层的系数、以及初始文本分类模型的系数进行联合调整,以实现对依次连接的初始序列标注模型和初始文本分类模型的联合训练。
74.需要说明的是,语义表示层的后3层网络为全连接层,在采用样本语句以及对应的样本事件信息训练初始序列标注模型以及初始文本分类模型时,对于语义表示层,可以仅对语义表示层的后3层网络的系数进行调整,从而使得训练后的语义表示层可以从样本语句以及对应的样本事件信息中学习到事件信息,并且,由于语义表示层的其它网络层未采用样本语句以及对应的样本事件信息进行训练,可以保留预训练时已经学习到的语言知识,且通过仅对语义表示层的部分网络层进行训练,可以减少训练时间。
75.在示例性实施例中,以训练数据中的样本语句为输入,以样本语句对应的样本事件信息为输出,结合初始分类模型输出的预测事件信息和样本事件信息对初始序列标注模型和初始文本分类模型的系数进行联合调整的过程可以为:
76.将样本语句输入依次连接的初始序列标注模型和初始文本分类模型,以获取初始序列标注模型输出的序列标注结果,以及初始文本分类模型输出的预测事件信息;
77.结合序列标注结果、样本语句对应的样本事件信息、初始序列标注模型的第一损失函数以及初始序列标注模型的第一权重,确定第一损失函数值;
78.结合预测事件信息、样本语句对应的样本事件信息、初始文本分类模型的第二损失函数以及初始文本分类模型的第二权重,确定第二损失函数值;
79.结合第一损失函数值以及第二损失函数值,对初始序列标注模型以及初始文本分类模型的系数进行调整。
80.其中,序列标注结果,可以包括样本语句中的实体、触发词,以及语句对应的向量。预测事件信息,可以包括样本语句中的事件信息。
81.以初始序列标注模型包括依次连接的经过预训练的语义表示层、双向神经网络层、图向量层和实体触发词抽取层为例,参考图3,可以将样本语句输入依次连接的初始序列标注模型和初始文本分类模型,初始序列标注模型中的图向量层可以输出样本语句对应的向量,实体触发词抽取层,可以抽取并输出样本语句中的实体以及触发词。在实体触发词抽取层输出样本语句中的实体以及触发词后,可以获取每个实体在样本语句中的位置向量以及每个触发词在样本语句中的位置向量,并且根据实体以及触发词,可以形成实体触发词对。针对每个实体触发词对,可以按照图向量层输出的样本语句对应的向量、实体触发词对中触发词在样本语句中的位置向量、实体触发词中实体在样本语句中的位置向量的顺序,将样本语句对应的向量、实体触发词对中触发词在样本语句中的位置、实体触发词对中实体在样本语句中的位置进行拼接,得到多个拼接后向量,并根据多个拼接后向量构成矩阵,将矩阵输入初始文本分类模型,从而可以得到样本语句中的预测事件信息。
82.在示例性实施例中,对初始序列标注模型和初始文本分类模型进行联合训练时,为了保证两个模型的训练速度一致,可以设置初始序列标注模型和初始文本分类模型分别对应的权重,即第一权重和第二权重,第一权重和第二权重可以根据两个模型分别对应的损失函数值进行动态调整,以使两个模型的训练速度一致。
83.在示例性实施例中,可以将一个样本语句输入依次连接的初始序列标注模型以及初始文本分类模型,之后将初始序列标注模型输出的序列标注结果,以及该样本语句对应的样本事件信息,代入初始序列标注模型的第一损失函数,得到计算结果,并将计算结果与初始序列标注模型的第一权重进行乘积,得到第一损失函数值。并且,将文本分类模型输出的预测事件信息,以及该样本语句对应的样本事件信息,代入初始文本分类模型的第二损失函数,得到计算结果,并将计算结果与初始文本分类模型的第二权重进行乘积,得到第二损失函数值。进而结合第一损失函数值以及第二损失函数值,对初始序列标注模型以及初始文本分类模型的系数进行调整,得到调整后的序列标注模型以及文本分类模型。
84.进一步的,可以将另一个样本语句输入依次连接的调整系数后的序列标注模型以及文本分类模型,并将调整系数后的序列标注模型输出的序列标注结果,以及该样本语句对应的样本事件信息,代入第一损失函数,得到计算结果,并将计算结果与第一权重进行乘积,得到另一个第一损失函数值。并且,将调整系数后的文本分类模型输出的预测事件信息,以及该样本语句对应的样本事件信息,代入第二损失函数,得到计算结果,并将计算结果与第二权重进行乘积,得到另一个第二损失函数值。进而结合新的第一损失函数值以及新的第二损失函数值,对调整系数后的序列标注模型以及文本分类模型的系数进行进一步调整,得到进一步调整系数后的序列标注模型以及文本分类模型。
85.由此,通过不断的调整初始序列标注模型以及初始文本分类模型的系数,对初始序列标注模型以及初始文本分类模型进行迭代训练,直至最终初始文本分类模型输出的预
测事件信息的准确度满足预设的准确度阈值,训练结束,得到训练好的序列标注模型以及文本分类模型。
86.可以理解的是,在对初始序列标注模型以及文本分类模型进行训练的过程中,两个模型的训练速度可能不一致,导致经过一段时间的训练后,两个模型对应的损失函数值可能相差较大,在本技术实施例中,通过设置初始序列标注模型的第一权重和初始文本分类模型的第二权重,并结合第一损失函数值和第二损失函数值对第一权重和第二权重进行动态调整,可以使调整权重后得到的第一损失函数值和第二损失函数值的差值较小,以实现初始序列标注模型的训练速度和初始文本分类模型的训练速度一致。
87.举例来说,假设第一权重和第二权重的初始值均为0.5,并设置第一损失函数值和第二损失函数值的比值满足预设范围,比如比值在0.9-1.1之间,则在确定第一损失函数值为100,第二损失函数值为10时,可以将第二权重调高,以使第一损失函数值和第二损失函数值的比值保持在预设范围内,进而根据调整后的第一权重和第二权重,继续进行初始序列标注模型和初始文本分类模型的训练。
88.本技术实施例中,事件信息抽取装置可以采用训练好的序列标注模型和文本分类模型来实现图1所示实施例中的各个步骤。也就是说,如图3所示,待处理的语句为“a集团:2018年2月10日晚间公告,b集团增持公司股票810.99万股”时,采用训练好的序列标注模型中的语义表示层,获取待处理的语句中各个字对应的向量,采用训练好的序列标注模型中的双向神经网络层和图向量层,结合各个字对应的向量,获取语句对应的向量,采用训练好的序列标注模型中的实体触发词抽取层,结合语句对应的向量,抽取语句中的实体以及触发词。在获取每个实体在语句中的位置向量和每个触发词对应的位置向量,并针对每个实体触发词对,将图向量层输出的语句对应的向量,与对中触发词在语句中的位置向量以及对中实体在语句中的位置向量拼接,得到多个拼接后向量后,将拼接后向量构成的矩阵输入训练好的文本分类模型,得到语句中的实体的角色,从而得到如图3所示的语句中的事件信息。
89.本技术实施例的事件信息抽取方法,可以获取依次连接的初始序列标注模型和初始文本分类模型,并获取训练数据,其中,训练数据包括:样本语句以及对应的样本事件信息,进而以训练数据中的样本语句为输入,以样本语句对应的样本事件信息为输出,结合初始分类模型输出的预测事件信息和样本事件信息对初始序列标注模型和初始文本分类模型的系数进行联合调整,以实现训练。由此,实现了对初始序列标注模型以及初始文本分类模型的训练,由于对初始序列标注模型以及初始文本分类模型进行联合训练,从而可以避免初始序列标注模型以及初始文本分类模型的训练过程中的误差传递问题,提高模型的训练效果。
90.图4为本技术实施例三所提供的事件信息抽取装置的结构示意图。
91.如图4所示,该事件信息抽取装置400可以包括:第一获取模块410、第二获取模块420、拼接模块430和第三获取模块440。
92.其中,第一获取模块410,用于获取待处理的语句;
93.第二获取模块420,用于将语句输入序列标注模型,以获取语句对应的向量,以及语句中的实体以及触发词;
94.拼接模块430,用于针对每个实体触发词对,对语句对应的向量、对中触发词在语
句中的位置向量、对中实体在语句中的位置向量进行拼接,得到拼接后向量;
95.第三获取模块440,用于将多个拼接后向量输入文本分类模型,以获取语句中的事件信息。
96.进一步地,在本技术实施例的一种可能的实现方式中,结合参考图5,在图4所示实施例的基础上,事件信息抽取装置还可以包括:第三获取模块450、第四获取模块460和训练模块470。
97.其中,第三获取模块450,用于获取依次连接的初始序列标注模型和初始文本分类模型;
98.第四获取模块460,用于获取训练数据,其中,训练数据包括:样本语句以及对应的样本事件信息;
99.训练模块470,用于以训练数据中的样本语句为输入,以样本语句对应的样本事件信息为输出,结合初始分类模型输出的预测事件信息和样本事件信息对初始序列标注模型和初始文本分类模型的系数进行联合调整,以实现训练。
100.进一步地,在本技术实施例的一种可能的实现方式中,初始序列标注模型包括:依次连接的经过预训练的语义表示层、双向神经网络层、图向量层和实体触发词抽取层;
101.其中,语义表示层,用于获取语句中各个字对应的向量;
102.双向神经网络层和图向量层,用于结合各个字对应的向量,获取语句对应的向量;
103.实体触发词抽取层,用于结合语句对应的向量,抽取语句中的实体以及触发词。
104.进一步地,在本技术实施例的一种可能的实现方式中,上述训练模块470,具体用于:
105.以训练数据中的样本语句为输入,以样本语句对应的样本事件信息为输出,结合初始分类模型输出的预测事件信息和样本事件信息对所述初始序列标注模型中语义表示层的后3层系数、双向神经网络层的系数、图向量层的系数、实体触发词抽取层的系数、以及初始文本分类模型的系数进行联合调整。
106.进一步地,在本技术实施例的一种可能的实现方式中,上述训练模块470,还用于:
107.将样本语句输入依次连接的初始序列标注模型和初始文本分类模型,以获取初始序列标注模型输出的序列标注结果,以及初始文本分类模型输出的预测事件信息;
108.结合序列标注结果、样本语句对应的样本事件信息、初始序列标注模型的第一损失函数以及初始序列标注模型的第一权重,确定第一损失函数值;
109.结合预测事件信息、样本语句对应的样本事件信息、初始文本分类模型的第二损失函数以及初始文本分类模型的第二权重,确定第二损失函数值;
110.结合第一损失函数值以及第二损失函数值,对初始序列标注模型以及初始文本分类模型的系数进行调整。
111.进一步地,在本技术实施例的一种可能的实现方式中,上述训练模块470,还用于:
112.结合第一损失函数值以及第二损失函数值,对第一权重和第二权重进行动态调整,实现初始序列标注模型的训练速度和初始文本分类模型的训练速度一致。
113.需要说明的是,前述事件信息抽取方法实施例中的解释说明也适用于该实施例的事件信息抽取装置,此处不再赘述。
114.本技术实施例的事件信息抽取装置,在获取待处理的语句后,将语句输入序列标
注模型,以获取所述语句对应的向量,以及语句中的实体以及触发词,再针对每个实体触发词对,对语句对应的向量、对中触发词在语句中的位置向量、对中实体在语句中的位置向量进行拼接,得到拼接后向量,再将多个拼接后向量输入文本分类模型,以获取语句中的事件信息,由此,实现了利用序列标注模型和文本分类模型,自动抽取语句中的事件信息,从而减少了人力成本,且对于不同领域场景下的语句均能实现准确抽取事件信息,可移植性强。
115.为了实现上述实施例,本技术还提出一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本技术前述实施例提出的事件信息抽取方法。
116.为了实现上述实施例,本技术还提出一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如本技术前述实施例提出的事件信息抽取方法。
117.为了实现上述实施例,本技术还提出一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本技术前述实施例提出的事件信息抽取方法。
118.图6示出了适于用来实现本技术实施方式的示例性电子设备的框图。图6显示的电子设备12仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
119.如图6所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
120.总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(industry standard architecture;以下简称:isa)总线,微通道体系结构(micro channel architecture;以下简称:mac)总线,增强型isa总线、视频电子标准协会(video electronics standards association;以下简称:vesa)局域总线以及外围组件互连(peripheral component interconnection;以下简称:pci)总线。
121.电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
122.存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(random access memory;以下简称:ram)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(compact disc read only memory;以下简称:cd-rom)、数字多功能只读光盘(digital video disc read only memory;以下简称:dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本技术各实施例的功能。
123.具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本技术所描述的实施例中的功能和/或方法。
124.电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(local area network;以下简称:lan),广域网(wide area network;以下简称:wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图6中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
125.处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
126.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
127.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
128.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
129.在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器
(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
130.应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
131.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
132.此外,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
133.上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1