事件抽取中融合语言信息微调预训练语言模型的方法及系统

文档序号:26007419发布日期:2021-07-23 21:26阅读:116来源:国知局
事件抽取中融合语言信息微调预训练语言模型的方法及系统

本发明涉及中文信息抽取技术领域,尤其涉及一种事件抽取中融合语言信息微调预训练语言模型的方法及系统。



背景技术:

文字是人类生产生活中交流沟通、记录信息、表达思想的重要载体,是人类社会发展的见证者和参与者。计算机是人类提高生产效率、提升生活水平的重要工具。怎样让机器更快更准确地处理人类语言是一项十分具有挑战性的工作,自然语言处理技术由此应运而生。在自然语言处理领域中,最基础且最重要的工作之一即是在机器中合理地表示文本。

近年来相继提出了很多十分优秀的单词表示模型,例如word2vec、glove等等,基于这些模型可以明显改善自然语言处理的性能,然而上述模型只能使用同一个向量表示不同语义环境中的相同单词,因此会存在一定的局限性。预训练模型可以解决上述局限性问题,预训练模型即是预先使用数据集进行训练得到的网络模型,再根据不同需求调整预训练模型以适用于不同任务。典型的预训练语言模型如bert(bidirectionalencoderrepresentationsformtransformers,双向注意力神经网络)模型等。预训练语言模型作为一种动态词向量模型,经过改造调整后可应用于不同语义环境中,因而该模型提出后逐渐受到了广泛关注。

对预训练模型的微调即是针对于具体任务使用新的数据集在预训练模型上进行微调。由于预训练模型需要经过大规模语料上的充分训练,因而对预训练语言模型进行微调能够在大部分自然语言处理任务上取得优异的性能。如在自然语言处理任务上对bert模型进行微调可大幅度提升处理性能。在信息抽取领域,尤其是在事件抽取任务上,抽取所得信息的完整程度会直接影响模型的最终性能,因而信息抽取中预训练语言模型微调过程中需要确保尽可能抽取得到完整的信息。

现有技术中面向中文的预训练语言模型通常是以字符为最小单位,使用字符在词表中的索引、字符在句子中的位置以及字符所在句子的段落信息作为字符的初始向量,忽略了字符所在单词或短语的语言特征。而汉字具有特殊性,与处理英文文本相比,在实际应用中处理中文文本难度更大。在汉语中,句子由若干个字符组成,每个字符都相对独立且包含着丰富的语义信息,通过不同的词语划分或句子断句方式解读同一句话往往会得到截然不同的含义,传统直接使用预训练语言模型的方式得到的单词表示难以充分表达中文的不同含义。因此在针对于中文事件抽取的预训练语言模型中,若能够加入如词性、命名实体识别、语法成分等语言信息等,以使用特定的语言特征微调预训练模型,可以有效的改善模型性能。

考虑到直接由预训练语言模型得到的单词表示中预期的语言信息不够充分,为在预训练语言模型中加入语言信息,有从业者提出在事件抽取构建下游任务网络时将事先编码完成的语言特征直接加到来自预训练语言模型的单词表示之中,以在一定程度上弥补中文预训练语言模型的不足,强化单词表示中例如词性、命名实体识别、语法成分等语言信息的特征。但是该类直接在下游任务网络中融入指定语言信息的方式过于简单,本质上仅是将预训练语言模型系统和语言特征提取系统(例如结巴分词系统)两者输出的生硬融合,所得单词的分布式表示就未经过充分的训练,使得特征仍然不够丰富,难以充分融合中文的语言信息特征,也因而实际仅能给下游任务带来较为有限的性能提升。而若考虑直接将语言信息与初始数据融合成新的单词表示并输入至预训练语言模型中进行训练,虽然可以使得语言信息也能经过充分的训练,但是这种做法实际上改变了预训练语言模型中字符的原始表示,造成新的单词表示与原始表示不在同一向量空间的问题,使得原始语言模型信息丢失,仍然会导致模型性能上受限。



技术实现要素:

本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、特征融合充分、能够保留原始模型信息、微调效果好的事件抽取中融合语言信息微调预训练语言模型的方法及系统。

为解决上述技术问题,本发明提出的技术方案为:

一种事件抽取中融合语言信息微调预训练语言模型的方法步骤包括:

步骤s1.语言信息获取:获取当前事件抽取任务所需融合的语言信息并进行编码,得到语言特征编码集合;

步骤s2.信息初始融合:获取待输入的初始词向量,将获取的所述初始词向量与所述语言特征编码集合进行初始融合,得到融合后词向量;

步骤s3.双模型编码:将所述初始词向量、融合后词向量分别输入一个预训练语言模型中以进行编码,其中将所述初始词向量输入第一预训练语言模型中,得到第一组单词表示,以及将所述融合后词向量输入至第二预训练语言模型中,得到第二组单词表示输出,所述第一预训练语言模型与所述第二预训练语言模型相互独立;

步骤s4.信息二次融合:将所述第一组单词表示、第二组单词表示进行二次融合,得到最终的单词表示以完成微调。

进一步的,所述步骤s1的步骤包括:

步骤s101.预先获取各类型所需融合的语言信息,并对获取的语言信息进行统计、编码,构建形成特征编码字典;

步骤s102.按照当前事件抽取任务所需融合的语言信息,从所述特征编码字典中获取对应的语言特征编码集合输出。

进一步的,所述步骤s2的步骤包括:

步骤s201.获取所述预训练语言模型中隐藏层的维度dmodel;

步骤s202.在所述预训练语言模型的初始编码阶段,对于所述语言特征编码集合中各语言特征编码,分别使用具有所述dmodel维度的向量计算用于表示所述语言特征编码的向量表示,即将所述语言特征编码投影到目标向量空间,得到语言特征向量集合;

步骤s203.将所述语言特征向量集合融入所述初始词向量中,得到所述融合后词向量。

进一步的,所述步骤s202中,所述语言特征向量的具体计算公式为:

或所述步骤s202中,使用正弦和余弦函数交替生成所述向量表示中的维度信息,具体计算公式为:

其中,i为所述语言特征向量的维度,l_index为需要表示的所述语言特征编码,n为语言特征编码集合的长度,eil-index表示语言特征编码l_index的向量表示的第i维信息。

进一步的,所述步骤s202中,使用极坐标方程表示所述语言特征向量的每一个维度的值,具体计算公式为:

其中,i为所述语言特征向量的维度,l_index为需要表示的所述语言特征编码,n为语言特征编码集合的长度,eil-index表示语言特征编码l_index的向量表示的第i维信息。

进一步的,所述第一预训练语言模型、第二预训练语言模型为同一种预训练语言模型模型,或所述第一预训练语言模型、第二预训练语言模型采用不同的预训练语言模型。

进一步的,所述步骤s4中进行二次融合时,具体将所述第一组单词表示、第二组单词表示进行拼接,得到最终的单词表示。

进一步的,在事件检测阶段,按照步骤s1~步骤s4在所述预训练语言模型中融合第一语言信息,得到第一单词分布式表示,对所述第一单词分布式表示进行分类后得到触发词事件类型;在事件元素抽取阶段,按照步骤s1~步骤s4在所述预训练语言模型中融入第二语言信息,得到第二单词分布式表示,对所述第二单词分布式表示进行分类后得到事件元素以及元素角色。

一种事件抽取中融合语言信息微调预训练语言模型的系统,步骤包括:

语言信息获取模块,用于获取当前事件抽取任务所需融合的语言信息并进行编码,得到语言特征编码集合;

信息初始融合模块,用于获取待输入的初始词向量,将获取的所述初始词向量与所述语言特征编码集合进行初始融合,得到融合后词向量;

双模型编码模块,用于将所述初始词向量、融合后词向量分别输入一个预训练语言模型中以进行编码,其中将所述初始词向量输入第一预训练语言模型中,得到第一组单词表示,以及将所述融合后词向量输入至第二预训练语言模型中,得到第二组单词表示输出,所述第一预训练语言模型与所述第二预训练语言模型相互独立;

信息二次融合模块,用于将所述第一组单词表示、第二组单词表示进行二次融合,得到最终的单词表示以完成微调。

一种事件抽取中融合语言信息微调预训练语言模型的系统,包括处理器以及存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序,所述处理器用于执行所述计算机程序以执行如上述的方法。

与现有技术相比,本发明的优点在于:

1、本发明采用结合双模型编码以及两重融合的方式实现融合语言信息微调预训练语言模型,先将语言特征编码与初始词向量进行初始融合,以将特定语言信息充分融入到预训练语言模型的初始向量表示中,然后对初始词向量、融合后词向量使用两个独立的预训练语言模型分别进行编码表示,再将两个模型独立得到的两组单词表示输出进行二次融合,得到最终的单词表示,不仅可以使得融合的特定语言信息也独立经过了充分的训练,还能够避免原始语言模型丢失信息,在充分利用指定语言信息的同时确保原始语言模型中信息不会丢失,从而能够有效提升针对于中文事件抽取中预训练语言模型的性能。

2、本发明通过预训练语言模型的深度神经网络,将语言特征编码融入到预训练语言模型的初始向量表示中,可以利用预训练语言模型的模型结构特性,使得特定语言信息能够与单词的其他信息充分融合。

3、本发明进一步在初始融合时,通过使用极坐标方程的形式进行向量表示,可以确保每一种类型的语言特征编码都将拥有唯一的向量表示,同时使用两个变量来共同表示极角,还能够丰富语言特征向量的表示形式,有利于充分利用向量表示空间,形成特征鲜明的语言特征表示,从而可以进一步确保特定语言信息与其他信息之间的充分融合。

4、本发明进一步在初始融合时,通过借鉴bert模型中对位置信息的编码方式,结合正弦和余弦函数交替生成语言特征向量表示中的维度信息,可以控制语言特征向量中每一个维度的值之间的差异性,避免线性表示方法中语言特征向量在向量空间中分布过于集中的问题,从而确保语言信息融合的效率以及效果。

附图说明

图1是本实施例事件抽取中融合语言信息微调预训练语言模型的方法的实现流程示意图。

图2是本发明具体应用实施例中实现事件抽取任务中事件检测任务的实现流程示意图。

图3是本发明具体应用实施例中融合语言信息微调预训练语言模型的实现流程示意图。

图4是本发明具体应用实施例中将词性向量融入预训练语言模型的原理示意图。

图5是本实施例事件抽取中融合语言信息微调预训练语言模型的方法的具体流程示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。

如图1所示,本实施例事件抽取中融合语言信息微调预训练语言模型的方法的步骤包括:

s1.语言信息获取:获取当前事件抽取任务所需融合的语言信息并进行编码,得到语言特征编码集合;

s2.信息初始融合:获取待输入的初始词向量,将获取的初始词向量与语言特征编码集合进行初始融合,得到融合后词向量;

s3.双模型编码:将初始词向量、融合后词向量分别输入一个预训练语言模型中,其中将初始词向量输入第一预训练语言模型中以进行编码,得到第一组单词表示,以及将融合后词向量输入至第二预训练语言模型中,得到第二组单词表示输出,第一预训练语言模型与第二预训练语言模型相互独立,即第一预训练语言模型与第二预训练语言模型之间参数不共享;

s4.信息二次融合:将第一组单词表示、第二组单词表示进行二次融合,得到最终的单词表示,完成微调。

本实施例考虑中文事件抽取的特点,通过对所需融合的语言信息进行编码形成语言特征编码,先将语言特征编码与初始词向量进行初始融合,以将特定语言信息充分融入到预训练语言模型的初始向量表示中,然后对初始词向量、融合后词向量使用两个独立的预训练语言模型分别进行编码表示,再将两个模型独立得到的两组单词表示输出进行二次融合,实现预训练语言模型的微调,不仅可以使得特定语言信息也独立经过了充分的训练,还能够避免原始语言模型丢失信息,在充分利用指定语言信息的同时确保原始语言模型中信息不会丢失,从而能够有效提升针对于中文事件抽取中预训练语言模型的性能。

本实施例融合的语言信息可以为词性、命名实体识别、语法成分等类型语言信息,具体可以根据实际需求取其中一类信息进行融合,当然也可以融合其中两类以上的信息以进一步提高模型性能。融合两类以上的语言信息时,可以采用循环执行的方式依次进行融合,也可以根据事件抽取中不同阶段的不同需求,在不同阶段逐步融合不同的语言信息。如在事件检测阶段,词性信息对于事件检测影响较大,可配置在事件检测阶段按照上述步骤先融入词性信息,训练完成后即可得到具有词性信息的语言模型;在事件元素抽取阶段,再融合语法成分信息,模型训练完成后即可实现事件元素和元素角色的抽取。

本实施例中步骤s1的具体步骤包括:

s101.预先获取各类型所需融合的语言信息,并对获取的语言信息进行统计、编码,构建形成特征编码字典;

s102.按照当前事件抽取任务所需融合的语言信息,从特征编码字典中获取对应的语言特征编码。

在具体应用实施例中,根据具体任务的特点,可以直接采用数据集中的指定语言信息,对其进行编码形成语言特征编码集合。如果目标任务的数据集中不包含用户所需的语言信息,则还可使用自然语言处理工具(如nltk、stanfordcorenlp、ltp等)获取该语言信息;然后在目标数据集范围内,对特定语言信息的特征进行统计与编码,形成字典l_dict,确定当前所需融合的语言信息后,直接通过查询字典l_dict即可获取到对应的语言特征编码,以在预训练语言模型的初始词向量中融入该特定语言信息。上述语言信息获取以及编码的具体方式均可以根据实际需求配置。

本实施例中,步骤s2的步骤包括:

s201.获取预训练语言模型中隐藏层的维度dmodel;

s202.在预训练语言模型的初始编码阶段,对于语言特征编码集合中各语言特征编码,分别使用具有dmodel维度的向量计算用于表示语言特征编码的向量表示,即将语言特征编码投影到目标向量空间,得到语言特征向量集合;

s203.将语言特征向量集合融入初始词向量中,得到融合后词向量。

假设预训练语言模型的文本输入为{t1,t2,…,tn},从字典l_dict中获取{t1,t2,…,tn}对应的语言特征编码集合为{l1,l2,…,ln},在预训练语言模型的初始编码阶段,对于每一个token都使用一个dmodel维度的向量来表示它的语言信息,即分别计算ti对应的语言特征向量li的语言特征向量,最终得到输入集合{t1,t2,…,tn}对应的语言特征向量集合{el1,el2,…,eln};将语言特征向量集合{el1,el2,…,eln}融入预训练语言模型的初始词向量{eo1,eo2,…,eon}中得到融合后词向量集合{ef1,ef2,…,efn}。

将语言信息融合至预训练语言模型的初始词向量中时,融合效果取决于如何将语言特征编码投影到目标向量空间,即如何进行向量表示。上述步骤s202中可以根据实际需求采用以下三种向量表示方式以计算语言特征向量:

第一种:简单线性表示

该种方式中语言特征向量的具体计算公式为:

(1)

其中,i为语言特征向量的维度,l_index为需要表示的语言特征编码,n为语言特征编码集合的长度,eil-index表示语言特征编码l_index的向量表示的第i维信息。

该种表示方式的计算速度快,但是由于得到的语言特征向量每一维的值都相等,因此在dmodel维的空间中,所有语言特征向量分布在一条直线上,因而适用于n较小的场合中;当n的值较大时,由于不同的语言特征对应的表示向量在向量空间中距离较为接近,可能会影响语言特征向量的表示效果。

第二种:三角函数交替生成法

该种方式是使用正弦和余弦函数交替生成语言特征向量表示中的维度信息,具体计算公式为:

(2)

其中,i为语言特征向量的维度,l_index为需要表示的语言特征编码,eil-index表示语言特征编码l_index的向量表示的第i维信息。

按照上述方式,通过借鉴bert模型中对位置信息的编码方式,结合正弦和余弦函数交替生成语言特征向量表示中的维度信息,可以简单、快速的得到向量表示。相较于第一种线性表示方法,三角函数交替生成法通过分别使用正弦和余弦函数来表示语言特征向量的奇数维度和偶数维度,同时以i和dmodel的商作为角度分母的指数,控制语言特征向量中每一个维度的值之间的差异性,可以有效避免线性表示方法中语言特征向量在向量空间中分布过于集中的问题。

第三种:极坐标方程表示

该种方式是使用极坐标方程表示语言特征向量的每一个维度的值,具体计算公式为:

(3)

其中,i为语言特征向量的维度,l_index为需要表示的语言特征编码,n为语言特征编码集合的长度,eil-index表示语言特征编码l_index的向量表示的第i维信息。

由上述公式(3)可以看出,若语言特征编码发生改变,公式中的极径也将发生变化,即不同的语言特征编码所得到的向量表示不同。因而采用上述使用极坐标方程的形式表示语言特征向量的每一个维度的值,可以确保每一种类型的语言特征编码都将拥有唯一的向量表示。同时,由于使用il_index两个变量来共同表示极角,还能够丰富语言特征向量的表示形式,有利于充分利用向量表示空间,形成特征鲜明的语言特征表示,从而进一步提升语言信息与单词的其他信息之间的融合效果,尤其适合于n较大的场合。

优选的,为兼顾计算效率以及表示效果,还可以采用综合上述三种方式的自适应向量表示方式,具体步骤为:判断n的大小,若n小于预设阈值,即表明n较小,则控制采用第一种线性表示方式计算语言特征向量;若n大于预设阈值,即表明n较大,则控制采用第三种极坐标方程表示方式计算语言特征向量,可以依据n的大小自适应采用适合的向量表示方式,能够兼顾信息融合过程中的计算效率以及效果。

当然还可以根据实际需求采用其他的向量表示方式,甚至可以采用学习算法进行学习得到。

上述步骤s203中,将语言特征向量集合融入初始词向量时具体可使用逐位相加的方式实现,如将语言特征向量与bert模型的原有的token向量、分段向量以及位置向量对应元素相加。经过上述步骤将语言特征信息融入预训练语言模型中后,后续经由预训练语言模型中深度神经网络,语言特征信息与单词的其他信息能够进一步充分融合。

本实施例步骤s3的详细步骤包括:

s301.将未融入语言信息的初始单词表示集合{eo1,eo2,…,eon}送入第一预训练语言模型,得到第一组单词表示输出{f'1,f'2,…,f'n};将融合了语言信息的融合后词向量{ef1,ef2,…,efn}送入第二预训练语言模型中,得到第二组单词表示输出{f''1,f''2,…,f''n}。

s302.将两组单词表示融合,形成事件检测阶段的单词表示集合{f1,f2,…,fn}。

本实施例上述步骤,通过使用两个相互独立、不共享参数的预训练语言模型分别进行编码,可以得到融入了语言信息的预训练语言模型的词向量输出以及原始预训练语言模型的词向量输出,将该两组输出融合可以确保语言信息能够经过充分训练,又能够避免原模型信息的丢失。

本实施例中,上述第一预训练语言模型、第二预训练语言模型可以采用相同的模型,如均为bert模型,当然第一预训练语言模型、第二预训练语言模型也可采用不同的预训练语言模型,如一个采用bert模型,另一个采用albert(alitebert,一种轻量型的bert)模型,具体可根据实际需求配置。

本实施例步骤s4中进行二次融合时,具体将第一组单词表示、第二组单词表示进行拼接,即使用拼接的方式将改进后的预训练语言模型的输出与原始的预训练语言模型的输出融合,得到最终的单词表示,该单词表示中融合了特定的语言信息,能够提升模型的事件抽取性能,同时充分保留了原模型的信息。

本实施例采用流水线结构实现事件抽取任务,即先对文本进行事件检测,而后基于事件检测的结构进行事件元素抽取,根据两个阶段的特点分别融入不同的语言信息,步骤包括:先根据事件抽取任务中事件触发词的特点,按照步骤s1~步骤s4获取事件检测阶段字符(或单词)的向量表示,然后针对事件抽取任务中的事件检测阶段设计网络,而后在具体数据集上进行训练,更新该网络以及事件检测阶段两个预训练语言模型的参数,从而得到触发词和事件类型;再根据事件抽取任务中事件元素的特点,按照步骤s1~步骤s4获取事件元素阶段字符(或单词)的向量表示,然后针对事件抽取任务中的事件元素抽取阶段设计网络,在具体数据集上进行训练,更新该网络以及事件元素抽取阶段两个预训练语言模型的参数,最终得到事件元素和元素角色。

如图2为实现事件抽取任务中事件检测阶段的实现流程示意图,事件元素抽取阶段流程与之相似。本发明在具体应用实施例中,在事件检测阶段,先按照步骤s1~步骤s4在预训练语言模型中融合第一语言信息(语言信息1),得到当前阶段的单词分布式表示,对该单词分布式表示采用多分类网络进行分类后得到触发词事件类型;在事件元素抽取阶段,按照步骤s1~步骤s4在预训练语言模型中融入第二语言信息(语言信息2),得到当前事件元素抽取阶段的单词分布式表示,对该单词分布式表示进行分类后得到事件元素以及元素角色。上述各阶段融合的语言信息具体可根据实际需求配置,如在事件检测阶段可将单词词性作为指定语言信息,事件元素抽取阶段的指定语言信息可以为语法成分信息。

以下以在具体应用实施例中在事件抽取任务上利用词性信息、语法成分信息微调预训练语言模型为例,对本发明进行进一步说明。

如图3~5所示,本实施例具体在事件检测阶段融合词性信息微调预训练语言模型,在事件元素抽取阶段,融合语法成分信息微调预训练语言模型,以实现事件抽取,详细步骤为:

步骤一:根据事件抽取任务中事件检测阶段的特点,获取目标任务数据集中数据的词性信息,如在事件抽取任务的数据集中不包含词性信息的情况下,使用外部nlp工具捕捉数据集中语料的词性信息。

上述词性信息的获取步骤详细为:

步骤1.1使用nltk或ltp等工具对数据集中的所有数据进行词性标注,并保存;

本实施例中,词性标注面向的最小粒度是词语,中文一个词语往往包含多个字符。因此在保存时,处于同一个词语范围内的所有字符的词性与该词语相同。

步骤1.2遍历数据集中的语料,统计词性类型并进行编码,形成字典l_dict。

本实施例中,遍历数据集时对输入文本每次获取语言特征并进行分词,将语言特征与分词结果对齐后建立字典l_dict。特征编码时具体采用从1开始对所有的词性类型进行编号的编码方式。

步骤二:获取预训练语言模型的原始词向量,其中包括单词编码、段落编码以及位置编码信息等,在初始词向量中融入词性信息以改进原始词向量,形成融合后词向量ef。形成融合后词向量ef的具体步骤包括;

步骤2.1获取预训练语言模型的隐藏层的维度dmodel;

步骤2.2根据输入{t1,t2,…,tn}的词性,从字典l_dict中获取对应的语言特征编号{l1,l2,…,ln}。

本实施例中,对于[cls]和[sep]等bert模型中的特殊token,令其对应的词性编号为0。

步骤2.3对于每一个token,都使用一个dmodel维度的向量来表示它的词性信息,词性向量表示具体使用上述式(1)~(3)中任意一种方式。

步骤2.4将语言特征向量集合{el1,el2,…,eln}融入预训练语言模型的初始词向量{eo1,eo2,…,eon}中得到集合{ef1,ef2,…,efn}。

在具体应用实施例中融合过程如图4所示,即将词性向量与bert模型的原有的token向量、分段向量以及位置向量对应元素相加。

步骤三:将步骤二中融合了语言信息的预训练语言模型的词向量输出与原始预训练语言模型的词向量输出融合。

步骤3.1将未融入词性信息的原始单词表示集合{eo1,eo2,…,eon}送入第一个bert模型m1,得到第一组单词表示输出{f'1,f'2,…,f'n};

步骤3.2将融合了词性信息的融合后单词表示集合{ef1,ef2,…,efn}送入第二个bert模型m2,得到第二组单词表示输出{f''1,f''2,…,f''n};

步骤3.3将两组单词表示融合,形成最终的单词表示集合{f1,f2,…,fn};

步骤四:面向事件抽取任务中事件检测阶段设计网络,将最终的单词表示作为事件检测网络的单词特征输入,而后训练整个模型;

步骤五:根据事件抽取任务中事件检测阶段的特点,获取目标任务数据集中数据的语法成分信息;

步骤六:在预训练语言模型的初始词向量中融入语法成分信息,按照步骤二、三相同的方式获取最终的单词表示集合;

步骤七:针对事件抽取任务中的事件元素抽取阶段设计网络,而后训练模型,得到事件元素和元素角色。

本实施例还提供事件抽取中融合语言信息微调预训练语言模型的系统,步骤包括:

语言信息获取模块,用于获取当前事件抽取任务所需融合的语言信息并进行编码,得到语言特征编码集合;

信息初始融合模块,用于获取待输入的初始词向量,将获取的初始词向量与语言特征编码集合进行初始融合,得到融合后词向量;

双模型编码模块,用于将初始词向量、融合后词向量分别输入一个预训练语言模型中以进行编码,其中将初始词向量输入第一预训练语言模型中,得到第一组单词表示,以及将融合后词向量输入至第二预训练语言模型中,得到第二组单词表示输出,第一预训练语言模型与第二预训练语言模型相互独立;

信息二次融合模块,用于将第一组单词表示、第二组单词表示进行二次融合,得到最终的单词表示,完成微调。

本实施例中,语言信息获取模块包括:

编码单元,用于预先获取各类型所需融合的语言信息,并对获取的语言信息进行统计、编码,构建形成特征编码字典;

第一获取单元,用于按照当前事件抽取任务所需融合的语言信息,从所述特征编码字典中获取对应的语言特征编码集合。

本实施例中,信息初始融合模块包括:

第二获取单元,用于获取预训练语言模型中隐藏层的维度dmodel;

计算单元,用于在预训练语言模型的初始编码阶段,对于所述语言特征编码集合中各语言特征编码,分别使用具有所述dmodel维度的向量计算用于表示语言特征编码的向量表示,即将所述语言特征编码投影到目标向量空间,得到语言特征向量集合;

融合单元,用于将语言特征向量集合融入所述初始词向量中,得到所述融合后词向量。

本实施例事件抽取中融合语言信息微调预训练语言模型的系统与上述事件抽取中融合语言信息微调预训练语言模型的方法为一一对应,两者具有相同的实现原理以及技术效果,在此不再一一赘述。

在另一实施例中,本发明事件抽取中融合语言信息微调预训练语言模型的系统还可以为:包括处理器以及存储器,存储器用于存储计算机程序,处理器用于执行计算机程序,处理器用于执行计算机程序以执行如上述事件抽取中融合语言信息微调预训练语言模型的方法。

上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1