基于TransS驱动的互激励神经网络的隐式篇章关系识别方法与流程

文档序号:20918195发布日期:2020-05-29 13:48阅读:431来源:国知局
基于TransS驱动的互激励神经网络的隐式篇章关系识别方法与流程

本发明涉及自然语言处理中篇章分析技术领域,尤其是涉及篇章关系识别技术,具体为一种基于transs驱动的互激励神经网络的隐式篇章关系识别方法。



背景技术:

篇章关系描述了两个相邻的文本单元(例如,从句,句子和较大的句子组)如何在逻辑上彼此连接,通常被定义为带有两个论元的连词(分别为arg1和arg2)。显式篇章关系可以很容易被识别出来,其精度约为94%,而隐式篇章关系识别则没有显式连接词。因此隐式篇章关系识别仍然是一个具有挑战性的问题,其需要从特定上下文进行关系推断。隐式篇章关系识别有利于许多流行自然语言处理(naturallanguageprocessing,nlp)应用,如机器翻译、文本摘要、对话系统等。

现有的神经网络模型在识别隐式篇章关系方面取得了一定的成功:(1)基础神经网络可以学习到篇章论元的密集向量表示,在一定程度上可以捕获语义信息,如卷积神经网络(convolutionalneuralnetwork,cnn)和循环神经网络(recurrentneuralnetwork,rnn)[1-3];(2)进一步的研究利用了不同的注意力或记忆机制捕获论元对的重要信息[4,5];(3)复杂神经模型利用门控关联网络或神经张量网络来捕获两个篇章论元之间更深层次的交互信息[6-8]。尽管它们获取了论元的关键信息和两个论元之间的交互信息,但仍然存在以下不足:

·忽略了对论元中有效语义信息的选择;

·没有充分利用语料已标注关系信息来探究论元对-关系的特征;

·分开研究论元表示和关系识别,忽略了它们之间的相互激励作用。

实体翻译嵌入模型(transe)是预测知识图谱中实体之间缺失关系的一种有效方法,通过把实体关系解释为实体在低维向量空间中的翻译操作来建模关系[9],即如果(he,le,te)成立,则符合尾实体向量te应该接近于头实体向量he加上关系向量le,但是并没有在句子级别上得到有效地应用。



技术实现要素:

本发明的目的是为了克服现有技术中的不足,提供一种基于transs驱动的互激励神经网络的隐式篇章关系识别方法,该方法为了更好进行隐式篇章关系识别,构建了基于transs驱动的互激励神经网络。其中,句子翻译嵌入模块(translatingsentenceembedding,transs)和关系识别模块相互激励、相互指导。该方法首先利用论元对-关系嵌入层得到论元对和关系的嵌入向量,进而通过论元对-关系编码层和引入注意力机制建模论元对和关系的分布式表示,最后通过transs和关系识别模块间的相互引导,优化表示参数,提升关系识别性能。

本发明的目的是通过以下技术方案实现的:

基于transs驱动的互激励神经网络的隐式篇章关系识别方法,包括如下步骤:

(1)构建论元和篇章关系的嵌入层;篇章论元对(arg1,arg2)与其对应的篇章关系分别表示为词向量序列和词向量,然后通过单词的逐一映射,得到两个篇章论元的向量矩阵,以及其对应篇章关系的低维分布式表示;

(2)篇章论元的表示学习;将篇章论元arg1、arg2的向量表示分别作为正向长短期记忆网络(longshort-termmemory,lstm)层和反向lstm层,即双向lstm神经网络(bidirectionallongshort-termmemory,bilstm)的输入,编码得到两个篇章论元的抽象表示;

(3)构建注意力机制增强的表示学习;利用注意力机制捕获篇章论元中重要的词汇信息,将捕获到的重要词汇信息融入基本的表示学习中,以加深对篇章论元的语义理解,从而获取融合重要信息的篇章论元表示;

(4)构建句子翻译嵌入模块(translatingsentenceembedding,transs);transs将篇章论元之间的语义关系翻译到低维向量空间,并得到篇章论元对及其关系之间的几何结构;同时,transs模块所保留的几何结构信息能够作为篇章关系识别的指导;

(5)构建篇章关系识别模块;将transs模块所得的包含几何结构信息的论元表示输入篇章关系识别模块,并为transs模块提供已学到的篇章关系语义信息,以帮助transs模块更好地学习论元表示;

(6)构建互激励机制;transs和篇章关系识别两个模块的互相激励、互相指导,共同优化单词表示,可以更好地学习新的融合几何结构信息的篇章论元表示,以提高篇章关系识别能力。

进一步的,步骤(1)中具体如下:实现单词的嵌入,捕捉单词的内在属性,即将语料词表中所有单词与预训练所得的低维、连续词向量表示对应起来,得到语料中所有单词的向量表示;将篇章论元对以及其对应的篇章关系转化为向量表示;在形式上将嵌入层看作是一个投影层,其中单词嵌入根据索引进行查找表操作实现,即将索引转换为固定大小的稠密向量;从而获取两个篇章论元的向量矩阵,以及其对应篇章关系的低维分布式表示。

进一步的,步骤(2)具体包括:通过lstm对单词序列进行建模;对于第t个时间步,lstm读取单词xt作为输入,ht作为输出,具体公式如下:

ht=ot⊙tanh(ct)(17)

其中,it,ft,ot,ct,ht分别表示输入门、遗忘门、输出门、存储单元和隐藏状态;ta,b是依赖于网络参数的映射变换矩阵;ct-1表示上一时刻(t-1)的存储单元状态,是当前时刻存储单元到即时状态,ht-1表示t-1时刻的隐藏层状态;σ表示sigmoid函数,双曲正切函数tanh是在t-1时刻作用于ht-1和ta,b上的激活函数,⊙表示元素乘积;

利用双向lstm神经网络(bidirectionallongshort-termmemory,bilstm)对论元序列进行建模;bilstm通过正向和反向两个单独的lstm保存历史和未来信息;得到在序列的每个时间步长t处的两个表示后将它们拼接在一起作为句子向量表示

进一步的,步骤(3)具体包括:引入注意力控制机制捕获到对关系识别有帮助的词汇,忽略对关系识别不重要的词汇,将关注重点放在包含重要信息的词汇上以增强篇章论元对的语义理解,更有效地学习包含重要信息的表示;

m=tanh(h)(18)

α=softmax(wtm)(19)

公式(4)中,h是由输出向量[h1,h2,...,hn]组成的矩阵,其中n是论元的长度,即每个论元所包含的单词数量,d表示单词的维度,h经过双曲正切函数tanh函数而得到隐藏层状态向量表示矩阵m;公式(5)中,w表示权重参数向量;softmax函数将加权的隐藏层状态向量表示矩阵m转化为概率分布,称为每个单词的注意力值;公式(6)中,是由输出向量进行加权求和计算得到的新的论元向量表示,α的转置αt作为输出向量的权重;最后,根据公式(7)对上一步结果加入激活函数tanh,从而获取体现出其自身重要信息的篇章论元表示h*

进一步的,步骤(4)具体包括:transs通过将论元对及其关系在低维向量空间中的位置信息进行建模,捕获了论元对间的关系信息;论元对及其关系在低维向量空间中的位置信息表示为:hs+rs≈ts;因此,transs的目标函数定义为:

在公式(8)中,hs,ts分别表示论元arg1,arg2的向量表示,是篇章关系的嵌入向量;transs通过将篇章关系翻译到低维向量空间中捕获到带有几何结构信息的篇章关系;同时,transs利用所保留的几何结构信息指导关系识别模块进行关系识别。

进一步的,步骤(5)具体包括:由transs所学习到的带有几何结构信息的新论元表示作为关系识别模块的输入,其中均通过注意力机制增强的表示学习而得到;进一步地,在表示层上叠加一个softmax层:

在公式(9)中,f是softmax函数,分别是权重和偏置项,c是篇章关系类别的数量;

篇章关系识别模块一方面使用由transs学到的带有几何结构信息的论元表示进行关系识别,另一方面为transs学习到更好的论元表示提供相应的指导和激励。

进一步的,步骤(6)具体包括:设置互激励神经网络的隐式篇章关系识别方法中transs和关系识别模块之间的互激励机制,整个方法的目标是最小化模型的损失函数,定义如下:

如公式(10)所示,表示总损失函数,表示transs模块的损失函数,表示篇章关系识别模块的损失函数;整个方法的损失函数由transs的损失函数和篇章关系识别模块的损失函数两部分构成;

给定数据集t,由两个句子向量hs,ts∈v和篇章关系向量rs∈r组成的三元组所构成;其中,v表示数据集中所有的句子向量的集合,r是篇章关系向量的集合;对于transs的损失函数,定义如下:

其中,[·]+表示正例,γ>0是边际超参数;负例集合t'是根据公式(12)构建而成,h's,t's是负例句子向量;d(,)是距离函数,计算两个向量之间的距离;l2规则化用于惩罚参数θ的大小,以防止过拟合;λ表示权重;

在公式(12)中,头或尾向量hs,ts被随机论元向量h's,t's替换;在训练的过程中,transs模块不断地最小化三元组(hs,rs,ts)的几何结构损失,且最终在低维向量空间中学习到带有内在结构信息的头、尾、关系向量hs,ts,rs;

新的句子向量由三元组(hs,rs,ts)中的hs,ts拼接得到,并用于进行关系识别;篇章关系识别模块的训练目标是最小化交叉熵损失函数:

其中,yj是真实关系的one-hot表示;是预测关系的表示;c是篇章关系类别的数量;在训练过程中,关系识别模块不断最小化真实关系和预测关系的交叉熵损失,并优化篇章关系表示;

由公式(11)和公式(13)可以得出整个模型损失的具体形式:

从公式(14)得出transs与关系识别模块之间相互依赖,transs与关系识别模块使用带有结构信息的论元表示和已标注的关系信息相互指导;一方面,transs将关系映射到低维向量空间中,利用捕获的带有几何结构信息的向量hs,rs,ts激励关系识别;另一方面,关系识别模块在改进关系识别的基础上,不断优化篇章论元表示,并为几何结构特征的挖掘提供必要条件;transs与关系识别模块相互指导、相互激励、相互优化,最终得到包含有语义信息和几何结构信息的论元-关系表示。

与现有技术相比,本发明的技术方案所带来的有益效果是:

1.本发明方法主要包括有transs和识别两大模块。

transs模块,本发明受到transe的启发,在transs模块中,我们将关系映射到低维嵌入空间来挖掘论元-关系的特征。transs通过建模论元对及其关系在低维向量空间中的空间几何信息,捕获了论元对间的关系信息。

篇章关系识别模块,在利用transs模块捕获论元-关系空间几何结构信息的同时,篇章关系识别模块一方面使用由transs学到的带有几何结构信息的论元表示进行关系识别,另一方面为transs学习到更好的论元表示提供相应的指导和激励。

2.互激励机制,一方面,trans将关系映射到低维向量空间中,利用捕获的带有几何结构信息的向量激励关系识别;另一方面,关系识别模块在改进关系识别的基础上,不断优化篇章论元表示,并为几何结构特征的挖掘提供必要条件;transs与关系识别模块相互指导、相互激励、相互优化,最终得到包含有语义信息和几何结构信息的论元-关系表示。

附图说明

图1是本发明方法的流程示意图。

图2为本发明提供的基于transs驱动的互激励神经网络框架图。

图3为pdtb中的论元和关系数据结构。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

以宾州篇章树库(penndiscoursetreebank,pdtb)数据集为例来给出本发明的实施方法。整体流程见图1;该方法整体框架如图2所示。整个系统算法流程包括(1)数据集预处理,即将数据集划分成训练集、开发集和测试集;(2)论元及其关系的编码,即将论元及其关系进行编码,从而得到低维分布式表示;(3)融合论元中重要信息的特征,即通过注意力控制机制捕获论元中不同部分的重要性,从而选择性地获得论元中的重要信息;(4)挖掘论元及其关系所隐含的几何结构信息,即通过句子翻译嵌入模块(transs)捕获到关系和论元对之间的几何结构;(5)捕获论元语义信息并进行篇章关系识别,即通过关系识别模块学习论元语义信息并进行关系识别;(6)transs和关系识别模块相互激励、优化这六个步骤。

具体步骤如下:

一、数据集预处理宾州篇章树库(penndiscoursetreebank,pdtb)是一个在2,312篇华尔街日报文章上进行标注得到的大规模语料库。pdtb根据不同粒度,将篇章关系分为三层:第一层4类,第二层16类,第三层23类,共43类。第一层为四种主要的关系类型:对比(comparison)、偶然(contingency)、扩展(expansion)和时序(temporal)。本发明以pdtb为原始语料,并按照以下步骤对原始语料进行处理:(1)section2-21部分为训练集,section22为开发集,section23为测试集;(2)由于数据分布不平衡对分类结果的影响较大,所以对每个类别使用相同数量的正、负样本作为训练数据,负样本随机选取;(3)过滤没有形成论元对的数据。

表1展示了pdtb数据集的统计信息,其中训练集共有12690条数据,包含1945条comparison数据、3242条contingency数据、6794条expansion数据和709条temporal数据;开发集共有1187条数据,包含196条comparison数据、248条contingency数据、646条expansion数据和61条temporal数据;测试集共有1049条数据,包含152条comparison数据、272条contingency数据、546条expansion数据和79条temporal数据。

表1pdtb样本数据分布

将语料库中的论元和关系作为输入,首先由嵌入层得到嵌入向量,即one-hot表示转换为分布式表示,以便利用神经网络对论元及其关系进行建模。pdtb中的论元和关系数据结构如图2所示。

二、论元及其关系的编码

按照上步将数据集划分成训练集、开发集和测试集后,将训练集按批次将论元及其关系进行编码,即使用单词嵌入通过对索引进行查找表操作将索引转换为固定大小的稠密向量。然后将论元的词向量序列输入到长短期记忆网络(lstm)中,从而可以利用上下文信息对单词序列进行建模。

为了学习到具有语义信息的句子表示ht,按照如下公式将其输入到双向长短期记忆网络(bidirectionallongshort-termmemory,bilstm)中:

ht=ot⊙tanh(ct)(3)

公式中符号的含义如同前文所述,其中it,ft,ot,ct,ht分别表示输入门、遗忘门、输出门、存储单元和隐藏状态;ta,b是依赖于网络参数的映射变换矩阵;ct-1表示上一时刻(t-1)的存储单元状态,是当前时刻存储单元到即时状态;σ表示sigmoid函数,双曲正切函数tanh是在t-1时刻作用于ht-1和ta,b上的激活函数,⊙表示元素乘积;由于双向长短期记忆网络(bidirectionallongshort-termmemory,bilstm)通过正向和反向两个单独的lstm对论元序列进行建模,因此可以得到在序列的每个时间步长t处的两个向量表示并拼接在一起作为句子向量表示

三、融合论元中重要信息的特征

为了充分利用论元中与关系相关的有用信息,基于transs驱动的互激励神经网络的隐式篇章关系识别方法引入注意力控制机制来捕获论元中不同词汇所蕴含的不同重要性信息,将关注重点放在包含重要信息的词汇上可以增强篇章论元对的语义理解,更有效地学习到包含重要信息的表示。

为了获得每个论元中的重要词汇信息,将得到的句子向量作为注意力控制层的输入,从而得到具有重要词汇信息的句子表示h*,能够更好地捕获论元对间的语义信息,注意力控制层主要通过下列公式实现:

m=tanh(h)(4)

α=softmax(wtm)(5)

公式(4)中,h是由输出向量[h1,h2,...,hn]组成的矩阵,其中n是论元的长度,即每个论元所包含的单词数量,d表示单词的维度,h经过双曲正切函数tanh函数而得到隐藏层状态向量表示矩阵m。公式(5)中,w表示权重参数向量;softmax函数将加权的隐藏层状态向量表示矩阵m转化为概率分布,称为每个单词的注意力值。公式(6)中,是由输出向量进行加权求和计算得到的新的论元向量表示,α的转置αt作为输出向量的权重。最后,根据公式(7)对上一步结果加入激活函数tanh,从而获取体现出其自身重要信息的篇章论元表示h*

四、挖掘论元及其关系所隐含的几何结构信息

在得到包含对任务具有重要意义的词汇的句子表示h*后,将两个论元向量h*arg1、h*arg2即头、尾句子向量hs、ts,与篇章关系向量rs共同作为transs的输入以捕获到关系和论元对之间的空间几何结构。其目标是最优化transs的目标函数:

即,使论元对及其关系在低维向量空间中的位置信息尽可能满足:hs+rs≈ts。在公式(8)中,hs,ts分别表示论元arg1,arg2的向量表示,是篇章关系的嵌入向量。transs通过将篇章关系翻译到低维向量空间中捕获到带有几何结构性的篇章关系。同时,transs利用所保留的关系转换信息指导关系识别模块进行关系识别。

五、捕获论元语义信息并进行篇章关系识别

在上一步进行的同时,将注意力控制层输出的句子表示h*arg1、h*arg2作为关系识别模块的输入进行关系识别,然后经过了一个softmax层进行关系识别,其目标函数定义为:

在公式(9)中,f是softmax函数,分别是权重和偏置项,c是篇章关系类别的数量。

关系识别模块一方面使用由transs学到的带有几何结构信息的论元表示进行关系识别,另一方面为transs学习到更好的论元表示提供了相应的指导和激励。

六、transs和关系识别模块之间相互激励、优化

互激励神经网络的隐式篇章关系识别方法中transs模块和关系识别模块之间的互激励机制,其中,相互引导是互激励机制的重要内容,通过训练过程中参数更新来充分体现。整个方法的目标是最小化模型的损失函数,定义如下:

如公式(10)所示,表示总损失函数,表示transs模块的损失函数,表示篇章关系识别模块的损失函数。整个方法的损失函数由transs的损失函数和篇章关系识别模块的损失函数两部分构成。transs的损失函数由公式(11)定义,其中,t为给定数据集,v表示数据集中所有的句子向量的集合,r是篇章关系向量的集合,hs,ts∈v表示句子首尾向量,rs∈r表示关系向量,[·]+表示正例,γ>0是边际超参数。负例集合t'是根据公式(12)构建而成,h's,t's是负例句子向量;d(,)是距离函数,计算两个向量之间的距离。l2规则化用于惩罚参数θ的大小,以防止过拟合,λ表示权重。在公式(12)中,头或尾向量hs,ts被随机论元向量h's,t's替换(但不是同时替换)。在训练的过程中,transs模块不断地最小化三元组(hs,rs,ts)的几何结构损失,并且最终将会在低维向量空间中学习到带有内在结构信息的头、尾、关系向量hs,ts,rs。公式(13)是交叉熵损失函数,其中,y是真实关系的one-hot表示;是预测关系的表示;c是篇章关系类别的数量。在训练过程中,关系识别模块不断最小化真实关系和预测关系的交叉熵损失,并优化篇章关系表示。公式(14)是整个模型损失的具体形式,从中可以看出transs与关系识别模块之间相互依赖,它们使用带有结构信息的论元表示和已标注的关系信息来相互指导。一方面,transs将关系映射到低维向量空间中,利用捕获的带有几何结构信息的向量hs,rs,ts激励关系识别;另一方面,关系识别模块是在改进关系识别的基础上,不断优化篇章论元表示,并为几何结构特征的挖掘提供必要条件。这两个模块相互指导、相互激励、相互优化,最终得到包含有语义信息和几何结构信息的论元-关系表示。

在具体实施过程中,以pdtb数据集为例,通过提前设定各种超参数,即论元arg1、arg2的句子长度均设置为80,并且通过[-0.1,0.1]均匀分布随机初始化单词嵌入,每个单词的维度设为50。学习率设置为0.002,批量大小和迭代次数均为100。在transs模块中,损失边际值设置为0.5,使用l1距离作为度量;在识别模块中,bilstm的输入和隐藏层的大小均为50,参数设置如表2所示:

表2模型在实验中的超参数

为了验证本发明方法的有效性,将本发明方法(tsmi)与当前先进并具有代表性的模型chenetal.(2016)、etal.(2017)以及两个基本方法lstm、bilstm进行对比。

为了验证transs模块中几何结构信息的有效性,将其与下面列出的退化模型进行了比较:

●lstm使用两个lstm分别对两个论元进行编码,然后将它们拼接在一起,并将其提供给mlp以进行关系识别;

●bilstm使用两个双向lstm分别编码两个论元,然后将它们拼接在一起,并提供给mlp以进行关系识别。

此外,选择了两个先进的系统与我们的模型进行比较,验证了篇章几何结构和语义之间的相互激励的有效性。根据他们系统的主要思想复现了他们的模型:

·chenetal.(2016)[6]他们利用门控关联网络来捕获两个论元之间的交互信息,以提高关系识别能力;

·etal.(2017)[10]他们利用基于注意力的递归神经网络,对篇章单元序列进行联合建模。

为了体现单词表示的效果,上述模型有两种实验设置:使用随机初始化的单词向量和预训练单词向量glove(penningtonetal.,2014)。

目前,篇章分析的评测主要考虑算法的准确度(accuracy)和f1值两个性能指标。准确度采用式(15)进行度量。

这里,truepositive代表本来是正样例,同时分类成正样例的个数;truenegative代表本来是负样例,同时分类成负样例的个数;all代表样例总个数。

f1值由准确率(precision)和召回率(recall)共同体现,采用式(16)进行度量。

其中,

这里,falsepositive代表本来是负样例,但被分类成正样例的个数(通常叫误报);falsenegative代表本来是正样例,但被分类成负样例的个数(通常叫漏报)。相关分数值越高表示该模型性能越好。

表3(a)-(d)为pdtb上不同模型的二分类结果

(a)compvsother

(b)contvsother

(c)expvsother

(d)temvsother

表4pdtb测试集的多分类准确度对比

表5pdtb上不同模型的多分类结果

从表3,4,5的实验结果可看出,本发明提出的基于transs驱动的互激励神经网络的隐式篇章关系识别的有效性。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

参考文献:

[1]dengcaiandhaizhao.2017.pair-awareneuralsentencemodelingforimplicitdiscourserelationclassification.ininternationalconferenceonindustrial,engineeringandotherapplicationsofappliedintelligentsystems,pages458–466.springer.

[2]biaozhang,jinsongsu,deyixiong,yaojielu,hongduan,andjunfengyao.2015.shallowconvolutionalneuralnetworkforimplicitdiscourserelationrecognition.inproceedingsofthe2015emnlp,pages2230–2235.

[3]yangliu,sujianli,xiaodongzhang,andzhifangsui.2016.implicitdiscourserelationclassificationviamulti-taskneuralnetworks.inproceedingsofthe30thaaai,pages2750–2756.

[4]yangliuandsujianli.2016.recognizingimplicitdiscourserelationsviarepeatedreading:neuralnetworkswithmulti-levelattention.inproceedingsofthe2016emnlp,pages1224–1233.

[5]biaozhang,deyixiong,andjinsongsu.2016.neuraldiscourserelationrecognitionwithsemanticmemory.arxivpreprintarxiv:1603.03873.

[6]jifanchen,qizhang,pengfeiliu,xipengqiu,andxuanjinghuang.2016.implicitdiscourserelationdetectionviaadeeparchitecturewithgatedrelevancenetwork.inproceedingsofthe54thacl,pages1726–1735.

[7]wenqianglei,xuancongwang,meichunliu,ilijailievski,xiangnanhe,andmin-yenkan.2017.swim:asimplewordinteractionmodelforimplicitdiscourserelationrecognition.inproceedingsofthe26thijcai,pages4026–4032.

[8]fengyuguo,ruifanghe,dijin,jianwudang,longbiaowang,andxiangangli.2018.implicitdiscourserelationrecognitionusingneuraltensornetworkwithinteractiveattentionandsparselearning.inproceedingsofthe27thcoling,pages547–558.

[9]antoinebordes,nicolasusunier,albertogarciaduran,jasonweston,andoksanayakhnenko.2013.translatingembeddingsformodelingmultirelationaldata.inadvancesinneuralinformationprocessingsystems26,pages2787–2795.

[10]s,schenkn,chiarcosc.arecurrentneuralmodelwithattentionfortherecognitionofchineseimplicitdiscourserelations[j].arxivpreprintarxiv:1704.08092,2017.

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1