一种基于分层主题驱动的自注意力机制的事件检测方法

文档序号:25168845发布日期:2021-05-25 14:37阅读:55来源:国知局
一种基于分层主题驱动的自注意力机制的事件检测方法
本发明涉及自然语言处理中信息抽取
技术领域
,尤其是涉及事件抽取技术,具体为一种基于分层主题驱动的自注意力机制的事件检测方法。
背景技术
:近年来,随着信息技术的不断发展,互联网的信息量也日益膨胀。因此如何利用自动化的工具从海量信息中准确地提取出用户感兴趣的信息成为一个亟待解决的问题。在这种背景下,信息抽取技术成为一个尤为重要的研究方向。从20世纪80年代末开始,信息抽取技术开始发展起来,这主要得益于信息理解研讨会(messageunderstandingforcomprehension,muc)的召开。它由美国国防高级研究计划委员发起和资助,从1987年到1998年间一共举办了七届,极大地推动了信息抽取技术的发展。从1999年开始,在强大的应用需求下,美国国家标准技术研究所组织召开了自动内容抽取(automaticcontentextraction,ace)评测会议,迄今为止已经举办了七次,该评测项目推动了信息抽取技术研究的进一步发展。而事件抽取作为信息抽取中最具挑战性的任务之一,受到越来越多学者的关注。事件抽取的主要任务是从大量非结构化的信息中抽取出用户感兴趣的事件,并以结构化的形式呈现给用户(如什么人、什么地方、什么时候、做什么事),为进一步的信息检索、自动文摘、自动问答等应用打下基础。比如在信息检索领域中,事件抽取技术能够帮助用户快速得到需要的信息,进而提高用户接收信息的效率;在自动文摘领域中,结合事件抽取技术能够更全面的涵盖文章中所发生的事件,以得到比较完整的摘要内容。此外,事件抽取技术在实际应用场景中也具有很重要的研究意义,比如从新闻报道中抽取出地震事件的基本情况:时间、地点、震级、遇害情况等,能够帮助人们方便快速地了解到所关注事件的重要信息。当前大部分研究都是面向ace国际评测会议提供的数据集进行事件抽取的相关研究。ace评测会议将事件抽取划分为两个子任务:事件检测和事件论元抽取。前者旨在从候选文本中识别出触发事件的关键词(通常动词和名词居多),并判断其事件类型和子类型;后者则是从已识别的事件中标注事件的参与者及事件属性(包括事件发生的时间,地点和人物等信息)。本发明主要在ace2005英文数据集上进行事件检测任务的研究,比如:在句子“hehadnoplanstoleave.”中,事件检测需要识别出由“leave”触发的“end-position”事件。然而,这仍然具有挑战性,因为同一触发词在不同的上下文中可能触发不同类型的事件,即触发词的歧义性(比如:例句中的“leave”还可以触发“transport”事件)。根据所使用的上下文特征的范围不同,事件抽取可以划分为两类:1)句子级模型;2)跨句子级模型。前者仅考虑了句子级的上下文信息,不管是依赖精心设计有效特征集的基于特征的方法[1][2]还是将分布式表示输入各种神经网络的基于表示的方法,它们都未充分解决触发词的歧义性;受假设“每个对话都有一个意思”的影响,ji等人[1]将上下文范围从一个句子扩大到一个文档,甚至是主题相关的文档。因为基于特征的方法存在着复杂的特征工程和错误传播的问题,基于表示的方法[6][7][8]仍是主流方向,它们通过无监督或有监督的方法获得全局文档表示,并用它来增强文档中所有单词的表示。尽管这确实可以为触发词带来有价值的消歧依据,但是也可能会引入一些噪音信息,加剧触发词的歧义性甚至干扰检测。为了缓解该问题,一些工作通过注意力机制为每个句子选择不同的文档表示形式,这直接增强了句子中每个单词的特定语义表示,然而,他们只考虑了句子所在的文档,而忽略了相关文档提供的宝贵线索。因此,除了文档内的信息表示外,文档间的特定语义线索对于触发词的消歧也是十分重要的。技术实现要素:本发明的目的是为了克服现有技术中的不足,提供一种基于分层主题驱动的自注意力机制的事件检测方法。本发明认为主题模型可以更好地从主题相关的文档中捕获文档中每个单词的有价值的线索。首先,依赖于主题模型,采用变分自编码器(vae)来推断文档-主题分布和主题-词分布。除此之外,根据主题-词分布和词嵌入,得到文档主题的表示向量,根据概率计算,得到特定文档中每个单词的主题分布。其次,结合分布与主题表示向量,得到主题感知的文档表示向量和主题感知的单词表示向量,文档表示向量倾向于捕获文档的通用全局信息,单词表示向量则包含局部特定语义线索。然后,采用bi-lstm对候选事件序列进行编码,进而采用文档-单词的分层自注意力模型检测句子中的事件,与前人工作中由低到高的分层结构(即单词-文档)不同。这种由高到低的结构反映了人们识别文本中事件的直观过程:核查全文以理解文章的主要内容,然后再进一步理解局部的特定语义。该方法相比于当前最优的模型在f1值评价指标上是具有竞争性的。本发明的目的是通过以下技术方案实现的:一种基于分层主题驱动的自注意力机制的事件检测方法,包括以下步骤:(101)构建主题感知的文档表示向量和单词表示向量:对于每篇文档,采用变分自编码器(variationalauto-encoder,vae)来推断文档-主题分布和主题-词分布,根据主题-词分布和词嵌入得到文档主题的表示向量,然后根据文档-主题分布和主题表示向量得到主题感知的文档表示向量,根据文档-主题分布、主题-词分布以及主题表示向量得到主题感知的单词表示向量;(102)对候选事件提及进行序列编码;(103)建立分层的自注意力模型:分层的自注意力模型包括主题感知的文档级自注意力模型和主题感知的单词级自注意力模型;主题感知的文档级自注意力模型建立文档之间的联系使得具有相似内容的文档能够相互借鉴;主题感知的单词级自注意力模型能够确保不同文档中的相同单词具有独自的表示向量,为歧义消除提供信息;(104)预测事件类型:计算每个候选触发词对应每个子类的置信度。进一步的,步骤(101)中具体如下:给定一个文档d={x1,x2,...,xi,...,xp},其中p是文档的长度,xi是第i个单词;采用变分自编码器(vae)来推断文档-主题分布p(zj|d)和主题-词分布p(xi|zj),其中zj属于预定义的主题集z={z1,z2,...,zt},t是预定义主题的个数;变分自编码器(vae)的损失函数的计算方式如公式(1)所示:l(d)=kl(q(m|d)||p(m))-em~q(m|d)[logp(d|m)](1)公式(1)使用kl散度衡量变分分布q(m|d)和先验分布p(m)的接近程度,其中kl(q(m|d)||p(m))表示q(m|d)相对p(m)的kl散度,em~q(m|d)[logp(d|m)]表示变分自编码器的重构误差,m~q(m|d)表示m服从q(m|d)分布,m是变分自编码器(vae)编码器部分得到的中间潜在语义变量;文档-主题分布由中间潜在语义变量m经softmax概率归一化得到,主题-词分布则是变分自编码器(vae)解码器的参数。此外,使用归一化概率对属于第j个主题的前c个单词的词嵌入向量进行加权求和,以获得该主题的表示向量,具体形式如公式(2)所示:其中tj表示第j个主题的表示向量,p(xk|zj)是属于该主题的前c个单词的概率值,wk是单词xk的词嵌入向量。主题感知的文档表示向量:在变分自编码器(vae)后,得到文档在每个主题上的概率分布,具体形式如公式(3)所示:其中p(zj|d)表示文档d被分配给第j个主题的概率,然后,通过文档-主题概率分布与主题表示向量进行加权求和得到主题感知的文档表示向量td,具体形式如公式(4)所示:其中td为文档d包含通用全局信息的表示向量,即为主题感知的文档表示向量,确保内容相似的文档,主题感知的文档表示向量也接近。主题感知的单词表示向量:对于文档d中的每个单词xi,单词xi在潜在主题上的概率分布由p(zj|xi,d)∝p(xi|zj)*p(zj|d)计算得到;再对其进行归一化后,得到单词xi的主题分布由向量pxi表示,具体形式如公式(5)所示:其中p(zj|xi,d)表示文档d中的第i个单词分配给第j个主题的概率,然后,通过单词-主题概率分布与主题表示向量加权求和得到主题感知的单词表示向量具体形式如公式(6)所示:其中为包含话题语义线索的单词表示向量,即为主题感知的单词表示向量,与主题感知的文档表示向量相比,其能够获得更多有价值的消歧依据。进一步的,步骤(102)中具体如下:给定文档中的句子x={x1,x2,...,xi,...,xn},其中n是句子的长度,xi是第i个单词;将句子中的每个词都看作候选事件触发词,包含事件触发词的句子即为事件提及,因此文档中的每个句子都看作候选事件提及。对于单词xi的表示,使用它的词嵌入向量wi初始化;然后与主题感知的文档表示向量td拼接得到第i个单词的文档级表示向量如公式(7)所示:对于每个单词xi,结合历史信息和将来信息以增强其文档级表示向量的语义丰富性,采用双向长短期记忆网络(bi-directionallongshort-termmemory,bi-lstm)进行序列编码,给定候选事件提及序列文档级表示向量矩阵分别通过(前向lstm)和(后向lstm)得到整个序列的隐表示矩阵和其中向量和分别通过公式(8)和公式(9)计算得到:前向lstm和后向lstm分别捕获了单词的历史信息和将来信息;最后拼接向量和得到句子中第i个单词的隐表示向量,即其中表示拼接操作,则整个句子表示为矩阵进一步的,步骤(103)中具体如下:自注意力机制能将句子序列中不同位置的元素关联起来,公式(10)描述了自注意力机制的形式,其缩放因子d设置为1,q∈rn*2h为查询矩阵,k∈rn*2h为键矩阵,v∈rn*2h为值矩阵;主题感知的文档级自注意力模型:利用公式(10)对矩阵ht_d进行自注意力编码,其中,首先将与的转置矩阵相乘,接着通过softmax归一化函数得到注意力矩阵at_d,其中每个注意力值如公式(11)所示:接着,将at_d与ht_d相乘得到主题感知的文档级增强表示向量矩阵,其中每个单词的文档级增强表示如公式(12)所示:将公式(12)获得的表示向量与主题感知的单词表示向量拼接,得到主题感知的单词级表示向量,如公式(13)所示:同样,经过bi-lstm序列编码得到隐表示矩阵,如公式(14)所示:整个句子表示为矩阵主题感知的单词级自注意力模型:利用公式(10)对得到的矩阵ht_x进行自注意力编码,得到单词的最终表示,如公式(15)和公式(16)所示:公式(16)中的表示了第i个词最终的表示,不仅包含通用的全局信息,而且包含局部特定语义线索。进一步的,步骤(104)中具体如下:将输入到具有softmax层的前馈神经网络中,以获得m维归一化标签概率向量;具体形式如公式(17)和(18)所示;在公式(18)中,m为事件类型oi=(oi,1,oi,2,...,oi,j,...oi,m)的个数,oi,j是将单词xi分类为第j个事件类型的概率值;假设oi,j的值最大,则将第j个事件类型作为候选触发词xi的事件类型,最后将该预测概率分布与真实事件类型分布不断比较,使得预测事件类型与真实事件类型一致,形式化定义如下;给定全部h个训练样例(x(i),y(i)),采用真实事件类型分布和预测概率值分布的交叉熵的平均值作为分类模型的损失函数,具体形式如公式(19)所示:公式(19)中的yi,j是候选触发词xi在第j个事件类型上的真实概率值,其值如公式(20)所示:结合公式(1)和公式(20),定义完整模型的联合损失函数如公式(21)所示:j′(θ)=j(y,o)+λl(d)(21)其中λ为权衡j和l的超参数。与现有技术相比,本发明的技术方案所带来的有益效果是:(1)为了解决数据歧义性问题,本发明方法采用一种分层主题驱动的自注意力机制方法,不仅考虑了全局的通用信息,还考虑了特定的语义线索,从而消除噪声带来的负面影响。(2)利用主题模型来学习文档的全局通用信息和单词的特定语义线索,对于事件检测任务来说,这是第一个考虑主题模型的工作。(3)采用符合人类直觉的层次结构,以充分利用主题感知表示丰富的信息;在ace2005英文数据集上的实验结果表明本发明方法的有效性以及证明了主题信息对于事件检测任务的有效性附图说明图1是变分自编码器(vae)框架图。图2为本发明提供的一种基于分层主题驱动的自注意力机制的事件检测方法框架图。图3为三个最常见事件类型中歧义词的召回率。图4为三种主题感知模型在不同主题数量下的性能。具体实施方式以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。以ace2005数据集为例来给出本发明的实施方法。该方法整体框架见图2所示,图2最下面的变分自编码器(vae)框架如图1所示。整个系统算法流程包括输入预处理、构建主题感知的文档表示向量和主题感知的单词表示向量、对候选事件提及进行序列编码、建立分层的自注意力模型、预测事件类型这几个步骤。具体步骤如下:(1)输入预处理为了进行公平的比较,在ace2005语料上使用了与前人相同的数据分割,40篇新闻文档作为测试集,来自不同类别的30篇文档作为验证集,剩下的529篇文档作为训练集。然后按照以下步骤对原始语料进行处理:1)分句—将每个文档按照句子结束符(句号、问号、叹号和省略号)进行分句,得到每个文档的句子列表;2)分词—采用stanfordcorenlp工具进行分词;3)移除单词数少于4的句子,并将单词数大于80的部分截断;4)采用在纽约时报语料上通过skip-gram模型预训练的词向量来对单词进行初始化,对没有出现在预训练词表中的单词,从一个标准的高斯分布中随机采样来初始化。表1展示了各个集合预处理完后的详细统计信息。训练集共有12785个句子,包括4393个触发词;测试集共有633个句子,包括424个触发词;验证集共有715个句子,包含501个触发词。表1各个集合预处理完后的详细统计信息集合文档数句子数触发词数训练集529127854393测试集40633424验证集30715501(2)构建主题感知的文档表示向量和主题感知的单词表示向量给定一个文档d={x1,x2,...,xi,...,xp},其中p是文档的长度,xi是第i个单词;采用变分自编码器(vae)来推断文档-主题分布p(zj|d)和主题-词分布p(xi|zj),其中zj属于预定义的主题集z={z1,z2,...,zt},t是预定义主题的个数;变分自编码器(vae)的损失函数的计算方式如公式(1)所示:l(d)=kl(q(m|d)||p(m))-em~q(m|d)[logp(d|m)](1)公式(1)使用kl散度衡量变分分布q(m|d)和先验分布p(m)的接近程度,其中kl(q(m|d)||p(m))表示q(m|d)相对p(m)的kl散度,em~q(m|d)[logp(d|m)]表示变分自编码器的重构误差,m~q(m|d)表示m服从q(m|d)分布,m是变分自编码器(vae)编码器部分得到的中间潜在语义变量;文档-主题分布由中间潜在语义变量m经softmax概率归一化得到,主题-词分布则是变分自编码器(vae)解码器的参数。此外,使用归一化概率对属于第j个主题的前c个单词的词嵌入向量进行加权求和,以获得该主题的表示向量,具体形式如公式(2)所示:其中tj表示第j个主题的表示向量,p(xk|zj)是属于该主题的前c个单词的概率值,wk是单词xk的词嵌入向量。主题感知的文档表示向量:在变分自编码器(vae)后,得到文档在每个主题上的概率分布,具体形式如公式(3)所示:其中p(zj|d)表示文档d被分配给第j个主题的概率,然后,通过文档-主题概率分布与主题表示向量进行加权求和得到主题感知的文档表示向量td,具体形式如公式(4)所示:其中td为文档d包含通用全局信息的表示向量,即为主题感知的文档表示向量,确保内容相似的文档,主题感知的文档表示向量也接近。主题感知的单词表示向量:对于文档d中的每个单词xi,单词xi在潜在主题上的概率分布由p(zj|xi,d)∝p(xi|zj)*p(zj|d)计算得到;再对其进行归一化后,得到单词xi的主题分布由向量pxi表示,具体形式如公式(5)所示:其中p(zj|xi,d)表示文档d中的第i个单词分配给第j个主题的概率,然后,通过单词-主题概率分布与主题表示向量加权求和得到主题感知的单词表示向量具体形式如公式(6)所示:其中为包含话题语义线索的单词表示向量,即为主题感知的单词表示向量,与主题感知的文档表示向量相比,其能够获得更多有价值的消歧依据。(3)对候选事件提及进行序列编码给定文档中的句子x={x1,x2,...,xi,...,xn},其中n是句子的长度,xi是第i个单词;将句子中的每个词都看作候选事件触发词,包含事件触发词的句子即为事件提及,因此文档中的每个句子都看作候选事件提及。对于单词xi的表示,使用它的词嵌入向量wi初始化;然后与主题感知的文档表示向量td拼接得到第i个单词的文档级表示向量如公式(7)所示:对于每个单词xi,结合历史信息和将来信息以增强其文档级表示向量的语义丰富性,采用双向长短期记忆网络(bi-directionallongshort-termmemory,bi-lstm)进行序列编码,给定候选事件提及序列文档级表示向量矩阵分别通过(前向lstm)和(后向lstm)得到整个序列的隐表示矩阵和其中向量和分别通过公式(8)和公式(9)计算得到:前向lstm和后向lstm分别捕获了单词的历史信息和将来信息;最后拼接向量和得到句子中第i个单词的隐表示向量,即其中表示拼接操作,则整个句子表示为矩阵(4)建立分层的自注意力模型自注意力机制能将句子序列中不同位置的元素关联起来,公式(10)描述了自注意力机制的形式,其缩放因子d设置为1,q∈rn*2h为查询矩阵,k∈rn*2h为键矩阵,v∈rn*2h为值矩阵;主题感知的文档级自注意力模型:利用公式(10)对矩阵ht_d进行自注意力编码,其中,首先将与的转置矩阵相乘,接着通过softmax归一化函数得到注意力矩阵at_d,其中每个注意力值如公式(11)所示:接着,将at_d与ht_d相乘得到主题感知的文档级增强表示向量矩阵,其中每个单词的文档级增强表示如公式(12)所示:将公式(12)获得的表示向量与主题感知的单词表示向量拼接,得到主题感知的单词级表示向量,如公式(13)所示:同样,经过bi-lstm序列编码得到隐表示矩阵,如公式(14)所示:整个句子表示为矩阵主题感知的单词级自注意力模型:利用公式(10)对得到的矩阵ht_x进行自注意力编码,得到单词的最终表示,如公式(15)和公式(16)所示:公式(16)中的表示了第i个词最终的表示,不仅包含通用的全局信息,而且包含局部特定语义线索。(5)预测事件类型通过上一步得到的最终表示之后利用带有softmax层的前馈神经网络来得到单词所属事件类型的概率分布。完整模型的联合损失函数如公式(17)所示:其中oi,j和yi,j分别是候选触发词xi在第j个事件类型上的预测概率值和真实概率值。在具体实施过程中,通过提前设定各种超参数的值,即将单词表示wi的维度设置为300,vae中的主题个数设置为50,学习率设置为1e-4,batch的大小设置为32;事件检测中学习率设置为0.5,隐藏层设置为150,batch设置为64,dropout率设置为0.2。通过运行本发明方法100次,得到事件检测的结果。表2展示了在这100次运行过程中,整体目标函数的损失值j′(θ)的变化。表2100次运行过程中,整体目标函数损失值j′(θ)在训练集上的变化为了验证本发明方法的有效性,将本发明方法(htdsa)与当前先进并具有代表性的模型(cross-document、cross-event、cross-entity、jointmodel、jrnn、dlrnn、deeb-rnn、hbtngma)进行对比,大致可以分为两类:基于特征的模型1)cross-document:ji等人[1]采用文档主题聚类并设计复杂的推理规则以保证文档层面和主题层面事件类型的一致性。2)cross-event:liao等人[2]利用同一篇文档内相同事件和相关事件的一致线索来检测事件。3)cross-entity:hong等人[3]提出将实体共现信息作为关键特征以进行事件检测。4)jointmodel:li等人[4]提出一种基于联合波束搜索的结构化感知机来抽取事件。基于表示的方法5)jrnn:nguyen等人[5]采用双向rnn并设计了离散结构来联合抽取事件触发词和事件元素。6)dlrnn:duan等人[6]通过拼接词向量和文档向量自动抽取跨句子的线索。7)deeb-rnn:zhao等人[7]采过有监督的分层注意力机制来学习文档嵌入,在此基础上进行事件触发词检测。8)hbtngma:chen等人[8]通过门控多级注意力并动态融合了句子级和文档级信息以自动抽取事件。具体评价指标采用p、r、f1值进行实验性能的评价。表3展示了各种方法在测试集上的整体性能,f1分数值越高表示该模型性能越好,其中加粗部分的模型为基于表示的模型,反之为基于特征的模型;表示利用了跨句子级的线索。表3本发明方法与其他方法在同一测试集上的性能比较从表3的实验结果可看出:1)除了deeb-rnn,本发明的htdsa框架几乎超过了所有比较的方法。具体地,在所有基于表示的跨句子模型中,htdsa获得了至少0.4%(hbtngma)和最高3.2%(dlrnn)的改进。这主要是因为本发明的主题模型同时捕获了通用的全局文档信息和特定语义的单词线索,相比于前者,后者可以为消歧提供更有价值的信息依据。2)总的来说,无论是基于特征的还是基于表示的模型,使用跨句子级线索的模型都比句子级别模型更具优势。具体地,在基于特征的模型中,相比于jointmodel,除了cross-document低一些外,其余的模型分别得到0.8%和1.3%的改进;在基于表示的模型中,所有跨句子模型都超过了jrnn的性能。这证明了跨句子级线索对于事件检测任务是很有用的。3)与deeb-rnn相比,尽管本发明的htdsa模型并没有提高f1值(降低了0.3%),但htdsa仍获得了相当具有竞争力的f1值。这可能是无监督学习方法的固有局限性引起的。另外,为了验证主题感知的表示和分层结构的效果。本发明实施设计了一系列的对比实验如表4所示,“t-a”是主题感知的缩写,其中前两种结构中的特征通过拼接操作得到,最后的分层结构有两个变体,分别是:all-1:使用了从低到高的分层结构,即“单词-文档”。all-2:采用了从高到低的分层结构,即“文档-单词”,这就是本发明提到的htdsa模型。表4不同结构和特征组合的性能比较从表4中,可以得到以下观察结果:1)相比于仅使用词嵌入作为特征的模型,大部分纳入主题感知表示的模型均提高了事件检测的性能,尤其是在前两个结构中,分别得到了至少2%和1.3%的性能改进。这意味着主题模型确实可以带来有效的信息。2)在相同特征的情况下,相比于结构1(bi-lstm),结构2(bi-lstm+selfatt)实现了更好的性能。具体地,在不同的特征组合下,结构2比结构1分别得到1.2%,0.5%,0.6%的改进。这证明了自注意力机制的有效性。3)当所有特征全部使用的情况下,结构3(hbi-lstm+selfatt)的性能明显好于前两种结构。具体而言,它的性能至少得到0.3%的提高,主要原因是层次结构更易于捕获语义和语法信息。4)在结构3中,all-2(htdsa)比all-1得到了0.5%的改进。这意味着本发明的直觉是有效的,即“文档-单词”的分层结构反映了人们识别文本事件的直观过程。此外还研究了使用不同主题感知策略来解决歧义问题的效果。基于相同的层次结构,使用不同的特征设计了三种比较方法,如下所示:t1:仅使用单词嵌入作为特征。t2:除了单词嵌入外,主题感知的文档表示也被用作特征。t3:在t2的基础上,主题感知的词表示也用作特征。图3展示了三个比较方法中最常见的三个事件类型中歧义词的召回率。通过观察实验结果得到:1)主题感知的文档表示可能会引入一定的噪音信息干扰事件检测,如上图die事件在引入主题感知的文档表示后召回率下降;2)主题感知的单词表示可以捕获更多特定类型的信息来改进事件检测。特别是,在三种事件类型的歧义词中,相比于t1,t3均完成了接近两倍的性能改进。最后,本发明还研究了主题数量对于事件检测性能的影响。众所周知,主题个数是一个重要的超参数,其对主题模型的结果有很大的影响。如果主题数量太小,模型描述数据的能力则会受到限制,这将导致很难捕获到合适的主题分布;而当主题数量超过一个阈值,主题数量的增加不仅无效,而且会增加模型训练的时间。下面比较了三个主题感知模型在不同主题数量下的性能,包括结构2(bi-lstm+selfatt)中的t-adoc、t-aword和结构3(htdsa)中的all-2,将主题数量分别设置为0,25,50,75,100,0个主题对应着结构2中仅使用词嵌入的模型。图4展示了实验结果,其中x轴代表主题数量,y轴表示f1值。直观上来看,随着主题数量的增加,htdsa都优于其两个模型。除此之外,还注意到:1)当主题数为50的时候,三个模型均得到了最佳的性能;2)当主题数为100时,它们都达到与原始模型(主题数为0)相似的性能。这些不仅证明了本发明设计的htdsa模型的有效性,而且进一步验证了主题数目对性能的重要影响。本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。参考文献:[1]jih,grishmanr.refiningeventextractionthroughcross-documentinference[c].inproceedingsofthe46thannualmeetingoftheassociationforcomputationallinguistics:humanlanguagetechnologies,2008:254–262.[2]liaos,grishmanr.usingdocumentlevelcross-eventinferencetoimproveeventextraction[c].inproceedingsofthe48thannualmeetingoftheassociationforcomputationallinguistics,2010:789–797.[3]hongy,zhangj,mab,etal.usingcross-entityinferencetoimproveeventextraction[c].inproceedingsofthe49thannualmeetingoftheassociationforcomputationallinguistics,2011:1127–1136.[4]liq,jih,huangl.jointeventextractionviastructuredpredictionwithglobalfeatures[c].inproceedingsofthe51stannualmeetingoftheassociationforcomputationallinguistics,2013:73–82.[5]nguyenth,chok,grishmanr.jointeventextractionviarecurrentneuralnetworks[c].inproceedingsofthe15thannualconferenceofthenorthamericanchapteroftheassociationforcomputationallinguistics,2016:300–309.[6]duans,her,zhaow.exploitingdocumentlevelinformationtoimproveeventdetectionviarecurrentneuralnetworks[c].inproceedingsofthe8thinternationaljointconferenceonnaturallanguageprocessing,2017:351–361.[7]zhaoy,jinx,wangy,etal.documentembeddingenhancedeventdetectionwithhierarchicalandsupervisedattention[c].inproceedingsofthe56thannualmeetingoftheassociationforcomputationallinguistic,2018:414–419.[8]cheny,yangh,liuk,etal.collectiveeventdetectionviaahierarchicalandbiastaggingnetworkswithgatedmulti-levelattentionmechanisms[c].inproceedingsofthe2018conferenceonempiricalmethodsinnaturallanguageprocessing,2018:1267–1276.本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1