一种事件类型识别方法及装置的制造方法

文档序号:10725053阅读:384来源:国知局
一种事件类型识别方法及装置的制造方法
【专利摘要】本发明公开了一种事件类型识别方法及装置。该方法包括以下步骤:对训练集中所有文本进行分词、提取词性处理后训练词向量空间模型,提取文本的特征,将文本表示为特征向量;对于训练集进行事件类型聚类,训练带有类型聚类正则化项的神经网络模型;对于测试样本同样进行分析、提取词性处理,并利用已经训练好的词向量模型,得到特征表示;利用类型聚类正则化项的神经网络模型进行事件类别识别。借助于本发明的技术方案,能够利用同一群组中的类型共享信息来减轻标注数据不平衡带来的问题。
【专利说明】
一种事件类型识别方法及装置
技术领域
[0001] 本发明涉及计算机自然语言处理领域,特别涉及一种事件类型识别方法及装置。
【背景技术】
[0002] 随着大数据时代的来临,特别是微博、微信、购物等移动应用的推广,文本数量呈 爆炸式增长,如何从文本中挖掘出有价值的信息成为当前的一项重要研究课题。信息抽取 是从大量无结构文本中识别和抽取人们感兴趣的信息,为进一步的话题检测与跟踪、信息 检索、知识问答等应用打下基础。例如,从网站浏览记录中提取用户关心的话题,从新闻报 道中提取爆炸、恐怖袭击等重大事件。美国著名机构TDT(Topic Detection and Tracking) 针对新闻媒体等网络文本设立了专门的研究课题,目的是能够对新闻媒体中的热点话题进 行持续地追踪和检索。TDT的主要任务包括:(a)文本数据信息过滤和提取;(b)热点事件发 生时间抽取;(c)热点事件与话题挖掘。其中事件类型识别是TDT的关键技术。目前主流的事 件类型识别方法采用了有监督学习方法。有监督学习方法利用标注好的实例集合来训练分 类器。但是,现在可获取的已标注数据都是高度不平衡的。原因在于常见事件和不常见事件 的出现情况有很大不同。举例来说,ACE2005将事件分为了8个大类,33个小类。
[0003] 表一
[0005] 表一显示了 ACE2005语料中的已标注事件中最常见及最不常见事件的统计信息。 最常出现的事件的出现次数比最不常见的事件的出现次数高了大约55(3187/57)倍。对于 普通事件来说,比如攻击和运输,它们在现实生活中经常发生,语料中也有数以百计的此类 标注实例。然而,对于那些不常见的事件,语料中仅仅只有几条标注的实例。像引渡、假释和 宣告无罪这些类别的事件,在语料库中只有不到10条标注实例。显然,在这样一个小规模的 训练数据集上很难得到一个令人满意的结果。

【发明内容】

[0006] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的一种事件类型识别方法及装置。
[0007] 本发明的提供一种事件类型识别方法,包括以下步骤:
[0008] 对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练,根据 词向量模型的输出得到训练样本集中每个词语的词向量;将训练样本集中的预定词性的词 语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向 量:Ti,进而将训练样本集表示为特征向量[ri,r2,. . .,rn];
[0009] 在特征向量Γι的基础上加入事件类型向量得到特征向量v,对训练样本集进行事 件类型聚类,得到多个聚类簇并进行处理;根据所述聚类簇,训练所述训练样本集,得到带 有类型聚类正则化项的神经网络模型;
[0010] 对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测 试样本中每个词语的词向量;将测试样本集中预定词性的词语作为事件触发词,根据事件 触发词的词向量,将触发词及触发词的上下文表示为特征向量,进而将测试样本表示为特 征向量;
[0011] 将测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型,然后 进行softmax操作得到测试样本属于某一事件的概率。
[0012] 本发明还提供了一种事件类型识别装置,包括训练样本集特征提取模块、事件类 型聚类及训练模块、测试样本集特征提取模块、以及测试模块;
[0013] 所述训练样本集特征提取模块,用于对训练样本集中所有文本进行分词、标注词 性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向 量;将训练样本集中的预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发 词及触发词的上下文表示为特征向量ri,进而将训练样本集表示为特征向量[ri,r2, ..., rn];
[0014] 所述事件类型聚类及训练模块,用于在特征向量^的基础上加入事件类型向量得 到特征向量ν,对训练样本集进行事件类型聚类,得到多个聚类簇并进行处理;根据所述聚 类簇,训练所述训练样本集,得到带有类型聚类正则化项的神经网络模型;
[0015] 所述测试样本集特征提取模块,用于对测试样本集中所有文本进行分词、标注词 性处理后输入所述词向量模型得到测试样本中每个词语的词向量;将测试样本集中预定词 性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为 特征向量,进而将所述测试样本表示为特征向量;
[0016] 所述测试模块,用于将测试样本的特征向量输入到所述带有类型聚类正则化项的 神经网络模型,然后进行softmax操作得到测试样本属于某一事件的概率。
[0017] 本发明有益效果如下:
[0018] 本发明实施例运用聚类算法将所有事件类型自动聚为几个群组,并且提出类型-群组正则项来促进同一个群组中的类型在训练过程中共享信息,这样稀疏的类型的事件就 可以从同一个群组中的密集类型中获取部分信息。进一步的,本发明实施例的神经网络模 型使用词向量作为输入并且具有自动学习特征,充分利用了神经网络的优势,能够解决事 件检测任务中数据不平衡带来的问题。
【附图说明】
[0019] 图1是本发明方法实施例的事件类型识别方法的流程图;
[0020] 图2是本发明方法实施例实例1的事件类型识别方法的示意图;
[0021] 图3是本发明装置实施例的事件类型识别装置的结构示意图。
【具体实施方式】
[0022] 为了解决现有技术事件检测任务中数据不平衡带来的问题,本发明提供了一种事 件类型识别方法及装置,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理 解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
[0023] 根据本发明的方法实施例,提供了一种事件类型识别方法,图1是本发明方法实施 例的事件类型识别方法的流程图,如图1所示,根据本发明方法实施例的事件类型识别方 法,包括如下处理:
[0024] 步骤101,对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训 练,根据词向量模型的输出得到训练样本集中每个词语的词向量;将训练样本集中的预定 词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示 为特征向量ri,进而将训练样本集表示为特征向量[ri,r2,. . .,rn]。
[0025] 在步骤101中,所述预定词性的词语为名称和动词。
[0026] 进一步的,所述对训练样本集和测试样本集除进行分词以及标注词性处理,还包 括去除停用词等。
[0027] 具体的,对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训 练,根据词向量模型的输出得到训练样本集中每个词语的词向量包括以下步骤:
[0028]对训练样本集中所有文本进行分词、标注词性处理后得到词序列{W1,W2, ...,wT}, 对所述词序列Iwi,W2,...,WT}构建模型的目标函数,所述模型的目标函数如公式1所示;
[0029]
[0030] 在公式1中,T代表词序列中词的个数;c是词向量模型训练过程中限定的上下文范 围;p(wt+j |wt)用公式2表示;
[0031]
[0032] 在公式2中,v?4和分别表不wt的输入向量和输出向量;W代表词典集合的大小;
[0033] 根据所述模型的目标函数,对训练样本集进行词向量模型训练,根据词向量模型 的输出得到训练样本集中每个词语的词向量。
[0034] 具体的,将训练样本集中的名词和动词作为事件触发词,根据事件触发词的词向 量,将触发词及触发词的上下文表示为特征向量n,进而将所述训练样本集表示为特征向 量[ri,r2,...,r n]包括以下步骤:
[0035] 根据训练样本集中词语的词性,将训练样本集中的名词和动词作为事件触发词;
[0036] 根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量n,进而 将所述训练样本集表示为特征向量[ri,r2,. . .,rn];
[0037] 在公式[ri,r2,. . .,rn]中,ri表示ri~rn中任意一个触发词加上触发词上下文的特 征表示,η为触发词的总个数;η 6 表示ri属于di的实数空间;di=dwXni,di 表示η词向量的维度,dw表示ri所对应的触发词的词向量的维度,m表示ri所对应的触发词 的上下文词语的数量。
[0038] 步骤102,在特征向量ri的基础上加入事件类型向量得到特征向量v,对训练样本 集进行事件类型聚类,得到多个聚类簇并进行处理;根据所述聚类簇,训练所述训练样本 集,得到带有类型聚类正则化项的神经网络模型。
[0039] 具体的,在所述特征向量Γι的基础上加入事件类型向量得到特征向量V,对训练样 本集进行事件类型聚类,得到多个聚类簇并进行处理包括以下步骤:
[0040] 在所述特征向量ri的基础上加入事件类型得到特征向量V,进而得到所述训练样 本集的特征向量V,其中,v E 11夂>5·,.即v属于din的实数空间,din=di+m,,di表示ri词向量的 维度,m表示触发词对应的事件类型的个数;
[0041 ]根据训练样本集中每一个触发词的特征向量v和训练样本集的特征向量V,利用K-means聚类算法对训练样本集进行事件类型聚类,得到多个聚类簇;
[0042]统计每一个聚类簇中事件类型的个数和触发词的个数,如果某个事件在聚类簇中 的触发词个数比在所述标注样本集中触发词个数的一半还少,那么将该事件类型从聚类簇 中移除;如果聚类簇只包含一个事件类型,那么将该聚类簇删除。
[0043]具体的,根据所述聚类簇,训练所述训练样本集,得到带有类型聚类正则化项的神 经网络模型包括以下步骤:
[0044] 对训练集合(x(1);y(1)),定义负对数似然损失函数J(0),
[0045]
[0046] 在公式3,J(0)表示负对数似然损失函数,表示一个事件类别的标签;代表 训练样本,0代表参数;
[0048]在公式4中,c是C中的一个聚类簇;C代表训练样本集中所有的聚类簇;n(°'k)代表第 C聚类簇中第k个事件类型的触发词个数,Wo代表输出层的权重矩阵,代表第C类簇中第 k个事件类型的权重;代表C中所有权重向量的平均值;其中,辦@ 代表第C聚类簇中第j个事件类型的权重;
[0049] 将J(0)和R(0)代入公式5,采用随机梯度下降法(SGD)将损失函数最小化获得Θ的 值;
[0050] 损失函数 ^(0),^(0)=^0)+(^(0)公式 5;
[0051] 在公式5中,^(θ)代表损失函数,u是权衡J(0)和R(0)的超参数。
[0052]步骤103,对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模 型得到测试样本中每个词语的词向量;将测试样本集中预定词性的词语作为事件触发词, 根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量,进而将所述测试 样本表示为特征向量。在本发明中,所述测试样本指的是测试样本集中的文本。
[0053]本发明步骤103的具体操作与步骤101相同或相似。
[0054]步骤104,将测试样本集中的每一个测试样本的特征向量输入到所述带有类型聚 类正则化项的神经网络模型,然后进行softmax操作得到测试样本属于某一事件的概率。
[0055]具体的,将测试样本集的特征向量输入到所述带有类型聚类正则化项的神经网络 模型中并进行softmax操作得到测试样本属于某一事件的概率包括以下步骤:
[0056]将测试样本集的特征向量输入到所述带有类型聚类正则化项的神经网络模型中, 对于某一个事件s,得到以Θ为参数的人工神经网络输出向量〇;
[0057]利用公式6对所有事件类型进行softmax操作,得到测试样本属于某一事件的概 率;
[0059] 在公式6中,p(i|x,0)表示给定文本X属于第i类事件的概率;〇1代表第i个类别的 值,〇k代表第k个类别的值;k代表一个事件,m代表事件的种类,Θ代表参数。
[0060] 为了使本发明方式实施例更加清楚明白,以下结合具体实例1,对本发明进一步详 细说明。
[0061] 本发明方法实施例实例1的执行环境采用一台具有2.4G赫兹中央处理器和8G字节 内存的奔腾4计算机并用JAVA语言编制了事件类型识别程序,还可以采用其他的执行环境, 在此不再赘述。
[0062] 图2是本发明方法实施例实例1的事件类型识别方法的示意图,如图2所示,所述方 法包括以下步骤:
[0063] 步骤1:对训练样本集中每一个文本进行分词等文本预处理工作;
[0064]其中,步骤1中所述分词指的是利用NLPIR的分词工具将一个文本切割为一个个独 立的词语,那么一个文本就可以表示为[词1,词2···词η],其中η为该文本的词语数目。
[0065] 步骤1中所述预处理工作包括去除文本的停用词、标注词语的词性,以达到去除一 定的干扰的目的。
[0066] 所述词性指的是词语属于名词、动词、形容词、数词、量词、代词、副词、介词、连词、 助词、叹词、拟声词、区别词、语气词、或状态词中的一种。
[0067] 步骤2:对分词后的文本进行词向量模型训练。
[0068]本发明方法实施例实例1使用Skip-gram模型进行词向量模型训练。在传统η元语 言模型的上下文中,通常是给出第i个词之前的η个词的序列{Wl-n,,要求预测第i 个词Wi的概率分布,该过程是一个连续序列的预测过程。而对于Skip-gram语言模型,给定 一个词wt,它的输出是预测第w t+j的概率。其中,j可能是大于1或小于-1的整数,因而词wt与 词wt+庙词序列中的位置并不一定连续,此所谓"跳跃"。形式化的,给定词序列{ W1,w2,..., WT},模型的目标函数为最大化如下指数概率:
[0070]在公式1中,T代表代表词序列中词的个数,c是训练模型过程中限定的上下文范 围。C值越大,模型利用的上下文范围越广,则训练所得的模型可能越准确。对于p (wt+j I Wt) 用公式2表示,
[0072] 在公式2中,1%和__vWi分别表不wt的输入向量和输出向量;W代表词典集合的大小。
[0073] 步骤3:提取文本的特征,将文本表示为特征向量;
[0074] 所述步骤3进一步包括以下步骤:
[0075] 步骤31:提取文本中的名词和动词作为事件触发词;
[0076] 步骤32:根据步骤2得到每一个触发词的词向量攸€ 其中《代表词向量,cU表 示词向量的维度,,表示dw的实数空间,wfH,表示w属于这个实数空间。为了更有效地 描述文本,我们引入每一个触发词的上下文作为特征表示,那么一个文本可以表示为:[n, ?,. . .,rn],其中tv€H^sdi = dwXrn,n为触发词的总个数,m为上下文词语的数量。
[0077] 步骤4:对于训练集进行事件类型聚类。
[0078] 所述步骤4进一步包括以下步骤:
[0079] 步骤41:为每一个触发词构造一个特征向量v,V € 其中din = di+m。!!!为事件 类型的个数。具体来讲,特征向量的内容由触发词的词向量,其上下文的词向量以及触发词 对应的事件类型的词向量拼接而成。后m维的向量,用来区分不同的事件类型,使得同一类 型的事件聚到一个类中。不同类别的向量之间正交,这样使得不同类型的向量差异最大,相 同类型的向量差异最小。
[0080] 步骤42:利用κ-means聚类算法对训练集中的触发词进行训练。假设训练样本集有 N个触发词以及他们的描述向量V= {vi,V2,. . .,vn},给定群组数量k,那么K-mean算法的目 标是将V分成k个群组S= {Si,S2,. . .,Sk};
[0081] 步骤43:对每一个聚类簇,统计其中的事件类型的个数以及触发词个数。
[0082]步骤44:如果某个事件在聚类簇c中的触发词个数比它在整个语料中触发词个数 的一半还少,那么将该事件类型从聚类簇c中移除。
[0083]步骤45:如果聚类簇c只包含一个事件类型,那么将该聚类簇删除。
[0084] 步骤5:训练带有类型聚类正则化项的神经网络模型;
[0085] 基于人工神经网络,把模型训练成如下形式= (WE,Wh,W。)3。
[0086] 其中WE是指词向量,Wh和W。分别为人工神经网络的隐藏层和输出层。对于一个给定 的事件s,以Θ为参数的人工神经网络输出向量〇,其中的第i个值 〇1是第i个类别的置信度。 为了获得条件概率P(i |χ,θ),对所有事件类型进行softmax操作:
[0088] 在公式6中,〇i代表第i个类别的值,〇k代表第k个类别的值;k代表一个事件,m代表 事件的种类,Θ代表参数;
[0089] 对训练集合(X(1);y(1)),定义负对数似然损失函数J(0),
[0090] !( 8 ) ::: -ZLi 浪.名} 公式 3;
[0091] 在公式3,J(0)表示负对数似然损失函数,y(1)表示一个事件类别的标签;χ(1)代表 训练样本,Θ代表参数;
[0092] 为了共享不同事件类型的相关信息,将一个正则化项添加到损失函数中,定义正 则化项R(0)
[0093] 在公式4中,c是C中的一个聚类簇;C代表训练样本集中所有的聚类簇;n(°'k)代表第 c聚类簇中第k个事件类型的触发词个数,W。代表输出层的权重矩阵代表第c类簇中第 k个事件类型的权重;代表c中所有权重向量的平均值
其中,代 表第c聚类簇中第j个事件类型的权重;
[0094] 其中C是所有类型聚类簇,c是C中的一个聚类。n(°'k)是c中第k个类型的触发词个 数,ι?是c中所有类型的权重向量的平均值。W。是输出层的权重矩阵。这个假设背后的直觉 是,相似的事件类型应该有相似的权重向量。上述方程中的二次项使得同一个群组中的权 重向量相似。而它的系数使得实例越多的类型越不会受到这一项的惩罚。也就是说,有足够 多的已标注实例的类型将基本保持它们的权重向量不变。相反,那些实例很少的类型就需 要从群组中学习。这样,稀疏类型就可以从密集类型中获益,让我们的模型能够减轻因为标 注数据不平衡给事件类别识别带来的影响。
[0095] 最终的损失函数^(θ)表述如下:
[0096] J/(0)=J(0)+aR(0)公式 5;
[0097] 其中,a是权衡J和R的超参数。采用随机梯度下降法(SGD)将上述损失函数最小化 来获得Θ的值。
[0098] 步骤6:对于待分类的文本,同样进行分词预处理,并得到文本的特征向量表示,最 后利用步骤5得到的分类器模型进行分类。
[0099] 本发明方法实施例公开的面向非均衡样本的事件类型识别方法,与现有技术相 比,具有如下优点:
[0100] 1、提出了一个全新的事件类型识别框架。通过使同一群组中的类型共享信息来减 轻标注数据不平衡带来的问题。
[0101] 2、分类模型将词向量作为特征输入,能够利用神经网络的优势自动学习特征。
[0102] 装置实施例
[0103] 根据本发明的装置实施例,提供了一种事件类型识别方法装置,图3是本发明装置 实施例的事件类型识别装置的结构示意图,如图3所示,根据本发明装置实施例的事件类型 识别装置包括:训练样本集特征提取模块10、事件类型聚类及训练模块12、测试样本集特征 提取模块14、以及测试模块16;以下对本发明实施例的各个模块进行详细的说明。
[0104] 具体地,所述训练样本集特征提取模块10,用于对训练样本集中所有文本进行分 词、标注词性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个 词语的词向量;将训练样本集中的预定词性的词语作为事件触发词,根据事件触发词的词 向量,将触发词及触发词的上下文表示为特征向量ri,进而将训练样本集表示为特征向量
[!Γ?,!Γ2,· · ·,!Γη]〇
[0105] 更加具体的,所述训练样本集特征提取模块10包括训练样本集分词子模块、训练 样本集特征表示子模块;
[0106] 所述训练样本集分词子模块具体用于:
[0107] 对训练样本集中所有文本进行分词、标注词性处理后得到词序列{W1,W2, ...,WT}, 对所述词序列Iwi,W2,...,WT}构建模型的目标函数,所述模型的目标函数如公式1所示;
[0109]在公式1中,T代表词序列中词的个数;c是词向量模型训练过程中限定的上下文范 围;p(wt+j |wt)用公式2表示;

[0111] 在公式2中,和vWt分别表不wt的输入向量和输出向量;W代表词典集合的大小;[0112] 根据所述模型的目标函数,对训练样本集进行词向量模型训练,根据词向量模型 的输出得到训练样本集中每个词语的词向量;[0113] 所述训练样本集特征表示子模块具体用于:[0114] 根据训练样本集中词语的词性,将训练样本集中的名词和动词作为事件触发词;[0115] 根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量n,进而 将所述训练样本集表示为特征向量[ri,r2,. . .,rn];[0116] 在公式[ri,r2,. . .,rn]中,ri表示ri~rn中任意一个触发词加上触发词上下文的特征表示,η为触发词的总个数;€! ? 表示ri属于di的实数空间;di = dwXni,di表示η词向量的维度,dw表示ri所对应的触发词的词向量的维度,m表示ri所对应的触发词 的上下文词语的数量。[0117] 所述事件类型聚类及训练模块12,用于在特征向量^的基础上加入事件类型向量 得到特征向量V,对训练样本集中的触发词进行事件类型聚类,得到多个聚类簇并进行处 理;根据所述聚类簇,训练所述训练样本集,得到带有类型聚类正则化项的神经网络模型。[0118] 更加具体的,所述事件类型聚类及训练模块12包括事件类型聚类子模块、及神经 网络模型训练子模块;[0119] 所述事件类型聚类子模块具体用于:[0120] 在所述特征向量η的基础上加入事件类型得到特征向量V,进而得到所述训练样本集的特征向量V,其中,V' ,即v属于din的实数空间,din = di+m,di表示ri词向量的维度,m表示触发词对应的事件类型的个数;[0121 ]根据训练样本集中每一个触发词的特征向量v和训练样本集的特征向量V,利用K-means聚类算法对训练样本集进行事件类型聚类,得到多个聚类簇;[0122] 统计每一个聚类簇中事件类型的个数和触发词的个数,如果某个事件在聚类簇中 的触发词个数比在所述标注样本集中触发词个数的一半还少,将该事件类型从聚类簇中移 除;如果聚类簇只包含一个事件类型,将该聚类簇删除;[0123] 所述神经网络模型训练子模块具体用于,[0124] 对训练集合(x(1);y(1)),定义负对数似然损失函数J(0),
[0126]在公式3,J(0)表示负对数似然损失函数,y(1)表示一个事件类别的标签;x (1)代表 训练样本,0代表参数;
[0128] 在公式4中,c是C中的一个聚类簇;C代表训练样本集中所有的聚类簇;n(°'k)代表第 c聚类簇中第k个事件类型的触发词个数,W。代表输出层的权重矩阵,代表第c类簇中第 k个事件类型的权重代表c中所有权重向量的平均值其中,^4@代 表第c聚类簇中第j个事件类型的权重;
[0129] 将J(0)和R(0)代入公式5,采用随机梯度下降法(S⑶)将损失函数最小化获得Θ的 值;
[0130] 损失函数 ^(0),^(0)=^0)+(^(0)公式 5;
[0131]在公式5中,^(θ)代表损失函数,u是权衡J(0)和R(0)的超参数。
[0132] 所述测试样本集特征提取模块14,用于对测试样本集中所有文本进行分词、标注 词性处理后输入所述词向量模型得到测试样本中每个词语的词向量;将测试样本集中预定 词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示 为特征向量,进而将所述测试样本表示为特征向量。
[0133] 所述测试模块16,用于将测试样本的特征向量输入到所述带有类型聚类正则化项 的神经网络模型,然后进行softmax操作得到测试样本属于某一事件的概率。
[0134] 更加具体的,所述测试模块16具体用于:
[0135] 将将测试样本集中的每一个测试样本的特征向量输入到所述带有类型聚类正则 化项的神经网络模型中,对于某一个事件s,得到以Θ为参数的人工神经网络输出向量〇;
[0136] 利用公式6对所有事件类型进行softmax操作,得到测试样本属于某一事件的概 率;
[0138] 在公式6中,p(i | χ,θ)表示给定文本X属于第i类事件的概率;〇i代表第i个类别的 值,〇k代表第k个类别的值;k代表一个事件,m代表事件的种类,Θ代表参数。
[0139] 本发明实施例提出了一种采用神经网络模型来解决事件检测任务中数据不平衡 (非均衡样本)问题的方法和装置,在训练过程中促进不同的事件类型共享有效信息。具体 来说,首先,运用聚类算法将所有事件类型自动聚为几个群组,并且提出一个类型-群组正 则项来促进同一个群组中的类型在训练过程中共享信息。这样,稀疏的类型的事件就可以 从同一个群组中的密集类型中获取部分信息。进一步,我们的模型使用词向量作为输入并 且自动学习特征,充分利用了神经网络的优势。
[0140] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精 神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围 之内,则本发明也意图包含这些改动和变型在内。
【主权项】
1. 一种事件类型识别方法,其特征在于,包括W下步骤: 对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练,根据词向 量模型的输出得到训练样本集中每个词语的词向量;将训练样本集中的预定词性的词语作 为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri, 进而将训练样本集表示为特征向量[ri,n,...,rn]; 在特征向量ri的基础上加入事件类型向量得到特征向量V,对训练样本集进行事件类型 聚类,得到多个聚类簇并进行处理;根据所述聚类簇,训练所述训练样本集,得到带有类型 聚类正则化项的神经网络模型; 对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测试样 本中每个词语的词向量;将测试样本集中预定词性的词语作为事件触发词,根据事件触发 词的词向量,将触发词及触发词的上下文表示为特征向量,进而将测试样本表示为特征向 量,所述测试样本为测试样本集中的文本; 将测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型,然后进行 softmax操作得到测试样本属于某一事件的概率。2. 如权利要求1所述的事件类型识别方法,其特征在于,对训练样本集中所有文本进行 分词、标注词性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每 个词语的词向量包括W下步骤: 对训练样本集中所有文本进行分词、标注词性处理后得到词序列|W1,W2, ...,wt},对所 述词序列{W1,W2,...,wt}构建模型的目标函数,所述模型的目标函数如公式1所示;公或1 在公式1中,T代表词序列中词的个数;C是词向量模型训练过程中限定的上下文范围;P (wt+j|wt)用公式2表示;公式2 在公式2中,分别表示wt的输入向量和输出向量;W表示词典集合的大小; 根据所述模型的目标函数,对训练样本集进行词向量模型训练,根据词向量模型的输 出得到训练样本集中每个词语的词向量。3. 如权利要求1所述的事件类型识别方法,其特征在于,将训练样本集中的名词和动词 作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量 ri,进而将所述训练样本集表示为特征向量[η,η,...,rn]包括W下步骤: 根据训练样本集中词语的词性,将训练样本集中的名词和动词作为事件触发词; 根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将所述 训练样本集表示为特征向量[ri,n,...,rn]; 在公式[ri,r2,. . .,rn]中,ri表示ri~Γη中任意一个触发词加上触发词上下文的特征表 示,η为触发词的总个数;r;' € R'·气r; 6 表示η属于di的实数空间;di = dwXni,di表示η 词向量的维度,dw表示ri所对应的触发词的词向量的维度,ni表示ri所对应的触发词的上下 文词语的数量。4. 如权利要求1所述的事件类型识别方法,其特征在于,在所述特征向量ri的基础上加 入事件类型向量得到特征向量V,对训练样本集进行事件类型聚类,得到多个聚类簇并进行 处理包括W下步骤: 在所述特征向量ri的基础上加入事件类型得到特征向量V,进而得到所述训练样本集的 特征向量V,其中,Y gd",,即V属于din的实数空间,din = di+m,di表示ri词向量的维度,m表 示触发词对应的事件类型的个数; 根据训练样本集中每一个触发词的特征向量V和训练样本集的特征向量V,利用K- means聚类算法对训练样本集进行事件类型聚类,得到多个聚类簇; 统计每一个聚类簇中事件类型的个数和触发词的个数,如果某个事件在聚类簇中的触 发词个数比在所述标注样本集中触发词个数的一半还少,那么将该事件类型从聚类簇中移 除;如果聚类簇只包含一个事件类型,那么将该聚类簇删除。5. 如权利要求1所述的事件类型识别方法,其特征在于,根据所述聚类簇,训练所述训 练样本集,得到带有类型聚类正则化项的神经网络模型包括W下步骤: 对训练集合(xW;yW),定义负对数似然损失函数J(9),公式3; 在公式3,J(0)表示负对数似然损失函数,yW表示一个事件类别的标签;xW代表训练 样本,Θ代表参数;定义正则化项 、t 公式4; 在公式4中,C是帥的一个聚类簇;C代表训练样本集中所有的聚类簇;代表第C聚 类簇中第k个事件类型的触发词个数,W。代表输出层的权重矩阵,代表第C类簇中第k个 事件类型的权重;代表C中所有权重向量的平均值痒中,代 表第C聚类簇中第j个事件类型的权重; 将J(e)和R(0)代入公式5,采用随机梯度下降法将损失函数最小化获得Θ的值; 损失函数r (0),r (0)=J(0)+aR(0) 公式5; 在公式5中,j/(0)代表损失函数,α是权衡J(0)和R(0)的超参数。6. 如权利要求1所述的事件类型识别方法,其特征在于,将测试样本集中的每一个测试 样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型中并进行softmax操作 得到测试样本属于某一事件的概率包括W下步骤: 将测试样本集的特征向量输入到所述带有类型聚类正则化项的神经网络模型中,对于 某一个事件S,得到ΚΘ为参数的人工神经网络输出向量0; 利用公式6对所有事件类型进行softmax操作,得到测试样本属于某一事件的概率;公乂 6: 在公式6中,ρα?χ,θ)表示给定文本X属于第i类事件的概率;〇1代表第i个类别的值,Ok 代表第k个类别的值;k代表一个事件,m代表事件的种类,Θ代表参数。7. -种事件类型识别装置,其特征在于,包括训练样本集特征提取模块、事件类型聚类 及训练模块、测试样本集特征提取模块、W及测试模块; 所述训练样本集特征提取模块,用于对训练样本集中所有文本进行分词、标注词性处 理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量; 将训练样本集中的预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词 及触发词的上下文表示为特征向量ri,进而将训练样本集表示为特征向量[ri,r2,. . .,Γη]; 所述事件类型聚类及训练模块,用于在特征向量ri的基础上加入事件类型向量得到特 征向量V,对训练样本集进行事件类型聚类,得到多个聚类簇并进行处理;根据所述聚类簇, 训练所述训练样本集,得到带有类型聚类正则化项的神经网络模型; 所述测试样本集特征提取模块,用于对测试样本集中所有文本进行分词、标注词性处 理后输入所述词向量模型得到测试样本中每个词语的词向量;将测试样本集中预定词性的 词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征 向量,进而将所述测试样本表示为特征向量; 所述测试模块,用于将测试样本的特征向量输入到所述带有类型聚类正则化项的神经 网络模型,然后进行softmax操作得到测试样本属于某一事件的概率。8. 如权利要求7所述的事件类型识别装置,其特征在于,所述训练样本集特征提取模块 包括训练样本集分词子模块、训练样本集特征表示子模块; 所述训练样本集分词子模块具体用于: 对训练样本集中所有文本进行分词、标注词性处理后得到词序列|W1,W2, ...,wt},对所 述词序列{W1,W2,. . .,wt}构建模型的目标函数,所述模型的目标函数如公式1所示;公式1; 在公式1中,T代表词序列中词的个数;C是词向量模型训练过程中限定的上下文范围;P (wt+j|wt)用公式2表示;公式2; 在公式2中,\.和v":,.分别表不wt的输入向量和输出向量;W代表词典集合的大小; 根据所述模型的目标函数,对训练样本集进行词向量模型训练,根据词向量模型的输 出得到训练样本集中每个词语的词向量; 所述训练样本集特征表示子模块具体用于: 根据训练样本集中词语的词性,将训练样本集中的名词和动词作为事件触发词; 根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将所述 训练样本集表示为特征向量[ri,r2,. . .,rn]; 在公式[ri,r2,. . .,rn]中,ri表示ri~Γη中任意一个触发词加上触发词上下文的特征表 示,η为触发词的总个数巧€齡;,Γ; e;批嗦示ri属于di的实数空间;di = dw X m,d康示ri词 向量的维度,dw表示η所对应的触发词的词向量的维度,ni表示ri所对应的触发词的上下文 词语的数量。9. 如权利要求7所述的事件类型识别装置,其特征在于,所述事件类型聚类及训练模块 包括事件类型聚类子模块、及神经网络模型训练子模块; 所述事件类型聚类子模块具体用于: 在所述特征向量ri的基础上加入事件类型得到特征向量V,进而得到所述训练样本集的 特征向量V,其中,V泛,即V属于din的实数空间,din = di+m,di表示ri词向量的维度,m表 示触发词对应的事件类型的个数; 根据训练样本集中每一个触发词的特征向量V和训练样本集的特征向量V,利用K- means聚类算法对训练样本集进行事件类型聚类,得到多个聚类簇; 统计每一个聚类簇中事件类型的个数和触发词的个数,如果某个事件在聚类簇中的触 发词个数比在所述标注样本集中触发词个数的一半还少,将该事件类型从聚类簇中移除; 如果聚类簇只包含一个事件类型,将该聚类簇删除; 所述神经网络模型训练子模块具体用于, 对训练集合(xW;yW),定义负对数似然损失函数J(9),公式3; 在公式3,J(0)表示负对数似然损失函数,yW表示一个事件类别的标签;XW代表训练 样本,Θ代表参数;定义正则化项R(e) 公式4; 在公式4中,C是帥的一个聚类簇;C代表训练样本集中所有的聚类簇;代表第C聚 类簇中第k个事件类型的触发词个数,W。代表输出层的权重矩阵,孩沪代表第C类簇中第k个 事件类型的权重;'终:代表C中所有权重向量的平均值;串中,代表第 C聚类簇中第j个事件类型的权重; 将J(e)和R(0)代入公式5,采用随机梯度下降法将损失函数最小化获得Θ的值; 损失函数(0),J/ (θ)=·Τ(θ)+αΚ(θ) 公式5; 在公式5中,j/(0)代表损失函数,α是权衡J(0)和R(0)的超参数。10. 如权利要求7所述的事件类型识别装置,其特征在于,所述测试模块具体用于: 将将测试样本集中的每一个测试样本的特征向量输入到所述带有类型聚类正则化项 的神经网络模型中,对于某一个事件S,得到ΚΘ为参数的人工神经网络输出向量0; 利用公式6对所有事件类型进行softmax操作,得到测试样本属于某一事件的概率;公式6; 在公式6中,p(i I χ,θ)表示给定文本X属于第i类事件的概率;oi代表第i个类别的值,Ok 代表第k个类别的值;k代表一个事件,m代表事件的种类,Θ代表参数。
【文档编号】G06F17/30GK106095928SQ201610409465
【公开日】2016年11月9日
【申请日】2016年6月12日
【发明人】佟玲玲, 杜翠兰, 钮艳, 刘洋, 段东圣, 鲁睿, 程光, 项菲, 柳毅
【申请人】国家计算机网络与信息安全管理中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1