使用局部学习完成简易事件抽取的方法与流程

文档序号:18900812发布日期:2019-10-18 21:54阅读:847来源:国知局
使用局部学习完成简易事件抽取的方法与流程

本发明涉及简易事件抽取领域,具体涉及一种使用局部学习完成简易事件抽取的方法。



背景技术:

简易事件定义为动词和它的宾语直接连接的事件,用于描述场景。例如:打篮球、踢足球、吃早餐、打电话。我们将简易事件抽取问题转化为命名实体识别问题,从句子中识别出事先定义的事件要素类别实例。

实体识别任务经过多年研究,已经取得很好的进展。目前主要研究难点在于:在不同领域和不同应用中,通常要识别新实体类别,很难对应快速构建高性能系统。在构建新实体类别识别系统时,通常需要有标注语料来训练模型,而这时很难制定出详实准确的实体标注规范,且标注数据费时费力。另外,领域自适应问题也是一个非常突出的问题,即实体识别系统在新领域文本上标注性能下降幅度较大。

目前,常见的实体识别方法大致可以分为:1)基于规则和词典的方法;2)基于传统机器学习模型的方法;3)基于深度学习的方法。在三种方法的基础上,还有一些系统构建在它们之间的混合之上。

现有相关技术:

1、数据构建:

专家标注,即数据标注人员为所在领域的专家或者标注规范制定人员,以此来获取高质量的标注数据。

众包标注。众包是一种分布式的问题解决和标注模式,通过将数据和标注规范提供给非专业人员。经过简单培训后进行标注,最后将有标注的数据提供给众包数据发布者。过程中往往会设置部分的“陷阱”,之后根据非专业人员的标注表现,提供一定奖励。

远程监督。假设一开始存在少量人工标注数据和实体词表情况下,远程监督方法用该词表在大规模无标注语料中进行匹配,匹配上的字符串就认为是正确的标注。

2、基于深度学习的实体识别方法:

目前最常用的模型是bilstm-crf模型,模型的为链式结构分为embedding层(用向量表示输入的字或词),双向lstm层(在向量表示的基础上对整句话建模抽取隐含表示),线性层(串联字符与标签的映射关系)以及最后的crf层(串联标签与标签的映射关系)构成。实验结果表明bilstm-crf获得了更好的效果,已经达到或者超过了基于丰富特征的crf模型。在特征方面,该模型不需要特别好的特征工程,使用词向量以及字符向量就可以达到很好的效果。

传统技术存在以下技术问题:

1、数据构建:

1)专家标注人数一般较少,标注速度慢,无法获得成规模的标注语料,无法满足实际的应用需求。

2)众包标注的人员对数据领域没有太多经验,在标注前需要制定详细的标注规范,并且需要经过一段时间的培训。不同的标注员对于规范和语料有不同的理解和标注习惯,导致标注结果中存在大量的标注不一致或错误标注,导致标注数据质量低下。

例:

标注员1:包装严实送到没有磕碰。

标注员2:{包装@event}严实送到没有磕碰。

“包装”在这句话的上下文情境中不表示为简易事件,属于标注不一致的例子。

3)远程监督受限于已经构建的种子资源的规模和质量,很多未登录资源容易被遗漏。数据构造过度依赖匹配准则和算法,所以远程监督获取的数据存在两个问题——漏标和错标。

例1:我喜欢beyond的{不再犹豫@song}和再见理想。【漏标】

例2:我{不再犹豫@song}直接去了车站。【错标】

在例1中,“再见理想”也是一首歌,由于词表里没有,导致漏标。在例2中,“不再犹豫”不是歌名,属于错标。

4)对于标注所使用的标注规范,需要紧密结合实际任务和数据,经过不断完善才能最终敲定。目前面向电商领域的事件标注规范几乎没有。

2、基于神经网络的命名实体识别模型:

目前神经网络模型已被广泛应用于多个自然语言处理任务上,较传统模型取得了不小的进步。但它也暴露出很多缺点:

1)数据问题:神经网络模型能取得不错的效果是建立在大数据的基础上的,与传统的机器学习算法相比,神经网络需要更多的数据。最终的模型效果很大程度上与提供的数据有关,数据质量尤为重要。

2)可解释能力较弱,对于预测出的结果没有可利用的特征对其进行解释。

3)计算成本上往往比传统算法更加昂贵,由于训练数据的增加和网络深度的增加,需要更多的计算资源。



技术实现要素:

本发明要解决的技术问题是提供一种使用局部学习完成简易事件抽取的方法,通过把事件抽取问题转化为命名实体识别问题。然后根据电商领域丰富事件资源给出简易事件的定义,根据实际标注情况不断迭代出详细的实体标注规范。使用小规模专家标注和大规模众包标注,从中抽取出事件资源列表。再利用远程监督的方法,对大规模无标注数据进行标注。使用局部学习方法来尝试解决远程监督获取的数据中存在的漏标和错标问题,从而提高基于神经网络的实体识别模型。

为了解决上述技术问题,本发明提供了一种使用局部学习完成简易事件抽取的方法,包括:

标注规范构建过程:

根据框架下的三类:动宾、双动词、其他,给出具体事件定义。

在这基础上根据实际语料给出符合定义的例子,对于存在歧义的地方提供注意事项。

规范的构建需要不断迭代,根据实际情况不断完善,最终形成一个条理清晰直观明了的文档。

远程监督语料构建过程:

首先获取简易事件定义和标注规范。

招聘标注人员根据规范进行培训,然后获得一定规模的人工标注数据,将这部分数据中的实体抽取出来,构建实体词表。

用所述实体词表在大规模未标注文本中进行匹配,得到远程监督数据集。这部分数据中包含一定数量的噪音。

目标就是合理利用上面两部分数据作为训练数据,训练出一个性能较好的简易事件识别模型。

基于bilstm-crf的识别模型:

bilstm-crf模型把识别任务当作序列标注任务来处理,模型输入时汉字序列,输出是标签序列。在命名实体识别任务上,bilstm-crf已经取得良好效果,要素标注转换成序列标注时采用bieo标签,其中b-xx表示要素xx的第一个汉字,e-xx表示要素的最后一个汉字,要素的其他汉字标注为i-xx,而非要素汉字都标注为o。

在bilstm-crf模型中,对于输入的汉字序列,首先通过双向lstm来构造神经元特征,然后组合这些特征输入到crf层进行标签预测。整个模型分为三个主要部分:1)字向量表示:把输入字串表示为字向量,即把离散型输入转换成低维神经元输入;2)特征抽取:通过双向lstm和线性变换把字向量转换成神经元特征;3)实体标注:把特征输入到crf层,使用标注模块获取实体标签;

字向量表示:通过一个神经表达层把离散型输入汉字转换成低维神经元输入;使用一个looking-up表,表内存储着每个汉字的向量表示。向量的初始值可以通过随机数进行初始化或者预先在大规模无标注语料上用工具来训练。在模型训练过程中,向量的所有数值作为模型的参数,在迭代过程中随同其他参数一起优化;在给定中文句子的字序列时,过查表获取对应的字向量表示。

特征提取:基于输入字向量序列,我们通过双向lstm和一个线性层来提取特征这些特征将用于crf实体标注模块。lstm是长短期记忆网络,是一种循环神经网络,可以很好地对自然语言句子建模。我们将双向lstm对句子正向和反向抽取出来的特征进行拼接获得了字符的隐层表示

通过下列公式计算得到

其中w和b都是模型参数。上面的公式就是把字符映射到标签上,最终的序列就是由标签集中的标签组成。

实体标注:最终使用crf层进行解码,使模型能够学习到标签与标签之间的依赖关系。

求解计算公式如下:

在参数训练时,采用log-likelihood来计算损失值。人工标注序列的概率为:

损失值为:

训练的优化目标是最小化这个损失值。

基于局部学习的标注器:

局部学习的基本思路是将部分标注数据中的不完整标注句子转换为多路径标注句子,是对上述crf层的优化目标进行改进;采用基于bilstm-crf模型作为基础模型。

在其中一个实施例中,对于完整标注句子的概率定义如下:

其中,x是输入的句子字向量,yx表示x对应的所有合法路径集合。

在其中一个实施例中,而对于不完整标注句子的概率定义如下:

其中,d表示多路径标注序列。也就是一个训练实例的条件概率是多路径包含所有路径的概率之和。然后可以用和基准系统相同的求解方式来完成参数估计。

在其中一个实施例中,其中损失函数定义如下:

loss(θ,x,d)=-logp(d|x)。

在其中一个实施例中,具体来说,如果一个字在部分标注中没有指定标签,那么该字的标签标记为ukn,表示所有标签都有可能。

在其中一个实施例中,在此基础上,设计基于多路径标注句子的优化目标函数,从而有效利用部分标注数据进行模拟训练。

在其中一个实施例中,模型主要有训练和预测两个状态。在训练过程中需要输入带有标注的数据,模型需要不断更新参数;在优化目标下,使得输出的标注结果与真实值尽可能一致;这需要通过不停的循环迭代来更新这些参数,使得上述公式中的loss值不断减小,让模型能够学到更好的参数;另一个状态为预测,预测过程中的输入是不带标注的数据,这时使用的就是训练好的模型。在这个过程中不需要更新参数,将模型的输出作为最后预测结果。

在其中一个实施例中,

一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。

本发明的有益效果:

尝试解决远程监督获取的数据中存在的漏标和错标问题,提高模型对于命名实体的识别性能。

附图说明

图1是本发明使用局部学习完成简易事件抽取的方法的中的广泛应用于实体识别任务的bilstm-crf模型示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。

总结本专利的目的,就是利用局部学习方法减少远程监督获取到的数据中存在的漏标问题。为了做到这一点,我们定义了面向电商领域的简易事件标注规范。通过众包标注的数据,获取远程监督数据,在基于深度学习的命名实体识别方法上加入局部学习方法来提升事件识别性能。

标注规范构建过程:

1、根据框架下的三类:动宾、双动词、其他,给出具体事件定义。

2、在这基础上根据实际语料给出符合定义的例子,对于存在歧义的地方提供注意事项。

3、规范的构建需要不断迭代,根据实际情况不断完善,最终形成一个条理清晰直观明了的文档。

远程监督语料构建过程:

1、首先获取简易事件定义和标注规范。

2、招聘标注人员根据规范进行培训,然后获得一定规模的人工标注数据,将这部分数据中的实体抽取出来,构建实体词表。

3、用2中的实体词表在大规模未标注文本中进行匹配,得到远程监督数据集。这部分数据中包含一定数量的噪音。

我们的目标就是合理利用上面两部分数据作为训练数据,训练出一个性能较好的简易事件识别模型。

基于bilstm-crf的识别模型:

bilstm-crf模型把识别任务当作序列标注任务来处理,模型输入时汉字序列,输出是标签序列。在命名实体识别任务上,bilstm-crf已经取得良好效果,因此我们拟选bilstm-crf为基准模型。要素标注转换成序列标注时采用bieo标签,其中b-xx表示要素xx的第一个汉字,e-xx表示要素的最后一个汉字,要素的其他汉字标注为i-xx,而非要素汉字都标注为o。

在bilstm-crf模型中,对于输入的汉字序列,我们首先通过双向lstm来构造神经元特征,然后组合这些特征输入到crf层进行标签预测。整个模型分为三个主要部分:1)字向量表示:把输入字串表示为字向量,即把离散型输入转换成低维神经元输入;2)特征抽取:通过双向lstm和线性变换把字向量转换成神经元特征;3)实体标注:把特征输入到crf层,使用标注模块获取实体标签。

字向量表示:通过一个神经表达层把离散型输入汉字转换成低维神经元输入。我们使用一个looking-up表,表内存储着每个汉字的向量表示。向量的初始值可以通过随机数进行初始化或者预先在大规模无标注语料上用工具来训练。在模型训练过程中,向量的所有数值作为模型的参数,在迭代过程中随同其他参数一起优化。在给定中文句子的字序列时,我们通过查表获取对应的字向量表示。

特征提取:基于输入字向量序列,我们通过双向lstm和一个线性层来提取特征这些特征将用于crf实体标注模块。lstm是长短期记忆网络,是一种循环神经网络,可以很好地对自然语言句子建模。我们将双向lstm对句子正向和反向抽取出来的特征进行拼接获得了字符的隐层表示

通过下列公式计算得到

其中w和b都是模型参数。上面的公式就是把字符映射到标签上,最终的序列就是由标签集中的标签组成。

实体标注:最终使用crf层进行解码,使模型能够学习到标签与标签之间的依赖关系。

求解计算公式如下:

在参数训练时,我们采用log-likelihood来计算损失值。人工标注序列的概率为:

损失值为:

训练的优化目标是最小化这个损失值。

基于局部学习的标注器:

局部学习的基本思路是将部分标注数据中的不完整标注句子转换为多路径标注句子,是对上述crf层的优化目标进行改进。具体来说,如果一个字在部分标注中没有指定标签,那么该字的标签标记为ukn,表示所有标签都有可能。在此基础上,我们设计基于多路径标注句子的优化目标函数,从而有效利用部分标注数据进行模拟训练。我们采用上节描述的基于bilstm-crf模型作为基础模型。对于完整标注句子的概率定义如下:

其中,x是输入的句子字向量,yx表示x对应的所有合法路径集合。而对于不完整标注句子的概率定义如下:

其中,d表示多路径标注序列。也就是一个训练实例的条件概率是多路径包含所有路径的概率之和。然后可以用和基准系统相同的求解方式来完成参数估计,其中损失函数定义如下:

loss(θ,x,d)=-logp(d|x)

对上述方案的一些补充:

模型主要有训练和预测两个状态。在训练过程中需要输入带有标注的数据,模型需要不断更新参数。在我们的优化目标下,使得输出的标注结果与真实值尽可能一致。这需要通过不停的循环迭代来更新这些参数,使得上述公式中的loss值不断减小,让模型能够学到更好的参数。另一个状态为预测,预测过程中的输入是不带标注的数据,这时使用的就是训练好的模型。在这个过程中不需要更新参数,将模型的输出作为最后预测结果。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1