一种基于集中注意力模型的实体、关系联合学习方法与流程

文档序号：19422540发布日期：2019-12-14 01:43阅读：来源：国知局

技术特征：

1.一种基于集中注意力模型的实体、关系联合学习方法，其特征在于，包括以下步骤：

a1，临床文本序列s的首尾分别加上[cls]和[sep]，以[cls]sequence[sep]的形式输入embedding层，得到序列s中每个字的初始向量表示h0；

a2，将向量表示h0输入多头自注意力机制的前n-k层，经过n-k层的迭代后输出每个字的上下文表示信息hm；

a3，将每个字的上下文表示信息hm输入多头自注意力机制的余下k层，特定于任务的矩阵mask^task将注意力集中到任务所需的字上，得到对应实体识别和关系抽取任务的字向量表示

a4，输入字向量表示利用矩阵mask^task、实体识别下游任务层、关系分类下游任务层进行联合学习后，输出识别的实体信息和抽取的关系信息。

2.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法，其特征在于：在所述步骤a1中，临床文本序列s以[cls]sequence[sep]的形式输入embedding层，输出序列s中每个字的由字编码、位置编码、类型编码组成的初始向量表示h0，其表示为：

h0＝layernorm(e_word(s)+e_pos(s)+e_type(s))

其中，s为输入的临床文本序列，e_word，e_pos，e_type分别表示字编码、位置编码、类型编码函数。

3.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法，其特征在于：在所述步骤a2中，将向量表示h0输入多头注意力机制的前n-k层，注意力均匀地分布在每个字上，多头注意力只捕获上下文信息，第m层依据前一层的输出hm-1得到输出hm，hm的表示如下，

hm＝layernorm(hm’+posff(hm’))

其中hm’的表示如下，

hm’＝layernorm(hm-1+multheadselfattentionh＝12(hm-1,mask^all))

其中mask^all∈{1}^t×t表示每个字利用序列中其他字的信息计算注意力，t表示序列的长度，

经过n-k层的迭代后获得每个字的上下文表示信息hm。

4.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法，其特征在于：在所述步骤a3中，将每个字的上下文表示信息hm输入多头自注意力机制的余下k层，特定于任务的矩阵mask^task由动态范围注意力机制设定，mask^task将注意力集中到任务所需的字上，第m层依据前一层的输出得到输出的表示如下，

其中task∈{ner,rc}，的表示如下，

经过k层的迭代后获得对应任务的字向量表示

5.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法，其特征在于：在所述步骤a4中，mask^task依据任务不同分为用于实体识别的矩阵mask^ner和用于关系抽取的矩阵mask^rc，如下所示，

1)mask^ner的构造

在实体识别任务中，由动态范围注意力机制设定，mask^ner∈{1}^t×t表明每个字利用序列中其他字的信息计算注意力，不限制字的注意力范围，通过参数优化自行求出合适的注意力权重，最后输出序列中每个字对应的bieos标签。

2)mask^rc的构造

在关系抽取任务中，先将由mask^ner得到的bieos标签转换为实体列表，再从中取两个实体判断之间的关系，本发明修改了原本用于聚合序列的整体表示的[cls]的注意力范围，将其注意力集中于两个实体上，聚合两个实体的整体表示，从而获得所需的关系特征向量，

基于动态范围注意力机制，采用两种mask^rc矩阵设置方式，

i)[cls]只允许关注实体1、实体2，实体1、实体2的关注对象不做限制,mask^rc矩阵表示如下，

ii)只允许[cls]、实体1、实体2两两相互关注，mask^rc矩阵表示如下，

6.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法，其特征在于：在所述步骤a4中，实体识别下游任务层采用crf，将每个字的特征向量转换为对应bieos标签的概率分布，即取除[cls]之外的全部字在最后一层多头注意力输出的特征向量，输入crf层中进行一次线性变换，将字的向量表示转变为crf的发射概率，再配合crf层的转移概率，得到标签序列的得分，最后通过softmax函数变换得到标签序列的概率，概率的表示如下，

其中，的表示如下，

其中，表示给定mask^ner后共享任务表示编码层的输出，代表除[cls]之外的全部字在最后一层多头注意力输出的特征向量，表示在发射概率矩阵下，标注序列l的得分，

对应实体识别任务的loss函数表示如下所示，其训练目标为最小化lner，

其中，l’表示真正使用的标注序列。

7.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法，其特征在于：在所述步骤a4中，关系抽取下游任务层采用多层感知机将聚合两个实体的整体表示的[cls]特征向量转换成对应关系分类的概率分布，即取[cls]在最后一层多重注意力输出的特征向量，再经过两层感知机mlp得到对应分类的概率分布，概率分布的表示如下所示，

其中，的表示如下，

其中，表示给定mask^rc后共享任务表示编码层的输出，为[cls]在最后一层多头注意力输出的特征向量，

对应关系抽取任务的loss函数表示如下所示，其训练目标为最小化lrc，

lrc＝-log(prc(r＝r′|s,mask^rc,mask^all))

其中，r’表示真正使用的关系类型。

8.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法，其特征在于：在所述步骤a4中，对于整体的集中注意力模型，除了两种任务各自对应的下游任务层，其余的参数全是共享的，这使得共享层在学习字向量表示的时候能够学习到实体与关系的联合特征。

9.根据权利要求1所述的一种基于集中注意力模型的实体、关系联合学习方法，其特征在于，所述方法还包括：利用集中注意力模型中的共享任务表示编码层，不同任务只需要输入不同的mask^task，就可以在同一套参数下计算出不同的下游任务各自所需的每个字的向量表示其表示如下，

其中str-encoder表示共享任务表示编码。

10.根据权利要求4所述的一种基于集中注意力模型的实体、关系联合学习方法，其特征在于，所述方法还包括：动态范围注意力机制通过设计特定的mask矩阵和进一步控制上下文敏感的表示来控制序列中任意字的注意力范围，计算注意力的表示如下，

其中mask∈{0，1}^t×t，t表示序列的长度，

序列中第i个字对第j个字的注意力相似度similar(i,j)表示如下，

若maski,j＝0，则similar(i,j)表明在注意力计算过程中第i个字直接忽略了第j个字，similar(i,j)的表示如下，

其中，(maski,j-1)*∞＝-∞，

若maski,j＝1，则similar(i,j)表明在注意力计算过程中第i个字可关注到第j个字，similar(i,j)的表示如下，

其中，(maski,j-1)*∞＝0。

11.根据权利要求5所述的方法，其特征在于，所述方法还包括：对输入的序列s进行padding操作，将所有的序列调整成一样的长度，对于全部mask矩阵也作相应的扩充，扩充的表示如下，

其中，t为原序列长度，maxlen为padding操作后序列的统一长度，mask′为最终使用的mask矩阵，大小为maxlen*maxlen。

12.根据权利要求9所述的一种基于集中注意力模型的实体、关系联合学习方法，其特征在于，所述方法还包括：

集中注意力模型是基于参数共享方法的临床文本实体和关系联合学习模型，该模型由共享任务表示编码层、实体识别下游任务层、关系抽取下游任务层构成；

共享任务表示编码层由一个embedding层、n多头自注意层构成，n多头自注意层分为两块，前n-k层多头注意力只捕获上下文信息，得到字的上下文表示hm，后k层根据实体识别和关系抽取两种任务的各自特点，将注意力的计算集中到任务所需字的向量表示上，得到对应任务的字向量表示再传给对应任务的下游任务层。

技术总结
本发明提供一种基于集中注意力模型的实体、关系联合学习方法，其特征在于，包括以下步骤：首先，临床文本序列以[CLS]Sequence[SEP]的形式输入Embedding层，得到每个字的初始向量表示H0；接着，将H0输入多头自注意力机制的前N‑K层，输出每个字的上下文表示信息Hm；然后，将Hm输入余下K层，得到对应实体识别和关系抽取任务的字向量表示最后，输入利用矩阵MASKtask、实体识别或关系分类下游任务层进行学习后，输出实体和关系信息。实验结果表明本发明方法在实体识别、关系抽取、联合学习方面均明显优于其他方法，表明其有效性。

技术研发人员：翟洁;薛魁;张欢欢;叶琪;阮彤;周扬名;马致远
受保护的技术使用者：华东理工大学
技术研发日：2019.08.20
技术公布日：2019.12.13

完整全部详细技术资料下载

当前第2页1 2