一种基于公共文本的实体标签自动化标注方法

文档序号：24552191发布日期：2021-04-06 12:04阅读：来源：国知局

技术特征：

1.一种基于公共文本的实体标签自动化标注方法，其特征在于，所述方法包括：

s1：根据下游任务领域的特性预定义知识图谱中与下游任务相关的实体标签集合；

其中，知识图谱是由一系列的节点以及边构成的，其中的节点就是实体，而边就是实体之间的关系；

s2：根据实体标签集合，获得实体与标签的文本证据集合；

s3：根据s2获得的文本证据集合，利用自然语言处理模型中的编码器对文本证据进行编码；

s4：实体类型预测：基于s3得到的文本证据编码结果，预测实体属于不同标签的程度；

s5：下游模型训练：将经实体类型预测后的知识图谱应用到下游任务中，根据下游任务的损失函数对自然语言处理模型进行训练，再通过梯度回传将误差反向传播到自然语言处理模型中，对模型参数进行更新；

s6：利用更新后的自然语言处理模型对实体标签进行标注。

2.根据权利要求1所述基于公共文本的实体标签自动化标注方法，其特征在于，s2具体为：基于s1的预定义的标签集合以及实体本身的名称作为搜索关键词，获得搜索引擎对于特定实体-标签搜索组合返回的网页快照，从而获得该实体属于该标签的文本证据集合。

3.根据权利要求1或2所述基于公共文本的实体标签自动化标注方法，其特征在于，s3中利用编码器对不同的文本证据集合应用卷积神经网络文本处理模型对文本证据进行编码。

4.根据权利要求3所述基于公共文本的实体标签自动化标注方法，其特征在于，s3中所述编码器包括文本编码器、单标签文本证据集合编码器以及多标签文本证据集合编码器。

5.根据权利要求4所述基于公共文本的实体标签自动化标注方法，其特征在于，s3具体为：

(1)利用文本编码器对文本证据集合中的每个文本进行编码：利用文本编对搜索引擎返回的每条文本证据进行编码，得到句子级别的标签嵌入表示；

(2)利用单标签文本证据集合编码器对同一标签下得到的文本证据集合进行编码：单标签文本证据集合编码器利用单个实体与单个标签的文本证据集合，再应用注意力机制对单标签文本证据集合中的所有文本证据进行编码，得到单标签级别的标签嵌入表示；

(3)利用多标签文本证据集合编码器对标签集合中的文本证据集合进行编码：由于实体可能属于多个标签，因此多标签文本证据集合编码器基于实体在每个标签下的单标签级别标签嵌入表示，再应用一层注意力机制对标签集合中的单标签级别标签嵌入表示进行编码，得到最终的多标签级别的标签嵌入表示。

6.根据权利要求5所述基于公共文本的实体标签自动化标注方法，其特征在于，文本编码器通过卷积神经网络文本处理模型对搜索引擎返回的每条文本证据进行编码。

7.根据权利要求5或6所述基于公共文本的实体标签自动化标注方法，其特征在于，文本编码器过程具体为：

假设实体表示为e，标签集合表示为c＝{c1，c2，......cn}，利用实体e与标签ci获得的文本集合为t(e，ci)＝{t1，t2，......tm}，其中tj为搜索引擎返回的第j条文本网页快照，即一段文字；

对于t(e，ci)中的每一条文本，应用卷积神经网络对文本进行编码，得到每条文本的文本嵌入表示

8.根据权利要求7所述基于公共文本的实体标签自动化标注方法，其特征在于，单标签文本证据集合编码器的编码过程具体为：

将t(e，ci)中的每个文本通过同一个卷积神经网络，就能得到每个文本的文本嵌入表示，基于t(e，ci)对应的文本嵌入集合，应用注意力机制进行单标签文本证据集合编码，获得实体e在ci上单标签嵌入表示

其中w1，b1，pa为可训练参数，w1表示实体单标签嵌入表示的权重矩阵、b1表示实体单标签嵌入表示的偏置项、pa表示注意力机制中的查询向量。

9.根据权利要求8所述基于公共文本的实体标签自动化标注方法，其特征在于，多标签文本证据集合编码器的编码过程具体为：对于实体e以及标签集合c＝{c1，c2，......cn}，将每个标签对应的文本证据集合通过单标签文本证据集合编码器，得到每个标签对应的单标签嵌入表示，在单标签层面上再次应用另一套注意力机制，得到该实体的多标签文本嵌入表示le：

其中w2，b2，qa为可训练参数，w2表示实体多标签文本嵌入表示的权重矩阵、b2表示实体多标签文本嵌入表示的偏置项、qa表示注意力机制中的查询向量。

10.根据权利要求9所述基于公共文本的实体标签自动化标注方法，其特征在于，s4具体为：

由于多标签文本证据集合编码器基于标签集合下的单标签级别的标签嵌入表示应用注意力机制进行编码，而在注意力机制中会产生每个标签的注意力权重β作为中间输出，因此该注意力权重β就能够体现该实体属于标签集合下每个标签的程度。

技术总结
本发明涉及一种基于公共文本的实体标签自动化标注方法，包括：S1：预定义与任务相关的实体标签集合以及标签体系；S2：获得实体与标签的文本证据集合；S3：根据S2获得的文本证据集合，利用编码器对文本证据进行编码；S4：实体类型预测；S5：下游模型训练：将经实体类型预测后的知识图谱应用到下游任务中，根据下游任务的损失函数对自然语言处理模型进行训练，再通过梯度回传将误差反向传播到自然语言处理模型中，对模型参数进行更新；S6：利用更新后的自然语言处理模型对实体标签进行标注。本发明可避免大量数据标注的成本，并可解决了实体所属标签程度难以定量估计与标注的困难，具有良好的应用性，提高了实体归类方法的可用性。

技术研发人员：万海;陈德和;刘亚男;黄佳莉;曾娟
受保护的技术使用者：中山大学
技术研发日：2020.11.27
技术公布日：2021.04.06

完整全部详细技术资料下载

当前第2页1 2