面向警情笔录数据的实体关系联合抽取方法与流程

文档序号:23262451发布日期:2020-12-11 18:51阅读:364来源:国知局
面向警情笔录数据的实体关系联合抽取方法与流程

本发明涉及自然语言处理和深度学习领域,尤其涉及一种面向警情笔录数据的实体关系联合抽取方法。



背景技术:

面向警情笔录数据的实体关系抽取(relationextraction)是警情笔录信息抽取技术的重要环节,是警情笔录信息抽取领域重要的基础任务和难点问题之一。其任务是从非结构化文本中识别出一对实体以及这对实体具有的语义关系,并构成关系三元组。从理论价值层面看,实体关系抽取涉及到机器学习、语言学、数据挖掘等多个学科的理论和方法。从应用层面看,实体关系抽取可用于大规模知识库的自动构建。实体关系抽取还能为信息检索和自动问答系统的构建提供数据支持。近年来,研究人员已经在关系抽取方面做出了诸多工作,尤其是基于神经网络的有监督的关系抽取方法。

目前进行面向警情笔录数据的实体关系抽取的方法主要是基于流水线的抽取方法,即把实体和关系的抽取分为两个子任务:先采用命名实体识别模型抽取出所有实体,再采用关系分类器得到实体对之间的关系。然而,流水线方法存在着以下几个缺点:

1、误差累计,实体识别模块的错误会影响到接下来的关系分类性能;

2、忽视了两个子任务之间存在的关系,丢失相互信息,影响抽取效果;

3、产生冗余信息,由于对识别出来的实体进行两两配对,然后再进行关系分类,那些没有关系的实体对就会带来多余信息,提升错误率。

相比于流水线方法,联合学习方法能够利用警情笔录数据中实体和关系间紧密的交互信息,同时抽取实体并分类实体对的关系,很好地解决了流水线方法所存在的问题。然而,目前存在的联合抽取方法虽然消除了流水线方法中两个子任务相互独立的问题,但现有的方法大都孤立的预测每一个关系而未考虑关系标签相互之间的丰富语义关联。



技术实现要素:

针对目前警情笔录领域下实体关系抽取方法存在误差传导、不能充分利用各子任务之间的交互信息和未考虑关系标签之间语义关联的问题,本发明提出了一种面向警情笔录数据的实体关系联合抽取方法。该方法不仅能解决目前警情笔录关系抽取中误差传导、不能充分利用各子任务之间的交互信息问题,而且还能利用警情笔录数据中关系标签的重要依赖知识。实际应用中本发明显著提高了警情笔录关系抽取的性能。

为实现上述技术目的,本发明采用的具体技术方案如下:

面向警情笔录数据的实体关系联合抽取方法,包括:

s1.收集大量警情笔录数据作为训练数据,预定义m个实体标签以及q个关系标签,针对收集的警情笔录数据以句子为单位,对各句子中存在的实体标签和关系标签进行人工标注,以及获得训练数据中关系标签的先验共现信息。

s2.对警情笔录数据中的每个句子进行上下文编码得到每个句子的上下文语义表征。

s3.对警情笔录数据中的每个句子的上下文语义表征进行命名实体识别。

s4.根据训练数据的先验共现信息构建标签依赖图的邻接矩阵,使用多层图卷积网络进行关系标签依赖编码后,得到一组相互依赖的关系标签嵌入表示。

s5.对于待预测的警情笔录数据的每个句子,综合其上下文语义表征和命名实体识别结果以及s4中得到的关系标签嵌入表示,预测每个句子中所有的实体关系。

本发明的s2中将警情笔录数据中的任意句子用x={x1,x2,…xn}表示,其中x1,x2,…xn表示句子中的字符,n是句子的长度;将每个句子对应的分别输入到分词器得到分词后的数据w={w1,w2,…wk},其中,w1,w2,…wk表示句子中的各词单元,其中k是预处理后的数据w的长度,k<=n;将分词后的数据w={w1,w2,…wk}输入至预训练语言模型bert,通过预训练语言模型bert将划分出的每个词单元映射为对应的上下文语义表征,其中分别代表w1,w2,…wk对应的上下文语义表征。

本发明的s1中预定义的m个实体标签为;实体标签序列,s3中对于警情笔录数据中的每个句子的上下文语义表征z={z1,z2,…zk},给定一组实体标签序列,计算z的实体标签序列为y的概率值,将最大概率值对应的实体标签序列作z的预测实体标签序列;将预测实体标签序列向量化映射为对应的实体标签嵌入序列,其中分别为对应的预测实体标签的标签嵌入。

本发明的s4中针对收集的警情笔录数据,使用一个邻接矩阵来表示有q个关系标签的关系标签依赖图。具体地,关系标签依赖图中一个图节点即表示一个关系标签节点,关系标签之间的关联则存储在关系标签依赖图的边上,如果两个关系标签同时出现在同一个句子中,那么将认为它们对应的标签的同时出现,即两者间存在边;使用两个关系标签之间的共现次数作为两个关系标签在关系标签依赖图的邻接矩阵中的连接权值。

对于预定义的q种关系标签,将每个关系标签映射为一个待更新的p维向量,得到一组关系标签节点嵌入,其中p是一个超参数,由交叉验证得到。将作为多层图卷积网络的初始输入;通过构建好的关系标签依赖图的邻接矩阵a,图卷积网络的每一层可以写成非线性函数,使用多层图卷积网络来学习多个关系标签节点嵌入之间的相关性,完成关系标签依赖编码后,得到一组相互依赖的关系标签嵌入表示}。

本发明的s5中对于待预测的警情笔录数据的每个句子,获取其语义向量序列和实体标签嵌入序列并进行拼接,得到目标向量集合,综合目标向量集合中的任意两个目标向量,与s4中得到的关系标签嵌入表示中每一种可能的关系标签进行关系预测,得到对应的预测实体关系。

与现有技术相比,本发明具有以下优点:

1、采用预训练语言模型bert,bert能对不同层次信息之间的复杂交互进行建模,学习深层语境化的词汇表征。

2、实体关系联合抽取,联合学习能够利用警情笔录数据中实体和关系间紧密的交互信息,并解决流水线方法的弊端。

3、与现有方法相比,不再孤立的预测每一个关系并利用图卷积网络学习关系标签相互之间的丰富语义关联信息。

附图说明

图1为本发明的流程图。

图2为本发明的系统框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本发明所揭示内容的精神,任何所属技术领域技术人员在了解本发明内容的实施例后,当可由本发明内容所教示的技术,加以改变及修饰,其并不脱离本发明内容的精神与范围。本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。

参照图1和图2,本实施例提供一种面向警情笔录数据的实体关系联合抽取方法,包括:

s1.收集大量警情笔录数据作为训练数据。每条警情笔录数据都由专业人员进行实体标签和关系标签的标注。具体地,预定义m个实体标签以及q个实体标签间的关系标签,针对收集的警情笔录数据以句子为单位,对各句子中存在的实体标签和关系标签进行人工标注,获得训练数据中关系标签的先验共现信息即各个句子中不同关系标签共同出现的次数。

与某市公安系统合作,收集了真实案件受理过程中产生的警情文本作为训练数据。由专家组紧密贴合业务,设计出科学合理的标签体系。在本方案具体实施中,根据办案需求和警情数据特点,共设计和预定义了m种实体标签,包括人物,机构,地点等;并预定义q种实体标签间的关系作为关系标签,如人物之间的关系(同伙,亲戚等),人物地点之间的关系(居住于,作案于等)。专业人员以句子为单位按照上述标签体系进行了实体与关系的标注。假设一句话中关系事实的出现次数为t,则标注t个五元组。其中五元组包含(头实体,尾实体,头实体标签,尾实体标签,关系标签)5个重要信息。比如句子文本为“市公安局干警张三”,则标注(市公安局,张三,机构,人物,所在机构)五元组。

s2.对警情笔录数据中的每个句子进行上下文编码得到每个句子的上下文语义表征。

将警情笔录数据中的每个句子分别用x={x1,x2,…xn}表示,其中x1,x2,…xn表示句子中的字符,n是句子的长度。

将每个句子对应的x分别输入到分词器得到预处理后的数据w={w1,w2,…wk},其中,w1,w2,…wk表示句子中的词单元,其中k是预处理后的数据w的长度,k<=n

将每个句子对应的预处理后的数据w={w1,w2,…wk}输入至预训练语言模型bert,通过预训练语言模型bert将划分出的每个词单元映射为对应的上下文语义表征,其中代表的上下文语义表征,d为语义表征隐藏维度。

s3.对警情笔录数据中的每个句子的上下文语义表征进行命名实体识别,得到对应的预测实体标签序列。

将命名实体识别任务描述为一个序列标注问题,使用bio(开始、内部、外部)编码方案对句子进行序列标注。即为句子中的每个标记分配一个bio中的某一种标签。由于实体由句子中的多个连续标记组成,这种做法可以识别实体的起始位置和结束位置及其类型(例如机构)。具体来说,就是将b-type(开始)分配给实体的第一个标记,将i-type(内部)分配给实体内的每个其他标记,如果标记不是实体的一部分,则分配o标签(外部)。比如输入文本为“市公安局干警张三”,目标是预测“b-机构i-机构i-机构i-机构oob-人物i-人物”的实体标签序列。

本实施例中将警情笔录数据中的每个句子的上下文语义表征通过线性crf(条件随机场)计算进行命名实体识别,得到对应的预测实体标签序列。

具体地,对于警情笔录数据中的每个句子的上下文语义表征,首先使用线性变换得到中每个zi对每个实体标签的得分。具体地,计算公式为:

其中,表示激活函数,是权重矩阵,是偏置向量,l是隐藏层维度,d是语义表征隐藏维度。

经公式运算后得到一个向量,维度为预定义的实体标签数量m,预定义的实体标签序列为,中每个分量代表每种预定义实体标签的得分,即代表的实体标签为的得分。

由于bio标注编码方案存在着若干限制,如“b-机构”后面不能跟“i-人物”,“o”后面不能跟“i-type”等。本发明根据实体标签得分来计算线性crf得分,通过学习得到的标签转移概率考虑实体边界。给定一组实体标签序列,计算上下文语义表征z的实体标签序列为y的线性crf得分,公式为:

其中,为实体标签到实体标签的转移得分。通过统计学习标注数据中标签的转移概率得到。

通过函数计算z的实体标签序列为y的概率值p(y|z),应用维特比算法获得最大概率值对应的实体标签序列作为z的预测实体标签序列。

其中,是上下文表征序列z的实体标签序列为y的线性crf得分,代表z对应的所有可能的标签序列集合。

最后,将预测实体标签序列向量化映射为对应的实体标签嵌入序列,其中分别对应的预测实体标签嵌入,e为实体标签嵌入的维度,是一个超参数。

s4.根据训练数据的先验共现信息构建标签依赖图的邻接矩阵,使用多层图卷积网络进行关系标签依赖图编码后,得到一组相互依赖的关系标签嵌入表示。

针对收集的警情笔录数据,使用一个邻接矩阵来表示有q个关系标签的关系标签依赖图。为了有效地捕捉关系标签间的相关性,通过计算训练数据中关系标签的共现情况,构造了依赖于训练数据中的先验共现信息的相关矩阵作为关系标签依赖图的邻接矩阵a。具体来说,关系标签依赖图中一个图节点即表示一个关系标签节点。如果两个关系标签同时出现在同一个句子中,那么将认为它们对应的标签的同时出现,即两者间存在边。如果关系标签与j关系标签同时出现在同一个句子中的频率比c关系标签高,则关系标签和j关系标签之间应具有更强的相关性。因此,使用两个关系标签之间的共现次数作为邻接矩阵中的连接权值。例如,如果关系与j关系同时出现n次,则

构建了关系标签依赖图的邻接矩阵后,使用图卷积网络来建立关系标签依赖的模型。对于预定义的q种关系标签,首先将每个关系标签映射为一个待更新的p维向量,得到一组关系标签节点嵌入作为多层图卷积网络的初始输入。通过构造好的关系标签依赖图的邻接矩阵a,图卷积网络的每一层可以写成非线性函数。利用标准卷积运算,标签依赖的编码过程为:

其中表示激活函数,如。上标l表示图层号。表示卷积滤波器的可学习参数。i是单位矩阵。第l层gcn图中的节点被邻域聚合形成l+1层的节点。

本实施例使用一个三层图卷积网络来学习多个关系标签节点嵌入之间的相关性:

通过多层图卷积网络学习多个关系标签节点嵌入之间的相关性,完成关系标签依赖编码后,得到最终的一组相互依赖的关系标签嵌入表示

s5.对于待预测的警情笔录数据的每个句子,综合其上下文语义表征和命名实体识别结果以及s4中得到的关系标签嵌入表示,预测每个句子中所有的实体关系。

对于待预测的警情笔录数据的每个句子,获取其语义向量序列和实体标签嵌入序列并进行拼接,得到目标向量集合,其中。综合目标向量集合中的任意两个目标向量与s4中得到的关系标签嵌入表示中每一种可能的关系标签进行关系得分计算,得到对应的预测实体关系。对待预测的警情笔录数据的每个句子的k个词单元两两配对并与关系标签嵌入表示中的q标签组合,共需计算k*k*q次,将其看成是一个三维表填充过程。具体来说,其中的每一次得分计算过程如下:

每次给定两个词单元的目标向量和一种关系标签嵌入表示,则计算词单元和词单元具有关系标签r的得分为:

其中,表示激活函数,权重矩阵,是偏置向量,是预训练语言模型bert的输出词的语义表征和标签嵌入hi的拼接,是预训练语言模型bert的输出词的语义表征和标签嵌入的拼接;为s4中得到的关系标签嵌入表示的第r个分量,r=1,2,…,q,

在三维表填充过程中,评估词单元是词单元的头实体并且具有关系标签r的概率为:

表示sigmoid非线性激活函数。

通过本发明不仅能解决目前警情笔录事件抽取中误差传导、不能充分利用各子任务之间的交互信息的问题,而且还能利用警情笔录数据中关系标签的重要依赖知识。总体来说,本发明通过提高了警情笔录实体关系抽取的值,实现了对警情笔录数据实体关系的高效抽取,给公安警务部门预防犯罪带来了方便和数据支撑。

综上所述,虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明,任何本领域普通技术人员,在不脱离本发明的精神和范围内,当可作各种更动与润饰,因此本发明的保护范围当视权利要求书界定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1