基于相似度和要素知识模型融合的事件标签检测方法与流程

文档序号:32414984发布日期:2022-12-02 22:04阅读:42来源:国知局
基于相似度和要素知识模型融合的事件标签检测方法与流程

1.本发明涉及自然语言处理和公安管理领域,特别是涉及基于相似度和要素 知识模型融合的事件标签检测方法。


背景技术:

2.随着深度神经网络模型(dnn)以及图形处理器(gpu)的发展,使得训 练更大参数、更多层数的神经网络成为可能。而自然语言序列中蕴含着特定的 模式和相关知识信息,尤其是在诸如事件文本等垂直领域,这种模式特征和知 识蕴含更加明显。深度神经网络模型可以很好的学习和捕获这些文本序列中的 模式和知识,并在未见到过的数据上进行预测。近年来公安机关等相关部门信 息化办公程度的日益完善,在接处警的同时也积累了海量的警情文本等事件文 本数据。但目前对于每天事件标签的验证方式,还是以人工逐条检查为主,这 不仅消耗了大量人力而且效率低下。
3.有效利用已积累的海量事件数据,依据深度神经网络模型在序列标签分类 的能力,再结合要素知识、规则后处理能够有效降低人工需要检查的数据量。 最终通过人机耦合的方式,可以更快更高效的完成接处警数据标签的检查和验 证。
4.现有技术中对于文本序列分类任务,主要采用端到端的预训练模型,如 bert,其提出的自注意力机制(self-attention)可以充分地学习和捕获文本序 列中蕴含的特征,也证明了一个深度模型可以大幅度地提升自然语言处理任务的 准确率,并且这个模型可以从无标记的数据语料中训练得到。对应到警情文本 标签分类任务,bert模型将警情文本序列作为输入,经过预训练的参数对该序 列文本进行词嵌入(embedding),并通过梯度下降的方式微调模型参数,以达 到提升模型泛化性能的目的。
5.端到端的预训练模型方式主要的问题是可扩展性差,如果事件标签的标注 规范发生变动,每次都需要去训练语料中逐条修正该类标签的标注,且需要重 新对模型进行微调。而且对于特征不太明显的警情,预训练模型也很难进行区 分。并且微调的过程像是一个黑盒,最后预测的标签的可解释性也较差,得到 的结果很难有说服力。


技术实现要素:

6.本发明的目的是克服现有技术中的不足之处,提供一种基于相似度和要素 知识模型融合的事件标签检测方法,能够提升检测过程的灵活度和可维护性。
7.为实现上述目的,本发明提供一种基于相似度和要素知识模型融合的事件 标签检测方法,包括:
8.基于要素知识的事件标签检测模型,对事件文本进行标签检测,得到第一 标签检测结果;
9.利用相似度匹配模块,对事件文本进行标签检测,得到第二标签检测结果;
10.通过网格搜索,对第一标签检测结果和第二标签检测结果进行融合,得到 事件的最终标签检测结果。
11.在一个优选的实施例中,所述相似度匹配模块是利用度量模型使用正例和 负例训练后得到的。
12.在一个优选的实施例中,所述利用度量模型使用正例和负例训练相似度匹 配模块采用的损失函数如下式:
[0013][0014]
其中m是超参数,表示正负样例区分开的程度;f为事件文本经模型表征得 到的向量;事件文本x为训练数据,x
+
为其正例样本,x-为其负例样本;
[0015]
所述训练过程的训练目标是使得x与其正例得分高,与其负例得分低,区分 程度为超参数m。
[0016]
在一个优选的实施例中,所述基于要素知识的事件标签检测模型,对事件 文本进行标签检测,得到第一标签检测结果包括:
[0017]
基于关键特征对事件文本进行粗分类;
[0018]
对事件文本进行要素抽取操作,得到与细分类标签有映射关系的文本标签 信息;
[0019]
基于规则过滤,结合粗分类结果和文本标签信息,确定事件的第一标签检 测结果。
[0020]
在一个优选的实施例中,所述通过网格搜索,对第一标签检测结果和第二 标签检测结果进行融合包括:
[0021]
对第一标签检测结果和第二标签检测结果进行加权求和处理,得到最终标 签检测结果。
[0022]
本发明另一实施例还提供一种计算机,包括:处理器和存储器,所述处理 器用于执行存储器中的代码,以执行如上述的基于相似度和要素知识模型融合 的事件标签检测方法。
[0023]
本发明实施例利用融合模型进行事件标签检测,可以提升模型准确率,并 使得判断具有可解释性。
[0024]
本发明实施例提供的方案将模型粗分类结合后处理规则,使得事件标签检 测过程更加灵活和可维护。
[0025]
本发明的其他有益效果将在说明书中进行进一步说明。
附图说明
[0026]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
[0027]
图1为本发明实施例提供的基于相似度和要素知识模型融合的事件标签检 测方法的流程图;
[0028]
图2为一个警情文本构建其正负例的过程;
[0029]
图3为基于要素知识的事件标签检测方法的流程图;
[0030]
图4为警情类事件文本基于bio法进行序列标注的示意图。
具体实施方式
[0031]
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。 附图中给出了本发明的较佳实施方式。但是,本发明可以以许多不同的形式来 实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是 使对本发明的公开内容理解的更加透彻全面。
[0032]
图1示出了本发明实施例提供的基于相似度和要素知识模型融合的事件标 签检测方法的流程图,该方法包括:
[0033]
步骤s101:基于要素知识的事件标签检测模型,对事件文本进行标签检测, 得到第一标签检测结果。
[0034]
基于要素知识的事件标签检测模型主要对事件文本进行粗分类,要素抽取 操作,得到第一标签检测结果。关于其详细实现过程将在下文其他实施例详细 描述。
[0035]
步骤s102:利用相似度匹配模块,对事件文本进行标签检测,得到第二标 签检测结果。
[0036]
相似度匹配模块可以是利用度量模型使用正例和负例训练后得到的。
[0037]
训练时对于一条事件文本数据,在剩余的数据中随机选一条相同标签的事 件文本作为正例,选一条其他标签的事件文本作为负例,使得该事件文本和正 例事件文本相似度高一些,和负例事件文本相似度低一些。如图2所示,展示 一个警情文本构建其正负例的过程。
[0038]
上述训练模型采用的损失函数为:
[0039][0040]
其中m是超参数,表示正负样例区分开的程度,f为事件文本经模型表征得 到的向量。事件文本x为训练数据,x
+
为其正例样本,x-为其负例样本,训练 目标是使得x与其正例样本得分高,与其负例样本得分低,区分程度为超参数m。
[0041]
步骤s103:通过网格搜索,对第一标签检测结果和第二标签检测结果进行 融合,得到事件的最终标签检测结果。
[0042]
通过网格搜索,对第一标签检测结果和第二标签检测结果进行融合的过程 具体可以是:对第一标签检测结果和第二标签检测结果进行加权求和,得到最 终标签检测结果。
[0043]
本发明实施例利用融合模型进行事件标签检测,可以提升模型准确率,并 使得判断具有可解释性。
[0044]
下面详细说明上述步骤s101的一种具体实现。
[0045]
图3示出了基于要素知识的事件标签检测方法的流程图,包括如下步骤:
[0046]
步骤s301:基于关键特征对事件文本进行粗分类。
[0047]
粗分类模型可以是将事件文本划分到第二层的标签体系。而后续步骤来判 定第一层的标签,这样需要分类的标签数量可以大幅降低。在粗分类存在错误 的情况中可以通过后续处理的方式将该条数抛出,提升错误数据的召回率。
[0048]
当事件文本中包含大量的数字信息时,例如身份证号、手机号、银行卡号、 损失金额以及日期等,而模型对该部分信息的内容不敏感。在数据预处理阶段, 可以用几个特殊
的令牌对齐进行替换。例如下表中示出的警情类事件文本中, 对其中数字内容进行令牌替换,可进一步提升识别准确率。
[0049]
表1
[0050][0051][0052]
步骤s302:对事件文本进行要素抽取操作,得到与细分类标签有映射关系 的文本标签信息。
[0053]
在本步骤中可以对事件文本进行要素抽取。具体可以先对事件文本进行序 列标注,然后进行要素实体抽取。在序列标注过程中可以使用bio标注法。在 进行要素实体抽取时可以使用bertwwm-lstm-crf模型。
[0054]
图4示出了警情类事件文本基于bio法进行序列标注的示意图。
[0055]
需要说明的是,对事件文本进行要素抽取得到初步标签结果,有时需要进 行标签规整,才能够与后续细分类的标签建立映射。例如“案发地址”如果是
ꢀ“
工地”、“厂企”或者“商务公司”等会被规整到“单位区域”这个标签, 并且规整后的标签是和最后细分类的标签是可以建立映射的,这里的“单位区 域”和“盗窃单位”标签有映射关系。该要素标签规整的模块可以通过哈希表 实现,此外还可以定义一个“其他”的类别标签,如果“案发地址”无法映射 到其余几个和具体地址相关的标签,就会被映射到“其他”,那么最终的预测 结果标签也会和地址无关。
[0056]
步骤s303:基于规则过滤,结合粗分类结果和文本标签信息,确定事件的 第一标签检测结果。
[0057]
通过预定义的一些规则,给出下一步的标签候选。大部分时候的标签候选 只是唯一的一个标签,表示有充分的把握通过前面获取到的信息,给出该标签 的预测。例如概率模型标签筛选模块反馈的是“盗窃”标签,要素规整模块如 果能给出“住宅区域”并且损失金额大于600元,则可以推断出该警情类事件 文本的最终标签为“刑事警情-》盗窃-》盗窃民宅”。规则模块可以分为肯定规则 和否定规则两种,肯定规则例如是根据前面模块的反
馈信息,推出某个标签; 否定规则例如是根据反馈信息,否定掉一些标签。表2中列举了一些肯定和否 定规则的例子,例子采用规则引擎书写。
[0058]
表2
[0059][0060]
规则过滤的规则内容可以存储在配置文件中,这样也提高规则模块的灵活 性和可维护性。
[0061]
如果步骤s303中当基于规则过滤,结合粗分类结果和文本标签信息,确定 事件的第一标签检测结果得到大于或等于2个标签时,可以进一步对事件文本 进行细分类,进行第一层级标签的判定。
[0062]
例如当步骤303中规则模块返回两个标签,分别是“短信诈骗”和“违法 短信”,如果“处警类别”为“报立刑事案件”,则会过滤掉“违法短信”这 个标签。
[0063]
当步骤s303基于规则过滤,然后剩余多个标签结果后,则将通过后续步步 骤103的模型融合进行进一步处理,得到最终的标签检测结果。
[0064]
本发明实施例提供的方案将模型粗分类结合后处理规则,使得事件标签检 测过程更加灵活和可维护。例如对于标注规范变动的数据,该部分数据的二级 标签往往不会变动,这样只需要调整规则过滤模块即可。利用规则引擎可以进 一步提升灵活性。利用要素抽取模块可以使得推理得到的结果更具有说服力。
[0065]
本发明另一实施例提供一种计算机,包括:处理器和存储器,所述处理器 用于执行存储器中的代码,以执行上述实施例中描述的基于相似度和要素知识 模型融合的事件标签检测的方法。
[0066]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组 合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实 现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行 所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功 能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编 程系统。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算 机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可 以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、 数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计 算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能 够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中 心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、 光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solid state disk,ssd))等。
[0067]
本技术实施例中所描述的各种说明性的逻辑单元和电路可以通过通用处理 器,数字信号处理器,专用集成电路(asic),现场可编程门阵列(fpga)或其它 可编程逻辑系统,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设 计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用 处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可 以通过计算系统的组合来实现,例如数字信号处理器和微处理器,多个微处理 器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置 来实现。
[0068]
本技术实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执 行的软件单元、或者这两者的结合。软件单元可以存储于ra存储器、闪存、 ro存储器、epro存储器、eepro存储器、寄存器、硬盘、可移动磁盘、cd ro 或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连 接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。 可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于asic 中,asic可以设置于终端中。可选地,处理器和存储媒介也可以设置于终端中 的不同的部件中。这些计算机程序指令也可装载到计算机或其他可编程数据处 理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算 机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在 流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步 骤。
[0069]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的 精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的 保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1