一种军事领域标注数据修正与事件检测方法与流程

文档序号:36394319发布日期:2023-12-15 15:51阅读:106来源:国知局
一种军事领域标注数据修正与事件检测方法与流程

本发明属于信息抽取,具体涉及一种军事领域标注数据修正与事件检测方法。


背景技术:

1、事件抽取旨在将非结构化文本中的事件信息进行结构化,是自然语言处理的重要研究领域。事件检测作为事件抽取的关键子任务之一,旨在从给定文本中识别事件触发词(trigger)位置并将其分类到正确的事件类型,触发词指的是标记事件出现的核心词语或短语,事件类型为数据集中预先定义的类型。

2、事件检测在网络舆情监控、突发事件告警、情报收集领域有着重要应用,可以帮助决策者从大量的低价值情报中自动获取事件信息,减轻情报收集的工作量。

3、对于通用领域事件,目前已有ace2005等成熟开源数据集,其推动了通用领域事件检测和事件抽取的研究,然而对于军事领域事件,数据标注需要标注人员具有专业的军事领域知识,并且由于军事领域的特殊性,目前国内外缺乏权威高质且对外开放的用于事件抽取的军事数据集资源,军事文本数据集资源非常匮乏。

4、近年来,虽然基于深度神经网络的模型在事件检测问题上取得了良好的效果,但同样受限于深度学习方法对训练数据集的高质量要求,在数据集存在样本分布不均衡、数据标注质量欠佳、对抗数据污染等问题时,模型有效性往往难以得到保证,缺乏鲁棒性。

5、针对上述问题,本发明提出一种高鲁棒性场景下军事领域标注数据修正与事件检测方法,在基于跨度(span-based)的事件检测模型基础上,使用数据清洗策略、分层学习率策略以及模型融合策略对基于跨度的抽取范式进行改进,旨在促进军事领域事件检测模型鲁棒性的研究,支撑领域事件抽取相关技术的落地,并推动相关领域人工智能应用的发展。


技术实现思路

1、(一)要解决的技术问题

2、本发明要解决的技术问题是如何提供一种军事领域标注数据修正与事件检测方法,以解决数据标注质量欠佳,存在严重的数据污染,需要减少污染数据或有害样本对于模型学习过程的影响、数据集中各个类别的数据分布极不平衡,需要增强模型针对少样本类别的识别能力的问题。

3、(二)技术方案

4、为了解决上述技术问题,本发明提出一种军事领域标注数据修正与事件检测方法,该方法包括如下步骤:

5、步骤一:数据清洗

6、采用一种模型超参数搜素方法——网格搜索(grid-search),基于原始的数据集,使用不同的超参数同时训练多个不同的事件检测模型,然后使用训练后的模型对训练集和验证集进行预测,对于置信度得分大于某一阈值的样本,将原始标注结果修改为模型预测结果;

7、步骤二:任务抽象

8、将事件检测任务转化为命名实体识别(ner)任务,将事件类型看作ner任务中的实体类型,将触发词看作ner任务中需要抽取的实体;具体地,采用“编码-解码”策略,使用开源的预训练模型对事件文本进行编码,并使用一种全局指针网络——global pointer模型进行事件触发词抽取和事件分类;

9、步骤三:模型训练

10、采用分层学习率策略来进行模型的训练,在使用样本在对下游任务进行微调时,我们设置预训练模型第一层的学习率保持在2*e-5,最后一层学习率保持在1*e-4,中间每层学习率保持依次递增,而对于下游的解码网络的学习率设置为1*e-3,从而使得预训练模型能更好地适应下游任务的训练;

11、步骤四:模型集成

12、采用网格搜索方法(grid-search),使用不同的超参数训练多个不同的事件检测模型,选其中表现最好的模型作为主模型,该模型的输出作为候选结果之一,称之为主模型输出;随后使用其余模型对主模型输出进行修正。

13、(三)有益效果

14、本发明提出一种军事领域标注数据修正与事件检测方法,本发明公开一种高鲁棒性场景下军事领域标注数据修正与事件检测方法,主要优势体现在以下方面:

15、(1)设计了一种基于触发词置信度的数据修正方法,使用原始数据集训练模型,并对原始标注数据进行预测,对于预测得分(置信度)大于一定阈值的样本,将原始数据集的标注结果修改为模型预测结果,从而修正数据集中的错误标注数据和污染数据,提高训练集的质量。

16、(2)设计了一种高鲁棒性的事件检测模型,在传统基于跨度的事件检测模型基础上,在模型训练时引入了分层学习率策略,为靠近下游任务的模型层参数设置更大的学习率,提高预训练模型对于下游任务的适配能力;在模型推理时采用基于投票修正的模型融合方法,通过模型集成的方式提升少样本类别事件的召回率和准确率,融合多个模型的投票结果确定最终预测结果,从而提升模型的鲁棒性。



技术特征:

1.一种军事领域标注数据修正与事件检测方法,其特征在于,该方法包括如下步骤:

2.如权利要求1所述的军事领域标注数据修正与事件检测方法,其特征在于,所述步骤一具体包括:首先根据事件论元关系对原始数据进行初步的数据清洗,然后根据触发词置信度对数据进行再次清洗,接着基于清洗后的数据采用grid-search策略训练多个模型,最后依次遍历训练集和验证集的数据,使用训练的模型对数据进行预测,当计算得到的置信度大于设定的阈值时,则认为原始数据存在污染,使用模型预测结果作为数据标签,否则保留原始标注结果,循环遍历后完成所有数据的修正。

3.如权利要求2所述的军事领域标注数据修正与事件检测方法,其特征在于,触发词置信度得分计算公式如下:

4.如权利要求2或3所述的军事领域标注数据修正与事件检测方法,其特征在于,所述步骤二中,在每个文本的结尾添加特殊标记[n]作为“非事件”事件类型样本的触发词,从而减小“非事件”事件类型与其他事件类型之间的损失不平衡性。

5.如权利要求4所述的军事领域标注数据修正与事件检测方法,其特征在于,所述步骤二中,编码阶段包括:

6.如权利要求5所述的军事领域标注数据修正与事件检测方法,其特征在于,预训练模型为bert。

7.如权利要求5所述的军事领域标注数据修正与事件检测方法,其特征在于,所述步骤二中,解码阶段包括:使用global pointer模型结构进行解码,将多标签分类变成目标类别得分与非目标类别得分的两两比较,矩阵中最大元素的坐标表明了事件触发词跨度和事件类别;具体地,

8.如权利要求7所述的军事领域标注数据修正与事件检测方法,其特征在于,所述步骤三中,预训练模型各层设置的学习率公式如下:

9.如权利要求8所述的军事领域标注数据修正与事件检测方法,其特征在于,所述步骤四中,只有当某个结果的票数大于阈值时,才使用此结果作为最终结果,从而达到修正主模型的效果。

10.如权利要求9所述的军事领域标注数据修正与事件检测方法,其特征在于,阈值设置为总模型数的二分之一。


技术总结
本发明涉及一种军事领域标注数据修正与事件检测方法,属于信息抽取技术领域。本发明使用原始数据集训练模型,并对原始标注数据进行预测,对于预测得分大于一定阈值的样本,将原始数据集的标注结果修改为模型预测结果,从而修正数据集中的错误标注数据和污染数据,提高训练集的质量。本发明在模型训练时引入了分层学习率策略,为靠近下游任务的模型层参数设置更大的学习率,提高预训练模型对于下游任务的适配能力;在模型推理时采用基于投票修正的模型融合方法,通过模型集成的方式提升少样本类别事件的召回率和准确率,融合多个模型的投票结果确定最终预测结果,从而提升模型的鲁棒性。

技术研发人员:宋颖毅,张杭,杨雨婷,王又辰,田宗凯,范昕煜,栾真,邹烨,葛志,杜田沣
受保护的技术使用者:北京计算机技术及应用研究所
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1