军事事件分类方法、系统、存储介质和电子设备

文档序号:34057531发布日期:2023-05-05 20:25阅读:63来源:国知局
军事事件分类方法、系统、存储介质和电子设备

本发明涉及文本分类,具体涉及一种军事事件分类方法、系统、存储介质和电子设备。


背景技术:

1、军事现代化建设时代,无论是在日常作战训练中,还是不同时期的作战条令,以及相关的军事新闻,都会产生大量的文本信息。在这个计算机飞速发展的阶段,以机器学习或深度学习算法为基础的信息抽取技术逐渐成熟。从海量的信息中,如何快速准确地定位分析出人们真正需要的信息变得十分重要,这正是信息抽取领域亟待解决的问题。

2、事件抽取需要事件触发词和事件元素两者,还要将事件触发词和事件元素连接起来,因此事件的数据集标注变得复杂困难许多,导致了事件的数据集数量少且质量不高。

3、最初人们使用的是单一的模板匹配的方案。这种方案适用于特定领域,人工成本高泛化能力差,需要专家构建模板。随着标准数据集的公布和发展,大大推进了事件抽取的研究工作,但是数据集存在数据量少,标签分布不均。随着机器学习和神经网络时代的到来,深度学习使得事件抽取效果得到进一步提高,不再需要专家定义模板或者定义特征,但是仍处于缺少高质量的标准数据集的困境中。在当前的事件类型分类方法中,现有研究多利用单一的匹配模型或机器学习模型的方法,分类准确率低。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本发明提供了一种军事事件分类方法、系统、存储介质和电子设备,解决了事件分类准确率低的技术问题。

3、(二)技术方案

4、为实现以上目的,本发明通过以下技术方案予以实现:

5、一种军事事件分类方法,包括:

6、s1、获取并预处理军事事件的文本数据集;

7、s2、根据预处理后的文本数据集,根据预定义的实体类型,采用模式匹配算法进行实体自动标注;根据预定义的军事领域事件模板,构建每类事件对应的候选触发词词典,针对文本数据集中每一事件句进行触发词和触发词对应事件类型的人工标注;

8、s3、根据完成标注的文本数据集,采用第一svm工具训练触发词识别二分类器;

9、s4、根据所述触发词识别二分类器的输出结果,采用第二svm工具训练事件检测多分类器;

10、s5、将待分类的文本数据作为训练完毕的事件检测多分类器的输入,获取事件分类结果。

11、优选的,所述实体类型包括装备实体、时间实体、地点实体、数值实体、任务实体、机构实体和战争名称实体七大类。

12、优选的,所述军事领域事件模板包括参战事件、作战事件、移动事件和部署事件四大类。

13、优选的,训练所述触发词识别二分类器和事件检测多分类器之前,还需构建分类器的基本特征和拓展特征;

14、其中,所述基本特征包括触发词特征、触发词词性特征、词与触发词的距离特征和候选触发词词典特征;所述扩展特征包括句内实体类型特征和句内不同类型实体数量特征。

15、优选的,获取所述词与触发词的距离特征之前,还需计算事件句中除触发词以外的其他字词的位置:

16、pe(pos,2i)=sin(pos/100002i/d)

17、pe(pos,2i+1)=cos(pos/100002i/d)

18、其中,pos为触发词在所属事件句中的位置,取值为0到该事件句长度之间的整数,d为输入向量的维度,2i和2i+1为该事件句的其他字词,i的取值为0到之间的整数;pe(pos,2i)表示矩阵中第pos行、偶数列2i列的值,采用正弦函数sin计算;pe(pos,2i+1)是矩阵中第pos行、奇数列2i+1列的值,采用余弦函数cos计算。

19、优选的,所述s3中的触发词识别二分类器的训练过程包括:

20、将所述触发词特征、触发词词性特征和句内不同类型实体数量特征作为第一组合特征,采用第一svm工具对第一组合特征构成的向量进行训练,训练得到所述触发词识别二分类器。

21、优选的,所述s4中的事件检测多分类器的训练过程包括:

22、根据所述触发词识别二分类器的输出结果,将所述触发词特征、触发词词性特征、词与触发词的距离特征、候选触发词词典特征、句内实体类型特征和句内不同类型实体数量特征作为第二组合特征,采用第二svm工具对第二组合特征构成的向量进行训练,训练得到所述事件检测多分类器。

23、优选的,所述军事事件分类方法还包括:

24、获取训练完毕的所述事件检测多分类器后,将所述预训练后的文本数据集作为所述事件检测多分类器的输入,获取第一事件分类结果;

25、定义第一事件分类结果中概率低于第一阈值的句子为不可信任事件句,概率低于高于第二阈值的句子为可信任事件句;其中,第一阈值小于第二阈值;

26、选取前后句子均为可信任事件句的不可信任事件句,构建重分类军事事件集,将选定的任一句子的前一句话和后一句中的实体类型特征、不同类型实体数量特征,以及选定句子内的基本特征、句内不同类型实体数量特征,共九个特征组合为篇章一致性特征,采用第三svm工具对所述重分类军事事件集重新进行触发词分类,获取第二事件分类结果;

27、将所述第一事件分类结果中概率大于第一阈值的分类结果、以及第二事件分类结果进行合并,构成训练阶段内最终的军事事件分类结果。

28、一种军事事件分类系统,包括:

29、预处理模块,用于获取并预处理军事事件的文本数据集;

30、标注模块,用于根据预处理后的文本数据集,根据预定义的实体类型,采用模式匹配算法进行实体自动标注;根据预定义的军事领域事件模板,构建每类事件对应的候选触发词词典,针对文本数据集中每一事件句进行触发词和触发词对应事件类型的人工标注;

31、第一训练模块,用于根据完成标注的文本数据集,采用第一svm工具训练触发词识别二分类器;

32、第二训练模块,用于根据所述触发词识别二分类器的输出结果,采用第二svm工具训练事件检测多分类器;

33、分类模块,用于将待分类的文本数据作为训练完毕的事件检测多分类器的输入,获取事件分类结果。

34、一种存储介质,其存储有用于军事事件分类的计算机程序,其中,所述计算机程序使得计算机执行如上所述的军事事件分类方法。

35、一种电子设备,包括:

36、一个或多个处理器;

37、存储器;以及

38、一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的军事事件分类方法。

39、(三)有益效果

40、本发明提供了一种军事事件分类方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:

41、本发明以实现准确检测事件类型为目标,设计军事领域事件模板,并构建候选触发词词典,采用模式匹配算法对军事事件文本进行实体标注;在基本特征的基础上,根据事件内的实体分布特点,选择不同的实体信息特征作为扩展特征,采用svm对军事事件句内的触发词进行初步的提取和分类;最后利用军事事件文本的篇章一致性分布规律,提高事件分类的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1