一种用于获取威胁情报数据模型的方法、介质及电子设备与流程

文档序号:36203638发布日期:2023-11-30 04:06阅读:22来源:国知局
一种用于获取威胁情报数据模型的方法与流程

本技术涉及文本数据处理领域,具体而言本技术实施例涉及一种用于获取威胁情报数据模型的方法、介质及电子设备。


背景技术:

1、bert是一种预训练语言模型,通过在大规模语料库上进行预训练,可以学习到更加通用的语言表示和模式,从而提高模型的泛化能力和效果。然而,通用领域的bert是在大规模通用语料库上进行训练的,中文威胁情报领域的语料库与通用语料库有很大的差异。中文威胁情报领域的文本通常包含大量的专业术语、缩写词和网络语言,这些都是通用领域语料库中没有涉及的。因此,将通用领域的bert直接用于中文威胁情报领域的实体识别等任务可能由于模型对特定领域的语言规律和模式不敏感导致效果不佳。

2、然而,使用大规模的领域内语料库对通用领域的bert进行继续预训练已经在很多领域内被证明是有效的。因此如何对威胁情报领域的bert模型进行预训练成了亟待解决的技术问题。


技术实现思路

1、本技术实施例的目的在于提供一种用于获取威胁情报数据模型的方法、介质及电子设备,采用本技术实施例从大量的中文威胁情报语料库中挖掘出领域内的关键词,构建威胁情报领域内的专业词汇的关键词词典,在此基础上,通过对关键词进行掩码屏蔽,继续预训练bert,达到对bert进行知识增强的目的,且进一步的为了缓解bert在训练的过程中由于过度关注专业词汇而导致的模型对文本语义理解能力下降的问题,本技术的一些实施例在训练bert的过程中,也将采用常规bert预训练(即常规预训练)和知识增强预训练(即知识增强预训练)交替进行训练。

2、第一方面,本技术实施例提供一种用于获取威胁情报数据模型的方法,所述方法包括:获取与威胁情报数据对应的关键词词典;通过对bert模型进行基于知识增强预训练和常规预训练的交替训练,得到用于威胁情报处理bert模型,其中,所述知识增强预训练的样本数据是采用目标字符掩码令牌替换预训练数据集和验证集中的目标词语,所述目标词语是所述预训练数据集和验证集中包括的所述关键词词典中的词语,所述常规预训练的样本数据是利用目标字符掩码令牌替换所述预训练数据集和所述验证集中的相关字词得到的。

3、本技术的实施例通过构建的威胁情报数据领域的关键词词典对关键词进行掩码屏蔽,继续预训练bert,达到对bert进行知识增强的目的,另一方面本技术的一些实施例对brt模型进行基于知识增强预训练和常规预训练的交替训练,可以有效缓解bert在训练的过程中由于过度关注专业词汇而导致的模型对文本语义理解能力下降的问题。

4、在一些实施例中,所述通过对bert模型进行基于知识增强预训练和常规预训练的交替训练,包括:根据所述关键词词典对所述预训练数据集和验证集中的威胁情报进行关键词标注,得到标注训练集和标注验证集;利用所述目标字符掩码令牌替换所述标注训练集和所述标注验证集中所标注的各关键词中的每个字,得到知识增强训练集数据和知识增强验证集数据;基于所述知识增强训练集数据和所述知识增强验证集数据对所述bert模型进行所述知识增强预训练。

5、本技术的一些实施例通过关键词词典构建知识增强训练集数据和知识增强验证集数据,进而实现对bert模型的知识增强训练,提升模型对威胁情报数据处理领域的语言规律和模式的敏感性进而提升数据处理效果。

6、在一些实施例集中,所述方法包括:利用所述目标字符掩码令牌替换所述预训练数据集和所述验证集中各词中的每个字,得到常规训练集数据和常规验证集数据;基于所述常规训练集数据和常规验证集数据对所述bert模型进行所述常规预训练。

7、本技术的一些实施例还通过对常规训练数据集中的字进行掩码处理,进而根据这些数据对bert模型或者经过一次知识增强预训练的模型进行常规预训练,提升模型对文本语义的理解能力。

8、在一些实施例中,所述获取与威胁情报数据对应的关键词词典,包括:至少根据统计信息从中文威胁情报语料库中挖掘出所述关键词词典包括的至少部分关键词其中,其中,所述统计信息包括点互信息和左右信息熵。

9、本技术的实施例通过统计信息来识别威胁情报语料库中的专业词汇,提升对关键词识别的准确性。

10、在一些实施例中,所述点互信息用于表征两个字或词的凝固程度且凝固程度越大则属于同一个关键词的概率越大,所述左右信息熵用于表征被判断短语与两侧文字搭配的丰富度且丰富度越大则所述短语属于一个关键词的概率越大。

11、本技术的一些实施例通过点互信息和左右信息熵这两类统计信息识别威胁情报领域中的专业词汇,得到关键词词典中的词汇,提升关键词识别的准确性。

12、在一些实施例中,所述至少根据统计信息从中文威胁情报语料库中挖掘出所述关键词词典包括的至少部分关键词,包括:计算待评估词语的点互信息的值;获取所述待评估词语的左右信息熵的值;求解所述点互信息的值和所述左右信息熵的值的和,得到统计信息值;重复上述过程得到所述中文威胁情报语料库包括的所有待评估词语的统计信息值;将所有统计信息值排序,并从排序得到的队列中选择大于设置阈值的统计信息值,得到目标统计信息值;根据所述目标统计信息值得到所述至少部分关键词。

13、本技术的一些实施例通过计算统计信息值以及设置阈值得到关键词词典中的至少部分关键词,能够更准确的获取威胁情报领域的专业词汇。

14、在一些实施例中,所述根据所述目标统计信息值得到所述至少部分关键词,包括:将与所述目标统计信息值对应的待评估词语作为所述关键词词典中的词语。

15、本技术的一些实施例直接将大于设置阈值的词汇作为关键词词典中的词汇,提升数据处理的速度。

16、在一些实施例中,所述根据所述目标统计信息值得到所述至少部分关键词,包括:将与所述目标统计信息值对应的待评估词语作为候选关键词;对所述候选关键词进行过滤,并将过滤的关键词作为所述关键词词典中的词语。

17、本技术的一些实施例通过过滤算法将根据统计信息值筛选出的关键词进行筛选,可以提升剩余关键词的准确性。

18、在一些实施例中,所述至少根据统计信息从中文威胁情报语料库中挖掘出所述关键词词典包括的至少部分关键词,包括:构造提示语句;根据所述提示语句和所述中文威胁情报语料库中的数据通过chatgpt模型得到所述关键词词典中包括的至少部分关键词。

19、本技术的一些实施例结合统计信息值和chatgpt模型共同从中文威胁情报语料库中挖掘专业词汇,得到关键词词典中的词语,提升得到专业词语的准确性和数量。

20、在一些实施例中,所述方法还包括:对所述威胁情报处理bert模型进行微调。

21、本技术的一些实施例还包括对预训练得到的威胁情报处理bert模型进行微调,以得到能够处理威胁情报数据的模型。

22、第二方面,本技术的一些实施例中提供一种威胁情报数据处理的方法,获取待分析威胁情报数据;将所述待分析威胁情报数据通过如第一方面任意一个实施例得到的威胁情报处理bert模型进行威胁情报数据处理。

23、第三方面,本技术的一些实施例提供一种获取处理威胁情报数据模型的装置,所述装置包括:关键词词典获取模块,被配置为获取与威胁情报数据对应的关键词词典;交替训练模块,被配置为通过对bert模型进行基于知识增强预训练和常规预训练的交替训练,得到用于威胁情报处理bert模型,其中,所述知识增强预训练的样本数据是根据所述关键词词典替换预训练数据集和验证集得到的,所述常规预训练的样本数据是利用目标字符掩码令牌替换所述预训练数据集和所述验证集中各词中的每个字得到的。

24、第四方面,本技术的一些实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现如第一方面任意一个实施例所述的方法。

25、第五方面,本技术的一些实施例提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现如第一方面任意一个实施例所述的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1