基于知识图谱复合嵌入的网络安全事件溯源剧本生成方法与流程

文档序号:32408013发布日期:2022-12-02 20:53阅读:159来源:国知局
基于知识图谱复合嵌入的网络安全事件溯源剧本生成方法与流程

1.本发明涉及网络安全事件溯源剧本知识图谱领域,特别涉及基于知识图谱复合嵌入的网络安全事件溯源剧本生成方法。


背景技术:

2.近年来,伴随着互联网的高速发展,网络威胁问题愈发严重和频繁。面对着以攻击速度快、潜伏时间长、攻击面积广等特点所著称的全新的网络威胁,传统的网络安全溯源方法显得费时费力。这是因为即使是普通的事件溯源,都会波及到多个系统,多个系统将涉及到多个团队人员,这需要十分高昂的人力成本,且这样的溯源仅一天便可高达数次,在传统方法中,这需要消耗大量人力进行溯源,使得溯源效率十分低下。针对传统方法暴露出的种种问题,soar安全编排自动化与响应应运而生。
3.soar相较于传统方法具有溯源速度快,人力成本低等优点。soar拥有三大核心技术能力,即威胁情报平台,安全事件相应平台,安全编排与自动化。而在这三个技术中,安全编排与自动化无疑是重要且核心的功能。安全编排与自动化指的是将传统方法中需要人工溯源的剧本(playbook),通过自动化的方式编排。而在自动构建网络安全事件溯源剧本领域,基于知识图谱自动构建网络安全事件溯源剧本逐渐兴起,因此如何快速构建网络安全事件溯源剧本成为重中之重。


技术实现要素:

4.为实现上述目的,发明人提供了一种基于知识图谱复合嵌入的网络安全事件溯源剧本生成方法,包括以下步骤:s1:通过引入文本语料库对实体关系进行扩展,用于丰富实体关系,扩充知识图谱;s2:提取知识图谱中的公共特征,使用公共提取层提取出全部输入的公共特征;s3:提取知识图谱中的关系特征,对于不同的嵌入关系使用相应的关系提取层;s4:将公共特征和关系特征投影到嵌入空间,对知识图谱进行补全;s5:对步骤s4得到的知识图谱进行排序,通过对应模块获取pos令牌嵌入和语义上下文得分,词复制概率预测模块通过获取的pos令牌嵌入和语义上下文得分生成网络安全溯源剧本。
5.作为本发明的一种优选方式,给定一个未提及实体对,对从文本语料库中提取的带有提及实体对的ldp进行排名,对主体向量、客体向量学习由参数化的实体对的编码器,通过编码器将实体对编码为;其中编码器的输入为:
其中,表示向量的串联,表示两个向量按元素相乘,表示主体向量减去客体向量;对于连接和的ldp集合,使用预训练的句子编码器 sbert通过向量来表示;使得和实体对共现的ldp与相似,使用与和都相关联的ldp作为正训练实例,与单独的或相关联的 ldp 被用作负训练实例,表达式为:其中和分别表示不等于t和h的客体向量与主体向量,表示负训练实例的关系,表示主体向量和客体向量集合;通过最小化和的边际损失来学习的参数,表达式为:其中,表示边际,使用最小化上式得到的来计算,然后使用内积对每个 进行评分,选择与内积得分最高的前k个ldp来扩充知识图谱,其中k为超参数。
6.作为本发明的一种优选方式,所述s2步骤包括以下步骤:在进行知识图谱扩充后,设,其中表示主体向量、表示客体向量,表示关系向量,连接主体向量和关系向量,表达式为:其中,,而表示向量a和b的向量连接,连接后的嵌入向量表示所有后续层的输入;通过公共密集层提取向量的共同特征,公共密集层的宽度为密集层的过滤器数量,其中每个过滤器包含的内核大小等于输入嵌入的内核大小;
在公共密集层中,将仿射函数应用于给出的输入嵌入,公共密集层的表达式为:其中,、,公共密集层的宽度由给出,表示的倍数,其中n为超参数;通过将非线性激活函数应用于获得共同特征提取的输出。
7.作为本发明的一种优选方式,所述s3步骤包括以下步骤:对于关系 r,编码函数由表示,使用关系密集层进行关系感知特征提取,编码函数是仿射函数,表达式为:其中,、,而表示的输出长度;将应用于输入嵌入,然后应用非线性激活函数,关系密集层面对不同关系会有不同的编码器,用于提取关系特征。
8.作为本发明的一种优选方式,所述s4步骤包括以下步骤:在从关系密集层和公共密集层获得潜在向量后,将这些向量连接起来,连接过的向量通过投影矩阵,投影到嵌入空间,表达式为:然后应用非线性激活,并将定义为:其中,为预测的结果,链路预测分数定义为和的内积;计算所有三元组的分数,并使用二元交叉熵函数计算损失;使用训练策略,让n表示知识图谱中所有实体的数量,二元交叉熵函数损失的表达式为:
其中,,表示第个对象实体,是标签,表示sigmoid函数。
9.作为本发明的一种优选方式,所述s4步骤还包括以下步骤:提取原始嵌入的特征,然后对原始的嵌入进行随机扰动变换,通过提取层提取出特征,损失函数的表达式为:其中函数表示散度;复合损失函数为。
10.作为本发明的一种优选方式,所述s5步骤还包括以下步骤:通过pos生成器生成pos令牌嵌入,通过语义上下文评分模块得到语义上下文得分。
11.作为本发明的一种优选方式,所述s5步骤还包括以下步骤:在对知识图谱进行排序时,将生成的三元组嵌入特征输入到排序网络中,给定一个主体-关系-客体三元组结构,引入一个占位符将其填充为固定长度n,将主体-关系-客体三元组结构特征与填充连接,并通过带有的全连接层得到并预测排序顺序,表达式为:其中,表示带有的全连接层,表示对行进行操作,将序列预测任务视为一个分类问题,其中n表示类的数量,计算真实序列和排序序列之间的交叉熵损失,表达式为:其中,表示排序损失,、中n 表示第几个类别,n 的范围从0
到 n ;知识图谱经过排序网络生成最优描述序列,通过词解码器进一步将序列解码为句子,然后通过 pos生成器应用句法监督,即:以知识图谱顺序为条件,首先通过将标记主体,关系,客体 添加到每个三元组的相应位置对知识图谱进行线性化,并获得,然后词编码器和pos生成器以作为输入,分别输出词编码和pos标签编码;在融合模块中将令牌编码和pos标签编码进行融合,得到更新后的令牌编码,表达式为:其中表示层归一化,融合后更新的令牌编码在词解码器中被解码为语句;pos生成器通过从句子中预先提取的pos标签进行监督,损失函数表达式为:其中,示来自pos生成器的预测概率;词编码器与解码器的损失函数表达式为:其中,表示每个词标记的预测概率。
12.作为本发明的一种优选方式,所述s5步骤还包括以下步骤:为每个单词生成滑动窗口以提供局部上下文,对滑动窗口开始的几个单词处进行填充,通过滑动窗口中的单词特征得到上下文信息,并输入fc层得到语义上下文得分,表达式为:其中,表示sigmoid 函数。
13.作为本发明的一种优选方式,所述s5步骤还包括以下步骤:
词复制概率预测模块使用获取的pos令牌嵌入和语义上下文得分,从知识图谱复制单词的概率,用于生成句子时选择使用来自词解码器的预测词还是知识图谱中的词,表达式为:的预测词还是知识图谱中的词,表达式为:其中,和为可学习的参数,表示令牌嵌入,表示词解码器在每个时间步的最后一个隐藏状态,为一个权衡系数,设置为0.3,语义上下文评分模块与词复制概率预测模块联合优化,复制或预测损失函数表达式为:其中,表示在第k个时间步复制或预测单词的标签,其由知识图谱和句子生成;总训练损失由四个部分组成,包括排序损失、pos 生成损失、单词生成损失和复制或预测损失,总训练损失的表达式为:其中,,和为权衡系数。
14.区别于现有技术,上述技术方案所达到的有益效果有:(1)本方法有效的实现了通过构建高性能知识图谱来完成网络安全事件溯源剧本创建,本方法产生高性能知识图谱来构建网络安全事件溯源剧本,解决了传统方法的种种弊端,并且通过此方法构建的网络安全事件溯源剧本具有极高的适用性与准确性;(2)本发明引入了额外的网络安全文本语料库使得构建的知识图谱拥有更多的实体关系,同时使用了新的嵌入方法,通过将提取过程分为公共特征提取以及关系感知提取,其中公共特征提取对所有输入进行提取,而关系特征提取则针对不同关系分别进行提取,这使得链接预测成功率大大增加,通过此方法补全过的知识图谱在生成网络安全事件溯源剧本方面具有极高的适用性与准确性。
附图说明
15.图1为具体实施方式所述方法框架图。
16.图2为具体实施方式所述扩充知识图谱流程图。
17.图3为具体实施方式所述生成网络安全追溯剧本流程图。
具体实施方式
18.为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
19.如图1至图3所示,本实施例提供了一种基于知识图谱复合嵌入的网络安全事件溯源剧本生成方法,包括以下步骤:s1:通过引入文本语料库对实体关系进行扩展,用于丰富实体关系,扩充知识图谱;s2:提取知识图谱中的公共特征,使用公共提取层提取出全部输入的公共特征;s3:提取知识图谱中的关系特征,对于不同的嵌入关系使用相应的关系提取层;s4:将公共特征和关系特征投影到嵌入空间,对知识图谱进行补全;s5:对步骤s4得到的知识图谱进行排序,通过对应模块获取pos令牌嵌入和语义上下文得分,词复制概率预测模块通过获取的pos令牌嵌入和语义上下文得分生成网络安全溯源剧本。
20.对于上述实施例中的步骤s1具体包括以下步骤:给定一个未提及实体对,对从文本语料库中提取的带有提及实体对的ldp进行排名,对主体向量、客体向量学习由参数化的实体对的编码器,通过编码器将实体对编码为;其中编码器具体实现为非线性激活的多层感知器,其输入为:其中,表示向量的串联,表示两个向量按元素相乘,表示主体向量减去客体向量;上式独立考虑头部和尾部实体嵌入中的信息以及它们对应维度之间的交互。
21.对于连接和的ldp集合,因为ldp是一个文本标记序列,我们可以使用句子编码器通过向量来表示 ldp,在本实施例中,使用预训练的句子编码器sbert (sentence-bert:基于孪生网络的句子嵌入)通过向量来表示;使得和实体对共现的ldp与相似,使用与和都相关联的ldp,即同时出现两者,作为正训练实例,与单独的或,即不是两者相关联的 ldp 被用作负训练实例,表达式为:
其中和分别表示不等于t和h的客体向量与主体向量,表示负训练实例的关系,表示主体向量和客体向量集合;通过最小化和的边际损失来学习的参数,表达式为:其中,表示边际,在本实施例的实验中,设置为1;为了确定要为特定的未提及实体对借用哪些ldp,在本实施例中,使用最小化上式得到的来计算,然后使用内积对每个 进行评分,由句子编码器模型得到,之后选择与内积得分最高的前k个ldp来扩充知识图谱,其中k为超参数。
22.在上述实施例中的步骤s2中,还包括以下步骤:在进行知识图谱扩充后,设,其中表示主体向量、表示客体向量,表示关系向量,为了计算本方法中嵌入的评分函数,连接主体向量和关系向量,表达式为:其中,,而表示向量a和b的向量连接,连接后的嵌入向量表示所有后续层的输入;之后通过公共密集层提取向量的共同特征,公共密集层的宽度为密集层的过滤器数量,其中每个过滤器包含的内核大小等于输入嵌入的内核大小;在公共密集层中,将仿射函数应用于给出的输入嵌入,公共密集层的表达式为:其中,、,公共密集层的宽度由给出,表示的倍数,其中n为超参数;通过将非线性激活函数应用于获得共同特征提取的输出。
23.在上述实施例中的步骤s3中,还包括以下步骤:为了从级联嵌入中提取关系特定特征,我们考虑了关系感知编码功能,对于关系 r,编码函数由表示,使用关系密集层进行关系感知特征提取,编码函数是仿射函数,表达式为:其中,、,而表示的输出长度;将应用于输入嵌入,然后应用非线性激活函数,关系密集层面对不同关系会有不同的编码器,用于提取关系特征。
24.在上述实施例中的步骤s4中,还包括以下步骤:在从关系密集层和公共密集层获得潜在向量后,将这些向量连接起来,连接过的向量通过投影矩阵,投影到嵌入空间,表达式为:然后应用非线性激活,并将定义为:其中,为预测的结果,链路预测分数定义为和的内积;计算所有三元组的分数,并使用二元交叉熵函数计算损失;使用训练策略,让n表示知识图谱中所有实体的数量,二元交叉熵函数损失的表达式为:其中,,表示第个对象实体,是标签,表示sigmoid函数。
25.在上述实施例中的步骤s4中,还包括以下步骤:为了提高提取层的鲁棒性,我们引入了自纠正策略,提取原始嵌入的特征,然后对原始的嵌入进行随机扰动变换,通过提取层提取出特征,之后我们希望提取层提取出来的特征尽可能相同,损失函数的表达式为:
其中函数表示散度;复合损失函数为。
26.如图2所示,通过上述方法生成并补全知识图谱后,还需要对知识图谱进行排序,具体的:在上述实施例中的步骤s5中,还包括以下步骤:通过pos生成器生成pos令牌嵌入,通过语义上下文评分模块得到语义上下文得分。
27.在对知识图谱进行排序时,将上述生成的三元组嵌入特征输入到排序网络中,我们使用从真实句子中提取的序列监督排序网络。给定一个主体-关系-客体三元组结构,由于知识图谱的长度可变,在本实施例中,引入一个占位符将其填充为固定长度n,这也表示可能的位置类的数量,将主体-关系-客体三元组结构特征与填充连接,并通过带有的全连接层fc得到并预测排序顺序,表达式为:其中,表示带有的全连接层,表示对行进行操作,将序列预测任务视为一个分类问题,其中n表示类的数量,知识图谱中三元组的最大值,因此,计算了真实序列和排序序列之间的交叉熵损失,表达式为:其中,表示排序损失,、中n 表示第几个类别,n 的范围从0到 n ;知识图谱经过排序网络生成最优描述序列,通过词解码器进一步将序列解码为句子,词解码器使用中的解码器,然后通过 pos生成器应用额外的句法监督,pos生成器的实现如下所示:以知识图谱顺序为条件,首先通过将标记主体,关系,客体 添加到每个三元组的相应位置对知识图谱进行线性化,并获得,然后词编码器和pos生成器以作为输入,分别输出词编码和pos标签编码;然后,在融合模块中将令牌编码和pos标签编码进行融合,得到更新后的令
牌编码,表达式为:其中表示层归一化,融合后更新的令牌编码在词解码器中被解码为语句;pos生成器通过从句子中预先提取的pos标签进行监督,损失函数表达式为:其中,示来自pos生成器的预测概率;词编码器与解码器的损失函数表达式为:其中,词编码器使用经过预训练的bert模型,表示每个词标记的预测概率。
28.除了复制单词的句法约束外,本实施例还设计了一个语义上下文评分组件,以评估滑动窗口中复制或预测单词的语义一致性。为每个单词生成滑动窗口以提供局部上下文,对滑动窗口开始的几个单词处进行填充,通过滑动窗口中的单词特征得到上下文信息,并输入fc层得到语义上下文得分,表达式为:其中,表示sigmoid 函数。
29.词复制概率预测模块使用获取的pos令牌嵌入和语义上下文得分,从知识图谱复制单词的概率,用于生成句子时每个时间步来自词解码器的预测词还是知识图谱中的词机进行选择,表达式为:器的预测词还是知识图谱中的词机进行选择,表达式为:其中,和为可学习的参数,表示令牌嵌入,表示词解码器在每个时间步的最后一个隐藏状态,为一个权衡系数,设置为0.3,
语义上下文评分模块与词复制概率预测模块联合优化,复制或预测损失函数表达式为:其中,表示在第k个时间步复制或预测单词的标签,其由知识图谱和句子生成;最后,模型中的总训练损失由四个部分组成,包括排序损失、pos 生成损失、单词生成损失和复制或预测损失,总训练损失的表达式为:其中,,和为权衡系数。
30.本方法使用的数据集是comprehensive, multi-source cyber-security events(全面的多源网络安全活动)数据集以及adfa(入侵检测数据集)数据集。其中comprehensive, multi-source cyber-security events数据集是从网络上的各种网站和各种漏洞数据库中获取的,其中包括网络安全和漏洞信息以及网络文本数据。adfa数据集包含各种入侵的数据。大量实验表明,本方法优于最先进的方法。
31.上表表明,本方法在mrr平均倒数排名中实现了最佳链路预测性能,hit@1(前一准
确率)和hit@10(前十准确率)都获得了极佳的成绩,在comprehensive, multi-source cyber-security events和adfa数据集中本方法都获得了极佳的性能。
32.其中mrr性能提升0.6%,0.2%hit@10和1.1%hit@1此外,wn18rr也存在性能增益;mrr中的性能提升2.4%,2.5%hit@10和2.6%hit@1.这种简单的方法优于conv、sacn、interacte等共享层模型和rgcn等关系特定模型。本实施例的结果表明,结合两种不同编码功能的架构能有效的提高知识图谱嵌入的性能。本实施例分析了本方法在comprehensive, multi-source cyber-security events数据集的不同关系类型上的性能,因为comprehensive, multi-source cyber-security events比adfa包含更多不同的关系。基于与头部连接的尾部数量和与尾部连接的头部数量的四种关系类型:一对一(1:1)、一对多(1:n)、多对一(n:1)和多对多(n:n)。使用此数据集,本实施例比较了三种模型:conve、interacte和comdense在四种关系类型下的表现。结果如下表所示,发现comdense在复杂关系类型(即1:n、n:n、n:1)以及简单关系(即1:1)中都是有效的。值得注意的是,1:1的性能增益更高,这表明comdense在捕捉简单关系方面尤其有效。
33.上述实施例表明,本方法有效的实现了通过构建高性能知识图谱来完成网络安全事件溯源剧本创建,本方法产生高性能知识图谱来构建网络安全事件溯源剧本,解决了传统方法的种种弊端,并且通过此方法构建的网络安全事件溯源剧本具有极高的适用性与准确性;此外,本发明引入了额外的网络安全文本语料库使得构建的知识图谱拥有更多的实体关系,同时使用了新的嵌入方法,通过将提取过程分为公共特征提取以及关系感知提取,其中公共特征提取对所有输入进行提取,而关系特征提取则针对不同关系分别进行提取,这使得链接预测成功率大大增加,通过此方法补全过的知识图谱在生成网络安全事件溯源剧本方面具有极高的适用性与准确性。
34.在生成网络安全事件溯源剧本方面,本方法在顺序监督下优化知识顺序预测,并通过句法和语义正则化进一步增强生成句子和知识图谱的一致性。
35.结合词性(pos)句法标记来限制从知识图谱中复制单词的位置,并使用语义上下文评分函数来生成句子中的每个单词在其上下文的适宜度。使得构建的网络安全事件溯源剧本,具有极高的可用性与准确性。
36.需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修
改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1