网络安全知识图谱的生成方法、装置、设备及存储介质与流程

文档序号:16887448发布日期:2019-02-15 22:45阅读:228来源:国知局
网络安全知识图谱的生成方法、装置、设备及存储介质与流程

本发明涉及数据处理技术领域,特别是涉及一种网络安全知识图谱的生成方法、装置、设备及存储介质。



背景技术:

随着网络的广泛应用,各领域的网络数据正在处于飞速增长中。如何更方便地在海量的网络数据中获取有价值的数据和信息,已成为各领域人员都需要面对的问题。例如,在网络安全领域中,技术人员往往需要利用网络安全相关的网络数据来查找针对特定的漏洞或弱点的应对策略。尤其是,在网络安全相关的信息对象之间的关系中,往往也存在技术人员需要了解的信息。



技术实现要素:

本申请实施例提供了一种网络安全知识图谱的生成方法、装置、设备以及存储介质,以使得技术人员能够利用网络安全知识图谱更便捷地搜索、挖掘、分析网络安全相关的信息,从而使得技术人员能够更便捷地共享网络安全问题的应对策略。

第一方面,本申请实施例提供了一种网络安全知识图谱的生成方法,该方法包括:

在网络安全相关的收集数据中提取所述网络安全知识图谱的初始信息;

从所述初始信息中提取知识图谱三元组,其中,所述知识图谱三元组包括两个知识图谱实体以及所述两个知识图谱实体之间的属性关系,所述两个知识图谱实体均为网络安全相关的信息对象;

以所述知识图谱三元组构建所述网络安全知识图谱的网络。

在一些可能的实施方式中,所述在网络安全相关的收集数据中提取所述网络安全知识图谱的初始信息,包括:

收集网络安全相关的数据信息,作为所述收集数据;

对所述收集数据进行归一化处理,得到所述初始信息,以使得所述收集数据中相同含义的不同描述信息被统一成所述初始信息中相同的描述信息。

在一些可能的实施方式中,所述从所述初始信息中提取知识图谱三元组,包括:

在所述初始信息中选取训练语料;

通过对所述训练语料进行词性和语法分析,对所述训练语料进行学习,以生成语法模板;

基于所述初始信息中与所述语法模板相匹配的信息,提取所述知识图谱三元组。

在一些可能的实施方式中,所述从所述初始信息中提取知识图谱三元组,包括:

获取预先收集的三元组语义模板;

在所述初始信息中查找与所述三元组语义模板相匹配的信息,作为目标信息;

按照所述三元组语义模板对应的三元组提取规则,在所述目标信息中提取所述知识图谱三元组。

在一些可能的实施方式中,所述以所述知识图谱三元组构建所述网络安全知识图谱的网络,包括:

针对所述知识图谱三元组所涉及的知识图谱实体,对所述知识图谱实体进行聚类分析;

通过聚类分析的结果,将同一聚类中具有不同描述信息的知识图谱实体进行合并;

通过聚类分析的结果,将不同聚类中具有相同描述信息的知识图谱实体区分为不同的知识图谱实体。

在一些可能的实施方式中,所述以所述知识图谱三元组构建所述网络安全知识图谱的网络,包括:

针对所述知识图谱三元组所涉及的属性关系,对所述属性关系进行聚类分析;

通过聚类分析的结果,将同一聚类中具有不同描述信息的属性关系进行合并。

第二方面,本申请实施例还提供了一种网络安全知识图谱的生成装置,包括:

第一提取单元,用于在网络安全相关的收集数据中提取所述网络安全知识图谱的初始信息;

第二提取单元,用于从所述初始信息中提取知识图谱三元组,其中,一个所述知识图谱三元组包括两个知识图谱实体以及所述两个知识图谱实体之间的属性关系,所述两个知识图谱实体均为网络安全相关的信息对象;

构建单元,用于以所述知识图谱三元组构建所述网络安全知识图谱的网络。

在一些可能的实施方式中,所述第一提取单元,包括:

收集子单元,用于收集网络安全相关的数据信息,作为所述收集数据;

归一化子单元,用于对所述收集数据进行归一化处理,得到所述初始信息,以使得所述收集数据中相同含义的不同描述信息被统一成所述初始信息中相同的描述信息。

在一些可能的实施方式中,所述第二提取单元,包括:

选取子单元,用于在所述初始信息中选取训练语料;

生成子单元,用于通过对所述训练语料进行词性和语法分析,对所述训练语料进行学习,以生成语法模板;

第一提取子单元,用于基于所述初始信息中与所述语法模板相匹配的信息,提取所述知识图谱三元组。

在一些可能的实施方式中,所述第二提取单元,包括:

获取子单元,用于获取预先收集的三元组语义模板;

查找子单元,用于在所述初始信息中查找与所述三元组语义模板相匹配的信息,作为目标信息;

第二提取子单元,用于按照所述三元组语义模板对应的三元组提取规则,在所述目标信息中提取所述知识图谱三元组。

在一些可能的实施方式中,所述构建单元,包括:

第一聚类分析子单元,用于针对所述知识图谱三元组所涉及的知识图谱实体,对所述知识图谱实体进行聚类分析;

第一合并子单元,用于通过聚类分析的结果,将同一聚类中具有不同描述信息的知识图谱实体进行合并;

区分子单元,用于通过聚类分析的结果,将不同聚类中具有相同描述信息的知识图谱实体区分为不同的知识图谱实体。

在一些可能的实施方式中,所述构建单元,包括:

第二聚类分析子单元,用于针对所述知识图谱三元组所涉及的属性关系,对所述属性关系进行聚类分析;

第二合并子单元,用于通过聚类分析的结果,将同一聚类中具有不同描述信息的属性关系进行合并。

第三方面,本申请实施例还提供了一种网络安全知识图谱的生成设备,该设备包括处理器以及存储器:

所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

所述处理器用于根据所述程序代码中的指令执行上述第一方面所述的方法。

第四方面,本申请实施例还提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行上述第一方面所述的方法。

与现有技术相比,本申请实施例具有以下优点:

本实施例中,通过生成网络安全知识图谱,可以使得技术人员能够利用生成的网络安全知识图谱更便捷地搜索、挖掘、分析网络安全相关的信息。具体的,在网络安全相关的收集数据中提取网络安全知识图谱的初始信息,从提取的初始信息中提取知识图谱三元组,其中,一个知识图谱三元组包括两个知识图谱实体以及两个知识图谱实体之间的属性关系,该两个知识图谱实体均为网络安全相关的信息对象,然后,以提取出的知识图谱三元组构建网络安全知识图谱的网络。可见,基于网络安全相关的收集数据而构建出网络安全知识图谱,可以将广泛的网络安全相关信息变成简洁的关系化知识结构信息,这样,若技术人员发现信息安全漏洞或者已经暴露出来的弱点,则可以利用构建出的网络安全知识图谱查找出该信息安全漏洞或者弱点的应对策略和/或描述信息,为技术人员处理该信息安全漏洞或者弱点提供信息参考。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例中一个示例性应用场景示意图;

图2为本申请实施例中一种网络安全知识图谱的生成方法流程示意图;

图3为本申请实施例中一种网络安全知识图谱的生成装置的结构示意图;

图4为本申请实施例中一种网络安全知识图谱的生成设备的结构示意图。

具体实施方式

在网络安全领域中,技术人员在发现信息安全漏洞或者已经暴露出来的弱点时,通常是利用网络安全相关的网络数据来查找出针对于该信息安全漏洞或者弱点的应对策略,或者是查找出该信息安全漏洞或者弱点的描述信息以了解该信息安全漏洞或者弱点的安全问题与漏洞细节。

为了使得技术人员能够更便捷地共享网络安全问题的应对策略,本申请实施例提供了一种网络安全知识图谱的生成方法,以使得技术人员能够利用生成的网络安全知识图谱更便捷地搜索、挖掘、分析网络安全相关的信息。具体的,在网络安全相关的收集数据中提取网络安全知识图谱的初始信息,从提取的初始信息中提取知识图谱三元组,其中,一个知识图谱三元组包括两个知识图谱实体以及两个知识图谱实体之间的属性关系,该两个知识图谱实体均为网络安全相关的信息对象,然后,以提取出的知识图谱三元组构建网络安全知识图谱的网络。

可见,基于网络安全相关的收集而构建出网络安全知识图谱,可以将广泛的网络安全相关信息变成简洁的关系化知识结构信息,这样,若技术人员发现信息安全漏洞或者已经暴露出来的弱点,则可以利用构建出的网络安全知识图谱查找出该信息安全漏洞或者弱点的应对策略和/或描述信息,为技术人员处理该信息安全漏洞或者弱点提供信息参考。

举例来说,本申请实施例可以应用于图1所示的示例性应用场景中。在该场景中,用户101可以通过终端102向服务器103发送构建网络安全知识图谱的指令;服务器103响应该指令,在网络安全相关的收集数据中提取网络安全知识图谱的初始信息,然后,服务器103从初始信息中提取知识图谱三元组,其中,一个知识图谱三元组包括两个知识图谱实体以及两个知识图谱之间的属性关系,该两个知识图谱实体均为网络安全相关的信息对象,接着,服务器103以提取出的知识图谱三元组构建网络安全知识图谱的网络。当用户101通过终端102输入信息安全漏洞或者弱点时,在终端102可以将该信息安全漏洞或者弱点发送至服务器103,由服务器103从构建的网络安全知识图谱中查找出针对于该信息安全漏洞或者弱点的应对策略和/或描述信息,并将该应用策略和/或描述信息发送至终端102,以便于在终端102的显示屏上呈现给用户101。这样,服务器103在构建出网络安全知识图谱的网络后,可以为不同用户提供信息安全漏洞或者弱点的信息查询服务,从而可以使得用户能够更便捷地共享网络安全问题的应对策略。

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参阅图2,图2示出了本申请实施例中一种网络安全知识图谱的生成方法流程示意图,该方法具体可以包括:

s201:在网络安全相关的收集数据中提取网络安全知识图谱的初始信息。

本实施例中,是基于网络安全相关的数据来构建网络安全知识图谱,因此,可以预先对网络安全相关的数据进行收集。在一些示例中,所收集的数据可以是cve(commonvulnerabilities&exposures,公共漏洞与暴露)中的漏洞描述信息和/或互联网上收集到的网络安全相关信息,比如,可以是漏洞发布平台所发布的漏洞信息、相关媒体发布的关于漏洞的新闻以及突发安全事件的细节描述以及技术人员在网上发布的博文等信息,这些信息通常都与网络安全相关,因此,可以将这些信息作为网络安全相关的收集数据。

值的注意的是,实际应用中,由于可能是从不同的数据来源处收集到网络安全相关的数据,则在所收集的网络安全相关的数据中,通常会存在相同含义的网络安全信息具有不同的描述。因此,可以通过归一化处理对网络安全相关的收集数据进行整合,从中提取出用于构建网络安全知识图谱的初始信息,其中,该初始信息可以包含网络安全信息中的实体以及实体之间的关系。

比如,在一些博文中,针对于“拒绝服务攻击”的描述可能为“拒绝服务攻击即是攻击者想办法让目标机器停止提供服务”;而在一些媒体发布的关于漏洞的新闻中,针对于“拒绝服务攻击”描述可能为“使得目标机器无法提供正常的服务”,可见,在博文中所采集的针对于“拒绝提供服务”的描述,与在新闻中所采集的针对于“拒绝提供服务”的描述存在差异,但都是表达了相同的含义。因此,可以将这两种描述进行整合为其中一种描述,为“拒绝服务攻击即是攻击者想办法让目标机器停止提供服务”。

又比如,语言种类的差异,使得中文描述“拒绝服务攻击”与英文描述“denialofservice”具有相同的含义;而且,基于命名方式的差异,语言种类相同的英文描述“denialofservice”与英文描述,也具有相同的含义。因此,“拒绝服务攻击”、“denialofservice”以及“dos”虽然描述不同,但是三者均具有相同的含义,则,可以将这三种描述整合为其中一种描述,如“denialofservice”等。当然,致使不同描述具有相同的含义原因存在多种,比如可能是学科、认知、个人习惯的差异等,在此不作过多赘述。

在一种示例性的具体实施方式中,可以收集网络安全相关的数据信息,并将其作为网络安全相关的收集数据,然后,通过对收集数据进行归一化处理,从网络安全相关的收集数据中提取得到用于构建网络安全知识图谱的初始信息。这样,可以将收集数据中具有相同含义的不同描述进行整合,从而可以剔除具有相同含义的、多余的描述。

s202:从提取的初始信息中提取知识图谱三元组,其中,一个知识图谱三元组包括两个知识图谱实体以及两个知识图谱实体之间的属性关系,该两个知识图谱实体均为网络安全相关的信息对象。

值得注意的是,构建知识图谱的最小组成单元通常为知识图谱三元组,因此,在提取出初始信息后,可以进一步从中提取出知识图谱三元组。其中,知识图谱三元组包括有两个知识图谱实体,以及两个知识图谱实体之间所具有的属性关系,即该知识图谱三元组的基本形式可以是:实体1—关系或属性—实体2。并且,由于本实施例中所需构建的是网络安全知识图谱,与网络安全相关,因此,提取的知识图谱三元组中的两个知识图谱实体均为网络安全相关的信息对象。

举例来说,假设提取的初始信息中包含一条“land是一种非常著名的拒绝服务攻击的例子”数据,则,所提取的知识图谱三元组中,知识图谱实体1可以是“land”,知识图谱实体2可以是“拒绝服务攻击”,而知识图谱实体1与知识图谱实体2之间为从属关系,即知识图谱实体1(land)属于知识图谱实体2(拒绝服务攻击)中的一种。

在一种示例性的具体实施方式中,可以是在初始信息中选取训练预料,并通过对选取的训练预料进行词性和语法分析,对该训练预料进行学习,以生成语法模板,然后,基于初始信息中与该语法模板相匹配的信息,提取得到知识图谱三元组。举例来说,假设所选取的训练预料为初始信息中的“land是一种非常著名的拒绝服务攻击的例子”,通过对该训练预料进行词性以及语法的分析,可知该训练预料中的“land”以及“拒绝服务攻击”均为表征具体事物的名词,并且,“land”以及“拒绝服务攻击”为从属关系,则可以生成得到“知识图谱实体1是一种知识图谱实体2”的语法模板,从而可以利用该语法模板对初始信息进行知识图谱三元组的提取,得到两个知识图谱实体之间满足从属关系的一类知识图谱三元组。

进一步的,在利用生成的语法模板来提取知识图谱三元组时,可以选择出现频率较高的语法模板来进行提取。

上述提取得到知识图谱三元组的实施方式中,是先进行词性以及语法的分析生成语法模板,然后利用生成的语法模板来对初始信息来提取知识图谱三元组,但是在另一些可能的实施方式中,也可以是预先收集了一些三元组语义模板,在提取知识图谱三元组的过程中,可以直接利用预先收集的语法模板来进行提取。

具体的,可以获取预先收集的三元组语义模板,并在初始信息中查找与三元组语义模板相匹配的信息,将该信息作为目标来源信息,然后,按照三元组语义模板对应的三元组提取规则,在目标来源信息中提取知识图谱三元组。举例来说,假设预先收集的三元组语义模板为“知识图谱实体1也被称为知识图谱实体2”,则利用该三元组语义模板在初始信息中查找出与三元组语义模板相匹配的信息,为“land”攻击也可以被称为“landloopbackattack”,然后,按照三元组提取规则,确定“land”与“landloopbackattack”分别为知识图谱三元组中的两个知识图谱实体,“land”与“landloopbackattack”之间为等同关系,从而可以提取得到知识图谱三元组。

s203:以知识图谱三元组构建网络安全知识图谱的网络。

实际应用中,由于构建网络安全知识图谱的知识图谱三元组,是基于不同数据来源的数据提取得到的,即使前期对收集的数据进行了数据整合,但是仍然难免会存在知识图谱实体具有相同含义。为此,针对于知识图谱三元组所涉及的知识图谱实体,可以对该知识图谱实体进行聚类分析,并通过聚类分析的结果,将同一聚类中具有不同描述信息的知识图谱实体进行合并。

在一种合并知识图谱实体的示例性实施方式中,可以针对提取得到的知识图谱三元组所涉及的知识图谱实体,对知识图谱实体进行聚类分析,并通过聚类分析的结果,识别出具有不同的描述信息但是具有相同的含义的待合并的知识图谱实体,然后,对待合并的知识图谱实体进行合并,并以合并后的知识图谱实体对知识图谱三元组进行调整,从而可以利用调整后的知识图谱三元组构建网络安全知识图谱的网络。

以简单的示例来说,假设提取出的知识图谱三元组中包括三元组a、三元组b以及三元组c。其中,三元组a为(land,拒绝服务攻击,从属关系),表征“land”属于“拒绝服务攻击”中的一种;三元组b为,表征“impossibleippacket”属于“拒绝服务攻击”中的一种;三元组c为(impossibleippacket,ip数据包,原理),表征“impossibleippacket”的原理是伪造一个“ip数据包”。通过聚类分析可以识别出知识图谱实体“land”与知识图谱实体“impossibleippacket”,具有相同的含义,则可以将知识图谱实体“land”与知识图谱实体“impossibleippacket”合并成一个知识图谱实体“land”,并以合并后的知识图谱实体“land”将原先的知识图谱三元组b、c分别调整为(land,拒绝服务攻击,从属关系)和(land,ip数据包,原理),此时,三元组b与三元组a相同,则进一步可以删除三元组b,然后,以三元组a以及调整后的三元组c构建网络安全知识图谱的网络。

值得注意的是,在提取的知识图谱三元组中,除了可能存在描述不同但是含义相同的知识图谱实体以外,还可能存在描述相同但是含义不同的知识图谱实体。比如,两个具有相同描述的知识图谱实体“dos”,其既可能表征“denialofservice”,即拒绝服务攻击,也有可能表征“diskoperatingsystem”,即磁盘操作系统。为此,在针对知识图谱三元组所涉及的知识图谱实体,对知识图谱实体进行聚类分析后,可以通过聚类分析的结果,将不同聚类中具有相同描述信息的知识图谱实体区分为不同的知识图谱实体。

在一种区分知识图谱实体的示例性实施方式中,可以针对知识图谱三元组所涉及的知识图谱实体,对知识图谱实体进行聚类分析,并通过聚类分析的结果,可以识别出具有相同描述信息但是不同含义的待区分的知识图谱实体,然后,可以对待区分的知识图谱实体进行区分,并以区分后的知识图谱实体对知识图谱三元组进行调整,从而可以利用调整后的知识图谱三元组构建网络安全知识图谱的网络。

举例来说,假设提取出的知识图谱三元组中包括三元组a以及三元组b。其中,三元组a为(dos,拒绝服务攻击,等同关系),表征dos即是指拒绝服务攻击,三元组b为(dos,操作系统,从属关系),表征dos是一种操作系统。通过聚类分析可以识别出三元组a中的知识图谱实体“dos”与三元组b中的知识图谱实体“dos”,具有不同的含义,在可以将三元组a中的知识图谱实体“dos”,与三元组b中的知识图谱实体“dos”进行区分,如可以是分别为两个三元组的“dos”配置用于区分的特定标识,然后,以区分后的知识图谱实体对知识图谱三元组进行调整,并以调整后的知识图谱三元组构建网络安全知识图谱的网络。

实际应用中,由于合并知识图谱三元组中的知识图谱实体后,知识图谱实体的数量得以减少,则可以在对描述不同但是含义相同的知识图谱实体进行合并后,再从中区分出含义不同但是描述相同的知识图谱实体,这样可以减少所需区分的知识图谱实体的数量,从而可以减少区分知识图谱实体所需的计算量。

比如,假设知识图谱三元组中包含10个知识图谱实体,对这10个知识图谱实体进行合并后,所得到的知识图谱三元组中包含了6个知识图谱实体,此时,再对知识图谱三元组中的知识图谱实体进行区分时,可以只区分6个知识图谱实体即可,而不用对原知识图谱三元组中包含的10个知识图谱实体进行区分,从而可以减少区分含义不同但是描述相同的知识图谱实体的数量,相应的,其所需的计算量也会得以减少。

此外,对于多个不同的知识图谱三元组中两个知识图谱实体之间的属性关系,虽然描述不同,但是可能具有相同的含义。比如,三元组a中两个知识图谱实体a1、b1之间的属性关系为“等同关系”,即a1可以被称作b1;而三元组b中两个知识图谱实体a2、b2之间的属性关系为“指代关系”,即表征b2可以指代a2,也即,a2也可以被称为b2,则a1和b1之间的属性关系与a1、b1之间的属性关系虽然描述不同,但是具有相同的含义。为此,可以是通过聚类分析的方式,以对提取得到的知识图谱三元组所涉及的属性关系进行调整。

在一种可能的调整属性关系的实施方式中,可以针对知识图谱三元组所涉及的属性关系,对该属性关系进行聚类分析,并通过聚类分析的结果,识别出带合并的属性关系,该待合并的属性关系具有不同的描述信息和相同的含义,然后,对待合并的属性关系进行合并,以合并后的属性关系对知识图谱三元组进行调整,并以调整后的知识图谱三元组构建网络安全图谱的网络。

举例来说,假设提取出的知识图谱三元组中包括三元组a以及三元组b。其中,三元组a为(实体1,实体2,等同关系),表征实体1即为实体2,三元组b为(实体i,实体ii,指代关系),表征实体2可以指代实体1,也即实体1即为实体2。通过聚类分析可以识别出实体1、实体2之间的属性关系,与实体i、实体ii之间的属性关系虽然描述不同,但是具有相同的含义,则可以将属性关系“等同关系”与属性关系“指代关系”进行合并,然后以合并后的属性关系对知识图谱三元组进行调整,使得三元组a为(实体1,实体2,等同关系),三元组b为(实体i,实体ii,等同关系),并以调整后的知识图谱三元组构建网络安全图谱的网络。

需要说明的是,由于cve平台为了实现对网络漏洞的精确定位,针对网络漏洞有较为严格的命名标准,为每个网络漏洞都确定了唯一的命名名称;同时,针对于漏洞的描述也存在较为严格的标准,在语法描述和内容陈述中保持对所有漏洞的严格一致,因此,在一种示例中,在以上述调整知识图谱实体以及属性关系的实施方式来合并知识图谱实体以及属性关系时,可以以cve平台对知识图谱实体以及属性关系的描述为准。

在一种可能的实施方式中,基于所提取出的知识图谱三元组,可以利用echarts提供的力导向布局图中的树形图来构建网络安全知识图谱的网络,从而生成得到所需的网络安全知识图谱。

进一步的,在生成得到网络安全知识图谱后,还可以将该网络安全知识图谱存储至关系型数据库中,当需要展示数据库中针对于知识图谱实体以及知识图谱实体之间的属性关系的描述信息时,可以通过echarts将数据库中的描述信息进行可视化展示。

实际应用中,由于所生成的网络安全知识图谱的信息量较为庞大,在展示针对于知识图谱实体以及知识图谱实体之间的属性关系的描述信息时,可以基于对所展示的描述信息的规模限制,来展示不超过一定数据量的描述信息。

这样,技术人员在发现安全漏洞或者弱点时,可以利用该网络安全知识图谱,查找出该安全漏洞或者弱点所在三元组中的另一个知识图谱实体,以及与该知识图谱实体之间的属性关系,从而可以得到与该安全漏洞或者弱点对应的共享应对策略等描述信息,以便于技术人员了解以及处理该安全漏洞或者弱点。

本实施例中,通过生成网络安全知识图谱,可以使得技术人员能够利用生成的网络安全知识图谱更便捷地搜索、挖掘、分析网络安全相关的信息。具体的,在网络安全相关的收集数据中提取网络安全知识图谱的初始信息,从提取的初始信息中提取知识图谱三元组,其中,一个知识图谱三元组包括两个知识图谱实体以及两个知识图谱实体之间的属性关系,该两个知识图谱实体均为网络安全相关的信息对象,然后,以提取出的知识图谱三元组构建网络安全知识图谱的网络。可见,基于网络安全相关的收集而构建出网络安全知识图谱,可以将广泛的网络安全相关信息变成简洁的关系化知识结构信息,这样,若技术人员发现信息安全漏洞或者已经暴露出来的弱点,则可以利用构建出的网络安全知识图谱查找出该信息安全漏洞或者弱点的应对策略和/或描述信息,为技术人员处理该信息安全漏洞或者弱点提供信息参考。

此外,本申请实施例还提供了一种网络安全知识图谱的生成装置。参阅图3,图3示出了本申请实施例中一种网络安全知识图谱的生成装置的结构示意图,该装置300具体可以包括:

第一提取单元301,用于在网络安全相关的收集数据中提取所述网络安全知识图谱的初始信息;

第二提取单元302,用于从所述初始信息中提取知识图谱三元组,其中,一个所述知识图谱三元组包括两个知识图谱实体以及所述两个知识图谱实体之间的属性关系,所述两个知识图谱实体均为网络安全相关的信息对象;

构建单元303,用于以所述知识图谱三元组构建所述网络安全知识图谱的网络。

在一些可能的实施方式中,所述第一提取单元301,具体可以包括:

收集子单元,用于收集网络安全相关的数据信息,作为所述收集数据;

归一化子单元,用于对所述收集数据进行归一化处理,得到所述初始信息,以使得所述收集数据中相同含义的不同描述信息被统一成所述初始信息中相同的描述信息。

在一些可能的实施方式中,所述第二提取单元302,具体可以包括:

选取子单元,用于在所述初始信息中选取训练语料;

生成子单元,用于通过对所述训练语料进行词性和语法分析,对所述训练语料进行学习,以生成语法模板;

第一提取子单元,用于基于所述初始信息中与所述语法模板相匹配的信息,提取所述知识图谱三元组。

在一些可能的实施方式中,所述第二提取单元302,具体可以包括:

获取子单元,用于获取预先收集的三元组语义模板;

查找子单元,用于在所述初始信息中查找与所述三元组语义模板相匹配的信息,作为目标信息;

第二提取子单元,用于按照所述三元组语义模板对应的三元组提取规则,在所述目标信息中提取所述知识图谱三元组。

在一些可能的实施方式中,所述构建单元303,具体可以包括:

第一聚类分析子单元,用于针对所述知识图谱三元组所涉及的知识图谱实体,对所述知识图谱实体进行聚类分析;

第一合并子单元,用于通过聚类分析的结果,将同一聚类中具有不同描述信息的知识图谱实体进行合并;

区分子单元,用于通过聚类分析的结果,将不同聚类中具有相同描述信息的知识图谱实体区分为不同的知识图谱实体。

在一些可能的实施方式中,所述构建单元303,具体可以包括:

第二聚类分析子单元,用于针对所述知识图谱三元组所涉及的属性关系,对所述属性关系进行聚类分析;

第二合并子单元,用于通过聚类分析的结果,将同一聚类中具有不同描述信息的属性关系进行合并。

需要说明的是,图3所示的网络安全知识图谱的生成装置,是与图2所示的网络安全知识图谱的生成方法所对应的装置,具体实现方法与图2所示的方法类似,可参考图2所示的方法描述,这里不再赘述。

本实施例中,基于网络安全相关的收集数据而构建出网络安全知识图谱,可以将广泛的网络安全相关信息变成简洁的关系化知识结构信息,这样,若技术人员发现信息安全漏洞或者已经暴露出来的弱点,则可以利用构建出的网络安全知识图谱查找出该信息安全漏洞或者弱点的应对策略和/或描述信息,为技术人员处理该信息安全漏洞或者弱点提供信息参考。

此外,本申请实施例还提供了一种网络安全知识图谱的生成设备。参阅图4,图4示出了本申请实施例中一种网络安全知识图谱的生成设备的结构示意图,该设备400包括处理器401以及存储器402:

所述存储器402用于存储程序代码,并将所述程序代码传输给所述处理器401;

所述处理器401用于根据所述程序代码中的指令执行以下操作:

在网络安全相关的收集数据中提取所述网络安全知识图谱的初始信息;

从所述初始信息中提取知识图谱三元组,其中,所述知识图谱三元组包括两个知识图谱实体以及所述两个知识图谱实体之间的属性关系,所述两个知识图谱实体均为网络安全相关的信息对象;

以所述知识图谱三元组构建所述网络安全知识图谱的网络。

在一些可能的实施方式中,所述处理器401具体用于执行:

收集网络安全相关的数据信息,作为所述收集数据;

对所述收集数据进行归一化处理,得到所述初始信息,以使得所述收集数据中相同含义的不同描述信息被统一成所述初始信息中相同的描述信息。

在一些可能的实施方式中,所述处理器401具体用于执行:

在所述初始信息中选取训练语料;

通过对所述训练语料进行词性和语法分析,对所述训练语料进行学习,以生成语法模板;

基于所述初始信息中与所述语法模板相匹配的信息,提取所述知识图谱三元组。

在一些可能的实施方式中,所述处理器401具体用于执行:

获取预先收集的三元组语义模板;

在所述初始信息中查找与所述三元组语义模板相匹配的信息,作为目标信息;

按照所述三元组语义模板对应的三元组提取规则,在所述目标信息中提取所述知识图谱三元组。

在一些可能的实施方式中,所述处理器401具体用于执行:

针对所述知识图谱三元组所涉及的知识图谱实体,对所述知识图谱实体进行聚类分析;

通过聚类分析的结果,将同一聚类中具有不同描述信息的知识图谱实体进行合并;

通过聚类分析的结果,将不同聚类中具有相同描述信息的知识图谱实体区分为不同的知识图谱实体。

在一些可能的实施方式中,所述处理器401具体用于执行:

针对所述知识图谱三元组所涉及的属性关系,对所述属性关系进行聚类分析;

通过聚类分析的结果,将同一聚类中具有不同描述信息的属性关系进行合并。

另外,本申请实施例还提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行如下指令:

在网络安全相关的收集数据中提取所述网络安全知识图谱的初始信息;

从所述初始信息中提取知识图谱三元组,其中,所述知识图谱三元组包括两个知识图谱实体以及所述两个知识图谱实体之间的属性关系,所述两个知识图谱实体均为网络安全相关的信息对象;

以所述知识图谱三元组构建所述网络安全知识图谱的网络。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1