电力安全知识数据的采集方法、装置及计算机设备与流程

文档序号:29856244发布日期:2022-04-30 09:26阅读:111来源:国知局
电力安全知识数据的采集方法、装置及计算机设备与流程

1.本技术涉及网络信息技术领域,特别是涉及一种电力安全知识数据的采集方法、装置、计算机设备、存储介质和计算机程序产品。


背景技术:

2.随着智能电网及全球能源互联网的发展,电网工业控制系统由以往的相对封闭转向开放,电网工业控制系统与外部系统交互的边界不断增加,电网工业控制系统逐渐面临来自外部系统和网络空间的安全威胁,因此需要相应的安全威胁及漏洞解决的安全知识。
3.安全知识数据来源于漏洞库、开源工具建立的开源论坛、安全厂商组织的安全社区、以及安全爱好者或研究人员自发组织的安全社区,以及众多分散于各处的安全爱好者自有知识等。当人们想要收集这些安全知识数据时,必须手动访问对应的网站,收集效率低下,不便于对数据信息的收集与整合。
4.因此,需要一种方法实现不同数据源的高效自动化采集数据,从而完成对多数据源的安全知识数据的收集与整合。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种能够高效自动采集电力行业的安全知识数据的电力安全知识数据的采集方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
6.第一方面,本技术提供了一种电力安全知识数据的采集方法。所述方法包括:
7.获取当前待采集的数据源标识;
8.确定与所述数据源标识对应的数据源类型,并根据所述数据源类型,确定对应的数据采集方式;
9.基于所述数据采集方式,提取与所述数据源标识相关联的数据源中的电力安全知识数据;
10.利用漏洞库对所述电力安全知识数据进行规范化处理,得到具有规范格式的候选电力安全知识数据;
11.对所述候选电力安全知识数据进行验证,以获得经验证通过得到的目标电力安全知识数据,并将所述目标电力安全知识数据存储至存储对象中;其中,所述存储对象至少包括数据库和二进制文件中的一种。
12.在其中一个实施例中,所述方法还包括:
13.在当前待采集的数据源标识完成数据采集后,根据采集策略确定下一个待采集的数据源标识;其中,所述采集策略至少包括深度优先采集策略、广度优先采集策略、以及最佳优先采集策略中的一种;
14.将所述下一个待采集的数据源标识作为当前待采集的数据源标识,并返回至确定与所述数据源标识对应的数据源类型的步骤继续执行,直至待采集队列中的所有数据源标
识均完成数据采集。
15.在其中一个实施例中,所述方法还包括:
16.从所述待采集队列中删除已采集的数据源标识,并将已采集的数据源标识放入至已采集队列中。
17.在其中一个实施例中,所述数据源关联有多个数据源标识;所述方法还包括:
18.确定与所述数据源对应的全部数据源标识中,除当前待采集的数据源标识以外的其他数据源标识;
19.若所述其他数据源标识存在于已采集队列中,则丢弃所述其他数据源标识;
20.若所述其他数据源标识不存在于已采集队列中,则将所述其他数据源标识放入待采集队列中。
21.在其中一个实施例中,所述数据源类型至少包括匿名访问类型、身份验证类型、以及签名验证类型中的一种;所述基于所述数据采集方式,提取与所述数据源标识相关联的数据源中的电力安全知识数据,包括:
22.对于所述匿名访问类型的数据源,通过运行预先设置的数据采集程序,提取数据源中的电力安全知识数据;
23.对于所述身份验证类型的数据源,获取相应的身份验证信息,并利用所述身份验证信息进行身份验证;在身份验证通过后,提取所述数据源中的电力安全知识数据;
24.对于所述签名验证类型的数据源,获取相应的数字签名信息和/或数字证书信息,并利用数字签名信息和/或数字证书信息进行签名验证;在签名认证通过后,提取所述数据源中的电力安全知识数据。
25.在其中一个实施例中,所述方法还包括:
26.基于所获取的统计指令,对数据库中的目标电力安全知识数据进行统计,得到统计结果;
27.将所述统计结果进行可视化展示。
28.第二方面,本技术还提供了一种安全知识数据的采集装置。所述装置包括:
29.获取模块,用于获取当前待采集的数据源标识;
30.确定模块,用于确定与所述数据源标识对应的数据源类型,并根据所述数据源类型,确定对应的数据采集方式;
31.提取模块,用于基于所述数据采集方式,提取与所述数据源标识相关联的数据源中的电力安全知识数据;
32.处理模块,用于利用漏洞库对所述电力安全知识数据进行规范化处理,得到具有规范格式的候选电力安全知识数据;
33.验证模块,用于对所述候选电力安全知识数据进行验证,以获得经验证通过得到的目标电力安全知识数据,并将所述目标电力安全知识数据存储至存储对象中;其中,所述存储对象至少包括数据库和二进制文件中的一种。
34.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
35.获取当前待采集的数据源标识;
36.确定与所述数据源标识对应的数据源类型,并根据所述数据源类型,确定对应的
数据采集方式;
37.基于所述数据采集方式,提取与所述数据源标识相关联的数据源中的电力安全知识数据;
38.利用漏洞库对所述电力安全知识数据进行规范化处理,得到具有规范格式的候选电力安全知识数据;
39.对所述候选电力安全知识数据进行验证,以获得经验证通过得到的目标电力安全知识数据,并将所述目标电力安全知识数据存储至存储对象中;其中,所述存储对象至少包括数据库和二进制文件中的一种。
40.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
41.获取当前待采集的数据源标识;
42.确定与所述数据源标识对应的数据源类型,并根据所述数据源类型,确定对应的数据采集方式;
43.基于所述数据采集方式,提取与所述数据源标识相关联的数据源中的电力安全知识数据;
44.利用漏洞库对所述电力安全知识数据进行规范化处理,得到具有规范格式的候选电力安全知识数据;
45.对所述候选电力安全知识数据进行验证,以获得经验证通过得到的目标电力安全知识数据,并将所述目标电力安全知识数据存储至存储对象中;其中,所述存储对象至少包括数据库和二进制文件中的一种。
46.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
47.获取当前待采集的数据源标识;
48.确定与所述数据源标识对应的数据源类型,并根据所述数据源类型,确定对应的数据采集方式;
49.基于所述数据采集方式,提取与所述数据源标识相关联的数据源中的电力安全知识数据;
50.利用漏洞库对所述电力安全知识数据进行规范化处理,得到具有规范格式的候选电力安全知识数据;
51.对所述候选电力安全知识数据进行验证,以获得经验证通过得到的目标电力安全知识数据,并将所述目标电力安全知识数据存储至存储对象中;其中,所述存储对象至少包括数据库和二进制文件中的一种。
52.上述电力安全知识数据的采集方法、装置、计算机设备、存储介质和计算机程序产品,通过确定与当前待采集的数据源标识对应的数据源类型,并基于与该数据源类型对应的数据采集方式,提取相关联的电力安全知识数据;同时,利用漏洞库对电力安全知识数据进行规范化处理,并验证电力安全知识数据的准确性,将验证通过的目标电力安全知识数据进行存储,由此能够实现电力安全知识数据的自动化采集,无需人工搜索和收集数据。
附图说明
53.图1为一个实施例中电力安全知识数据的采集方法的应用环境图;
54.图2为一个实施例中电力安全知识数据的采集方法的流程示意图;
55.图3为一个实施例中提取电力安全知识数据的流程示意图;
56.图4为一个实施例中确定下一个待采集的数据源标识并重复执行的流程示意图;
57.图5为一个实施例中对数据源标识进行去重的流程示意图;
58.图6为一个实施例中对电力安全知识数据的统计结果进行可视化展示的流程示意图;
59.图7为一个实施例中电力安全知识数据的采集装置的结构框图;
60.图8为一个实施例中计算机设备的内部结构图。
具体实施方式
61.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
62.本技术实施例提供的电力安全知识数据的采集方法,可以应用于如图1所示的应用环境中。其中,计算机设备102通过网络与至少一个服务器104进行通信。每个服务器104包括有至少一个数据源,数据源中提供了电力安全知识数据。计算机设备102根据数据源标识访问服务器104上的数据源,以采集相应的电力安全知识数据。其中,计算机设备102可以是终端或者服务器。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
63.在一个实施例中,如图2所示,提供了一种电力安全知识数据的采集方法,本实施例以该方法应用于计算机设备进行举例说明。本实施例中,该方法包括以下步骤:
64.步骤s202,获取当前待采集的数据源标识。
65.其中,数据源标识是对数据源的指向信息,以供基于数据源标识访问对应的数据源。数据源标识包括但不限于数据源的名称或地址等。示例性地,数据源标识为url(uniform resource locator,统一资源定位符)。
66.具体地,计算机设备获取待采集的数据源标识,并将这些数据源标识放入待采集队列中,以便后续依次根据待采集队列中的数据源标识进行数据采集。当开始进行数据采集时,计算机设备首先获取待采集的数据源标识,例如为待采集队列中的第一个数据源标识等。
67.步骤s204,确定与数据源标识对应的数据源类型,并根据数据源类型,确定对应的数据采集方式。
68.其中,数据源指的是数据的源头,用于提供应用程序所需要数据的位置,可以是数据库、文件系统、以及网站/网页等。对于本技术而言,所涉及的数据源指的是提供了电力/电网行业的安全知识数据的数据源,例如电力/电网行业的漏洞库、开源论坛网站、安全厂商组织的安全社区网站等。
69.数据源具有各种各样的类型,不同类型的数据源需要采用不同的数据采集方式进行数据采集。在一些实施例中,数据源类型至少包括匿名访问类型、身份验证类型、以及签名验证类型等中的一种或多种。其中,匿名访问类型指的是无需任何验证即可直接进行访问的数据源类型,则相应的数据采集方式可以为直接采集等。身份验证类型指的是访问该数据源需要进行身份验证,只有在身份验证通过的情况下才能采集数据,则相应的数据采集方式可以为先进行身份验证再进行数据采集。签名验证类型指的是访问该数据源需要进行签名验证,只有在签名验证通过的情况下才能采集数据,则相应的数据采集方式可以为先进行签名验证再进行数据采集。
70.具体地,计算机设备确定与数据源标识对应的数据源类型,再根据所确定的数据源类型,确定与之对应的数据采集方式。其中,数据源类型与相应的数据采集方式之间的对应关系可以预先存储在数据库中;当确定数据源类型后,计算机设备可以通过查询数据库以获取与数据源类型对应的数据采集方式。
71.步骤s206,基于数据采集方式,提取与数据源标识相关联的数据源中的电力安全知识数据。
72.其中,电力安全知识数据指的是与电力/电网行业有关的安全知识数据,包括但不限于漏洞类型、安全检测工具知识类型、以及安全知识字典类型等中的一种或多种类型。其中,漏洞类型的安全知识数据例如为信息安全漏洞的相关信息,包括漏洞类型描述、漏洞实例、以及判别过程等。安全检测工具知识类型的安全知识数据例如为安全检测工具相关的软件程序、使用手册、以及实例等。安全知识字典类型的安全知识数据例如为弱口令字典、密码字典、社工字典、以及字符集字典等。
73.具体地,计算机设备按照所确定的数据采集方式访问数据源标识所指向的数据源,利用正则表达式匹配或关键词搜索的形式,在数据源中进行匹配/搜索,并对数据源中匹配/搜索得到的电力安全知识数据进行提取(例如进行下载)。示例性地,计算机设备通过url访问对应的网站/网页,并下载其中的电力安全知识数据。
74.步骤s208,利用漏洞库对电力安全知识数据进行规范化处理,得到具有规范格式的候选电力安全知识数据。
75.由于电力安全知识数据的知识文件类型不一、内容格式不一、知识类型不一、数据繁杂,一方面若直接进行归集,可用性识别存在较大难度;另一方面,对于电力安全知识数据的归集,需要统一的规范约束以便于采集、归纳、统计、以及分析。
76.因此,具体地,计算机设备利用漏洞库对电力安全知识数据进行过滤、对比、去重等处理,筛除无关的数据和重复的数据,并将电力安全知识数据转化为预先统一的规范的格式以进行规范化处理,从而规范化的候选电力安全知识数据。此时,候选电力安全知识数据对应的状态为未验证状态。
77.其中,漏洞库指的是收集有漏洞类型的安全知识数据的数据库。漏洞库为经权威认证的漏洞库,包括但不限于cve(common vulnerabilities&exposures,通用漏洞和风险)漏洞库、cnnvd(china national vulnerability database of information security,中国国家信息安全漏洞库)、以及cnvd(china national vulnerability database,中国信息安全共享平台)等。
78.步骤s210,对候选电力安全知识数据进行验证,以获得经验证通过得到的目标电
力安全知识数据,并将目标电力安全知识数据存储至存储对象中;其中,存储对象至少包括数据库和二进制文件中的一种。
79.由于电力安全知识的审核机制不完善,大部分是由电力安全知识数据的提交方进行自发验证,没有专门的监管人员进行审核。这些未经验证的安全知识在实施过程中存在着不安全因素。因此,对电力安全知识数据进行验证将大大提高实施的安全性。
80.具体地,计算机设备对候选电力安全知识数据进行验证,确定候选电力安全知识数据的合规性和安全性,在验证通过后得到目标电力安全知识数据,再将目标电力安全知识数据存储至存储对象中,以确保所存储的电力安全知识数据安全、合规、可用。合规性是指电力安全知识数据符合指令,法规和协调标准的基本要求。其中,存储对象至少包括本地存储介质、数据库、以及二进制文件等中的一种或多种,数据库包括关系型数据库和非关系型数据库等。
81.计算机设备对候选电力安全知识数据进行验证的方法包括人工验证和自动化工具验证。安全相关人员人工验证是通过工作经验利用数据进行分析处理和漏洞影响的产品等信息进行审核验证。自动化工具验证是根据影响的产品进行安全漏洞扫描,根据结果漏洞信息进行匹配以核对信息的准确性。例如,计算机设备将候选电力安全知识数据提交至平台/终端,以供专业的安全相关人员进行审核。又如,计算机设备将候选电力安全知识数据输入至预先设置好的自动化辅助验证工具中,由该自动化辅助验证工具对候选电力安全知识数据进行安全漏洞扫描,根据扫描得到的漏洞信息与候选电力安全知识数据中的漏洞信息将进行匹配,若匹配则确定安全知识数据的准确性。
82.上述电力安全知识数据的采集方法中,通过确定与当前待采集的数据源标识对应的数据源类型,并基于与该数据源类型对应的数据采集方式,提取相关联的电力安全知识数据;同时,利用漏洞库对电力安全知识数据进行规范化处理,并验证电力安全知识数据的准确性,将验证通过的目标电力安全知识数据进行存储,由此能够实现电力安全知识数据的自动化采集,无需人工搜索和收集数据,同时保障了所采集的电力安全知识数据的准确性。
83.对应于不同类型的数据源,在一些实施例中,如图3所示,基于数据采集方式,提取与数据源标识相关联的数据源中的电力安全知识数据,包括:
84.步骤s302,对于匿名访问类型的数据源,通过运行预先设置的数据采集程序,提取数据源中的电力安全知识数据。
85.具体地,计算机设备对于匿名访问类型的数据源,由于可以直接访问该数据源,则计算机设备通过运行预先设置的数据采集程序,提取数据源中的电力安全知识数据。例如,计算机设备利用预先编译的下载程序访问该数据源进行下载。
86.步骤s304,对于身份验证类型的数据源,获取相应的身份验证信息,并利用身份验证信息进行身份验证;在身份验证通过后,提取数据源中的电力安全知识数据。
87.具体地,计算机设备对于身份验证类型的数据源,由于访问该数据源需要进行身份验证,只有在身份验证通过的情况下才能采集数据,则计算机设备获取相应的身份验证信息,并利用身份验证信息访问该数据源以供数据源进行身份验证;在数据源确定身份验证通过后,计算机设备再提取数据源中的电力安全知识数据。其中,身份验证信息包括但不限于数据源对应的账户名称、密码、以及口令等中的一种或多种。
88.示例性地,在确定数据源类型为身份验证类型后,计算机设备获取与该数据源对应的账户和密码,并利用该账户和密码对该数据源进行登录,从而获取数据源的访问权限。在获取了访问权限后,计算机设备再利用预先编译的下载程序访问该数据源进行下载。
89.步骤s306,对于签名验证类型的数据源,获取相应的数字签名信息和/或数字证书信息,并利用数字签名信息和/或数字证书信息进行签名验证;在签名认证通过后,提取数据源中的电力安全知识数据。
90.具体地,计算机设备对于签名验证类型的数据源,由于访问该数据源需要进行签名验证,只有在签名验证通过的情况下才能采集数据,则计算机设备获取相应的数字签名信息、数字证书信息、或者数字签名信息和数字证书信息,并利用数字签名信息和数字证书信息中的至少一种进行签名验证;在签名认证通过后,计算机设备再提取数据源中的电力安全知识数据。
91.示例性地,在确定数据源类型为签名验证类型后,计算机设备获取与该数据源对应的数字证书,并将该数字证书提供至数据源,由数据源对该数字证书进行校验。检验通过后,计算机设备即可获取数据源的访问权限。在获取了访问权限后,计算机设备再利用预先编译的下载程序访问该数据源进行下载。
92.上述实施例中,通过设置严谨可靠的审核验证流程,一方面基于自动化工具验证减少了人工审核过程和人工审核错误率,最大化提高审核验证效率;另一方面通过人工审核验证过程,实现重/难点知识的分类、识别、验证,弥补了自动验证过程中高难度知识的辨识,实现了严谨、可靠、安全的知识收集。
93.在当前待采集的数据源标识完成采集后,计算机设备继续对待采集队列中的下一个数据源标识进行数据采集。在一些实施例中,方法还包括:从待采集队列中删除已采集的数据源标识,并将已采集的数据源标识放入至已采集队列中。具体地,计算机设备在待采集队列中,将已完成数据采集的数据源标识进行删除,并在已采集队列中添加该已完成数据采集的数据源标识。由此,计算机设备能够有序进行数据采集,并避免了重复采集导致的效率低下的问题。
94.在一些实施例中,如图4所示,方法还包括:
95.步骤s402,在当前待采集的数据源标识完成数据采集后,根据采集策略确定下一个待采集的数据源标识;其中,采集策略至少包括深度优先采集策略、广度优先采集策略、以及最佳优先采集策略中的一种。
96.其中,深度优先采集策略的主要思想是从根节点出发找出叶子节点,依此类推。广度优先采集策略的主要思想是从根节点开始,首先遍历当前层次的采集,然后才进行下一层的采集,依此类推来完成逐层采集。最佳优先采集策略的主要思想是通过计算数据源标识的描述文本与所对应的数据源的相似度、或者与主题的相关性,根据所设定的阈值选出有效数据源标识进行数据采集。
97.具体地,在当前待采集的数据源标识完成采集后,计算机设备根据预先设定或随机选择的一种采集策略,确定待采集队列中下一个待采集的数据源标识,以便于后续继续对该下一个待采集的数据源标识所对应的数据源进行数据采集。
98.步骤s404,将下一个待采集的数据源标识作为当前待采集的数据源标识,并返回至确定与数据源标识对应的数据源类型的步骤继续执行,直至待采集队列中的所有数据源
标识均完成数据采集。
99.具体地,计算机设备将所确定的下一个待采集的数据源标识,作为当前待采集的数据源标识,并重复步骤s204~步骤s210,完成对该下一个待采集的数据源标识所对应的数据源的数据采集。计算机设备不断地重复上述步骤,并且将已完成数据采集的数据源标识进行删除,并在已采集队列中添加该已完成数据采集的数据源标识;遍历待采集队列之后,当计算机设备完成待采集队列中的所有数据源标识的数据采集时,采集任务结束。
100.上述实施例中,通过采集策略确定待采集队列中各个数据源标识对应的采集顺序,能够根据重要性程度、优先程度、或者其他条件对各个数据源标识对应的数据源进行采集,提高了电力安全知识数据的采集效率。
101.一个数据源可以关联有多个数据源标识。例如,一个网页中可以有多个url,这些url均指向该网页。因此,为了避免重复收集,在一些实施例中,如图5所示,方法还包括:
102.步骤s502,确定与数据源对应的全部数据源标识中,除当前待采集的数据源标识以外的其他数据源标识。
103.步骤s504,若其他数据源标识存在于已采集队列中,则丢弃其他数据源标识。
104.步骤s506,若其他数据源标识不存在于已采集队列中,则将其他数据源标识放入待采集队列中。
105.具体地,计算机设备确定与数据源对应的全部数据源标识中,除了当前待采集的数据源标识以外的至少一个其他数据源标识,并逐个判断该其他数据源标识是否存在于已采集队列中。若计算机设备判断其他数据源标识存在于已采集队列中,则说明相应的数据源标识已完成数据采集,为了避免重复采集以提高采集效率,则计算机设备将该其他数据源标识进行丢弃。反之,若计算机设备判断其他数据源标识不存在于已采集队列中,则计算机设备将其他数据源标识放入待采集队列中,以待后续进行数据采集。
106.上述实施例中,通过对与已访问的数据源关联的其他数据源标识进行比对,能够确保对数据源标识的采集无重复且无遗漏,数据采集的效率高。
107.在一些实施例中,如图6所示,方法还包括:
108.步骤s602,基于所获取的统计指令,对数据库中的目标电力安全知识数据进行统计,得到统计结果。
109.步骤s604,将统计结果进行可视化展示。
110.具体地,计算机设备根据实际的需求接收统计指令,并基于该统计指令对数据库中的目标电力安全知识数据进行统计,例如统计类别、数量等,从而得到统计结果,并将该统计结果以文本或者图文的方式显示出来,也可以将统计结果存入不同的格式的文件中(如word文档、pdf文档、或者excel文档等),从而进行永久保存。
111.上述实施例中,通过可视化展示已存储的电力安全知识数据的统计结果,能够清楚直观地了解相应的电力安全知识数据,也便于专业的安全相关人员据此进行电力安全知识数据的管理和后续的实施。
112.在一个具体的实施例中,以数据源标识为url为例。计算机设备例如包括主控模块、下载模块、解析模块、调度模块、处理模块、审核验证模块、以及显示模块。主控模块首先进行初始化工作,生成种子url,并将这些url放入待采集url队列,启动下载模块下载网页,然后解析网页,提取需要的数据和url地址,进入工作循环,控制各个模块工作流程,协调各
个模块之间的工作。计算机设备从待采集url队列中取出当前待采集的url,将该url对应的网页下载下来,并传输解析模块,再将这些url放进已采集url队列;下载模块通过正则表达提取出电力安全知识数据,将电力安全知识数据传送给调度模块,然后再解析其中的其他url,并且将其他url传给调度模块。调度模块接收到解析模块传递过来的url,首先将这些url数据和已采集url队列比较,如果是已经抓取的url则丢弃,如果是未采集的url则放入待采集url队列。处理后的数据通过cve漏洞库、cnnvd漏洞库、cnvd平台等权威漏洞库进行过滤、对比、去重等处理,将数据以规范的格式存入数据库,并标记该数据来源方式和审核验证状态(此时为未审核验证状态)。审核验证模块从数据库中加载处理后的数据进行展示,通过专业的安全相关人员的验证和审核,以及利用工具进行自动化辅助验证等操作手段确定数据的准确性。审核验证完成后更新电力安全知识数据的验证信息等。然后利用显示模块根据使用者需求,统计数据库中的数据,将统计结果以文字,图形的方式展示给使用者。
113.本技术实施例中,在已有电力行业的知识库解决方案还很少,同时存在诸多问题的情况下(数据来源单一、知识单一、收集方法单一,且无法从量、及效率上提升;另一方面已有方案基本不存在知识审核验证流程,这对于知识的可用性提出挑战),通过线上、线下多数据源的收集,实现安全知识的全面积累,同时提出了一种半自动化审核验证流程,通过对归集数据的识别、分类、清洗,再基于工具的自动化和人工参与的审核验证流程,实现知识的严谨、审核,最终实现知识的安全、可用。相较于已有的多数据源安全知识归集系统,本技术实施例一方面实现了知识的规范化,对于知识库的统计分析,及后续的知识对外输出服务有重要作用,另一方面对于知识的安全性,直接关系到的安全检测有效性、可用性。
114.应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
115.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的电力安全知识数据的采集方法的电力安全知识数据的采集装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个电力安全知识数据的采集装置实施例中的具体限定可以参见上文中对于电力安全知识数据的采集方法的限定,在此不再赘述。
116.在一个实施例中,如图7所示,提供了一种电力安全知识数据的采集装置700,包括:获取模块701、确定模块702、提取模块703、处理模块704、以及验证模块705,其中:
117.获取模块701,用于获取当前待采集的数据源标识。
118.确定模块702,用于确定与数据源标识对应的数据源类型,并根据数据源类型,确定对应的数据采集方式。
119.提取模块703,用于基于数据采集方式,提取与数据源标识相关联的数据源中的电力安全知识数据。
120.处理模块704,用于利用漏洞库对电力安全知识数据进行规范化处理,得到具有规范格式的候选电力安全知识数据。
121.验证模块705,用于对候选电力安全知识数据进行验证,以获得经验证通过得到的目标电力安全知识数据,并将目标电力安全知识数据存储至存储对象中;其中,存储对象至少包括数据库和二进制文件中的一种。
122.在其中一个实施例中,上述装置还包括循环模块,用于在当前待采集的数据源标识完成数据采集后,根据采集策略确定下一个待采集的数据源标识;其中,采集策略至少包括深度优先采集策略、广度优先采集策略、以及最佳优先采集策略中的一种;将下一个待采集的数据源标识作为当前待采集的数据源标识,并返回至确定与数据源标识对应的数据源类型的步骤继续执行,直至待采集队列中的所有数据源标识均完成数据采集。
123.在其中一个实施例中,上述装置还包括删除模块,用于从待采集队列中删除已采集的数据源标识,并将已采集的数据源标识放入至已采集队列中。
124.在其中一个实施例中,数据源关联有多个数据源标识;上述装置还包括去重模块,用于确定与数据源对应的全部数据源标识中,除当前待采集的数据源标识以外的其他数据源标识;若其他数据源标识存在于已采集队列中,则丢弃其他数据源标识;若其他数据源标识不存在于已采集队列中,则将其他数据源标识放入待采集队列中。
125.在其中一个实施例中,数据源类型至少包括匿名访问类型、身份验证类型、以及签名验证类型中的一种;提取模块还用于对于匿名访问类型的数据源,通过运行预先设置的数据采集程序,提取数据源中的电力安全知识数据;对于身份验证类型的数据源,获取相应的身份验证信息,并利用身份验证信息进行身份验证;在身份验证通过后,提取数据源中的电力安全知识数据;对于签名验证类型的数据源,获取相应的数字签名信息和/或数字证书信息,并利用数字签名信息和/或数字证书信息进行签名验证;在签名认证通过后,提取数据源中的电力安全知识数据。
126.在其中一个实施例中,上述装置还包括显示模块,用于基于所获取的统计指令,对数据库中的目标电力安全知识数据进行统计,得到统计结果;将统计结果进行可视化展示。
127.上述电力安全知识数据的采集装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
128.在一个实施例中,提供了一种计算机设备,该计算机设备可以是计算机设备,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储电力安全知识数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种电力安全知识数据的采集方法。
129.本领域技术人员可以理解,图8中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
130.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取当前待采集的数据源标识;确定与数据源标识对应的数据源类型,并根据数据源类型,确定对应的数据采集方式;基于数据采集方式,提取与数据源标识相关联的数据源中的电力安全知识数据;利用漏洞库对电力安全知识数据进行规范化处理,得到具有规范格式的候选电力安全知识数据;对候选电力安全知识数据进行验证,以获得经验证通过得到的目标电力安全知识数据,并将目标电力安全知识数据存储至存储对象中;其中,存储对象至少包括数据库和二进制文件中的一种。
131.在一个实施例中,处理器执行计算机程序时还实现以下步骤:在当前待采集的数据源标识完成数据采集后,根据采集策略确定下一个待采集的数据源标识;其中,采集策略至少包括深度优先采集策略、广度优先采集策略、以及最佳优先采集策略中的一种;将下一个待采集的数据源标识作为当前待采集的数据源标识,并返回至确定与数据源标识对应的数据源类型的步骤继续执行,直至待采集队列中的所有数据源标识均完成数据采集。
132.在一个实施例中,处理器执行计算机程序时还实现以下步骤:从待采集队列中删除已采集的数据源标识,并将已采集的数据源标识放入至已采集队列中。
133.在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定与数据源对应的全部数据源标识中,除当前待采集的数据源标识以外的其他数据源标识;若其他数据源标识存在于已采集队列中,则丢弃其他数据源标识;若其他数据源标识不存在于已采集队列中,则将其他数据源标识放入待采集队列中。
134.在一个实施例中,处理器执行计算机程序时还实现以下步骤:对于匿名访问类型的数据源,通过运行预先设置的数据采集程序,提取数据源中的电力安全知识数据;对于身份验证类型的数据源,获取相应的身份验证信息,并利用身份验证信息进行身份验证;在身份验证通过后,提取数据源中的电力安全知识数据;对于签名验证类型的数据源,获取相应的数字签名信息和/或数字证书信息,并利用数字签名信息和/或数字证书信息进行签名验证;在签名认证通过后,提取数据源中的电力安全知识数据。
135.在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于所获取的统计指令,对数据库中的目标电力安全知识数据进行统计,得到统计结果;将统计结果进行可视化展示。
136.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取当前待采集的数据源标识;确定与数据源标识对应的数据源类型,并根据数据源类型,确定对应的数据采集方式;基于数据采集方式,提取与数据源标识相关联的数据源中的电力安全知识数据;利用漏洞库对电力安全知识数据进行规范化处理,得到具有规范格式的候选电力安全知识数据;对候选电力安全知识数据进行验证,以获得经验证通过得到的目标电力安全知识数据,并将目标电力安全知识数据存储至存储对象中;其中,存储对象至少包括数据库和二进制文件中的一种。
137.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在当前待采集的数据源标识完成数据采集后,根据采集策略确定下一个待采集的数据源标识;其中,采集策略至少包括深度优先采集策略、广度优先采集策略、以及最佳优先采集策略中的一种;将下一个待采集的数据源标识作为当前待采集的数据源标识,并返回至确定与数据源标识对应
的数据源类型的步骤继续执行,直至待采集队列中的所有数据源标识均完成数据采集。
138.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从待采集队列中删除已采集的数据源标识,并将已采集的数据源标识放入至已采集队列中。
139.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定与数据源对应的全部数据源标识中,除当前待采集的数据源标识以外的其他数据源标识;若其他数据源标识存在于已采集队列中,则丢弃其他数据源标识;若其他数据源标识不存在于已采集队列中,则将其他数据源标识放入待采集队列中。
140.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对于匿名访问类型的数据源,通过运行预先设置的数据采集程序,提取数据源中的电力安全知识数据;对于身份验证类型的数据源,获取相应的身份验证信息,并利用身份验证信息进行身份验证;在身份验证通过后,提取数据源中的电力安全知识数据;对于签名验证类型的数据源,获取相应的数字签名信息和/或数字证书信息,并利用数字签名信息和/或数字证书信息进行签名验证;在签名认证通过后,提取数据源中的电力安全知识数据。
141.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于所获取的统计指令,对数据库中的目标电力安全知识数据进行统计,得到统计结果;将统计结果进行可视化展示。
142.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取当前待采集的数据源标识;确定与数据源标识对应的数据源类型,并根据数据源类型,确定对应的数据采集方式;基于数据采集方式,提取与数据源标识相关联的数据源中的电力安全知识数据;利用漏洞库对电力安全知识数据进行规范化处理,得到具有规范格式的候选电力安全知识数据;对候选电力安全知识数据进行验证,以获得经验证通过得到的目标电力安全知识数据,并将目标电力安全知识数据存储至存储对象中;其中,存储对象至少包括数据库和二进制文件中的一种。
143.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在当前待采集的数据源标识完成数据采集后,根据采集策略确定下一个待采集的数据源标识;其中,采集策略至少包括深度优先采集策略、广度优先采集策略、以及最佳优先采集策略中的一种;将下一个待采集的数据源标识作为当前待采集的数据源标识,并返回至确定与数据源标识对应的数据源类型的步骤继续执行,直至待采集队列中的所有数据源标识均完成数据采集。
144.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从待采集队列中删除已采集的数据源标识,并将已采集的数据源标识放入至已采集队列中。
145.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定与数据源对应的全部数据源标识中,除当前待采集的数据源标识以外的其他数据源标识;若其他数据源标识存在于已采集队列中,则丢弃其他数据源标识;若其他数据源标识不存在于已采集队列中,则将其他数据源标识放入待采集队列中。
146.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对于匿名访问类型的数据源,通过运行预先设置的数据采集程序,提取数据源中的电力安全知识数据;对于身份验证类型的数据源,获取相应的身份验证信息,并利用身份验证信息进行身份验证;在身份验证通过后,提取数据源中的电力安全知识数据;对于签名验证类型的数据源,获取相应的数字签名信息和/或数字证书信息,并利用数字签名信息和/或数字证书信息进行签名
验证;在签名认证通过后,提取数据源中的电力安全知识数据。
147.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于所获取的统计指令,对数据库中的目标电力安全知识数据进行统计,得到统计结果;将统计结果进行可视化展示。
148.需要说明的是,本技术所涉及的验证信息(包括但不限于身份验证信息、数字签名信息、数字证书信息等)和数据(包括但不限于所采集的电力安全知识数据、所存储的电力安全知识数据、所展示的电力安全知识数据等),均为经用户授权或者经过各方充分授权的信息和数据。
149.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
150.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
151.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1