一种底层网络潜在危险数据识别方法、系统及存储介质与流程

文档序号：22759875发布日期：2020-10-31 09:58阅读：180来源：国知局

本发明涉及数据识别领域，特别涉及一种底层网络潜在危险数据识别方法、系统及存储介质。

背景技术：

云存储系统具有开发性特征，安全保障系数不高，加大了私人隐秘信息泄漏的可能性，导致云存储系统中底层网络用户私人隐秘信息受到损害。底层网络潜在危险数据挖掘技术可以降低私人隐秘信息泄漏的可能性，降低网络用户私人隐秘信息受到损害的风险，从云存储系统中的底层网络挖掘出潜在的危险数据，对非法权限进行掌控，用户计算机网络的危险性能也随之降低。

底层网络潜在危险数据挖掘可以通过动态规划方法分析底层网络数据的最小开销，依据开销情况挖掘危险数据，该种方法运行复杂，耗时高；也可以在挖掘云存储系统中底层网络危险数据过程中，采用属性基加密技术实现数据挖掘，该种技术依据数据加密结果判断数据危险性，缺乏对危险数据属性的有效判断，无法实现危险数据中休眠数据的进一步挖掘；还可以采用二代测序数据近似去重方法，挖掘云存储系统中底层网络中危险数据，该种方法同样无法有效挖掘出危险数据中的休眠数据，具有一定的局限性。

技术实现要素：

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明提出一种底层网路潜在危险数据识别方法，能够挖掘出潜在危险数据，还能够挖掘出其中的休眠数据，为网络安全优化提供有效地基础。

本发明还提出一种应用上述底层网路潜在危险数据识别方法的底层网路潜在危险数据识别系统。

本发明还提出一种应用上述底层网路潜在危险数据识别方法的计算机可读存储介质。

根据本发明第一方面实施例的底层网络潜在危险数据识别方法，包括：

根据底层网络中的数据识别规律，获取潜在危险数据特征，对事务数据库中候选频繁项集逐次扫描获得底层网络潜在危险数据项的规律特征，构建底层网络潜在危险数据挖掘模型；

根据所述底层网络潜在危险数据挖掘模型和所述规律特征，建立改进apriori算法模型，对底层网络潜在危险数据进行挖掘；

根据所述改进apriori算法模型，构建动态映射网络模型；

根据所述动态映射网络模型和所述潜在危险数据特征，构建潜在危险数据深入挖掘模型，采用动态映射算法挖掘潜在危险数据中的休眠数据。

根据本发明实施例的底层网络潜在危险数据识别方法，至少具有如下有益效果：采用改进apriori算法，一次扫描底层网络潜在危险数据中的事务数据库，高效率挖掘云存储系统中底层网络潜在危险数据后，构建潜在危险数据的动态映射网络，采用动态映射算法挖掘潜在危险数据中的休眠数据；不仅能够同时挖掘出潜在危险数据，还能挖掘出其中的休眠数据，可将底层网络中的潜在危险数据深入挖掘出来，为网络安全优化提供有效的基础。

根据本发明的一些实施例，所述建立改进apriori算法模型，对底层网络潜在危险数据进行挖掘，包括：

对底层网络潜在危险数据进行关联分析，得到最小支持度和最小置信度；

基于所述最小支持度和所述最小置信度，挖掘底层网络潜在危险数据时，危险数据形成频集集合；

基于所述频集集合，挖掘底层网络潜在危险数据产生关联规则。

根据本发明的一些实施例，所述休眠数据是不定期爆发的潜在危险数据。

根据本发明的一些实施例，所述潜在危险数据特征包括以下至少一种：数据间距离、数据类型、数据大小。

根据本发明的一些实施例，所述构建潜在危险数据深入挖掘模型，采用动态映射算法挖掘潜在危险数据中的休眠数据，包括：

从所述动态映射网络模型中生成映射图像，采用动态映射算法挖掘潜在危险数据中的休眠数据。

根据本发明的一些实施例，所述动态映射算法中底层网络潜在危险数据中的休眠数据挖掘精准率η表示为：

其中，底层网络操作数据量、休眠数据状态量、休眠数据特征形成的集合分别用n、p、{r1,r2,...,rm}表示，底层网络潜在危险数据分布均匀性系数为μ。

根据本发明第二方面实施例的底层网络潜在危险数据识别系统，包括：

底层网络潜在危险数据挖掘模型，用于获取潜在危险数据特征，对事务数据库中候选频繁项集逐次扫描获得底层网络潜在危险数据项的规律特征；

改进apriori算法模型，用于对底层网络潜在危险数据进行挖掘；

动态映射网络模型，基于所述改进apriori算法模型所得，用于形成潜在危险数据的动态映射网络；

潜在危险数据深入挖掘模型，用于采用动态映射算法挖掘潜在危险数据中的休眠数据。

根据本发明的一些实施例，所述潜在危险数据特征包括以下至少一种：数据间距离、数据类型、数据大小。

根据本发明的一些实施例，所述休眠数据是不定期爆发的潜在危险数据。

根据本发明实施例的底层网络潜在危险数据识别系统，至少具有如下有益效果：采用改进apriori算法，一次扫描底层网络潜在危险数据中的事务数据库，高效率挖掘云存储系统中底层网络潜在危险数据后，构建潜在危险数据的动态映射网络，采用动态映射算法挖掘潜在危险数据中的休眠数据；不仅能够同时挖掘出潜在危险数据，还能挖掘出其中的休眠数据，可将底层网络中的潜在危险数据深入挖掘出来，为网络安全优化提供有效的基础。

根据本发明第三方面实施例的计算机可读存储介质，能够应用根据本发明上述第一方面实施例的底层网络潜在危险数据识别方法。

根据本发明实施例的计算机可读存储介质，至少具有如下有益效果：采用改进apriori算法，一次扫描底层网络潜在危险数据中的事务数据库，高效率挖掘云存储系统中底层网络潜在危险数据后，构建潜在危险数据的动态映射网络，采用动态映射算法挖掘潜在危险数据中的休眠数据；不仅能够同时挖掘出潜在危险数据，还能挖掘出其中的休眠数据，可将底层网络中的潜在危险数据深入挖掘出来，为网络安全优化提供有效的基础。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例一的底层网络潜在危险数据识别方法的工作流程图；

图2为本发明实施例一的底层网络潜在危险数据识别方法中的利用改进apriori算法模型进行数据挖掘的部分工作流程图；

图3为本发明实施例二的底层网络潜在危险数据识别系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明的描述中，除非另有明确的限定，设置、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

实施例一

参照图1，本发明实施例一提供了一种底层网络潜在危险数据识别方法，其中的一种实施例包括但不限于以下步骤：

步骤s100，根据底层网络中的数据识别规律，获取潜在危险数据特征，对事务数据库中候选频繁项集逐次扫描获得底层网络潜在危险数据项的规律特征，构建底层网络潜在危险数据挖掘模型。

在本实施例中，本步骤根据底层网络中数据识别规律，获取潜在危险数据特征；并且为了了解传统关联规则apriori算法，对事务数据库中候选频繁项集逐次扫描获得底层网络潜在危险数据项的规律特征，进而构建底层网络潜在危险数据挖掘模型，为了底层网络危险数据识别做好前提准备。

步骤s200，根据所述底层网络潜在危险数据挖掘模型和所述规律特征，建立改进apriori算法模型，对底层网络潜在危险数据进行挖掘。

在本实施例中，本步骤根据底层网络潜在危险数据挖掘模型和规律特征，建立改进apriori算法模型，然后利用改进apriori算法模型对底层网络潜在危险数据进行识别挖掘；并且利用改进apriori算法模型进行潜在危险数据挖掘的过程中，改进apriori算法能够降低扫描数据库的重复次数，提高了挖掘效率，实现云存储系统中底层网络潜在危险数据的挖掘。采用改进apriori算法挖掘底层网络潜在危险数据花费时间较为平稳，这是因为其挖掘危险数据过程中产生少量候选项集，但传统apriori算法在此过程中产生了大量的候选项集，挖掘时间波动较大，因此改进apriori算法挖掘潜在危险数据具有较高的稳定性。

步骤s300，根据所述改进apriori算法模型，构建动态映射网络模型。

在本实施例中，本步骤为了对上述挖掘出来的危险数据中的休眠数据进行进一步的挖掘，所以根据改进apriori算法模型，构建动态映射网络模型，为了休眠数据的挖掘做好准备。

步骤s400，根据所述动态映射网络模型和所述潜在危险数据特征，构建潜在危险数据深入挖掘模型，采用动态映射算法挖掘潜在危险数据中的休眠数据。

在本实施例中，本步骤根据上述所得到的动态映射网络模型和潜在危险数据特征，构建危险数据深入挖掘模型，从动态映射网络模型中生成映射图像，采用动态映射算法挖掘潜在危险数据中的休眠数据，为了网络优化提供高效的支持。

参照图2，本实施例的步骤s200中，可以包括但不限于以下步骤：

步骤s210，对底层网络潜在危险数据进行关联分析，得到最小支持度和最小置信度。

在本实施例中，本步骤为了对底层网络中潜在的危险数据进行挖掘，首先需要对底层网络潜在危险数据进行关联分析，而对关联分析的属性描述一般利用支持度和置信度；在底层网络中寻找能够支持关联分析规则的最小支持度和最小置信度。

步骤s220，基于所述最小支持度和所述最小置信度，挖掘底层网络潜在危险数据时危险数据形成频集集合。

在本实施例中，本步骤基于最小支持度和最小置信度，挖掘底层网络潜在危险数据时危险数据形成频集集合，并且频集集合内每一个组成因子均不小于最小支持度。

步骤s230，基于所述频集集合，挖掘底层网络潜在危险数据产生关联规则。

在本实施例中，本步骤基于频集集合，挖掘底层网络潜在危险数据产生关联规则，加快了底层网络潜在危险数据识别挖掘速率。

本实施例的步骤s400中，可以包括但不限于以下步骤：

从动态映射网络模型中生成映射图像，采用动态映射算法挖掘潜在危险数据中的休眠数据。

在本实施例中，本步骤从动态映射网络模型中生成映射图像，然后采用动态映射算法挖掘潜在危险数据中的休眠数据，为了网络优化提供有效的支持。

在本实施例中，休眠数据是不定期爆发的潜在危险数据。潜在危险数据中的休眠数据长期潜伏，占用总体云存储系统中底层网络的资源，且休眠数据是一种不定期爆发的潜在危险数据，所以为了实现云存储系统中底层网络潜在危险数据的深入挖掘，应将其中的休眠数据有效挖掘出来。

在本实施例中，潜在危险数据特征包括以下至少一种：数据间距离、数据类型、数据大小。潜在危险数据特征包括以下至少一种：数据间距离、数据类型和数据大小。

在本实施例中，所述动态映射算法中底层网络潜在危险数据中的休眠数据挖掘精准率η表示为：

其中，底层网络操作数据量、休眠数据状态量、休眠数据特征形成的集合分别用n、p、{r1,r2,...,rm}表示，底层网络潜在危险数据分布均匀性系数为μ。

本发明的底层网络潜在危险数据识别方法中的步骤可通过下述的具体实施例进行说明：

由于网络技术不断发展，网络危险因子也在不断增加，网络危险因子分为木马、病毒、非法网站、漏洞、网页篡改等类别，危险因子严重影响计算机网络的安全性。网络风险的降低要以降低用户运用风险为前提，用户运用风险的有效控制是目前研究的关键问题。传统神经网络方法挖掘底层网络潜在危险数据具有不全面性，且精准度低，因此采用apriori算法挖掘对底层网络潜在危险数据。

使用apriori算法挖掘底层网络潜在危险数据挖掘过程中，首要任务是要找出危险数据间的关联性和共性。关联规则主旨是将数据项和数据项之间依附共存的内在关联挖掘出来。由于关联规则的实用价值高、稳定性好，因此采用属于关联规则的apriori算法挖掘底层网络潜在危险数据项的规律特征，关联分析规则主旨是完成底层网络潜在危险数据间内在关联的分析，并在底层网络中寻找能够支持关联分析规则的最小支持度和最小置信度。一般以支持度和置信度作为关联规则属性描述用词，以下为对底层网络潜在危险数据挖掘的关联规则描述：假设i为二进制文字集合，且i＝{i1,i2,...,im}，底层网络潜在危险数据挖掘中元素单位为“项”，用(item)表示，使用t代表底层网络潜在危险数据项的集合，d代表交易t的集合，且每个交易单独具有识别标志，该标识统称为tid，假设某集合为x，且该集合x属于二进制文字集合i，若则表示x包含在底层网络潜在危险数据项的集合t内。

关联原则的蕴涵式与的蕴涵式极为相似，其中且x∩y＝φ的规则在底层网络d中支持度数值的获取要通过交易集中包括x和y的交易数与所有交易数之比实现，可表示为则有：

规则在交易集中的置信度是指包含x、y的交易数和包含x的交易数之比，表示为则公式可表示为：

若不考虑底层网络危险数据挖掘中的支持度和置信度，则可在底层网络潜在危险数据的数据库中找到很多相关规则。但人们只对符合规定的支持度和置信度好奇，处理底层网络潜在危险数据的事物集合时，首要问题是要找出高于用户设置的最小支持度和置信度的规则(min-conf)，呈现相关规则的最小可靠度便称为最小置信度。

以下两个方面为挖掘底层网络潜在危险数据相关规则的流程：

第一：挖掘底层网络潜在危险数据时，危险数据会形成一个频集集合。该频集集合内每一个组成因子均不小于最小支持度。

第二：挖掘底层网络潜在危险数据时会产生一种关联规则，该关联规则来至于底层网络潜在危险数据挖掘时产生的频集集合中。判断规则是否有效，首先设置r＝support(x∪y)/support(y)，只有当r>min-conf时，挖掘底层网络潜在危险数据规则才具有意义，通过项集的关联规则挖掘算法实现底层网络潜在危险数据挖掘。传统apriori算法将潜在危险数据从底层网络中挖掘出来存在两个缺陷，一个是会产生大量候选项目集，另一个是重复多次扫描数据库，这两个缺陷导致挖掘时间加长，挖掘效率降低。因此为了弥补这两个缺陷提出改进apriori算法。该算法的主旨思想是，只需完成底层网络潜在危险数据挖掘中的事务数据库d的一次扫描，初始化设置底层网络潜在危险数据挖掘中事务集合t1后，产生频繁(k-1)项集，以候选k项集ck与tk-1集合为依据构造tk集合。假设c表示ck集合中任意候选项集，则当c-c(k)和c-c(k-1)属于tk-1时，将候选k项集ck导入tk中，扫描tk集合，依据扫描结果统计ck中项集的支持度计数。当t1＝d时，t1最大，k>1时，tk<d，因此tk扫描成本要小于事务数据库d扫描成本，改进apriori算法在缩减扫描成本方面具有突出优势。

改进apriori算法在apriori算法的基础上，挖掘底层网络潜在危险数据，传统apriori算法挖掘频繁k-项集，是通过对事务数据库中候选频繁k-项集逐次扫描获得。改进apriori算法挖掘时会产生一个小于底层网络潜在危险数据中事务数据库的tk集合，根据候选频繁k-项集，扫描tk集合获得频繁k-项集，tk初期为t1，一次扫描底层网络潜在危险数据中的事务数据库，当k>1时，根据tk-1和ck来生成tk，并挖掘频繁k-项集。由上诉分析可知，对底层网络潜在危险数据挖掘中关联规则apriori算法进行分析，发现该算法存在备选项目集的数量庞大和反复多次扫面数据库的弊端，改进apriori算法优点在于降低扫描数据库的重复次数，提高了挖掘效率，实现云存储系统中底层网络潜在危险数据的挖掘。采用改进apriori算法挖掘底层网络潜在危险数据花费时间较为平稳，这是因为其挖掘危险数据过程中产生少量候选项集，但传统apriori算法在此过程中产生了大量的候选项集，挖掘时间波动较大，说明本发明采用的改进apriori算法挖掘潜在危险数据具有较高的稳定性。

在对危险数据中的休眠数据进行挖掘的过程中：

潜在危险数据中的休眠数据长期潜伏，占用总体云存储系统中底层网络的资源，且休眠数据是一种不定期爆发的潜在危险数据，所以为了实现云存储系统中底层网络潜在危险数据的深入挖掘，应将其中的休眠数据有效挖掘出来。在上文危险数据挖掘基础上挖掘潜在危险数据中的休眠数据。挖掘前先确定可描述潜在危险数据特征的网络，也称为动态映射网络。假设动态映射网络输入节点数量和输出节点数量分别是a和b，且串联a和b，连接数量为a×b，每个连接都有一个权重。在动态映射网络中输入一个向量，该向量就是动态映射网络的训练数据。并在输出图像中产生相应胜出点。以下为运算过程：

①输出节点之间相互连接的途径称为映射拓扑，对映射拓扑和输出映射图像的大小进行初始化处理。输入节点对一个q维向量进行描述，并采用一个二维阵列对输出节点进行描述，在此情况下形成一个危险数据觉醒状态映射图像。

对一组都是q维样本的输出节点进行设置，假设x＝{x1,x2,...,xq}，且x为底层网络潜在危险数据，再假设一组输出节点d＝{d1,d2,...,dq}。

②由于区间[0,1]含有随机值和顺序值，使用该随机值和顺序值初始化已被串联的权重参数，并对其输入值和权重参数规范化处理。设置某组权重参数为p＝{p11,p12,...,pij,...,pab}，且(1≤i≤a,1≤j≤b,0≤pij≤1)。

③由于胜出点是同输入样本距离最近的输出神经元，因此在一个动态映射网络中，将一个输入样本x和输出图像中的一个点dj进行连接，并且前提条件为

④对输入样本x进行调节

⑤为了择取最近距离，需要运算输入向量x和相应输出节点dj间距离，公式为：

式中，输入节点x同输出节点dj间的a个连接权值可表示为pjk(k＝1,2,...,a)。

⑥通过公式(4)调整胜出节点的权重参数及其临近节点dj：

式中，α随着t的增大而不断将小，该递增关系函数也称为学习率，其取值必须大于0.01。同相邻输出节点有关的权重参数被高斯函数γ作用。其中，学习节点di和输出图像中较优节点dj之间距离可以用||di-dj||表示，a,b,d,k为常数，则有：

式中的σ(t)可以代表临近领域的半径。

为了寻找能够很好显示邻近区域保留，需要对网络进行搜索，将相近的输入向量映射到输出图像或临近节点上，并使用拓扑积对是否能够很好的显示邻域保留的网络进行判断。当原始权重参数已被替换时，邻域集的大小会降低，无限贴近于某一给定数值，直到只剩下单个的节点为止。为了得到异常数据，邻域保留是非常关键的一点。以下为拓扑积的求解公式：

式中，节点输出总量用a来表示，而以下为h1和h2的求解公式：

式中，在输出空间内与j距离最短的第k个临近区域可以表示为nk^v(j)，在输入空间中与j距离最短的第k个邻近区域可表示为nk^a(j)，输入空间中pj和pnk^a(j)之间距离可以用u^v(pj,pnk^a(j))表示。

映射图像在动态映射网络中生成，为了得到底层网络潜在危险数据的休眠数据，首先要获取异常数据，该异常数据通常使用动态映射算法分析映射图像相关参数获取。在节点的相对位置相对距离基础上获取输出图像中的拓扑最大节点集合，此时拓扑面积应为最小，该集合公式可表示为：

式中，胜出节点总数量以及映射图像中胜出节点子集合所属的拓扑区域分别用γ和g来表示，ds(k)可表示为一个胜出节点的子集合，且该子集合内有k个成员。

因此，类似的输入向量会集中在映射图像的邻近区域内，当某胜出点相应的输入向量距离该邻近区域较远时，则称该胜出点相应的输入向量的相关数据为异常数据，即底层网络潜在危险数据的休眠数据。

通过上述方案可知，以正常数据网络行为模型为基础，对事务数据库中候选频繁项集逐次扫描获得底层网络潜在危险数据项的规律特征，构建底层网络潜在危险数据挖掘模型，抽取与已知潜在危险数据类型相关的数据属性，引入改进apriori算法对已知类型的数据样本进行学习，对未知类型数据样本进行识别，达到能有效地识别和防范潜在危险数据，从而减少底层网络中正常潜在危险数据识别在潜在危险数据识别时带来的影响，缩短潜在危险数据识别在底层网络中的处理时间，增加底层网络的潜在危险数据识别处理速率和处理量。采用改进apriori算法，一次扫描底层网络潜在危险数据中的事务数据库，高效率挖掘云存储系统中底层网络潜在危险数据后，构建潜在危险数据的动态映射网络，采用动态映射算法挖掘潜在危险数据中的休眠数据；不仅能够同时挖掘出潜在危险数据，还能挖掘出其中的休眠数据，可将底层网络中的潜在危险数据深入挖掘出来，为网络安全优化提供有效的基础。

实施例二

参照图3，本发明实施例二提供了一种底层网络潜在危险数据识别系统1000，包括：

底层网络潜在危险数据挖掘模型1100，用于获取潜在危险数据特征，对事务数据库中候选频繁项集逐次扫描获得底层网络潜在危险数据项的规律特征；

改进apriori算法模型1200，用于对底层网络潜在危险数据进行挖掘；

动态映射网络模型1300，基于所述改进apriori算法模型1200所得，用于形成潜在危险数据的动态映射网络；

潜在危险数据深入挖掘模型1400，用于采用动态映射算法挖掘潜在危险数据中的休眠数据。

需要说明的是，由于本实施例中的底层网络潜在危险数据识别系统与上述实施例一中的底层网络潜在危险数据识别方法基于相同的发明构思，因此，方法实施例一中的相应内容同样适用于本系统实施例，此处不再详述。

实施例三

本发明实施例三还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有底层网络潜在危险数据识别系统可执行指令，底层网络潜在危险数据识别系统可执行指令用于使底层网络潜在危险数据识别系统执行上述的底层网络潜在危险数据识别方法，例如，执行以上描述的图1中的方法步骤s100至s400，实现图3中的单元1000-1400的功能。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姚菁晨;陈德健;徐健栋;罗庆佳;梁嘉亮;黄尚安
技术所有人：广东恒睿科技有限公司
我是此专利的发明人

上一篇：监控统计方法、装置及计算机可读存储介质与流程
上一篇：一种循环式双调模拟热流系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。