一种基于大数据的电网信息安全可信工作系统的制作方法

文档序号:11864897阅读:193来源:国知局

本发明涉及大数据领域,具体涉及一种基于大数据的电网信息安全可信工作系统。



背景技术:

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,大数据的研究和应用已经成为现代信息一个不可或缺的研究领域。

在现在使用的数据信息中,有很大一部分的数据是由管理者来进行发布,并且根据用户的建议或者管理者自身的需求由管理者来进行修改的,对于这部分的海量信息,如何能够更好地进行质量管理和挖掘,快速有效地从中找到有用的信息,是一个亟需解决的问题。

可信计算是在计算和通信系统中广泛使用基于硬件安全模块支持下的可信计算平台,以提高系统整体的安全性。信息安全具有四个侧面:设备安全、数据安全、内容安全与行为安全。行为安全包括:行为的机密性、行为的完整性、行为的真实性等特征。可信计算为行为安全而生。

电网信息一方面有必要向社会公开并接受监督,另一方面,如果不进行身份验证就对信息进行访问,会对电网的正常工作造成冲击,造成安全隐患,如何在充分公开信息的前提下保证电网信息安全未能有效解决。



技术实现要素:

针对上述问题,本发明提供一种基于大数据的电网信息安全可信工作系统。

本发明的目的采用以下技术方案来实现:

一种基于大数据的电网信息安全可信工作系统,其特征是,包括数据质量管理模块、有用数据挖掘模块、身份验证模块和可信评估模块,其中质量管理模块包括数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块,身份验证模块包括指纹识别子模块和报警子模块;

(1)数据描述子模块

通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:

构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,

则影响者网络聚类系数定义为:

<mrow> <mover> <mi>K</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <msub> <mi>m&sigma;</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>l&sigma;</mi> <mn>2</mn> </msub> <mo>+</mo> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>&delta;</mi> <mn>1</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>3</mn> </msub> <mo>+</mo> <msub> <mi>&delta;</mi> <mn>2</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>4</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mo>+</mo> <mi>l</mi> <mo>+</mo> <mi>n</mi> </mrow> </mfrac> <mo>&times;</mo> <msqrt> <mrow> <mn>1</mn> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>m</mi> <mo>-</mo> <mi>l</mi> </mrow> <mi>m</mi> </mfrac> <mo>)</mo> </mrow> <mn>3</mn> </msup> </mrow> </msqrt> </mrow>

式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁;

(2)数据质量评价子模块

采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:

将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:

<mrow> <mi>R</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> </mfrac> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </msqrt> <mo>+</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> </mfrac> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级;

(3)数据质量分级管理子模块

数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理;

(4)指纹识别子模块

访问电网信息数据需要输入指纹,与指纹库中的指纹进行匹配,只有通过指纹识别的人才能对电网信息数据进行访问;

(5)报警子模块

若未通过指纹识别,无法对电网信息进行访问,系统发出警报。

优选地,其特征在于,

(1)数据预处理子模块

将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;

(2)有用数据构建子模块

经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:

<mrow> <mi>P</mi> <mo>=</mo> <mfrac> <mrow> <mfrac> <msub> <mi>Z</mi> <mi>s</mi> </msub> <mi>Z</mi> </mfrac> <mo>-</mo> <mi>&rho;</mi> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> </mfrac> </mrow>

式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;

(3)有用数据修正子模块

有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;

(4)有用数据分层挖掘子模块

首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集;

有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:

P′=P×(1-Y)×(1+H)

式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。

优选地,可信评估模块包括以下子模块:

子模块1:定义用于评估模块的各项可信属性,可信属性是分类的,可信属性可以向下分解为子属性;

子模块2:对于每项可信属性或子属性,提炼出对它的评价指标,可以用这些评价指标从不同的侧面对可信属性或子属性进行评价;

子模块3:对于每项可信属性或子属性,定义出对它的评价标准,评价标准分为四级:优、良、中、差,评价标准是基于评价指标的,即根据每个评价指标的取值组合来决定可信属性或子属性达到了哪一级评价标准;

子模块4:确定模块可信分级的标准,可信分级标准分为五级,是根据每项可信属性的评价结论而得出的;

子模块5:在开展可信评估活动之前,根据评估重点的不同,形成不同可信评估模板,并基于此模板开展可信评估活动,从而使得可信评估更有针对性,评估的结果更精确。

本发明的有益效果为:引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强;设置身份验证模块,电网信息安全得到有效保证;保护了指定的数据存储区,防止敌手实施特定类型的物理访问;赋予了所有在计算平台上执行的代码以证明它在一个未被篡改环境中运行的能力,从广义的角度,可信计算平台为网络用户提供了一个更为宽广的安全环境,它从安全体系的角度来描述安全问题,确保用户的安全执行环境,突破被动防御打补丁方式。

附图说明

利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。

图1是基于大数据的电网信息安全工作系统结构框图。

附图标记:质量管理模块-1;有用数据挖掘模块-2;身份验证模块-3;可信评估模块-4;数据描述子模块-11;数据质量评价子模块-12;数据质量分级管理子模块-13;数据预处理子模块-21;有用数据构建子模块-22;有用数据修正子模块-23;有用数据分层挖掘子模块-24;指纹识别子模块-31;报警子模块-32。

具体实施方式

结合以下实施例对本发明作进一步描述。

实施例1:

如图1所示的一种基于大数据的电网信息安全可信工作系统,包括数据质量管理模块1、有用数据挖掘模块2、身份验证模块3和可信评估模块4,其中质量管理模块1包括数据描述子模块11、数据质量评价子模块12和数据质量分级管理子模块13,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24,身份验证模块3包括指纹识别子模块31和报警子模块32。

(1)数据描述子模块11:

通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:

构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,

则影响者网络聚类系数定义为:

<mrow> <mover> <mi>K</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <msub> <mi>m&sigma;</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>l&sigma;</mi> <mn>2</mn> </msub> <mo>+</mo> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>&delta;</mi> <mn>1</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>3</mn> </msub> <mo>+</mo> <msub> <mi>&delta;</mi> <mn>2</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>4</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mo>+</mo> <mi>l</mi> <mo>+</mo> <mi>n</mi> </mrow> </mfrac> <mo>&times;</mo> <msqrt> <mrow> <mn>1</mn> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>m</mi> <mo>-</mo> <mi>l</mi> </mrow> <mi>m</mi> </mfrac> <mo>)</mo> </mrow> <mn>3</mn> </msup> </mrow> </msqrt> </mrow>

式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。

(2)数据质量评价子模块12:

采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:

将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:

<mrow> <mi>R</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> </mfrac> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </msqrt> <mo>+</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> </mfrac> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。

(3)数据质量分级管理子模块13:

数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。

(4)指纹识别子模块31:

访问电网信息数据需要输入指纹,与指纹库中的指纹进行匹配,只有通过指纹识别的人才能对电网信息数据进行访问。

(5)报警子模块32:

若未通过指纹识别,无法对电网信息进行访问,系统发出警报。

优选地,其特征在于,

(1)数据预处理子模块21:

将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K。

(2)有用数据构建子模块22:

经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:

<mrow> <mi>P</mi> <mo>=</mo> <mfrac> <mrow> <mfrac> <msub> <mi>Z</mi> <mi>s</mi> </msub> <mi>Z</mi> </mfrac> <mo>-</mo> <mi>&rho;</mi> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> </mfrac> </mrow>

式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数。

(3)有用数据修正子模块23:

有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据。取C=T/5,提示数据范围增加5%,但是计算量增加了3.7%。

(4)有用数据分层挖掘子模块24:

首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。

有用数据修正子模块23中根据人为破坏和用户投票进行修正的具体修正公式为:

P′=P×(1-Y)×(1+H)

式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。

优选地,可信评估模块4包括以下子模块:

子模块1:定义用于评估模块的各项可信属性,可信属性是分类的,可信属性可以向下分解为子属性;

子模块2:对于每项可信属性或子属性,提炼出对它的评价指标,可以用这些评价指标从不同的侧面对可信属性或子属性进行评价;

子模块3:对于每项可信属性或子属性,定义出对它的评价标准,评价标准分为四级:优、良、中、差,评价标准是基于评价指标的,即根据每个评价指标的取值组合来决定可信属性或子属性达到了哪一级评价标准;

子模块4:确定模块可信分级的标准,可信分级标准分为五级,是根据每项可信属性的评价结论而得出的;

子模块5:在开展可信评估活动之前,根据评估重点的不同,形成不同可信评估模板,并基于此模板开展可信评估活动,从而使得可信评估更有针对性,评估的结果更精确。

本实施例的发明中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/5,提示数据范围增加5%,但是计算量增加了3.7%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强;设置身份验证模块,电网信息安全得到有效保证;赋予了所有在计算平台上执行的代码以证明它在一个未被篡改环境中运行的能力,从广义的角度,可信计算平台为网络用户提供了一个更为宽广的安全环境,它从安全体系的角度来描述安全问题,确保用户的安全执行环境,突破被动防御打补丁方式。

实施例2:

如图1所示的一种基于大数据的电网信息安全可信工作系统,包括数据质量管理模块1、有用数据挖掘模块2、身份验证模块3和可信评估模块4,其中质量管理模块1包括数据描述子模块11、数据质量评价子模块12和数据质量分级管理子模块13,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24,身份验证模块3包括指纹识别子模块31和报警子模块32。

(1)数据描述子模块11:

通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:

构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,

则影响者网络聚类系数定义为:

<mrow> <mover> <mi>K</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <msub> <mi>m&sigma;</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>l&sigma;</mi> <mn>2</mn> </msub> <mo>+</mo> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>&delta;</mi> <mn>1</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>3</mn> </msub> <mo>+</mo> <msub> <mi>&delta;</mi> <mn>2</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>4</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mo>+</mo> <mi>l</mi> <mo>+</mo> <mi>n</mi> </mrow> </mfrac> <mo>&times;</mo> <msqrt> <mrow> <mn>1</mn> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>m</mi> <mo>-</mo> <mi>l</mi> </mrow> <mi>m</mi> </mfrac> <mo>)</mo> </mrow> <mn>3</mn> </msup> </mrow> </msqrt> </mrow>

式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。

(2)数据质量评价子模块12:

采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:

将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:

<mrow> <mi>R</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> </mfrac> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </msqrt> <mo>+</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> </mfrac> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。

(3)数据质量分级管理子模块13:

数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。

(4)指纹识别子模块31:

访问电网信息数据需要输入指纹,与指纹库中的指纹进行匹配,只有通过指纹识别的人才能对电网信息数据进行访问。

(5)报警子模块32:

若未通过指纹识别,无法对电网信息进行访问,系统发出警报。

优选地,其特征在于,

(1)数据预处理子模块21:

将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K。

(2)有用数据构建子模块22:

经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:

<mrow> <mi>P</mi> <mo>=</mo> <mfrac> <mrow> <mfrac> <msub> <mi>Z</mi> <mi>s</mi> </msub> <mi>Z</mi> </mfrac> <mo>-</mo> <mi>&rho;</mi> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> </mfrac> </mrow>

式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数。

(3)有用数据修正子模块23:

有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据。取C=T/5,提示数据范围增加5%,但是计算量增加了3.7%。

(4)有用数据分层挖掘子模块24:

首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。

有用数据修正子模块23中根据人为破坏和用户投票进行修正的具体修正公式为:

P′=P×(1-Y)×(1+H)

式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。

优选地,可信评估模块4包括以下子模块:

子模块1:定义用于评估模块的各项可信属性,可信属性是分类的,可信属性可以向下分解为子属性;

子模块2:对于每项可信属性或子属性,提炼出对它的评价指标,可以用这些评价指标从不同的侧面对可信属性或子属性进行评价;

子模块3:对于每项可信属性或子属性,定义出对它的评价标准,评价标准分为四级:优、良、中、差,评价标准是基于评价指标的,即根据每个评价指标的取值组合来决定可信属性或子属性达到了哪一级评价标准;

子模块4:确定模块可信分级的标准,可信分级标准分为五级,是根据每项可信属性的评价结论而得出的;

子模块5:在开展可信评估活动之前,根据评估重点的不同,形成不同可信评估模板,并基于此模板开展可信评估活动,从而使得可信评估更有针对性,评估的结果更精确。

本实施例的发明中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/6,提示数据范围增加4%,但是计算量增加了3.3%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强;设置身份验证模块,电网信息安全得到有效保证;赋予了所有在计算平台上执行的代码以证明它在一个未被篡改环境中运行的能力,从广义的角度,可信计算平台为网络用户提供了一个更为宽广的安全环境,它从安全体系的角度来描述安全问题,确保用户的安全执行环境,突破被动防御打补丁方式。

实施例3:

如图1所示的一种基于大数据的电网信息安全可信工作系统,包括数据质量管理模块1、有用数据挖掘模块2、身份验证模块3和可信评估模块4,其中质量管理模块1包括数据描述子模块11、数据质量评价子模块12和数据质量分级管理子模块13,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24,身份验证模块3包括指纹识别子模块31和报警子模块32。

(1)数据描述子模块11:

通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:

构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,

则影响者网络聚类系数定义为:

<mrow> <mover> <mi>K</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <msub> <mi>m&sigma;</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>l&sigma;</mi> <mn>2</mn> </msub> <mo>+</mo> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>&delta;</mi> <mn>1</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>3</mn> </msub> <mo>+</mo> <msub> <mi>&delta;</mi> <mn>2</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>4</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mo>+</mo> <mi>l</mi> <mo>+</mo> <mi>n</mi> </mrow> </mfrac> <mo>&times;</mo> <msqrt> <mrow> <mn>1</mn> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>m</mi> <mo>-</mo> <mi>l</mi> </mrow> <mi>m</mi> </mfrac> <mo>)</mo> </mrow> <mn>3</mn> </msup> </mrow> </msqrt> </mrow>

式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。

(2)数据质量评价子模块12:

采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:

将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:

<mrow> <mi>R</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> </mfrac> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </msqrt> <mo>+</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> </mfrac> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。

(3)数据质量分级管理子模块13:

数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。

(4)指纹识别子模块31:

访问电网信息数据需要输入指纹,与指纹库中的指纹进行匹配,只有通过指纹识别的人才能对电网信息数据进行访问。

(5)报警子模块32:

若未通过指纹识别,无法对电网信息进行访问,系统发出警报。

优选地,其特征在于,

(1)数据预处理子模块21:

将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K。

(2)有用数据构建子模块22:

经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:

<mrow> <mi>P</mi> <mo>=</mo> <mfrac> <mrow> <mfrac> <msub> <mi>Z</mi> <mi>s</mi> </msub> <mi>Z</mi> </mfrac> <mo>-</mo> <mi>&rho;</mi> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> </mfrac> </mrow>

式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数。

(3)有用数据修正子模块23:

有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据。取C=T/5,提示数据范围增加5%,但是计算量增加了3.7%。

(4)有用数据分层挖掘子模块24:

首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。

有用数据修正子模块23中根据人为破坏和用户投票进行修正的具体修正公式为:

P′=P×(1-Y)×(1+H)

式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。

优选地,可信评估模块4包括以下子模块:

子模块1:定义用于评估模块的各项可信属性,可信属性是分类的,可信属性可以向下分解为子属性;

子模块2:对于每项可信属性或子属性,提炼出对它的评价指标,可以用这些评价指标从不同的侧面对可信属性或子属性进行评价;

子模块3:对于每项可信属性或子属性,定义出对它的评价标准,评价标准分为四级:优、良、中、差,评价标准是基于评价指标的,即根据每个评价指标的取值组合来决定可信属性或子属性达到了哪一级评价标准;

子模块4:确定模块可信分级的标准,可信分级标准分为五级,是根据每项可信属性的评价结论而得出的;

子模块5:在开展可信评估活动之前,根据评估重点的不同,形成不同可信评估模板,并基于此模板开展可信评估活动,从而使得可信评估更有针对性,评估的结果更精确。

本实施例的发明中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/7,提示数据范围增加3.5%,但是计算量增加了3%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强;设置身份验证模块,电网信息安全得到有效保证;赋予了所有在计算平台上执行的代码以证明它在一个未被篡改环境中运行的能力,从广义的角度,可信计算平台为网络用户提供了一个更为宽广的安全环境,它从安全体系的角度来描述安全问题,确保用户的安全执行环境,突破被动防御打补丁方式。

实施例4:

如图1所示的一种基于大数据的电网信息安全可信工作系统,包括数据质量管理模块1、有用数据挖掘模块2、身份验证模块3和可信评估模块4,其中质量管理模块1包括数据描述子模块11、数据质量评价子模块12和数据质量分级管理子模块13,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24,身份验证模块3包括指纹识别子模块31和报警子模块32。

(1)数据描述子模块11:

通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:

构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,

则影响者网络聚类系数定义为:

<mrow> <mover> <mi>K</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <msub> <mi>m&sigma;</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>l&sigma;</mi> <mn>2</mn> </msub> <mo>+</mo> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>&delta;</mi> <mn>1</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>3</mn> </msub> <mo>+</mo> <msub> <mi>&delta;</mi> <mn>2</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>4</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mo>+</mo> <mi>l</mi> <mo>+</mo> <mi>n</mi> </mrow> </mfrac> <mo>&times;</mo> <msqrt> <mrow> <mn>1</mn> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>m</mi> <mo>-</mo> <mi>l</mi> </mrow> <mi>m</mi> </mfrac> <mo>)</mo> </mrow> <mn>3</mn> </msup> </mrow> </msqrt> </mrow>

式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。

(2)数据质量评价子模块12:

采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:

将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:

<mrow> <mi>R</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> </mfrac> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </msqrt> <mo>+</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> </mfrac> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。

(3)数据质量分级管理子模块13:

数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。

(4)指纹识别子模块31:

访问电网信息数据需要输入指纹,与指纹库中的指纹进行匹配,只有通过指纹识别的人才能对电网信息数据进行访问。

(5)报警子模块32:

若未通过指纹识别,无法对电网信息进行访问,系统发出警报。

优选地,其特征在于,

(1)数据预处理子模块21:

将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K。

(2)有用数据构建子模块22:

经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:

<mrow> <mi>P</mi> <mo>=</mo> <mfrac> <mrow> <mfrac> <msub> <mi>Z</mi> <mi>s</mi> </msub> <mi>Z</mi> </mfrac> <mo>-</mo> <mi>&rho;</mi> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> </mfrac> </mrow>

式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数。

(3)有用数据修正子模块23:

有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据。取C=T/5,提示数据范围增加5%,但是计算量增加了3.7%。

(4)有用数据分层挖掘子模块24:

首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。

有用数据修正子模块23中根据人为破坏和用户投票进行修正的具体修正公式为:

P′=P×(1-Y)×(1+H)

式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。

优选地,可信评估模块4包括以下子模块:

子模块1:定义用于评估模块的各项可信属性,可信属性是分类的,可信属性可以向下分解为子属性;

子模块2:对于每项可信属性或子属性,提炼出对它的评价指标,可以用这些评价指标从不同的侧面对可信属性或子属性进行评价;

子模块3:对于每项可信属性或子属性,定义出对它的评价标准,评价标准分为四级:优、良、中、差,评价标准是基于评价指标的,即根据每个评价指标的取值组合来决定可信属性或子属性达到了哪一级评价标准;

子模块4:确定模块可信分级的标准,可信分级标准分为五级,是根据每项可信属性的评价结论而得出的;

子模块5:在开展可信评估活动之前,根据评估重点的不同,形成不同可信评估模板,并基于此模板开展可信评估活动,从而使得可信评估更有针对性,评估的结果更精确。

本实施例的发明中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/8,提示数据范围增加3%,但是计算量增加了2.7%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强;设置身份验证模块,电网信息安全得到有效保证;赋予了所有在计算平台上执行的代码以证明它在一个未被篡改环境中运行的能力,从广义的角度,可信计算平台为网络用户提供了一个更为宽广的安全环境,它从安全体系的角度来描述安全问题,确保用户的安全执行环境,突破被动防御打补丁方式。

实施例5:

如图1所示的一种基于大数据的电网信息安全可信工作系统,包括数据质量管理模块1、有用数据挖掘模块2、身份验证模块3和可信评估模块4,其中质量管理模块1包括数据描述子模块11、数据质量评价子模块12和数据质量分级管理子模块13,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24,身份验证模块3包括指纹识别子模块31和报警子模块32。

(1)数据描述子模块11:

通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:

构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,

则影响者网络聚类系数定义为:

<mrow> <mover> <mi>K</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <msub> <mi>m&sigma;</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>l&sigma;</mi> <mn>2</mn> </msub> <mo>+</mo> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>&delta;</mi> <mn>1</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>3</mn> </msub> <mo>+</mo> <msub> <mi>&delta;</mi> <mn>2</mn> </msub> <mo>&times;</mo> <msub> <mi>&sigma;</mi> <mn>4</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mo>+</mo> <mi>l</mi> <mo>+</mo> <mi>n</mi> </mrow> </mfrac> <mo>&times;</mo> <msqrt> <mrow> <mn>1</mn> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>m</mi> <mo>-</mo> <mi>l</mi> </mrow> <mi>m</mi> </mfrac> <mo>)</mo> </mrow> <mn>3</mn> </msup> </mrow> </msqrt> </mrow>

式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。

(2)数据质量评价子模块12:

采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:

将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:

<mrow> <mi>R</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> </mfrac> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </msqrt> <mo>+</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mo>|</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> </mfrac> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。

(3)数据质量分级管理子模块13:

数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。

(4)指纹识别子模块31:

访问电网信息数据需要输入指纹,与指纹库中的指纹进行匹配,只有通过指纹识别的人才能对电网信息数据进行访问。

(5)报警子模块32:

若未通过指纹识别,无法对电网信息进行访问,系统发出警报。

优选地,其特征在于,

(1)数据预处理子模块21:

将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K。

(2)有用数据构建子模块22:

经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:

<mrow> <mi>P</mi> <mo>=</mo> <mfrac> <mrow> <mfrac> <msub> <mi>Z</mi> <mi>s</mi> </msub> <mi>Z</mi> </mfrac> <mo>-</mo> <mi>&rho;</mi> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> </mfrac> </mrow>

式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数。

(3)有用数据修正子模块23:

有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据。取C=T/5,提示数据范围增加5%,但是计算量增加了3.7%。

(4)有用数据分层挖掘子模块24:

首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。

有用数据修正子模块23中根据人为破坏和用户投票进行修正的具体修正公式为:

P′=P×(1-Y)×(1+H)

式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。

优选地,可信评估模块4包括以下子模块:

子模块1:定义用于评估模块的各项可信属性,可信属性是分类的,可信属性可以向下分解为子属性;

子模块2:对于每项可信属性或子属性,提炼出对它的评价指标,可以用这些评价指标从不同的侧面对可信属性或子属性进行评价;

子模块3:对于每项可信属性或子属性,定义出对它的评价标准,评价标准分为四级:优、良、中、差,评价标准是基于评价指标的,即根据每个评价指标的取值组合来决定可信属性或子属性达到了哪一级评价标准;

子模块4:确定模块可信分级的标准,可信分级标准分为五级,是根据每项可信属性的评价结论而得出的;

子模块5:在开展可信评估活动之前,根据评估重点的不同,形成不同可信评估模板,并基于此模板开展可信评估活动,从而使得可信评估更有针对性,评估的结果更精确。

本实施例的发明中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/9,提示数据范围增加2.7%,但是计算量增加了2.5%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强;设置身份验证模块,电网信息安全得到有效保证;赋予了所有在计算平台上执行的代码以证明它在一个未被篡改环境中运行的能力,从广义的角度,可信计算平台为网络用户提供了一个更为宽广的安全环境,它从安全体系的角度来描述安全问题,确保用户的安全执行环境,突破被动防御打补丁方式。

最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1