一种保护私有信息的电网大数据关联规则挖掘方法

文档序号:6638571阅读:219来源:国知局
一种保护私有信息的电网大数据关联规则挖掘方法
【专利摘要】本发明提供一种保护私有信息的电网大数据关联规则挖掘方法,包括以下步骤:生成一维频繁项目集;从第二步开始循环处理直到未能再产生维数更高的频繁项目集;对每个数据库中的频繁项求和,完成每个频繁项目集个数的统计。本发明提供一种保护私有信息的电网大数据关联规则挖掘方法,不仅能够提高挖掘的效率,并且能够有效地用于保护各方参与者的隐私,这样在不泄露自身的隐私数据的同时,还能高效地联合挖掘大数据中的有用信息。
【专利说明】一种保护私有信息的电网大数据关联规则挖掘方法

【技术领域】
[0001] 本发明涉及属于数据信息【技术领域】,具体涉及一种保护私有信息的电网大数据关 联规则挖掘方法。

【背景技术】
[0002] 在电力行业中,业务应用的发展促使大数据技术近年来得到广泛的关注,各系统 每天采集和实时记录的电网信息量呈爆炸式增长,许多大型电网系统单日数据量已达到几 十GB,甚至几百GB左右。在充分挖掘这些数据信息资源时,考虑参与方的私有信息不泄露 已经成为大数据分析挖掘发展的重要支撑技术。
[0003] 随着计算机处理能力的提升、存储技术的发展、互联网技术的快速进步,各行各业 的数据量不断增长。人们希望对积累的数据进行高层次的分析,找出潜在的一些数据关系 和规则。将"未知"的海量数据变成"已知"的有用数据,将"不起眼"的数据变成真正的财 富。在巨大利益的驱动下,这种海量数据的挖掘研宄工作成为统计学、人工智能等领域研宄 的热点之一。
[0004] 数据挖掘是从大量数据中挖掘出有用的数据。但是,很多情况下,这种数据可能是 分布在不同的地点,属于不同的组织。传统的数据仓库技术要求是将分布式的数据集中到 某个中心点,虽然这样有利于数据的部署应用,但是很多参与方出于对自己的隐私保护不 愿意共享他们自己的数据。安全挖掘,即保护隐私的数据挖掘,就为了研宄、解决此类问题 应运而生。这种安全挖掘的目标是在建立某种关联,将数据的挖掘工作和数据隐私的保护 有机地集合起来。其基本思想在于对原始数据或者挖掘方法进行某种改进,在不向非数据 所有者泄露敏感数据取值的同时,发现原始数据的某些统计规律或者隐含的知识和规则。


【发明内容】

[0005] 为了克服上述现有技术的不足,本发明提供一种保护私有信息的电网大数据关联 规则挖掘方法,不仅能够提高挖掘的效率,并且能够有效地用于保护各方参与者的隐私,这 样在不泄露自身的隐私数据的同时,还能高效地联合挖掘大数据中的有用信息。
[0006] 为了实现上述发明目的,本发明采取如下技术方案:
[0007] 本发明提供一种保护私有信息的电网大数据关联规则挖掘方法,所述方法包括以 下步骤:
[0008] 步骤1 :生成一维频繁项目集;
[0009] 步骤2 :从第二步开始循环处理直到未能再产生维数更高的频繁项目集;
[0010] 步骤3 :对每个数据库中的频繁项求和,完成每个频繁项目集个数的统计。
[0011] 所述步骤1中,统计所有仅含一个元素的项目出现的频率,从中找出大于或等于 最小支持度的项目集,进而生成一阶频繁集L t。
[0012] 所述步骤2具体包括以下步骤:
[0013] 步骤2-1 :在第k步中,根据k-Ι步生成的k-Ι阶频繁集来产生k阶候选集;
[0014] 步骤2-2 :根据Apriori算法统计k阶频繁集中每个元素出现的次数,若某个元素 出现的次数小于k,则将k阶频繁集中包含该元素的项目集删掉,得到简化的k阶频繁集; 再根据k阶频繁集,扫描数据库D中的每个事务,得到k+Ι阶候选集;
[0015] 步骤2-3 :循环执行步骤2-1和步骤2-2,整个数据扫描完毕后产生事务数据库 Dr 〇
[0016] 所述步骤3包括以下步骤:
[0017] 步骤3-1 :确定第i个参与者p#自拥有数据集{X i,X2,…,X1J,即每个参与者Pi 拥有的私有数据为Xi,其中m彡3, i = 1,2,…,m ; m
[0018] 步骤3-2 :输出数据集的和值,并保证参与者仏无法获知xk,其中k = 1,2,…,m,且 k 辛 i ;
[0019] 步骤3-3 :合作执行协议的每位参与者将自身拥有的私有数据随机分成m份,除了 自身保留一份外,将其他的m-Ι份传到其他参与者,以此来求参与者拥有私有信息的总和。
[0020] 所述步骤3-3包括以下步骤:
[0021] 步骤3-3-1 :参与者?1随机生成m-Ι个辅助值Xi,p其中j = 1,2,···,πι-1,参与者 m-l 机产生m-l个数,分别为{x i i,Xi 2,…,Xi m_J,并计算得到夂-Σ气/,将参与者Pi ' ' ' M 拥有的私有数据Xi分成m份,即X i= X u+Xi』+…+χ^+χ^;
[0022] 步骤3-3-2 :Pi保留任意一份数据X u,将Xiij发送给其他m-l个参与者p」,即除了 Xu外,将其他的m-l分数传送给其他的参与者,其中j辛i ;
[0023] 步骤3-3-3 :其他参与者Pj对自己私有的数据进行处理,并发送给其他的参与者;
[0024] 步骤3-3-4 :参与者Pi在接收到其他m-l个参与者发来的数据后,将接收到的m-l 个数据与自己保留的Xiii进行求和计算,得到尤;于是m个参与者分别计算得到m个数据 {尤,毛,···,之);
[0025] 步骤3-3-5 :将沐,毛,···,之)求和,得到m个参与者拥有私有数据的总和 Luuzoj 与;%

【权利要求】
1. 一种保护私有信息的电网大数据关联规则挖掘方法,其特征在于:所述方法包括以 下步骤: 步骤1:生成一维频繁项目集; 步骤2 :从第二步开始循环处理直到未能再产生维数更高的频繁项目集; 步骤3 :对每个数据库中的频繁项求和,完成每个频繁项目集个数的统计。
2. 根据权利要求1所述的保护私有信息的电网大数据关联规则挖掘方法,其特征在 于:所述步骤1中,统计所有仅含一个元素的项目出现的频率,从中找出大于或等于最小支 持度的项目集,进而生成一阶频繁集Lt。
3. 根据权利要求1所述的保护私有信息的电网大数据关联规则挖掘方法,其特征在 于:所述步骤2具体包括以下步骤: 步骤2-1 :在第k步中,根据k-Ι步生成的k-Ι阶频繁集来产生k阶候选集; 步骤2-2 :根据Apriori算法统计k阶频繁集中每个元素出现的次数,若某个元素出现 的次数小于k,则将k阶频繁集中包含该元素的项目集删掉,得到简化的k阶频繁集;再根 据k阶频繁集,扫描数据库D中的每个事务,得到k+Ι阶候选集; 步骤2-3 :循环执行步骤2-1和步骤2-2,整个数据扫描完毕后产生事务数据库D'。
4. 根据权利要求1所述的保护私有信息的电网大数据关联规则挖掘方法,其特征在 于:所述步骤3包括以下步骤: 步骤3-1 :确定第i个参与者pJA自拥有数据集{Xi,X2,…,XJ,即每个参与者Pi拥有 的私有数据为Xi,其中m彡3,i= 1,2,…,m; m 步骤3-2 :输出数据集的和值Σ冬,并保证参与者Pi无法获知Xk,其中k= /=1 1,2,…,m,且k辛i; 步骤3-3 :合作执行协议的每位参与者将自身拥有的私有数据随机分成m份,除了自身 保留一份外,将其他的m-Ι份传到其他参与者,以此来求参与者拥有私有信息的总和。
5. 根据权利要求1所述的保护私有信息的电网大数据关联规则挖掘方法,其特征在 于:所述步骤3-3包括以下步骤: 步骤3-3-1 :参与者?1随机生成m-Ι个辅助值Xi,j,其中j= 1,2, 一,Iii-I,参与者?1随 机产生m-1个数,分别为Ixii,Xi2,…,Xim_J,并计算得到-Σ&,将参与者 有的私有数据Xi分成m份,即Xi=Xu+x^+…+χ^μ+χ^; 步骤3-3-2 :Pi保留任意一份数据X^将Xi,j发送给其他m-1个参与者p」,即除了Xi,i夕卜,将其他的m-1分数传送给其他的参与者,其中j辛i; 步骤3-3-3 :其他参与者Pj对自己私有的数据进行处理,并发送给其他的参与者; 步骤3-3-4 :参与者Pi在接收到其他m-Ι个参与者发来的数据后,将接收到的m-Ι个 数据与自己保留的Xiii进行求和计算,得到七;于是m个参与者分别计算得到m个数据 !K,…龙); 步骤3-3-5 :将成,尤,…,之)求和,得到m个参与者拥有私有数据的总和
【文档编号】G06Q50/06GK104462415SQ201410768891
【公开日】2015年3月25日 申请日期:2014年12月12日 优先权日:2014年12月12日
【发明者】叶云, 任环, 余勇, 石聪聪, 高鹏, 曹宛恬 申请人:国家电网公司, 中国电力科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1