一种分布式关联规则挖掘隐私信息保护方法与流程

文档序号:12125670阅读:344来源:国知局
一种分布式关联规则挖掘隐私信息保护方法与流程

本发明涉及数据挖掘技术领域,特别涉及一种分布式关联规则挖掘隐私信息保护方法。



背景技术:

伴随着数据挖掘技术在各个领域的广泛应用,数据挖掘对用户的隐私和数据安全所造成的威胁越来越引起人们的关注。在涉及企业敏感数据(如电子病历中包含的医院医疗业务或财务状况)或个人隐私信息(如电子病历中包含的患者隐私病症)的各种数据挖掘日常应用中,对于如何提高数据的安全性引起了学者的广泛关注。

目前国内外的隐私保护数据挖掘算法主要有基于数据扰乱的、基于查询限制等方法,在分布式环境下主要有基于查询限制或数据扰乱和查询限制混合使用等方法。数据扰乱首先通过数据离散化、数据随机变换和增加噪声等操作对原始数据进行干扰,对干扰后的数据进行挖掘,减少挖掘中隐私的泄漏;查询限制则是通过数据隐藏、抽样、划分或加密等方式,再利用概率统计或分布式计算的方法得到挖掘结果,以达到保护数据的目的。目前分布式环境下关联规则挖掘隐私保护算法较多的使用同态加密技术,该技术最主要的特点是对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。在将该技术运用在分布式关联规则挖掘中时,私钥拥有者容易通过两两计算站点的信息,获得足够多的方程组后,解出各站点数据集中项集的支持度信息造成隐私泄漏。



技术实现要素:

针对现有技术存在的不足,本发明提出一种分布式关联规则挖掘隐私信息保护方法,增强在水平分布式环境下关联规则挖掘中各站点支持度和个体信息的安全性。

一种分布式关联规则挖掘隐私信息保护方法,其特征包含于以下步骤:

1)各站点使用差分隐私算法对各自拥有的数据集进行匿名化操作;

2)引入的半可信第三方利用Shamir秘密共享算法将产生的私钥分解成n+1个子私钥;

3)第三方将n个子私钥分别发送给各站点(共n个站点),把原始私钥重置为第n+1个子私钥的值skn+1

4)第三方将所有的子私钥重构成原私钥,对各站点发送过来的支持度矩阵进行解密;

5)第三方对支持度矩阵解密完成后,将原私钥重置为第n+1个子私钥的值skn+1

附图说明

图1是算法流程图

图2是分布式数据挖掘框架

具体实施方式

该方法思想如下:

(1)在对数据进行挖掘前,各站点对各自拥有的原始数据集D使用差分隐私保护算法进行匿名化处理,构成匿名化数据集D’。

(2)引入半可信第三方,第三方产生使用同态加密算法时所需的公钥私钥对(pk,sk),利用Shamir秘密共享算法将私钥分解成n+1个子私钥,赋值sk为skn+1并将公钥子私钥对分别发送给各站点。

(3)各站点计算出k-项集的本地支持数,构成行矩阵,使用公钥pk对该矩阵M进行同态加密,形成新的行矩阵E(M),将E(M)连同子私钥一并发送给第三方。

(4)第三方整合各站点发来的所有矩阵,利用Shamir算法还原私钥sk,计算k-项集(包含k个项的项集)的全局支持数,利用Shamir算法对私钥再次进行分解,重置sk=skn+1,根据Apriori数据挖掘算法,最终得出关联规则。

下面结合实施例子及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

现设定有三个数据集D1、D2、D3分别分布在三个站点S1、S2、S3中,具体数据集见表1-表3。最小支持度为min_sup,最小置信度为min_conf,挖掘框架如图2所示。

表1原始数据集D1示例

表2原始数据集D2示例

表3原始数据集D3示例

1)站点S1、S2、S3使用差分隐私算法将站点内数据集进行匿名化,得到经过差分隐私算法执行后的数据集(见表4-表6);

表4匿名化后数据集D1′示例

表5匿名化后数据集D2′示例

表6匿名化后数据集D3′示例

2)第三方DC产生公钥和私钥(pk,sk),利用Shamir密钥共享方法将私钥sk分解成4个子密钥ski(1≤i≤4),并将sk赋值为sk4

3)DC将(pk,ski)发送给各站点;

4)各站点并行计算1-项集的支持数,使用pk将1-项集支持数利用Paillier同态加密算法进行加密,构成行矩阵将该行矩阵和ski一同发送给DC;

5)DC将各站点发送过来的行矩阵相加,并将ski合并到sk,用私钥sk解密得并重置sk=sk4。若Sup1大于min_sup*|D|(|D|为各站点总事务数之和),则该候选1-项集为全局频繁1-项集;

6)DC使用关联规则挖掘算法Apriori生成全局2-项集;

7)若全局频繁1-项集的数目不等于零,转到第4步,否则继续执行下一步;

8)各站点统计出2-项集的支持数,以同样的方式发送给DC;

9)DC将所有的候选频繁项集支持度与给定的最小置信度进行比较,候选频繁项集支持度大于min_conf的,则为关联规则,否则丢弃;

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1