一种分布式环境下隐私保护的关联规则挖掘方法

文档序号:6580518阅读:136来源:国知局
专利名称:一种分布式环境下隐私保护的关联规则挖掘方法
技术领域
本发明涉及数据挖掘中隐私保护技术领域,具体而言涉及一种分布式环境下隐私保护的关联规则挖掘方法。
背景技术
信息时代带来了数据的爆炸性增长,也催生了从海量数据中提取出有用知识的富有挑战性的研究领域一一数据挖掘。数据挖掘作为一个强有力的数据分析工具,可以发现数据中潜在的模式和规律(如:决策树、聚类、关联规则、神经网络或其它方式表示的知识),在商务决策、生物医疗和科学研究等领域扮演着非常重要的角色,具有广泛的应用前景。然而,传统的数据挖掘技术直接在原始数据集上进行,会引起隐私数据的泄露。例如,疾病控制中心从各医疗机构收集病人的病例信息,以进行疾病的分析与控制。在这个过程中,传统数据挖掘技术不可避免地暴露敏感数据,如病人所患疾病,而这些敏感数据是数据所有者(医疗机构、病人)不希望被揭露的。企业间的数据共享能给企业带来巨大的利益,但每个企业数据集中都蕴涵着大量的敏感知识,它们的泄露,可能给商业上的竞争者带来可乘之机。通过数据挖掘可以预测未来趋势及行为,可以发现两个或多个事物之间存在某种关联关系,帮助决策者调整市场策略,减少风险,做出正确的决策,增加企业利润。然而考虑到隐私问题,人们往往不愿意将自己的信息提供给数据挖掘者或提供虚假的信息,企业也可能不愿意提供自己的真实信息给数据挖掘者以防止泄露企业内部机密或失去市场竞争力,从而可能挖掘出错误的知识,使得决策者做出错误的决策,不利于社会进步。而只有在隐私得到保护的情况,个人或企业才愿意提供相关的信息。因此,隐私保护技术的出现就是为了解决上述问题,如何在各种数据库应用中保护数据的隐私,成为近年来学术界的研究执占。分布式环境下的隐私保护关联规则挖掘需要保护的隐私内容有原始数据信息和各数据方的关联规则信息。目前已有的方法主要有:安全多方计算(SMC:SeCUreMult1-party Computation)和数据扰乱(data obscuration)。安全多方计算,采用基于比特的公钥加密技术来管理大量候选频繁项集,从中搜索出频繁项集,算法复杂度较高、效率太低、通信量太大;基于扰乱的隐私保护技术能够快速地实现数据扰乱和重构,但由于对单个属性进行干扰,破坏了属性之间的相关性,导致挖掘精度下降。

发明内容
针对现有技术中存在的问题和不足,本发明旨在提供一种分布式环境下隐私保护的关联规则挖掘方法,采用安全多方计算与随机干扰相结合的方法,即混合方法来实现对隐私信息的有效保护,并且扰乱方法采用的是对多个属性同时扰乱,能够有效保持属性之间的相关性,提高挖掘精度;安全多方计算只用来计算剪枝后的项集支持数,可以减少通信量和计算量,从而可以获取挖掘精度与挖掘效率之间较好的平衡。
本发明的上述目的通过独立权利要求的技术特征实现,从属权利要求以另选或有利的方式发展独立权利要求的技术特征。为达成上述目的,本发明提出一种分布式环境下隐私保护的关联规则挖掘方法,该分布式环境下有多个数据方S1,…,Sn参与全局关联规则挖掘,该多个数据方构成k-项集,其最小支持度为MST,最小置信度为MCT,每一数据方为一站点,其中数据方S1为主站点,S2,…,Sn为局部站点,该方法包括以下步骤:I)主站点S1根据k_项集,构造项集随机干扰矩阵匕并发送给各局部站点;2)各局部站点根据匕干扰其所有的记录,然后统计干扰后的数据库中的k_项集的支持数,并将它们构成支持数行矩阵发送给半诚信的第三方站点SP ;3)半诚信第三方站点SP对各局部站点发送过来的所有项集支持数矩阵进行求和,得到求和后的支持数矩阵MS’,并将其发送给主站点S1 ;4)主站点S1使用匕的逆矩阵Pf1来恢复MS’中各项集在原始数据中的支持计数MS,找出大于等于预定阈值(MST-w)的近似全局频繁项集,其恢复公式为:MS=MSj Pl-15)各站点根据安全多方计算方法,使用安全求和协议求出步骤4)得到的近似全局频繁项集的支持数;6)主站点S1根据步骤5计算得出近似全局频繁项集,使用关联规则挖掘算法Apriori迭代计算生成候选频繁(k+1)项集,直到全局频繁k_项集的数目等于零,生成全局频繁项集的支持数;7)主站点S1根据全局频繁项集的支`持数和MCT生成全局关联规则,并广播给各站点。进一步,前述的步骤I)中,其中项集随机干扰矩阵具有以下特性:其中
权利要求
1.一种分布式环境下隐私保护的关联规则挖掘方法,该分布式环境下有多个数据方S1,…,Sn参与全局关联规则挖掘,该多个数据方构成k-项集,其最小支持度为MST,最小置信度为MCT,每一数据方为一站点,其中数据方S1为主站点,S2,…,Sn为局部站点,其特征在于,该方法包括以下步骤: 1)主站点S1根据k-项集,构造项集随机干扰矩阵匕并发送给各局部站点; 2)各局部站点根据匕干扰其所有的记录,然后统计干扰后的数据库中的k-项集的支持数,并将它们构成支持数行矩阵发送给半诚信的第三方站点SP ; 3)半诚信第三方站点SP对各局部站点发送过来的所有项集支持数矩阵进行求和,得到求和后的支持数矩阵MS’,并将其发送给主站点S1 ; 4)主站点S1使用匕的逆矩阵Pf1来恢复MS’中各项集在原始数据中的支持计数MS,找出大于等于预定阈值(MST-w)的近似全局频繁项集,其恢复公式为:MS=MS, Pl-1 5)各站点根据安全多方计算方 法,使用安全求和协议求出步骤4)得到的近似全局频繁项集的支持数; 6)主站点S1根据步骤5计算得出近似全局频繁项集,使用关联规则挖掘算法Apriori迭代计算生成候选频繁(k+1)项集,直到全局频繁k-项集的数目等于零,生成全局频繁项集的支持数; 7)主站点S1根据全局频繁项集的支持数和MCT生成全局关联规则,并广播给各站点。
2.根据权利要求1所述的分布式环境下隐私保护的关联规则挖掘方法,其特征在于,前述的步骤I)中,其中项集随机干扰矩阵具有以下特性:
3.根据权利要求1所述的分布式环境下隐私保护的关联规则挖掘方法,其特征在于,在前述的步骤2)中,各局部站点利用匕对进行扰乱变换并统计干扰后的数据库中的k-项集的支持数的方法如下: ·2.1将支持数矩阵各元素初始化为0 · 2.2从数据库中读一条事务; · 2.3找出该事务中包含的所有候选频繁k-项集; ·2.4根据项集随机干扰矩阵匕,逐个随机干扰这些项集; · 2.5根据干扰后的项集,将支持数矩阵中相应项集支持数加I ; · 2.6重复上述步骤2.2-2.5,直到读完所有事务。
全文摘要
本发明提供一种分布式环境下隐私保护的关联规则挖掘方法,对多个数据方进行全局挖掘,包括构造项集随机干扰矩阵、对数据进行扰乱变换、统计扰乱后支持数矩阵之和、重构数据分布、精确计算剪枝后空间中的项集全局支持度等步骤。本发明的方法通过构造随机干扰矩阵对多个属性同时扰乱,扰乱过程中考虑属性之间相关性,从而有效地提高恢复精度;使用扰乱方法估算出项集的支持数后,根据最小支持度进行剪枝后再使用安全多方计算确定最终的全局频繁项集,从而有效减少了通信量,提高了挖掘效率,可以获取挖掘效率与挖掘精度之间较好的折衷,具有更广泛的应用范围。
文档编号G06F17/30GK103150515SQ201210589689
公开日2013年6月12日 申请日期2012年12月29日 优先权日2012年12月29日
发明者薛安荣, 刘峰 申请人:江苏大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1