一种用于隐私保护的数据挖掘装置

文档序号:32052078发布日期:2022-11-04 18:03阅读:69来源:国知局
一种用于隐私保护的数据挖掘装置

1.本发明涉及信息化数据安全领域,尤其涉及一种用于隐私保护的数据挖掘装置。


背景技术:

2.数据挖掘隐私保护(privacypreservingdatamining,简称ppdm)是关于隐私和安全研究的热点问题之一。数据挖掘的过程,就是自动发现高层次的数据或隐藏在其中的模式。在数据挖掘中,假设所有数据都是容易获取的,并且存储在一个中心位置,或通过集中的访问机制存储在联合数据库、虚拟数据仓库中。然而,这些数据有时候分布在众多的参与者中。出于隐私保护、法律要求和商业上的考虑,参与者们可能不会直接共享某些敏感数据。敏感数据通常涉及到个人的健康信息、金融方面的隐私等。参与者怎样在保护隐私的情况下进行数据挖掘成为一个巨大的挑战,因此发明一种用于隐私保护的数据挖掘装置很有必要。


技术实现要素:

3.(一)发明目的
4.有鉴于此,本发明的目的在于提出一种用于隐私保护的数据挖掘装置,以实现隐藏真实的个人数据信息,只呈现出数据的统计学特征,在不暴露隐私数据的情况下为全面的数据统计和分析提供基础。
5.(二)技术方案
6.为达到上述技术目的,本发明提供了一种用于隐私保护的数据挖掘装置:
7.其包括数据处理中心,所述数据处理中心包括数据挖掘模块和隐私保护模块,所述数据处理中心连接端设有输入端,所述数据处理中心输出端设有可视端,所述数据处理中心通过线缆连接有数据库,所述隐私保护模块包括集中式数据保护模块和分布式数据保护模块,所述数据挖掘模块包括效果评估模块。
8.优选的,所述数据处理中心还包括数据处理装置和数据传输装置,所述数据传输装置用于输送和接收数据信号。
9.具体的数据处理装置可以对用户数据信息进行接收,处理完成后再将数据进行传输。
10.优选的,所述隐私保护模块用于对数据进行识别和变换,隐藏真实的个人数据信息,只呈现出数据的统计学特征。
11.具体的隐私保护模块通过分布式数据保护模块和集中式数据保护模块对用户隐私数据进行保护。
12.优选的,所述隐私保护模块还包括数据挖掘模型模块,所述数据挖掘模型模块用于对数据集进行随机化、重构数据集的分布和建立决策树。
13.具体的将噪声分布添加到数据之中,对数据集进行随机化,从而重构数据集的分布,与直接在随机化数据上进行挖掘相比,这种方法可以建立一个更精确的决策树,并且能
够更接近在真实数据上建立的决策树。
14.优选的,所述集中式数据包括模块包括源数据保护模块和规则隐藏模块,所述源数据保护模块包括基于数据扰乱以及分布重构关联规则算法,所述规则隐藏模块包括数据代替算法和删除项和增加项算法。
15.具体的数据替代法以随机数据代替原始数据,以达到降低隐藏规则中项目支持度与可信度的目的,对数据挖掘后所残留的非敏感性规则还具有较小的影响,进而从整体上提高所挖掘的数据的质量;删除项与增加项的结合将删除项和增加项进行随机结合,从而使原有规则的支持度发生变更,所产出的规则相异度与规则丢失率能够得到有效降低,从而达到对目标数据进行保护的目的。
16.优选的,所述分布式数据保护模块包括用于在同一时间内以不同站点的数据为依据,对所有项集的计数进行计算。
17.具体的分布式环境中,用户隐私关联规则挖掘的关键在于对全局频繁项集进行计算,同时,加强对加密技术的应用,以确保相关隐私信息不会外泄,分布式数据关联规则的隐私保护方法主要包括了安全交集大小运算、安全求并集运算以及安全与运算等算法。
18.优选的,所述效果评估模块包括多种评估指标,所述评估指标包括隐私性指标、有效性指标和复杂性指标。
19.具体的效果评估模块的多种评估指标用于判断是否有不符合标准的隐私数据,能够确保挖掘的数据保证个人隐私。
20.优选的,所述数据处理中心连接端和输出端分别设有输入端和可视端。
21.具体的输入端用于输入挖掘数据信息或源数据,可视端用于展示处理挖掘后的数据。
22.从以上技术方案可以看出,本技术具有以下有益效果:
23.1:通过设有隐私保护模块和数据挖掘模块,隐私保护模块通过分布式数据保护模块和集中式数据保护模块对用户隐私数据进行保护,隐藏真实的个人数据信息,只呈现出数据的统计学特征,数据挖掘模型模块用于对数据集进行随机化、重构数据集的分布和建立决策树,将噪声分布添加到数据之中,对数据集进行随机化,从而重构数据集的分布,与直接在随机化数据上进行挖掘相比,这种方法可以建立一个更精确的决策树,并且能够更接近在真实数据上建立的决策树,能够对用户的隐私数据进行全面的保护,同时还能够在不暴露隐私数据的情况下为全面的数据统计和分析提供基础。
24.2:通过设有数据挖掘模块,根据隐私保护模块建立的模型对数据进行分析和处理,进行全面的数据挖掘,并在挖掘前将原始数据中的敏感部分进行数据清洗随后进行数据转换和加密,再通过合适的算法进行数据挖掘,并且在进行数据挖掘时由效果评估模块对模型数据进行评估和判断,判断是否有不符合标准的隐私数据,能够确保挖掘的数据保证个人隐私,能够进行较为全面的数据处理和挖掘。
附图说明
25.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
提供的附图获得其他的附图。
26.图1为本发明提供的一种用于隐私保护的数据挖掘装置的原理图。
27.图2为本发明提供的一种用于隐私保护的数据挖掘装置的隐私保护模块原理图。
28.图3为本发明提供的一种用于隐私保护的数据挖掘装置的数据挖掘模块流程图。
29.图4为本发明提供的一种用于隐私保护的数据挖掘装置的效果评估模块分布图。
具体实施方式
30.下文的描述本质上仅是示例性的而并非意图限制本公开、应用及用途。应当理解,在所有这些附图中,相同或相似的附图标记指示相同的或相似的零件及特征。各个附图仅示意性地表示了本公开的实施方式的构思和原理,并不一定示出了本公开各个实施方式的具体尺寸及其比例。在特定的附图中的特定部分可能采用夸张的方式来图示本公开的实施方式的相关细节或结构。
31.参照图1-4:
32.实施例一
33.一种用于隐私保护的数据挖掘装置,包括数据处理中心,数据处理中心包括数据挖掘模块和隐私保护模块,数据处理中心连接端设有输入端,数据处理中心输出端设有可视端,数据处理中心通过线缆连接有数据库,隐私保护模块包括集中式数据保护模块和分布式数据保护模块,数据挖掘模块包括效果评估模块。
34.本实施方式中数据处理中心还包括数据处理装置和数据传输装置,数据传输装置用于输送和接收数据信号。具体为数据处理装置可以对用户数据信息进行接收,需要说明的是处理完成后再将数据进行传输。
35.本实施方式中隐私保护模块用于对数据进行识别和变换,隐藏真实的个人数据信息,只呈现出数据的统计学特征。具体为隐私保护模块通过分布式数据保护模块和集中式数据保护模块对用户隐私数据进行保护,需要说明的是最大程度的保护用户的隐私。
36.本实施方式中隐私保护模块还包括数据挖掘模型模块,数据挖掘模型模块用于对数据集进行随机化、重构数据集的分布和建立决策树。具体为将噪声分布添加到数据之中,对数据集进行随机化,从而重构数据集的分布,与直接在随机化数据上进行挖掘相比可以建立一个更精确的决策树。需要说明的是能够更接近在真实数据上建立的决策树。
37.本实施方式中数据处理中心连接端和输出端分别设有输入端和可视端。具体为输入端用于输入挖掘信息或源数据。需要说明的是可视端用于展示处理挖掘后的数据。
38.本实施例具体实施方式:
39.通过设有隐私保护模块和数据挖掘模块,隐私保护模块通过分布式数据保护模块和集中式数据保护模块对用户隐私数据进行保护,隐藏真实的个人数据信息,只呈现出数据的统计学特征,数据挖掘模型模块用于对数据集进行随机化、重构数据集的分布和建立决策树,将噪声分布添加到数据之中,对数据集进行随机化,从而重构数据集的分布,与直接在随机化数据上进行挖掘相比,这种方法可以建立一个更精确的决策树,并且能够更接近在真实数据上建立的决策树,能够对用户的隐私数据进行全面的保护,同时还能够在不暴露隐私数据的情况下为全面的数据统计和分析提供基。
40.实施例二
41.一种用于隐私保护的数据挖掘装置,其在实施例一的基础上:
42.集中式数据包括模块包括源数据保护模块和规则隐藏模块,源数据保护模块包括基于数据扰乱以及分布重构关联规则算法,规则隐藏模块包括数据代替算法和删除项和增加项算法。
43.分布式数据保护模块包括用于在同一时间内以不同站点的数据为依据,对所有项集的计数进行计算。
44.本实施例具体实施方式:
45.数据替代法以随机数据代替原始数据,以达到降低隐藏规则中项目支持度与可信度的目的,对数据挖掘后所残留的非敏感性规则还具有较小的影响,进而从整体上提高所挖掘的数据的质量;删除项与增加项的结合将删除项和增加项进行随机结合,从而使原有规则的支持度发生变更,所产出的规则相异度与规则丢失率能够得到有效降低,从而达到对目标数据进行保护的目的,分布式环境中,用户隐私关联规则挖掘的关键在于对全局频繁项集进行计算,同时,加强对加密技术的应用,以确保相关隐私信息不会外泄,分布式数据关联规则的隐私保护方法主要包括了安全交集大小运算、安全求并集运算以及安全与运算等算法。
46.实施例三
47.一种用于隐私保护的数据挖掘装置,其在实施例一和实施例二的基础上,参照说明书附图图3和图4:
48.数据处理中心包括数据挖掘模块和隐私保护模块,数据挖掘模块包括效果评估模块,效果评估模块包括多种评估指标,评估指标包括隐私性指标、有效性指标和复杂性指标。
49.本实施例具体实施方式:
50.根据隐私保护模块建立的模型对数据进行分析和处理,进行全面的数据挖掘,并在挖掘前将原始数据中的敏感部分进行数据清洗随后进行数据转换和加密,再通过合适的算法进行数据挖掘,并且在进行数据挖掘时由效果评估模块对模型数据进行评估和判断,判断是否有不符合标准的隐私数据,能够确保挖掘的数据保证个人隐私,能够进行较为全面的数据处理和挖掘。
51.上文中参照优选的实施例详细描述了本公开所提出的方案的示范性实施方式,然而本领域技术人员可理解的是,在不背离本公开理念的前提下,可以对上述具体实施例做出多种变型和改型,且可以对本公开提出的各种技术特征、结构进行多种组合,而不超出本公开的保护范围,本公开的保护范围由所附的权利要求确定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1