一种处理大数据的方法和装置的制造方法

文档序号：10624930阅读：187来源：国知局

一种处理大数据的方法和装置的制造方法
【专利摘要】本发明实施例提供一种处理大数据的方法和装置。该方法包括：接收客户端发送的查询指令，并根据所述查询指令确定查询函数K；根据所述查询函数K对大数据集D进行查询得到查询结果R，查询结果R＝{Rj}，其中1≤j≤m，m是大于或等于1的正整数；获取查询函数K的敏感度S(K)，所述敏感度S(K)表征所述查询函数K的敏感性；根据查询结果R与敏感度S(K)确定需要给查询结果R加入的噪声N，噪声N＝{Nj}，噪声N的噪声分量Nj与查询结果分量Rj一一对应；根据噪声分量Nj对查询结果分量Rj进行加噪处理，得到加噪的查询结果R’＝{R’j}。本发明实施例提出了一种能够对大数据进行加噪处理的方法，能够输出具有微分隐私的数据查询结果。
【专利说明】
-种处理大数据的方法和装置
技术领域
[0001] 本发明设及数据处理领域，并且更具体地，设及处理大数据的方法和装置。
【背景技术】
[0002] 隐私保护数据挖掘的目的是为了保护个人隐私数据，同时能够促进用户之间的数据共享。微分隐私是一个用来描述和分析数据发布方法的严格理论模型，其目的是提供有效的方法从统计数据库中最大化统计查询信息的准确性，同时最小化识别个体记录的机会。
[0003] 目前可行的具有微分隐私的数据处理过程只能应用于小规模数据，但是对于大数据来说，其查询结果矢量的每一个分量都具有独立的坐标，而运每个独立的坐标是一个呈指数级规模分布的随机变量，因此尚无可W在大规模数据上可W实施微分隐私的有效办法。

【发明内容】

[0004] 本发明实施例提供一种处理大数据的方法和装置，能够在大规模数据上实现具有微分隐私查询的目的。阳〇化]第一方面，本发明实施例提供了一种处理大数据的方法，包括：接收客户端发送的查询指令，并根据所述查询指令确定查询函数K ;根据所述查询函数K对大数据集D进行查询得到查询结果R，所述查询结果R =出，}，其中1《j《m，m是大于或等于1的正整数；获取所述查询函数K的敏感度S化)，所述敏感度S (K)表征所述查询函数K的敏感性；根据所述查询结果R与所述敏感度S (K)确定需要给查询结果R加入的噪声N，所述噪声N = {Nj}，所述噪声N的噪声分量N,与查询结果分量R ,-一对应；根据所述噪声分量N ,对所述查询结果分量R，进行加噪处理，得到加噪的查询结果R'=出'，}。
[0006] 结合第一方面，在第一方面的第一种可能的实现方式中，所述获取所述查询函数 Κ(χ)的敏感度S(K)包括：获取数据集D1的查询结果K值1)与数据集D2的查询结果K值2); 将所述查询结果K值1)与所述查询结果K值2)在一个度量空间内差值的最小值作为所述敏感度S (K)的值，其中，所述数据集D1和所述数据集D2是所述大数据集D的两个不同子集，所述数据集D1和所述数据集D2之间至多相差一个记录数据。
[0007] 结合第一方面或第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述根据所述查询结果R与所述敏感度S(K)确定噪声N包括：根据所述查询结果R生成满足拉普拉斯噪声分布的噪声Ν'，其中所述噪声Ν'中各个噪声分量相互独立；根据所述敏感度S(K)校正所述噪声Ν'后得到所述噪声Ν，其中所述噪声分量Ν,满足所述敏感度S(K)的拉普拉斯噪声分布。
[0008] 结合第一方面或第一方面的第一至第二种可能的实现方法，在第一方面的第Ξ种可能的实现方式中，所述查询函数K为哈希函数F，所述方法包括：根据所述大数据集D的训练集，训练得到所述哈希函数F ;其中，所述训练集为所述大数据集D的一个子集，所述训练集还包括属性集X和分类标签Υ，所述属性集X是所述训练集中表征元素属性的数据的集合，所述分类标签Υ是所述训练集中表征元素分类结果的数据的集合。
[0009] 第二方面，本发明实施例提供了一种用于处理大数据的装置，包括：接收模块，所述接收模块用于接收客户端发送的查询指令，并根据所述查询指令确定查询函数Κ ;第一确定模块，所述第一确定模块用于根据所述查询函数Κ对大数据集D进行查询得到查询结果R，所述查询结果R =化}，其中1《j《m，m是大于或等于1的正整数；获取模块，所述获取模块用于获取所述第一确定模块确定的所述查询函数K的敏感度S化)，所述敏感度 S(K)表征所述查询函数K的敏感性；第二确定模块，所述第二确定模块用于根据所述查询结果R和根据所述获取模块得到的所述敏感度S (K)确定需要给查询结果R加入的噪声N，所述噪声N = {Nj}，所述噪声N的噪声分量Nj与查询结果分量R i-一对应；加噪模块，所述加噪模块用于根据所述第二确定模块确定的噪声N，对所述查询结果分量R,进行加噪，得到加噪的查询结果R'=出'j}。
[0010] 结合第二方面，在第二方面的第一种可能的实现方式中，所述获取模块具体用于：获取数据集D1的查询结果K值1)与数据集D2的查询结果K值2);将所述查询结果K值1)与所述查询结果K值2)差值的范数最小值设置为所述敏感度S(K)的值，其中所述数据集D1 和所述数据集D2是所述大数据集D的两个不同子集，所述数据集D1和所述数据集D2之间至多相差一个记录数据。
[0011] ，其中，结合第二方面或第二方面的第一至可能的实现方式，在第二方面的第二种可能的实现方式中，所述第二确定模块具体用于：根据所述查询结果R生成满足拉普拉斯噪声分布的噪声N'，其中所述噪声Ν'中各个噪声分量相互独立；根据所述敏感度S(K)校正所述噪声Ν'后得到所述噪声N，其中所述噪声N的噪声分量N,满足所述敏感度S(K)的拉普拉斯噪声分布。
[0012] 结合第二方面或第二方面的第一至第二种可能的实现方式，在第二方面的第Ξ种可能的实现方式中，所述查询函数K为哈希函数F，所述第一确定模块还用于：根据所述大数据集D的训练集，训练得到所述哈希函数F ;其中，所述训练集为所述大数据集D的一个子集，所述训练集包括属性集X和分类标签Y，所述属性集X是所述训练集中表征元素属性的数据的集合，所述分类标签Y是所述训练集中表征元素分类结果的数据的集合。
[0013] 本发明实施例通过确定大数据集的查询函数的敏感度，基于该敏感度确定需要给查询结果加入的噪声并将该噪声加入查询结果，从而能够对原始大数据集的查询结果进行具有微分隐私的加噪处理，最终得到具有微分隐私的查询结果。因此，本发明实施能够对规模化的大数据进行加噪处理，最大可能的避免敏感数据的泄露，实现微分隐私查询的目的。
【附图说明】
[0014] 为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可W根据运些附图获得其他的附图。
[0015] 图1是可应用本发明实施例的系统场景实例的示意图。
[0016] 图2是本发明实施例的一种处理大数据的方法的流程图。
[0017] 图3是本发明另一实施例的一种处理大数据的方法的流程图。
[001引图4是本发明另一实施例的一种处理大数据的方法的流程图。
[0019] 图5是本发明实施例的一种处理大数据的装置的示意性框图。
[0020] 图6是本发明另一实施例的一种处理大数据的装置的示意性框图。
【具体实施方式】
[0021] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。
[0022] 图1是可应用本发明实施例的系统场景实例的示意图。
[0023] 在没有进行具有微分隐私的噪声处理时，客户端用户直接向具有原始敏感数据的数据库提出精确查询请求1，如图中虚线箭头1所示，数据库将精确查询结果2返回客户端，如图中虚线箭头2所示，运样就很容易将原始敏感数据的个体隐私数据在客户端泄露。
[0024] 通过加入查询机制，客户端用户可W通过查询机制向具有原始敏感数据的数据库提出统计查询请求3,如图中实线箭头3所示，数据库可W将统计查询结果4经过查询机制返回客户端，在返回客户端之前，该统计查询结果经过敏感度噪声处理，得到加噪后的统计查询结果5返回客户端，如图中实线箭头5所示，从而使得查询结果具有隐私保护而最大可能的避免将个体数据隐私泄露。
[00巧]图2是本发明实施例的一种处理大数据的方法的流程图。如图2所示，该方法包括：
[00%] 步骤210,接收客户端发送的查询指令，并根据所述查询指令确定查询函数K。
[0027] 步骤220,根据查询函数K对大数据集D进行查询得到查询结果R，所述查询结果 R =化}，其中1《j《m，m是大于或等于1的正整数。
[0028] 步骤230,获取查询函数K的敏感度S化)，该敏感度S (K)表征所述查询函数K的敏感性。
[0029] 步骤240,根据查询结果R与敏感度S (K)确定需要给查询结果R加入的噪声N，噪声N =化}，噪声N的噪声分量Nj与查询结果分量R j--对应。
[0030] 步骤250,根据噪声分量N,对查询结果分量R ,进行加噪处理，得到加噪的查询结果 R'=出'，}。
[0031] 本发明实施例通过确定大数据集的查询函数的敏感度，基于该敏感度确定噪声，能够对原始大数据集的查询结果进行具有微分隐私的加噪处理，最终得到具有微分隐私的查询结果。因此，本发明实施能够对规模化的大数据进行加噪处理，最大可能的避免敏感数据的泄露，实现微分隐私查询的目的。
[0032] 具体地，在步骤210中，接收客户端发送的查询指令后，通过获取客户端对相关用户数据集的据和信息查询要求，选取具体的统计查询函数K，例如该统计查询函数可W是求和（sum)或求平均值（average)等的函数，也可W是基于分类查询结果训练得到的哈希函数，其中，查询结果R是根据查询函数K在大数据集D通过统计查询得到的。阳03引具体地，在步骤230中，获取查询函数K的敏感度S似，该敏感度S似表征所述查询函数κ的敏感性（sensitive)，对于任意一个函数F的敏感度S (巧的定义为：满足条件 |F值i)-F值2) I S(F)的最小值，其中数据集D1和D2最多相差一个记录数据，Μ表示一个度量空间，应理解数据集D1和D2相差一个记录数据的含义是在D1和D2数据元素数目相同的情况下，某一个元素的数值或数值类型不同。可选地，作为本发明一个实施例，在步骤220中，获取查询函数Κ的敏感度S (Κ)包括：计算数据集D1的查询结果Κ值1)与数据集 D2的查询结果K(D2);将查询结果Κ值1)与查询结果Κ值2)在一个度量空间内差值的最小值作为所述敏感度S (K)的值，其中数据集D1和数据集D2之间至多相差一个记录数据，数据集D1和数据集D2是所述大数据集D的两个不同子集，应注意，运里查询结果K值1)与查询结果K值2)在一个度量空间内差值指的是查询结果K值1)与查询结果K值2)差值的绝对值。
[0034] 具体地，获取查询函数K的敏感度S (K)包括根据下式计算所述敏感度S (K) :S化） = min| |Κ值1) -K值2) Mm，其中，数据集D1和数据集D2最多相差一个记录数据，Μ表示一个度量空间。
[0035] 可选地，作为本发明一个实施例，所述根据所述查询结果R与所述敏感度S(K)确定噪声N包括：根据查询结果生成满足拉普拉斯噪声分布的噪声Ν'，其中噪声Ν'中各个噪声分量相互独立；根据敏感度S (Κ)校正噪声Ν'后得到噪声Ν，其中噪声分量Nj满足敏感度 S(K)的拉普拉斯噪声分布。
[0036] 具体地，在步骤230中，根据拉普拉斯微分隐私定理，选择加噪机制，生成噪声Ν' =阳' 1，…，Ν' i，…，Ν' m]，其中噪声Ν'的各个噪声分量相互独立，根据Κ的敏感度S化）对该噪声进行校准，得到校准后噪声Ν=[Νι，一,Ν,，一,Ν。]，其中校准后的噪声Ν中的各个噪声分量相互独立的。
[0037] 具体地，根据噪声Ν,对查询结果R ,进行加噪处理，得到具有微分隐私的查询结果 R'，是指将校准后噪声加入到统计查询结果，输出具有隐私保护的查询结果R'= [R' 1，…， =R= [Ri，-,Rj + [Ni，-,Ν；, -,Nj0
[0038] 可选地，作为本发明一个实施例，根据客户端对大数据集D的查询需求，确定查询结果R的查询函数K为哈希函数F，查询结果R的查询结果分量为Rj，其中1《j《m，m是大于等于1的正整数。
[0039] 可选地，作为本发明一个实施例，根据客户端对大数据集D的查询需求，确定查询结果R的查询函数K为哈希函数F包括：根据大数据集D的训练集，训练得到哈希函数F，并生成哈希函数F的第一哈希分类表T ;其中，训练集包括属性集X和分类标签Y，所述属性集X是所述训练集中表征元素属性的数据的集合，所述分类标签Y是所述训练集中表征元素分类结果的数据的集合。
[0040] 可选地，作为本发明一个实施例，根据噪声N,对查询结果分量R,进行加噪处理，得到具有微分隐私的查询结果R'包括：根据噪声N,对哈希函数F (X)的第一哈希分类表T进行加噪处理，得到查询结果R'具有微分隐私的第二哈希分类表Τ'。
[0041] 本发明实施例通过确定大数据集的查询函数的敏感度，基于该敏感度确定需要给查询结果加入的噪声并将该噪声加入查询结果，从而能够对原始大数据集的查询结果进行具有微分隐私的加噪处理，最终得到具有微分隐私的查询结果。因此，本发明实施能够对规模化的大数据进行加噪处理，最大可能的避免敏感数据的泄露，实现微分隐私查询的目的。
[0042] 图3是本发明实施例的一种处理大数据的方法的流程图。如图3所示，该方法包括：
[0043] 步骤310,接收客户端发送的查询指令，并根据所述查询指令确定查询函数F，该查询函数F为哈希函数。
[0044] 步骤320,根据查询函数F对大数据集D进行查询得到查询结果R，所述查询结果 R =化}，其中1《j《m，m是大于或等于1的正整数。
[0045] 步骤330,获取查询函数F的敏感度S化)，该敏感度S (K)表征所述查询函数F的敏感性。
[0046] 步骤340,根据查询结果R与敏感度S (K)确定需要给查询结果R加入的噪声N，噪声N =化}，噪声N的噪声分量Nj与查询结果分量R j--对应。
[0047] 步骤350,根据噪声分量N,对查询结果分量R ,进行加噪处理，得到加噪的查询结果 R'=出'，}。
[0048] 本发明实施例通过确定大数据集的查询函数的敏感度，基于该敏感度确定需要给查询结果加入的噪声声并将该噪声加入查询结果，从而能够对原始大数据集的查询结果进行具有微分隐私的加噪处理，最终得到具有微分隐私的查询结果。因此，本发明实施能够对规模化的大数据进行加噪处理，最大可能的避免敏感数据的泄露，实现微分隐私查询的目的。
[0049] 应理解，在步骤110,上述大数据集R的查询需求是指，例如可W是对R的某一子集中的某个属性进行求和，获得的统计查询函数，其中1《j《m，m是大于等于1的正整数，可 W根据对大数据集R查询的需求，通过构造微分隐私随机决策哈希（英文differentially Private Random Decision Hashing,简写：DP畑Η)，训练构造哈希函数 F。
[0050] 可选地，作为本发明一个实施例，根据大数据集R获取大数据集R的哈希函数F包括：根据大数据集D的训练集，构造具有微分隐私的随机决策哈希，W训练得到哈希函数F，并生成哈希函数F的第一哈希分类表Τ ;其中，训练集包括属性集X和分类标签Υ，，所述属性集X是所述训练集中表征元素属性的数据的集合，所述分类标签Υ是所述训练集中表征元素分类结果的数据的集合。应理解，根据对大数据集D查询的需求，能够训练得到获得m 个哈希分类表，该m个哈希分类表都为第一哈希分类表T，应理解，第一哈希分类表T是通过大数据集D的训练集训练得到的包含至少一个哈希分类表的一类哈希分类表。
[0051] 具体地，构造具有微分隐私的随机决策哈希过程如下：输入训练集{属性集X，分类标签刊，第一哈希分类表中包含m个初始哈希分类表和L个类，其中，属性集X可W为数值型（numerical),类别型（categorical)和二进制型化inary)，而分类标签Y是根据属性集X分类后得到的标签符号，在分类标签Y下对应L个类，L是大于等于1的正整数；输出 m个哈希分类表，运m个哈希分类表集合为Τ=[Τι，···，！；,，···，！"]，即得到第一哈希分类表Τ，对于其中任意一个子表Tj=比kkeyl, bkkey2,......，bkkeyL]。
[0052] 具体地，根据上述输入和输出的参数，构造具有微分隐私的随机决策哈希如下流程：
[0053] 1.随机生成m个蒙版矢量（maskvector)，其中任意一个蒙版矢量为maskvectorj;
[0054] 2.对输入的训练集中属性集X统一进行编码为二进制型，得到m个二进制型甜inary，其中任意一个二进制型编码为甜inaryj; 阳化5] 3.构造具有微分隐私的随机哈希的训练过程如下：
[0056] For i = 1 ;i《|X| ;++i do
[0057] For j = 1，j《m ;++j do
[0058] 计算键值，key = maskvectorjAnd甜inaryj;
[0059] 分配键值到哈希分类表，bkkey= T i比ey]; W60] 调整哈希分类表中的键值bkk。,w+ = 1 ;
[0061] End
[0062] 化 d
[0063] 应理解，对应于步骤3中的外层循环来说，是指对属性集X中每一个元素都进行一遍内层的循环，W将它们对应的键值分配到m个哈希分类表中；而对应于内层循环，则是按照蒙版矢量逻辑与二进制型编码的结果作为键值，将每个键值分配到任意一个哈希分类表 T，，循环m次W得到m个哈希分类表Τ=[Τι，…，T,，…，山。 W64] 4.经过步骤3,可W得到m个哈希分类表，Τ = [Ti，…，^，···，!"]，其中任意一个子表Tj=比kkeyl，bkkey2,......，bkkeyj对应于表1，该表的每一个列矢量Y = [Ylbi，…，Yibl，… ，YlJ称作一个蒙版矢量。
[00化]表1
[0066]
[0067] 可选地，作为本发明一个实施例，计算查询函数F(x)的敏感度S(巧包括：计算数据集D1的查询结果K值1)与数据集D2的查询结果K值2);将查询结果K值1)与查询结果 K值2)在一个度量空间内差值的最小值作为所述敏感度S(K)的值，其中数据集D1和数据集D2之间至多相差一个记录数据，数据集D1和数据集D2是所述大数据集D的两个不同子集。
[0068] 可选地，作为本发明一个实施例，上述哈希函数F(x)的敏感度S(巧由下式计算得到：S (巧=min||F值1) -F化）IL其中，数据集D1和D2最多相差一个记录数据，Μ表示一个度量空间。
[0069] 可选地，所述根据查询结果R与敏感度S (Κ)确定噪声Ν包括：根据查询结果生成满足拉普拉斯噪声分布的噪声Ν'，其中噪声Ν'中各个噪声分量相互独立；根据敏感度S (Κ) 校正噪声Ν'后得到噪声Ν，其中噪声分量Nj满足敏感度S (Κ)的拉普拉斯噪声分布，即噪声分量N,满足Lap (S (F) / ε )，W使得加入噪声后的查询结果R'具有ε -微分隐私。
[0070] 可选地，作为本发明一个实施例，根据客户端对大数据集D的查询需求，确定查询结果R的查询函数Κ (X)为哈希函数F (X)包括：根据大数据集D的训练集，训练得到所述哈希函数F (X)，并生成哈希函数F (X)的第一哈希分类表Τ ;其中，训练集包括大数据集D的属性集X和分类标签Υ。
[0071] 可选地，作为本发明一个实施例，根据噪声Ν,对所述查询结果分量R ,进行加噪处理，得到具有微分隐私的查询结果R'包括：
[0072] 根据噪声Ν,对哈希函数F(x)的第一哈希分类表Τ进行加噪处理，得到与具有微分隐私的查询结果R'对应的第二哈希分类表Τ'。
[0073] 可选地，作为本发明一个实施例，通过构造微分隐私随机决策哈希分类器（英文： Differentially Private Random Decision Hashing Classifier，简写：DPRDHC)可从预测输出具有微分隐私的查询结果R'。
[0074] 具体地，构造微分隐私随机哈希分类器，W预测输出查询结果R'的如下流程：
[00巧]1.输入m个第二哈希分类表集合，Τ' = [Τ' 1，…Τ'，，…Τ' m] W及被分类的标识列X';
[0076] 2.初始化分类标签矢量（1油el vectors)，分类统计（1油el count和1油el average)；阳077] 3.编码被分类的列X' ；
[0078] 4.构造具有微分隐私的随机哈希分类器的预测过程如下：
[00巧]For j = 1 ; j《m ;++j do
[0080] 计算键值，k巧二 maskvectorjAndXbinaryj;
[0081] 分配键值到哈希分类表，bkkey= T，比ey];
[0082] 调整哈希分类表中的键值1油el count+= bkkey;
[0083] 化 d
[0084] 5.计算m个第二类哈希分类表中的分类标签的算数平均值，1油el avg = 1油el count/m ；
[00财 6.在m个1油el中取最大值作为分类标签值，Υ' = argmax (1油el avg);
[0086] 7.输出分类标签值r。
[0087] 本发明实施例通过确定大数据集的查询函数的敏感度，基于该敏感度确定需要给查询结果加入的噪声声并将该噪声加入查询结果，从而能够对原始大数据集的查询结果进行具有微分隐私的加噪处理，最终得到具有微分隐私的查询结果。因此，本发明实施能够对规模化的大数据进行加噪处理，最大可能的避免敏感数据的泄露，实现微分隐私查询的目的。
[0088] 下面结合具体步骤，更详细的描述本发明实施例。
[0089] 图4是本发明另一实施例的一种处理大数据的方法的流程图。如图4所示，该方法400 W下步骤：
[0090] 步骤401，获得统计查询函数F。
[0091] 步骤402,生成相互独立的噪声Ν' =阳' 1，...，Ν' i，...，Ν'm]。
[0092] 步骤403,计算噪声Ν'的标准偏差D =巧1，···，0;，···，0"]。
[0093] 步骤404,计算统计查询函数的敏感度S (F)。
[0094] 步骤405,通过校准噪声Ν'的标准偏差D，得到校准后的噪声N =的，…，Nj，…， Njo
[0095] 步骤406,获得统计查询结果R =化，…，Rj，…，Rm]。
[0096] 步骤407,校准后的噪声N加入到统计查询结果，输出隐私保护的查询结果R'=
[R\, =R= [Ri，-,Rj + [Ni，-,Ν；, -,Nj0
[0097] 本发明实施例通过确定大数据集的查询函数的敏感度，基于该敏感度确定需要给查询结果加入的噪声声并将该噪声加入查询结果，从而能够对原始大数据集的查询结果进行具有微分隐私的加噪处理，最终得到具有微分隐私的查询结果。因此，本发明实施能够对规模化的大数据进行加噪处理，最大可能的避免敏感数据的泄露，实现微分隐私查询的目的。
[0098] 可选地，在步骤401中，根据客户端相关用户数据集的聚合信息查询要求，选取具体的统计查询函数F，例如求和或求平均值函数等，也可W是基于分类查询结果训练得到的哈希函数。
[0099] 可选地，在步骤402中，根据统计查询函数F的查询结果，可W选的合适的噪声机制W生成相互独立的噪声Ν'=阳' 1，…，Ν',，…，Ν' m]，该噪声Ν'中的每一个分量都是相互独立的，例如Ν'可W为满足拉普拉斯噪声分布，那么其中Ν'的每一个分量都是相互独立且满足拉普拉斯噪声分布的。应理解，选取合适的噪声机制是指根据拉普拉斯微分隐私定理，选择加噪机制。
[0100] 可选地，在步骤403中，分别计算噪声Ν'中每个独立分量的标准偏差得到标准偏差 D =扣1，···，0,，···，0"]。阳101] 可选地，在步骤404中，计算数据集D1的查询结果F值1)与数据集D2的查询结果 F值2);取查询结果F值1)与查询结果F值2)在一个度量空间内差值的最小值作为所述敏感度S (Κ)的值，其中所述数据集D1和所述数据集D2之间至多相差一个记录数据。具体地，计算统计查询函数F的敏感度S(巧包括根据下式计算所述敏感度S(F) :S(巧=min||F值1)- F值2) II Μ，其中，数据集D1和数据集D2最多相差一个记录数据，Μ表示一个度量空间，数据集D1和数据集D2是大数据集D的两个不同子集。
[0102] 可选地，在步骤405中，通过校准噪声Ν'的标准偏差D，得到校准后的噪声Ν = 阳1，一,Ν,，一,Ν。]，使得校准后的噪声Ν中的每一个分量Nj满足Lap(S(F)/ ε )，W便于输出具有ε-微分隐私的查询结果，其中ε值域在[0，1]之间，该ε可W由用户指定。
[0103] 可选地，在步骤406中，根据统计查询函数F获得统计查询结果R = [Ri，…，Rj，…， Rm]，应理解，该步骤也可W在生成噪声Ν'之前得到，本发明不限于此。
[0104] 可选地，在步骤407中，将校准后的噪声Ν加入到统计查询结果，输出隐私保护的查询结果 R，= [R，i，…，尺，；，…，馬，+的，…，N.i，...'Νη]，由于噪声Ν中的每一项分量是根据统计函数敏感度S(巧校准后得到的且满足Lap(S(F)/ 0分布，因此，输出的查询结果R'具有ε-微分隐私。阳105] 本发明实施例通过确定大数据集的查询函数的敏感度，基于该敏感度确定需要给查询结果加入的噪声声并将该噪声加入查询结果，从而能够对原始大数据集的查询结果进行具有微分隐私的加噪处理，最终得到具有微分隐私的查询结果。因此，本发明实施能够对规模化的大数据进行加噪处理，最大可能的避免敏感数据的泄露，实现微分隐私查询的目的。阳106] 图1至图4是从方法角度详细描述了处理大数据的具体过程，下面结合图5至图 6从详细描述用于处理大数据的装置。
[0107] 图5是本发明实施例的一种处理大数据的装置的示意性框图。如图5所示，装置 500包括：接收模块510、第一确定模块520、计算模块530、第二确定模块540和加噪模块 550。阳10引接收模块510,用于接收客户端发送的查询指令，并根据所述查询指令确定查询函数K。
[0109] 第一确定模块520,第一确定模块用于根据查询函数K对大数据集D进行查询得到查询结果R，查询结果R =化}，其中1《j《m，m是大于或等于1的正整数。
[0110] 获取模块530,获取模块用于获取第一确定模块确定的查询函数K的敏感度S化)，该敏感度S (K)表征所述查询函数K的敏感性。阳111] 第二确定模块540,第二确定模块用于根据查询结果R和根据获取模块得到的敏感度S (K)确定需要给查询结果R加入的噪声N，噪声N =化}，噪声N的噪声分量Nj与查询结果分量R，一一对应。
[0112] 加噪模块550,加噪模块用于根据第二确定模块确定的噪声N,对查询结果分量R , 进行加噪，得到加噪的查询结果R'=出'，}。
[0113] 本发明实施例通过确定大数据集的查询函数的敏感度，基于该敏感度确定需要给查询结果加入的噪声声并将该噪声加入查询结果，从而能够对原始大数据集的查询结果进行具有微分隐私的加噪处理，最终得到具有微分隐私的查询结果。因此，本发明实施能够对规模化的大数据进行加噪处理，最大可能的避免敏感数据的泄露，实现微分隐私查询的目的。
[0114] 具体地，接收模块510通过获取客户端对相关用户数据集的据和信息查询要求，选取具体的统计查询函数K，例如该统计查询函数可W是求和（sum)或求平均值（average) 等的函数，也可W是基于分类查询结果训练得到的哈希函数，其中，查询结果R是根据查询函数K在大数据集D通过统计查询得到的。
[0115] 可选地，作为本发明一个实施例，获取模块530具体用于：计算数据集D1的查询结果K值1)与数据集D2的查询结果K值2);将查询结果K值1)与查询结果K值2)的差值的最小值设置为敏感度S (K)的值，其中数据集D1和所述数据集D2之间至多相差一个记录数据，数据集D1和数据集D2是大数据集D的两个不同子集，应理解，数据集D1和D2相差一个记录数据的含义是在D1和D2数据元素数目相同的情况下，某一个元素的数值或数值类型不同。同时应注意，运里查询结果K值1)与查询结果K值2)的差值指的是两者之间差值的绝对值。
[0116] 具体地，获取模块520还用于根据下式计算敏感度S化）：S〇() =min||K值1)- K值2) II Μ，其中，数据集D1和D2最多相差一个记录数据，数据集D1和数据集D2是所述大数据集D的两个不同子集，Μ表示一个度量空间。
[0117] 可选地，作为本发明一个实施例，第二确定模块530具体用于：根据查询结果生成满足拉普拉斯噪声分布的噪声Ν'，其中所述噪声Ν'中各个噪声分量相互独立；根据敏感度 S(K)校正噪声Ν'后得到噪声N，其中噪声分量N,满足敏感度S(K)的拉普拉斯噪声分布。
[0118] 可选地，作为本发明一个实施例，第一确定模块510还用于：根据客户端对大数据集D的查询需求，确定查询结果R的查询函数Κ(χ)为哈希函数F(x)，查询结果R的查询结果分量为R，，其中1《j《m，m是大于等于1的正整数。
[0119] 可选地，作为本发明一个实施例，第一确定模块510还用于：根据大数据集D的训练集，训练得到哈希函数F (X)，并生成哈希函数F (X)的第一哈希分类表T ;其中，训练集为大数据集D的一个子集，该训练集包括属性集X和分类标签Y，所述属性集X是所述训练集中表征元素属性的数据的集合，所述分类标签Y是所述训练集中表征元素分类结果的数据的集合。
[0120] 可选地，作为本发明一个实施例，第一确定模块510还用于根据所述噪声N,对哈希函数F (X)的第一哈希分类表T进行加噪处理，得到查询结果R',具有微分隐私的第二哈希分类表Τ'。阳121]本发明实施例通过确定大数据集的查询函数的敏感度，基于该敏感度确定需要给查询结果加入的噪声声并将该噪声加入查询结果，从而能够对原始大数据集的查询结果进行具有微分隐私的加噪处理，最终得到具有微分隐私的查询结果。因此，本发明实施能够对规模化的大数据进行加噪处理，最大可能的避免敏感数据的泄露，实现微分隐私查询的目的。
[0122] 图6是本发明另一实施例的一种处理大数据的装置的示意性框图。应注意，图6 所示的设备与图2至图4实施例对应，能够实现图1至图4实施例的处理大数据的方法的各个过程，为避免重复适当省略详细描述。如图6所示的一种处理大数据的装置包括：处理器610、存储器620和总线630。其中，处理器610和存储器620通过总线630相连，该存储器620用于存储指令，该处理器610用于执行该存储器620存储的指令。具体地，处理器 610用于：接收客户端发送的查询指令，并根据该查询指令确定查询函数Κ ;根据查询函数Κ 对大数据集D进行查询得到查询结果R，查询结果R =出,}，其中1《j《m，m是大于或等于1的正整数；获取查询函数K的敏感度S化)，该敏感度S (K)表征查询函数K的敏感性；根据查询结果R与敏感度S (K)确定需要给查询结果R加入的噪声N，噪声N = {Nj}，噪声N 的噪声分量N，与查询结果分量R ,-一对应；根据噪声分量N ,对查询结果分量R ,进行加噪处理，得到加噪的查询结果R'=出'，}。阳123] 可选地，作为本发明一个实施例，处理器610用于获取数据集D1的查询结果K值1) 与数据集D2的查询结果K值2);将查询结果K值1)与查询结果K值2)在一个度量空间内差值的最小值作为敏感度S(K)的值，其中数据集D1和数据集D2之间至多相差一个记录数据，数据集D1和数据集D2是大数据集D的两个不同子集。阳124] 具体地，处理器610用于根据下式获取敏感度S〇() :S似=min||K值1)- K值2) II Μ，其中，数据集D1和数据集D2最多相差一个记录数据，数据集D1和数据集D2是大数据集D的两个不同子集，Μ表示一个度量空间。
[01巧]可选地，作为本发明一个实施例，处理器610用于根据查询结果生成满足拉普拉斯噪声分布的噪声Ν'，其中噪声Ν'中各个噪声分量相互独立；根据敏感度S(K)校正噪声 Ν'后得到噪声N，其中噪声分量N,满足敏感度S(K)的拉普拉斯噪声分布。阳126]本发明实施例通过确定大数据集的查询函数的敏感度，基于该敏感度确定需要给查询结果加入的噪声声并将该噪声加入查询结果，从而能够对原始大数据集的查询结果进行具有微分隐私的加噪处理，最终得到具有微分隐私的查询结果。因此，本发明实施能够对规模化的大数据进行加噪处理，最大可能的避免敏感数据的泄露，实现微分隐私查询的目的。
[0127] 本领域普通技术人员可W意识到，结合本文中所公开的实施例中描述的各方法步骤和单元，能够W电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各实施例的步骤及组成。运些功能究竟W硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可W对每个特定的应用来使用不同方法来实现所描述的功能，但是运种实现不应认为超出本发明的范围。
[0128] 结合本文中所公开的实施例描述的方法或步骤可W用硬件、处理器执行的软件程序，或者二者的结合来实施。软件程序可W置于随机存储器（RAM)、内存、只读存储器 (ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
[0129] 尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可W对本发明的实施例进行各种等效的修改或替换，而运些修改或替换都应在本发明的涵盖范围内。
【主权项】
1. 一种处理大数据的方法，其特征在于，包括：接收客户端发送的查询指令，并根据所述查询指令确定查询函数κ ; 根据所述查询函数K对大数据集D进行查询得到查询结果R，所述查询结果R = {R,}，其中1 < j < m，m是大于或等于1的正整数；获取所述查询函数K的敏感度S (K)，所述敏感度S (K)表征所述查询函数K的敏感性；根据所述查询结果R与所述敏感度S (K)确定需要给查询结果R加入的噪声N，所述噪声N = {Nj}，所述噪声N的噪声分量Nj与查询结果分量R 对应；根据所述噪声分量N,对所述查询结果分量R ,进行加噪处理，得到加噪的查询结果R' ={R'』} 〇2. 根据权利要求1所述的方法，其特征在于，所述获取所述查询函数K的敏感度S(K) 包括：获取数据集D1的查询结果K(D1)与数据集D2的查询结果K(D2); 将所述查询结果K(D1)与所述查询结果K(D2)在一个度量空间内差值的最小值作为所述敏感度S (K)的值，其中所述数据集D1和所述数据集D2是所述大数据集D的两个不同子集，所述数据集D1和所述数据集D2之间至多相差一个记录数据。3. 根据权利要求1或2中任一项所述的方法，其特征在于，所述根据所述查询结果R与所述敏感度S (K)确定噪声N包括：根据所述查询结果R生成满足拉普拉斯噪声分布的噪声Ν'，其中所述噪声Ν'中各个噪声分量相互独立；根据所述敏感度s (Κ)校正所述噪声Ν'后得到所述噪声Ν，其中所述噪声Ν的噪声分量 %满足所述敏感度S(K)的拉普拉斯噪声分布。4. 根据权利要求1至3中任一项所述的方法，其特征在于，所述查询函数K为哈希函数 F，所述方法包括：根据所述大数据集D的训练集，训练得到所述哈希函数F ; 其中，所述训练集为所述大数据集D的一个子集，所述训练集还包括属性集X和分类标签Y，所述属性集X是所述训练集中表征元素属性的数据的集合，所述分类标签Y是所述训练集中表征元素分类结果的数据的集合。5. -种用于处理大数据的装置，其特征在于，包括：接收模块，所述接收模块用于接收客户端发送的查询指令，并根据所述查询指令确定查询函数K ; 第一确定模块，所述第一确定模块用于根据所述查询函数K对大数据集D进行查询得到查询结果R，所述查询结果R = {R,}，其中1彡j彡m，m是大于或等于1的正整数；获取模块，所述获取模块用于获取所述第一确定模块确定的所述查询函数K的敏感度 S (K)，所述敏感度S (K)表征所述查询函数K的敏感性；第二确定模块，所述第二确定模块用于根据所述查询结果R和根据所述获取模块得到的所述敏感度S (K)确定需要给查询结果R加入的噪声N，所述噪声N = {%}，所述噪声N的噪声分量％与查询结果分量R j-一对应；加噪模块，所述加噪模块用于根据所述第二确定模块确定的噪声N,对所述查询结果分量1^进行加噪，得到加噪的查询结果R' = {R'6. 根据权利要求5所述的装置，其特征在于，所述获取模块具体用于：获取数据集D1的查询结果K(D1)与数据集D2的查询结果K(D2); 将所述查询结果K(D1)与所述查询结果K(D2)差值的范数最小值设置为所述敏感度 S(K)的值，其中所述数据集D1和所述数据集D2是所述大数据集D的两个不同子集，所述数据集D1和所述数据集D2之间至多相差一个记录数据。7. 根据权利要求5或6中任一项所述的装置，其特征在于，所述第二确定模块具体用于：根据所述查询结果R生成满足拉普拉斯噪声分布的噪声Ν'，其中所述噪声Ν'中各个噪声分量相互独立；根据所述敏感度S (Κ)校正所述噪声Ν'后得到所述噪声Ν，其中所述噪声Ν的噪声分量 %满足所述敏感度S(K)的拉普拉斯噪声分布。8. 根据权利要求7至7中任一项所述的装置，其特征在于，所述查询函数K为哈希函数 F，所述第一确定模块还用于：根据所述大数据集D的训练集，训练得到所述哈希函数F ; 其中，所述训练集为所述大数据集D的一个子集，所述训练集包括属性集X和分类标签 Y，所述属性集X是所述训练集中表征元素属性的数据的集合，所述分类标签Y是所述训练集中表征元素分类结果的数据的集合。
【文档编号】G06F17/30GK105989161SQ201510095692
【公开日】2016年10月5日
【申请日】2015年3月4日
【发明人】欧阳军, 范伟, 何诚
【申请人】华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：欧阳军;范伟;何诚;
技术所有人：华为技术有限公司;
我是此专利的发明人

上一篇：一种上线数据抽取方法及装置的制造方法
上一篇：一种针对Redis数据库的内存数据持久化方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。