一种基于差分隐私算法的主动推荐系统及装置的制作方法

文档序号:17927142发布日期:2019-06-15 00:29阅读:237来源:国知局
一种基于差分隐私算法的主动推荐系统及装置的制作方法

本说明书实施例涉及大数据技术领域,尤其涉及一种基于差分隐私算法的主动推荐系统及装置。



背景技术:

大数据驱动的管理与决策发展核心是不同行业领域之间的数据资源开放,以及消息孤岛的消除。数据开放能够推动经济发展、完善社会治理、提升政府服务和监管能力等。然而,数据开放的同时会直接带来数据治理和共享管理问题。目前,数据资源治理和共享管理已成为大数据驱动的管理与决策研究和应用的关键问题。而在大数据资源治理和共享管理过程中,数据与个人隐私已成为其核心科学问题,若隐私问题没有解决之法,不同行业之间的数据开放变得毫无意义。匿名化、加密、密码学等是解决数据隐私问题的传统机制。这些方法是基于某些特定的攻击假设和背景知识才能够生效,通常集中于单一的小数据,是对隐私的被动保护,进而无法应对大数据的大规模性、高速性与多样性。例如,利用背景知识攻击可以推理出k-匿名之后的敏感数据。此外,大数据的高级分析技术能够揭示传统技术难以展现的关联关系,进而使得传统的隐私保护机制遇到极大的瓶颈与挑战。

但上述技术至少存在如下技术问题:

现有技术中无法涵盖大数据隐私的真实内涵,不能够定位大数据隐私保护问题,无法实现不同领域中的大数据资源共享的技术问题。



技术实现要素:

本说明书实施例提供及一种基于差分隐私算法的主动推荐系统及装置,解决了现有技术中无法涵盖大数据隐私的真实内涵,不能够定位大数据隐私保护问题,无法实现不同领域中的大数据资源共享的技术问题,达到了大数据环境下,对数据的需求促进了数据的发布、共享和分析,能够提高数据的隐私保护程度和数据的实用性,解决数据发布、数据分析带来的隐私威胁,能够防止攻击者拥有任意背景知识下的攻击并提供有力的保护的技术效果。

鉴于上述问题,提出了本申请实施例以便提供一种基于差分隐私算法的主动推荐系统及装置。

第一方面,本说明书实施例提供一种基于差分隐私算法的主动推荐系统,所述方法包括:根据用户输入数据库确定所述用户需求的查询范围;根据所述输入数据库、查询范围选择差分隐私算法数据库,对所述差分隐私算法数据库中的不同差分隐私算法设定不同的隐私预算参数ε;根据设定不同的隐私预算参数ε与不同的差分隐私算法对所述输入数据库进行拟处理数量级的算法误差标准、算法性能标准、隐私保护强度大小标准确定输出结果;根据数据隐私保护程度对所述输出结果进行算法评估获得所述输出结果的趋势图,且根据所述趋势图推荐最优差分隐私算法在web前端显示。

优选地,所述系统还包括:根据所述最优差分隐私算法对所述输入数据库进行处理获得隐私数据;根据所述隐私数据确定所述隐私数据的类型特征;根据直方图发布算法或网格划分发布算法匹配所述隐私数据的类型特征,确定所述隐私数据的隐私保护方式。

优选地,所述隐私预算参数ε的取值范围在0.01~ln3

优选地,所述直方图发布算法包括:对所述隐私数据进行分割确定数据单元;在所述数据单元中添加噪音,采用树结构对添加噪音的所述数据单元进行后置处理,获得多维优化直方图。

优选地,所述网格划分发布算法包括:对所述隐私数据进行转换处理,且根据预定索引构造规则对所述隐私数据进行划分确定多个索引区域;对所述多个索引区域进行数值标识,且在数值标识的索引区域内加入噪声,获得网格划分图。

第二方面,本说明书实施例提供一种基于差分隐私算法的主动推荐装置,所述装置包括:

第一确定单元,用于根据用户输入数据库确定所述用户需求的查询范围。

第一设定单元,用于根据所述输入数据库、查询范围选择差分隐私算法数据库,对所述差分隐私算法数据库中的不同差分隐私算法设定不同的隐私预算参数ε。

第二确定单元,用于根据设定不同的隐私预算参数ε与不同的差分隐私算法对所述输入数据库进行拟处理数量级的算法误差标准、算法性能标准、隐私保护强度大小标准确定输出结果;

第一获得单元,用于根据数据隐私保护程度对所述输出结果进行算法评估获得所述输出结果的趋势图,且根据所述趋势图推荐最优差分隐私算法在web前端显示。

优选地,所述装置还包括:

第二获得单元,用于根据所述最优差分隐私算法对所述输入数据库进行处理获得隐私数据;

第三确定单元,用于根据所述隐私数据确定所述隐私数据的类型特征;

第四确定单元,用于根据直方图发布算法或网格划分发布算法匹配所述隐私数据的类型特征,确定所述隐私数据的隐私保护方式。

优选地,所述隐私预算参数ε的取值范围在0.01~ln3

优选地,所述第四确定单元中的直方图发布算法包括:

第五确定单元,用于对所述隐私数据进行分割确定数据单元;

第三获得单元,用于在所述数据单元中添加噪音,采用树结构对添加噪音的所述数据单元进行后置处理,获得多维优化直方图。

优选地,所述第四确定单元中的网格划分发布算法包括:

第六确定单元,用于对所述隐私数据进行转换处理,且根据预定索引构造规则对所述隐私数据进行划分确定多个索引区域;

第四获得单元,用于对所述多个索引区域进行数值标识,且在数值标识的索引区域内加入噪声,获得网格划分图。

第三方面,本说明书实施例提供一种基于差分隐私算法的主动推荐装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行上述任一项所述方法的步骤。

本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:

本说明书实施例提供的一种基于差分隐私算法的主动推荐系统,通过根据用户输入数据库确定所述用户需求的查询范围;根据所述输入数据库、查询范围选择差分隐私算法数据库,对所述差分隐私算法数据库中的不同差分隐私算法设定不同的隐私预算参数ε;根据设定不同的隐私预算参数ε与不同的差分隐私算法对所述输入数据库进行拟处理数量级的算法误差标准、算法性能标准、隐私保护强度大小标准确定输出结果;根据数据隐私保护程度对所述输出结果进行算法评估获得所述输出结果的趋势图,且根据所述趋势图推荐最优差分隐私算法在web前端显示。通过输入数据集、隐私预算参数ε、查询范围并选择差分隐私方法库,以差分隐私算法作为根本处理方法,经过算法评估模块来帮助用户选择适应数据集的隐私保护方法,并将最终的推荐结果在web前端显示出来,解决了现有技术中无法涵盖大数据隐私的真实内涵,不能够定位大数据隐私保护问题,无法实现不同领域中的大数据资源共享的技术问题,达到了大数据环境下,对数据的需求促进了数据的发布、共享和分析,能够提高数据的隐私保护程度和数据的实用性,解决数据发布、数据分析带来的隐私威胁,能够防止攻击者拥有任意背景知识下的攻击并提供有力的保护的技术效果。

附图说明

图1为本说明书实施例中提供的一种基于差分隐私算法的主动推荐系统流程图;

图2为本说明书实施例中提供的一种基于差分隐私算法的主动推荐装置示意图;

图3为本说明书实施例中提供的另一种基于差分隐私算法的主动推荐装置示意图。

附图标号说明:总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。

具体实施方式

本发明实施例提供了一种基于差分隐私算法的主动推荐系统及装置,用于解决了现有技术中无法涵盖大数据隐私的真实内涵,不能够定位大数据隐私保护问题,无法实现不同领域中的大数据资源共享的技术问题,本发明提供的技术方案总体思路如下:

在本发明实施例的技术方案中,通过根据用户输入数据库确定所述用户需求的查询范围;根据所述输入数据库、查询范围选择差分隐私算法数据库,对所述差分隐私算法数据库中的不同差分隐私算法设定不同的隐私预算参数ε;根据设定不同的隐私预算参数ε与不同的差分隐私算法对所述输入数据库进行拟处理数量级的算法误差标准、算法性能标准、隐私保护强度大小标准确定输出结果;根据数据隐私保护程度对所述输出结果进行算法评估获得所述输出结果的趋势图,且根据所述趋势图推荐最优差分隐私算法在web前端显示。解决了现有技术中无法涵盖大数据隐私的真实内涵,不能够定位大数据隐私保护问题,无法实现不同领域中的大数据资源共享的技术问题,达到了大数据环境下,对数据的需求促进了数据的发布、共享和分析,能够提高数据的隐私保护程度和数据的实用性,解决数据发布、数据分析带来的隐私威胁,能够防止攻击者拥有任意背景知识下的攻击并提供有力的保护的技术效果。

为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。

在本文公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本文公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

实施例一

图1为本发明实施例中一种基于差分隐私算法的主动推荐系统的流程示意图。如图1所示,所述方法应用于一基于差分隐私算法的主动推荐设备,所述基于差分隐私算法的主动推荐设备包括一输入设备和一显示设备,所述输入设备内部具有文字扫描输入模块、文字处理模块、存储器、信号输入模块,所述输入设备可以与手机键盘、电脑键盘等产生输出信号的设备进行连接,所述显示设备与所述输入设备连接,是能够将所述手机键盘、电脑键盘等输入设备显示出来的显示屏等设备。该方法包括步骤s101-s104。

s101:根据用户输入数据库确定所述用户需求的查询范围。

具体而言,本身请实施例中的基于差分隐私算法的主动推荐系统,是通过对输入数据集选择差分隐私方法库中的差分隐私方法,并配置相应的隐私预算参数ε,确定查询范围后,以差分隐私算法作为根本处理方法,经过算法评估模块来帮助用户选择适应数据集的隐私保护方法,并将最终的推荐结果在web前端显示出来。首先,根据用户输入数据库可以确定所述用户需求的查询范围,如在商务金融领域、医疗健康领域或公共管理领域等其他领域下的数据库,客户的需求查询范围不同。

s102:根据所述输入数据库、查询范围选择差分隐私算法数据库,对所述差分隐私算法数据库中的不同差分隐私算法设定不同的隐私预算参数ε。

进一步的,所述隐私预算参数ε的取值范围在0.01~ln3

具体而言,在大数据计算模型上引入差分隐私保护机制,根据所述输入数据库、查询范围选择差分隐私算法数据库,对所述差分隐私算法数据库中的不同差分隐私算法设定不同的隐私预算参数ε,所述隐私预算参数ε的取值范围在0.01~ln3。其中,差分隐私保护模型最初被应用在统计数据库安全领域,旨在发布统计信息时保护数据库中个体的隐私信息,之后被广泛应用于隐私保护数据发布与隐私保护数据挖掘等领域。差分隐私保护方法既可以应用于交互式的统计查询,也可以应用在各种非交互式的信息发布场合。隐私保护机制是对于一个有限域z,z∈z为z中的元素,从z中抽样所得z的集合组成数据集d,其样本量为n,属性的个数为维度d,对数据集d的各种映射函数被定义为查询,用f={f1,f2,…}来表示一组查询,算法m对查询f的结果进行处理,使之满足隐私保护的条件。隐私保护预算ε用来控制算法m在两个邻近数据集上获得相同输出的概率比值,它事实上体现了m所能够提供的隐私保护水平.在实际应用中,ε通常取很小的值,例如0.01,0.1,或者ln2,ln3等。ε越小,表示隐私保护水平越高。当ε等于0时,保护水平达到最高,此时对于任意邻近数据集,算法都将输出两个概率分布完全相同的结果,这些结果也不能反映任何关于数据集的有用的信息。因此,ε的取值要结合具体需求来达到输出结果的安全性与可用性的平衡。同时,差分隐私保护可以通过在查询函数的返回值中加入适量的干扰噪声来实现,加入噪声过多会影响结果的可用性,过少则无法提供足够的安全保障。敏感度是决定加入噪声量大小的关键参数,它指删除数据集中任一记录对查询结果造成的最大改变。在差分隐私保护方法中定义了两种敏感度,即全局敏感度和局部敏感度。

s103:根据设定不同的隐私预算参数ε与不同的差分隐私算法对所述输入数据库进行拟处理数量级的算法误差标准、算法性能标准、隐私保护强度大小标准确定输出结果。

s104:根据数据隐私保护程度对所述输出结果进行算法评估获得所述输出结果的趋势图,且根据所述趋势图推荐最优差分隐私算法在web前端显示。

进一步的,所述系统还包括:根据所述最优差分隐私算法对所述输入数据库进行处理获得隐私数据;根据所述隐私数据确定所述隐私数据的类型特征;根据直方图发布算法或网格划分发布算法匹配所述隐私数据的类型特征,确定所述隐私数据的隐私保护方式。

具体而言,根据设定不同的隐私预算参数ε与不同的差分隐私算法对所述输入数据库进行拟处理数量级的算法误差标准、算法性能标准、隐私保护强度大小标准,选择合适的ε参数综合选择最适合查询数据的差分隐私算法。将不同算法随条件改变而对数据隐私保护程度发生改变的趋势图作为算法评估的结果在web前端显示出来。其中,根据所述最优差分隐私算法对所述输入数据库进行处理获得隐私数据,根据所述隐私数据确定所述隐私数据的类型特征,在大数据环境下选择直方图发布方法及网格划分发布方法对隐私数据进行处理,确定所述隐私数据的隐私保护方式,主动推荐给用户。其中,所示主动推荐为每个物品(item)构建一个物品的属性资料,为每个用户(user)构建一个用户的喜好资料,计算用户喜好资料与物品属性资料的相似度,相似度高意味着用户可能喜欢这个物品,相似度低往往意味着用户不喜欢这个物品。利用余弦相似度的公式来计算给定的user“u”和给定的item“i”之间的距离。余弦相似度的值越大说明u越有可能喜欢i。开始推荐并将推荐结果显示在web可视化前端。

进一步的,所述直方图发布算法包括:对所述隐私数据进行分割确定数据单元;在所述数据单元中添加噪音,采用树结构对添加噪音的所述数据单元进行后置处理,获得多维优化直方图。

进一步的,所述网格划分发布算法包括:对所述隐私数据进行转换处理,且根据预定索引构造规则对所述隐私数据进行划分确定多个索引区域;对所述多个索引区域进行数值标识,且在数值标识的索引区域内加入噪声,获得网格划分图。

具体而言,本申请实施例通过在大数据环境下根据不同情况选择直方图发布或划分发布或点发布方法等方法进行发布数据,由于数据类型、维度等方面不同,需要根据数据类型特点选择适合的较为直观的可视化方法来展示结果。通过直方图发布后的数据,可以使得不管攻击者拥有何种知识背景,都无法根据自己掌握的信息同发布的数据进行对比获得用户隐私。其中,所述直方图发布算法包括:(发布方法dpcube)对所述隐私数据进行分割确定数据单元;在所述数据单元中添加噪音,采用树结构对添加噪音的所述数据单元进行后置处理,获得多维优化直方图。所述直方图发布算法还包括:(发布方法privelet)采用哈尔小波变换对原始等宽直方图进行转换。将其映射到频率矩阵m上;沿着sa中指定的维数将m划分为子矩阵。中指定的维数将m划分为子矩阵;针对每一个子矩阵;计算每个子矩阵的hn小波系数;在每个系数c中加上一个具有大小/时间(c)的拉普拉斯噪声;将有噪声的系数转换回有噪声的子矩阵;有噪声的子矩阵组装成频率矩阵m*;返回频率矩阵m*。

划分发布是差分隐私空间数据发布的一种形式。其先对原始数据进行转换处理,再根据一定索引构造规则对数据集进行划分,并依据索引结构发布数据,每一个索引区域用其划分意义下的计数值进行标识,并添加噪声以实现隐私保护的数据发布方法。所述网格划分发布算法包括:对所述隐私数据进行转换处理,且根据预定索引构造规则对所述隐私数据进行划分确定多个索引区域;对所述多个索引区域进行数值标识,且在数值标识的索引区域内加入噪声,获得网格划分图。其中,本申请实施例中使用的网格划分发布算法分为自适应网格方法ag及ug,根据具体情况和标准可以选择不同的算法。自适应网格方法ag是在数据域上放置一个粗的m1×m1网格,创建(m1*m1)first级别的单元格,然后使用隐私预算为每个单元发出计数查询,其中0<α<1。对于每个单元,设n’为单元的噪声计数,ag然后使用根据n’自适应选择的网格大小对单元格进行分区,从而创建叶单元。参数α确定如何在两个级别之间拆分隐私预算。ug对二维空间数据均匀地划分成m×m个等宽格单元,结合划分粒度m为每个单元添加拉普拉斯噪音。本申请还可以通过点发布的可视化方法来展示结果,通过将数据集中所有的点都经过模糊处理后显示出来。

实施例二

基于与前述实施例中一种基于差分隐私算法的主动推荐系统同样的发明构思,本发明还提供一种基于差分隐私算法的主动推荐装置,如图2所示,包括:

第一确定单元11,用于根据用户输入数据库确定所述用户需求的查询范围。

第一设定单元12,用于根据所述输入数据库、查询范围选择差分隐私算法数据库,对所述差分隐私算法数据库中的不同差分隐私算法设定不同的隐私预算参数ε。

第二确定单元13,用于根据设定不同的隐私预算参数ε与不同的差分隐私算法对所述输入数据库进行拟处理数量级的算法误差标准、算法性能标准、隐私保护强度大小标准确定输出结果;

第一获得单元14,用于根据数据隐私保护程度对所述输出结果进行算法评估获得所述输出结果的趋势图,且根据所述趋势图推荐最优差分隐私算法在web前端显示。

进一步的,所述装置还包括:

第二获得单元,用于根据所述最优差分隐私算法对所述输入数据库进行处理获得隐私数据;

第三确定单元,用于根据所述隐私数据确定所述隐私数据的类型特征;

第四确定单元,用于根据直方图发布算法或网格划分发布算法匹配所述隐私数据的类型特征,确定所述隐私数据的隐私保护方式。

进一步的,所述隐私预算参数ε的取值范围在0.01~ln3

进一步的,所述第四确定单元中的直方图发布算法包括:

第五确定单元,用于对所述隐私数据进行分割确定数据单元;

第三获得单元,用于在所述数据单元中添加噪音,采用树结构对添加噪音的所述数据单元进行后置处理,获得多维优化直方图。

进一步的,所述第四确定单元中的网格划分发布算法包括:

第六确定单元,用于对所述隐私数据进行转换处理,且根据预定索引构造规则对所述隐私数据进行划分确定多个索引区域;

第四获得单元,用于对所述多个索引区域进行数值标识,且在数值标识的索引区域内加入噪声,获得网格划分图。

前述图1实施例一中的一种基于差分隐私算法的主动推荐系统的各种变化方式和具体实例同样适用于本实施例的一种基于差分隐私算法的主动推荐装置,通过前述对一种基于差分隐私算法的主动推荐系统的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于差分隐私算法的主动推荐装置的实施方法,所以为了说明书的简洁,在此不再详述。

实施例三

基于与前述实施例一中一种基于差分隐私算法的主动推荐系统同样的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种基于差分隐私算法的主动推荐系统的任一方法的步骤。

其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:

本说明书实施例提供的一种基于差分隐私算法的主动推荐系统及装置,通过根据用户输入数据库确定所述用户需求的查询范围;根据所述输入数据库、查询范围选择差分隐私算法数据库,对所述差分隐私算法数据库中的不同差分隐私算法设定不同的隐私预算参数ε;根据设定不同的隐私预算参数ε与不同的差分隐私算法对所述输入数据库进行拟处理数量级的算法误差标准、算法性能标准、隐私保护强度大小标准确定输出结果;根据数据隐私保护程度对所述输出结果进行算法评估获得所述输出结果的趋势图,且根据所述趋势图推荐最优差分隐私算法在web前端显示。通过输入数据集、隐私预算参数ε、查询范围并选择差分隐私方法库,以差分隐私算法作为根本处理方法,经过算法评估模块来帮助用户选择适应数据集的隐私保护方法,并将最终的推荐结果在web前端显示出来,解决了现有技术中无法涵盖大数据隐私的真实内涵,不能够定位大数据隐私保护问题,无法实现不同领域中的大数据资源共享的技术问题,达到了大数据环境下,对数据的需求促进了数据的发布、共享和分析,能够提高数据的隐私保护程度和数据的实用性,解决数据发布、数据分析带来的隐私威胁,能够防止攻击者拥有任意背景知识下的攻击并提供有力的保护的技术效果。

本领域内的技术人员应明白,本发明的实施例可提供为方法、方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(方法)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。

显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1