基于关联规则满足用户隐私保护的个性化推荐方法及系统的制作方法

文档序号：6550558阅读：194来源：国知局

基于关联规则满足用户隐私保护的个性化推荐方法及系统的制作方法
【专利摘要】本发明公开一种基于关联规则满足用户隐私保护的个性化推荐方法及系统。该方法应用维规约技术得到原始数据的规约表示，并采用拉普拉斯机制或者指数机制保证规约过程满足ε1-差分隐私；应用闭频繁模式挖掘技术构建规约数据对应的前缀树，并利用拉普拉斯机制扰动频繁模式对应的支持度计数，保证满足ε2-差分隐私；同时利用一致性约束后置处理保证输出结果的可用性；挖掘前缀树，获得满足ε-差分隐私的频繁模式集合及其对应的支持度计数；应用关联规则发现算法，获得满足最小支持度和最小置信度，以及ε-差分隐私的强关联规则集合。本发明有效解决了用户隐私保护和提升个性化推荐系统性能之间的矛盾，可广泛应用于电子商务、社交网络、广告等个性化推荐系统。
【专利说明】基于关联规则满足用户隐私保护的个性化推荐方法及系统

【技术领域】
[0001] 本发明属于信息技术、计算机【技术领域】，涉及数据挖掘方法，具体涉及一种差分隐私下的关联规则挖掘方法，并采用该方法实现个性化推荐系统，保证用户隐私的保护。

【背景技术】
[0002] 个性化推荐系统是建立在海量数据挖掘基础上的一种高级智能平台，能够根据用户的兴趣特点和操作行为，向用户推荐感兴趣的信息和商品。以电子商务为例，电子商务网站（如亚马逊、淘宝等）为用户推荐商品，自动完成个性化选择商品的过程，满足用户的个性化需求。其中，基于关联规则的个性化推荐系统，是以关联规则为基础，把已购商品作为规则头，规则体为推荐对象。关联规则挖掘可以发现不同商品在销售过程中的相关性，在零售业已经得到了成功的应用。然而关联规则挖掘过程中存在用户隐私泄露的风险，即关联规则本身的内容及其支持度计数有可能泄露用户的隐私信息。因此，如何在保护用户隐私的前提下，保证个性化推荐系统的可用性是一个值得深入研究的问题。
[0003] 传统隐私保护模型下的个性化推荐系统大多基于K-匿名模型，然而当攻击者具备一定背景知识时，K-匿名模型就存在隐患。攻击者可以利用背景知识攻击、再识别攻击等攻击方法来确认用户隐私信息。此外，传统隐私保护模型无法定量分析其隐私保护水平。
[0004] 差分隐私作为一种新的隐私保护模型，能够解决传统隐私保护模型的两大缺陷： (1)定义了一个相当严格的攻击模型，不关心攻击者拥有多少背景知识，即使攻击者已掌握除某一条记录之外的所有记录信息，该记录的隐私信息也无法被披露；（2)对隐私保护水平给出了严谨的定义和量化评估方法。因此，本发明应用差分隐私保护模型实现个性化推荐系统中用户隐私的保护。

【发明内容】

[0005] 本发明针对已有方法的不足，提出一种差分隐私下的关联规则挖掘方法及采用该方法的个性化推荐系统，有效解决了用户隐私保护和提升个性化推荐系统性能之间的矛盾。
[0006] 为实现上述目的，本发明采用如下技术方案：
[0007] -种差分隐私下的关联规则挖掘方法，其步骤包括：
[0008] (1)应用维规约技术得到原始数据的规约表示，并采用拉普拉斯机制或者指数机制保证规约过程满足ε i-差分隐私；
[0009] (2)应用闭频繁模式挖掘技术构建规约数据对应的前缀树，并利用拉普拉斯机制扰动频繁模式对应的支持度计数，保证满足ε 2-差分隐私；同时利用一致性约束后置处理保证输出结果的可用性；
[0010] (3)挖掘前缀树，获得满足ε -差分隐私的频繁模式集合及其对应的支持度计数；
[0011] (4)应用关联规则发现算法，获得满足最小支持度和最小置信度，以及ε -差分隐私的强关联规则集合。
[0012] 一种采用上述方法的满足用户隐私保护的个性化推荐方法，其步骤包括：
[0013] (1)获得一段时间内用户的历史行为数据；
[0014] (2)将用户的历史行为数据按照关联规则挖掘的需求进行预处理（包括数据清洗、去除噪声数据、数据格式转换等处理）；
[0015] (3)采用上述差分隐私下的关联规则挖掘方法对预处理过的数据进行挖掘，生成关联规则集合；
[0016] (4)依据上述模块产生的关联规则数据生成推荐列表，帮助用户发现他们感兴趣的信息，并依据推荐列表为目标用户提供个性化的推荐服务。
[0017] 一种采用上述方法的满足用户隐私保护的个性化推荐系统，包括：
[0018] 数据采集模块，用于获得一段时间内用户的历史行为数据；
[0019] 数据准备模块，用于将用户的历史行为数据按照关联规则挖掘的需求进行预处理 (包括数据清洗、去除噪声数据、数据格式转换等处理）；
[0020] 规则挖掘模块，用于采用上述差分隐私下的关联规则挖掘方法对预处理过的数据进行挖掘，生成关联规则集合；
[0021] 推荐系统模块，用于依据上述模块产生的关联规则数据生成推荐列表，帮助用户发现他们感兴趣的信息，并依据推荐列表为目标用户提供个性化的推荐服务。
[0022] 本发明的个性化推荐系统中实现的用户隐私保护方法，是基于差分隐私交互式数据保护框架的隐私保护方法。通过综合应用差分隐私的噪音机制（例如，拉普拉斯机制和指数机制）、数据规约技术和闭频繁序列模式挖掘技术，实现了差分隐私下的关联规则挖掘方法，有效解决了关联规则本身的内容及其支持度计数有可能泄露用户隐私信息的问题，保证基于关联规则的个性化推荐系统中用户隐私的保护。本发明可广泛应用于电子商务、基于位置的服务、社交网络、音乐视频、广告等个性化推荐系统。

【专利附图】

【附图说明】
[0023] 图1是差分隐私保护模型下的个性化推荐系统流程图。
[0024] 图2是表2某超市用户购买记录数据对应的前缀树构建过程示例图。

【具体实施方式】
[0025] 下面通过具体示例和附图，对本发明做进一步说明。首先说明本发明所涉及的相关技术，然后说明本发明方法的实施过程。
[0026] 1.本发明所涉及的相关技术
[0027] 差分隐私是基于数据失真的隐私保护技术。通过向查询或者分析结果中添加噪音使数据失真，确保在数据集中插入或者删除某一条记录的操作不会影响任何查询的输出结果，从而达到隐私保护的目的。差分隐私的形式化定义如下：
[0028] ε -差分隐私对于所有差别至多为一个记录的两个相邻数据集Di和D2，给定隐私算法K，Range (K)表示K取值范围。若算法K提供ε -差分隐私，则对于所有S e Range (K)，有
[0029] Pr [K (Di) e S] ^ exp ( ε ) · Pr [K (D2) e S] (1)
[0030] 其中，概率Pr □表示隐私披露风险，隐私预算ε表示隐私保护水平，ε越小保护水平越1?。
[0031] 噪音机制是实现差分隐私的主要技术，常用的噪音机制包括拉普拉斯机制 (Laplace Mechanism)和指数机制（Exponential Mechanism)。基于不同的噪音机制，实现差分隐私所添加的噪音大小与全局敏感性（Global Sensitivity)密切相关。
[0032] 全局敏感性对于任意一个函数f:D - Rd，f的全局敏感性定义为：
[0033] Δ/ = maxD[ \\f (Dl) - /(A)[ (2)
[0034] 其中，01和％为相邻数据集，d表示函数f的查询维度，R表示所映射的实数空间。
[0035] 拉普拉斯机制对于任一个函数f:D - Rd，若算法K的输出结果满足下列等式，则K 满足ε-差分隐私保护。
[0036] K (D) = f (D) -〈LaPi ( Λ f / ε )，…，Lapd ( Λ f/ ε ) > ⑶
[0037] 其中，LapJ Λ f/ ε ) (Κ i < d)是相互独立的拉普拉斯变量，对应概率密度函数为p(x|b) = (l/2b)exp(_|x|/b)。噪音大小与Af成正比，与ε成反比，g卩全局敏感性越大，所添加噪音越大。拉普拉斯机制主要处理一些输出结果为实数型的算法。
[0038] 指数机制给定一个打分函数u:(DX0) - R，若算法K满足下列等式，则K满足 ε _差分隐私。

【权利要求】
1. 一种差分隐私下的关联规则挖掘方法，其步骤包括： (1) 应用维规约技术得到原始数据的规约表示，并采用拉普拉斯机制或者指数机制保证规约过程满足ε i-差分隐私； (2) 应用闭频繁模式挖掘技术构建规约数据对应的前缀树，并利用拉普拉斯机制扰动频繁模式对应的支持度计数，保证满足ε 2-差分隐私；同时利用一致性约束后置处理保证输出结果的可用性； (3) 挖掘前缀树，获得满足ε_差分隐私的频繁模式集合及其对应的支持度计数； (4) 应用关联规则发现算法，获得满足最小支持度和最小置信度，以及ε_差分隐私的强关联规则集合。
2. 根据权利要求1所述方法，其特征在于：步骤（1)应用维归约技术和差分隐私的拉普拉斯机制或者指数机制，获得原始数据集的规约表示及规约后的最大记录长度，满足差分隐私保护。
3. 根据权利要求1所述方法，其特征在于，步骤（1)所述拉普拉斯机制为：对于任一个函数f:D - Rd，若算法Κ的输出结果满足下列等式，则Κ满足ε -差分隐私保护， K(D) = f(D)+〈LaPl(A f/ ε )，…，Lapd(A f/ ε )> 其中，LaPi( Λ f/ ε ) (1 < i < d)是相互独立的拉普拉斯变量，对应概率密度函数为 p(x|b) = (l/2b)exp(_|x|/b);噪音大小与Af成正比，与ε成反比，g卩全局敏感性越大，所添加噪音越大。
4. 根据权利要求1所述方法，其特征在于，步骤（1)所述指数机制为：给定一个打分函数u:(DXO) - R，若算法K满足下列等式，则K满足ε-差分隐私保护， K(D,u) = {r \Pr[r e 0] 〇c exp(^-^-)\ 2Au 其中，Λ u为打分函数u(D, r)的全局敏感性，r表示从输出域0中所选择的输出项，打分越高，被选择输出的概率越大。
5. 根据权利要求1所述方法，其特征在于：步骤（4)所述关联规则发现算法，首先找出所有的频繁模式及其支持度计数，然后由频繁模式产生强关联规则，所述频繁模式的支持度计数满足预定义的最小支持度计数阈值。
6. -种采用权利要求1所述方法的满足用户隐私保护的个性化推荐方法，其步骤包括： (1) 获得一段时间内用户的历史行为数据； (2) 将用户的历史行为数据按照关联规则挖掘的需求进行预处理； (3) 采用权利要求1所述差分隐私下的关联规则挖掘方法对预处理过的数据进行挖掘，生成关联规则集合； (4) 依据上述模块产生的关联规则数据生成推荐列表，并依据推荐列表为目标用户提供个性化的推荐服务。
7. -种采用权利要求6所述方法的基于用户隐私保护的个性化推荐系统，其包括：数据采集模块，用于获得一段时间内用户的历史行为数据；数据准备模块，用于将用户的历史行为数据按照关联规则挖掘的需求进行预处理；规则挖掘模块，用于采用权利要求1所述差分隐私下的关联规则挖掘方法对预处理过的数据进行挖掘，生成关联规则集合；推荐系统模块，用于依据规则挖掘模块产生的关联规则数据生成推荐列表，并依据推荐列表为目标用户提供个性化的推荐服务。
【文档编号】G06F17/30GK104050267SQ201410283430
【公开日】2014年9月17日申请日期:2014年6月23日优先权日:2014年6月23日
【发明者】丁丽萍, 卢国庆申请人:中国科学院软件研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丁丽萍;卢国庆
技术所有人：中国科学院软件研究所
我是此专利的发明人

上一篇：基于最远点优化的蓝噪声网格生成方法
上一篇：一种分区调整方法及电子设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。