个性化搜索环境中用户隐私数据的保护方法

文档序号：6579061阅读：207来源：国知局

专利名称：个性化搜索环境中用户隐私数据的保护方法
技术领域：
本发明涉及个性化搜索系统与隐私保护技术，特别是涉及个性化搜索环境中用户隐私数据的保护方法。
背景技术：
随着互联网上数据的规模及复杂度以指数级增长，传统搜索引擎对于不同用户呈现相同搜索结果的搜索方式已逐渐不能满足人们的需求。个性化搜索方式针对这一问题应运而生，目前研究机构以及大型互联网公司已经将个性化搜索
技术作为研究的热点，并推出相应的智能搜索产品，如Google和Yahoo分别提出新一代的搜索产品(Google personalized search)和My Web 2.0等等。
虽然现在大部分个性化搜索系统能一定程度上提高个性化搜索质量，但是这种用户信息在服务器端在个性化处理的方式，使得用户隐私得以泄露的问题变得越来越严重。另一方面，搜索结果在客户端处理的方式又加大了客户端处理的难度，使得诸如PDA这一类搜索环境十分受限制的移动设备的搜索变得很困难。
由于服务器端排序与客户端排序的方式极为相似，而且用户信息在语义上存在概念上的层次关系，因此利用这些联系可以设计出隐私安全的个性化搜索系统。

发明内容
本发明的目的在于提供一种个性化搜索环境中用户隐私数据的保护方法。本发明解决其技术问题采用的技术方案的步骤如下
1) 选择一种用户兴趣数据的建模方法，构建用户兴趣数据的基本数据结构；建立用户兴趣模型表示用户的兴趣爱好；
2) 基于步骤l)定义衡量用户隐私数据的尺度，以及基于该尺度下用户对于隐私的控制方法；
3) 定义个性化搜索结果的排序方法，结合用户兴趣模型实现搜索结果的个性
化；
4) 在步骤1)、步骤2)、步骤3)、步骤4)以及个性化搜索服务系统上，建立分段式信息处理系统，实现隐私安全的个性化搜索。2、步骤l)中采用的建模方法应将原始的非结构化用户兴趣数据结构化，表
示成计算机系统易理解与处理的形式。建立的用户兴趣模型应具有以下特点
a)基于树状结构，具有语义的上下层次关系。b)可实现用户兴趣数据的动态更新。
4、步骤3)中定义的隐私衡量方法应实现用户隐私程度的模糊量化，以数值区间的形式提供给用户选择。
5、步骤4)中的个性化排序方法应利用用户兴趣模型并综合考虑原始搜索结果的排序情况以及个性化匹配的排序情况。
6、步骤5)的具体实施应满足如下需求
1) 所建立的层次化信息处理系统，应满足搜索结果的个性化在服务器与客户端分别处理；
2) 所建立的层次化信息处理系统，应满足服务器端对搜索结果进行第一次排序。然后根据具体的应用需求，对中间搜索结果进行相应的选择并传送至客户端，进行再排序，确定最终排序结果；
3) 用户兴趣模型的使用a)在服务器端进行排序时，使用的只是经过用户安全认可的部分用户兴趣模型;b)在客户端进行排序时，使用完整的用户兴趣模型。
本发明具有的有益效果是
对用户兴趣模型的动态更新，使得系统获取的用户兴趣数据更加实时与准确。提供了一种用户隐私暴露程度的量化方法，用户可实现隐私泄露的自我控制，实现了个性化搜索质量与隐私保护的权衡。搜索结果在服务器与客户端，基于用户兴趣模型分别排序的方式，使得服务器根据需求在一定范围内选择与调整中间搜索结果，可以有效地提高系统的性能并且适用于搜索环境受限制的情况。

图1是本发明的具体实施过程图。图2是用户兴趣模型节点更新示例图。图3是分段式信息处理系统结构图。
具体实施例方式
现结合附图和实施例对本发明作进一步说明。
1、如图1所示，本发明具体实施过程和工作原理如下
1) 选择一种用户兴趣数据的建模方法，构建用户兴趣数据的基本数据结构；建立用户兴趣模型表示用户的兴趣爱好；
2) 基于步骤l)定义衡量用户隐私数据的尺度，以及基于该尺度下用户对于隐
4私的控制方法；
3) 定义个性化搜索结果的排序方法，结合用户兴趣模型实现搜索结果的个性
化；
4) 在步骤1)、步骤2)、步骤3)、步骤4)以及个性化搜索服务系统上，建立分段式信息处理系统，实现隐私安全的个性化搜索。
步骤l)中采用的建模方法应将原始的非结构化用户兴趣数据结构化，表示成计算机系统易理解与处理的形式。现在大部分搜索引擎采用的是基于关键字的空间向量模型。
其具体实施应该满足如下需求
1) 建立的用户兴趣模型必须具有语义上的层次关系，且为树状结构。下层节点表示的概念在语义上必须是上层节点语义的子集合。比如上层节点是"疾病"，而下层节点是"传染病"，上层节点语义上包含了下层节点；
2) 用户兴趣模型应该能通过反馈得到不断地更新。在每次更新中，系统根据需要更新的内容确定相应的概念节点，然后判断如果用户兴趣模型中存在这个节点直接更新该节点；否则，将该节点添加到用户兴趣模型中。以疾病类别的简单关系为例，首先在用户兴趣模型中找到与新节点相似度最大的两个节点，如图2所示，在用户兴趣模型中已经存在"健康"与"传染病"的关系。当新节点需要插入时(设定"健康"节点与"传染病"节点的相似度，"健康" 节点与新节点的相似度，新节点与"传染病"节点的相似度分别为S,，S2，S》
a) 如果新节点和这两个节点的关系更近(S2>S,并且S一SO，比如新节点为疾病这一概念节点，那么它应该作为一个节点的子节点和另外一个节点的父节点；
b) 否则当新节点和父节点的相似度更小时(S3> S2)，比如新节点为流感这一概念节点，那么它应该作为这两个节点的后代节点；
c) 否则其它情况，比如新节点为非传染病这一概念节点时，那么它应该作为父节点的子节点。
步骤2)中定义的隐私衡量方法应建立在步骤l)的基础上，利用信息熵实现用户隐私程度的模糊量化，应该满足子节点的隐私重要程度大于父节点的。并且需要以数值区间的形式提供给用户选择，如健康、疾病和传染病的关系，以
区间来表示(O为没有任何隐私泄露，l表示完全的隐私泄露)，那么一个可能的关系为(健康，0.2)，(疾病，0.4)，(传染病，0.6)。
步骤3)中的搜索排序方式，应利用用户兴趣模型与搜索结果进行相似度计算，并采用用户兴趣模型的结构信息(节点深度和用户偏好程度)，定义个性化的排序结果，即节点深度与用户偏好程度乘积的函数值和相似度值的乘积关系来排序。考虑原始页面的质量关系，应结合原始排序的结果顺序，将两个排序值
进行线性的组合。比如存在3个文档dl， d2， d3，原始排序值2， 3， 1。将3 个文档分别与用户兴趣模型进行相似度计算得到0.32， 0.36， 0.35。 0.32<0.35<0.36，那么个性化的排序值就为1， 3， 2。设个性化排序值比重占0.8，那么最终的排序值为2*0.2+1*0.8=1.2， 3*0.2+3*0.8=3， 1*0.2+2*0.8=1.8。因此最终的排序结果为dl， d3， d2。
步骤4)中建立分段式信息处理系统如图3所示。在个性化搜索过程中，用户向搜索服务器提交查询请求；根据用户隐私保护的需要，部分用户兴趣信息和査询信息传送到服务器端；经过服务器处理，中间搜索结果被传回客户端。最后客户端再利用完整的用户兴趣信息进行个性化处理，将最终搜索结果呈献给用户；搜索活动完成后，用户提交反馈给客户端更新用户信息模型。以用户的一次搜索场景为例，用户输入"设备"这个关键字，系统根据用户的需求，裁剪了用户兴趣模型中代表流感的概念节点，并随査询关键字传送至服务器。服务器根据关键字从文档库査询出1000个相关文档。并利用获得的用户兴趣模型，将搜索结果排序。根据系统及客户端需求，将前100条记录返回给客户端。客户端利用完整的用户兴趣模型对结果进行再排序，将最终结果呈现给用户。之后，用户可以通过交互的方式将相应的兴趣爱好数据反馈给系统以更新用户兴趣模型。
权利要求
1、一种个性化搜索环境中用户隐私数据的保护方法，其特征在于，该方法的步骤如下1)选择一种用户兴趣数据的建模方法，构建用户兴趣数据基本结构，建立用户兴趣模型表示用户的兴趣爱好；2)基于步骤1)中用户兴趣模型的基础上，定义衡量用户隐私数据的尺度，以及基于该尺度下用户对于隐私的控制方法；3)基于步骤1)用户兴趣模型的基础上在个性化环境中定义搜索结果的个性化排序方法，实现搜索结果的个性化；4)在步骤1)、步骤2)、步骤3)以及个性化搜索服务系统上，建立分段式信息处理系统，实现隐私安全的个性化搜索。
2、根据权利要求1所述的一种在个性化搜索环境中用户隐私数据的保护方法，其特征在于所述步骤l)中的建模方法将原始的非结构化用户兴趣数据结构化，表示成计算机系统易理解与处理的形式；建立的用户兴趣模型应具有以下特点a)基于树状结构，具有语义的上下层次关系；b)实现用户兴趣数据的动态更新。
3、根据权利要求1所述的一种在个性化搜索环境中用户隐私数据的保护方法，其特征在于所述步骤2)中衡量用户隐私数据的尺度应实现用户隐私程度的模糊量化，以数值区间的形式提供给用户选择。
4、根据权利要求1所述的一种在个性化搜索环境中用户隐私数据的保护方法，其特征在于所述步骤3)中的个性化排序方法应利用用户兴趣模型信息并综合考虑原始搜索结果的排序情况以及个性化匹配的排序情况。
5、根据权利要求1所述的一种在个性化搜索环境中用户隐私数据的保护方法，其特征在于所述步骤4)的具体实施应满足如下需求1) 所建立的层次化信息处理系统，应满足搜索结果的个性化在服务器与客户端分别处理；2) 所建立的层次化信息处理系统，应满足服务器端对搜索结果进行第一次排序。然后根据具体的应用需求，对中间搜索结果进行相应的选择并传送至客户端，进行再排序，确定最终排序结果；3) 用户兴趣模型的使用a)在服务器端进行排序时，使用的只是经过用户安全认可的部分用户兴趣模型;b)在客户端进行排序时，使用完整的用户兴趣模型。
全文摘要
本发明公开了一种在个性化搜索环境中用户隐私数据的保护方法。通过构建基于上下层次结构的树状用户兴趣模型，在不改动原有搜索引擎的基础上，实现了搜索结果在服务器端与客户端分别排序。对用户兴趣模型的动态更新，使得系统获取的用户兴趣数据更加实时与准确。提供了一种用户隐私暴露程度的量化方法，用户可实现隐私泄露的自我控制，实现了个性化搜索质量与隐私保护的权衡。搜索结果在服务器与客户端，基于用户兴趣模型分别排序的方式，使得服务器根据需求在一定范围内选择与调整中间搜索结果，可以有效地提高系统的性能并且适用于搜索环境受限制的情况。
文档编号G06F17/30GK101667199SQ200910152878
公开日2010年3月10日申请日期2009年9月18日优先权日2009年9月18日
发明者寿黎但, 皮俊波, 胡天磊, 刚陈, 珂陈申请人:浙江大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡天磊;陈珂;陈刚;寿黎但;皮俊波
技术所有人：浙江大学
我是此专利的发明人

上一篇：搜索引擎中包含web对象的聚类方法
上一篇：实时垂直搜索引擎对象缓存优化方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。