使用户人群统计信息混淆的方法和装置的制造方法

文档序号：8323953阅读：198来源：国知局

使用户人群统计信息混淆的方法和装置的制造方法
【专利说明】
[0001] 相关申请的交叉引用
[0002] 本申请要求2012年6月21日递交的题为"Method and Apparatus For Obfuscating User Demographics Based on Ratings (基于评级使用户人群统计信息混淆的方法和装置）"的美国临时申请No. 61/662, 618的优先权，出于所有目的而将其整体内容通过引用方式并入本文。
技术领域
[0003] 本发明一般地涉及推荐系统中的用户建档和用户隐私。更具体地，本发明涉及人群统计信息推断。
【背景技术】
[0004] 已经在不同环境中并针对各种类型的用户生成数据研究了对用户人群统计信息的推断。在交互网络的环境中，已经表明图结构对使用博客的基于链接的信息和来自 Facebook的社交网络数据来推断人群统计信息是有用的。其他工作依赖于从用户的作品推导出的文本特征来推断人群统计。
[0005] 基于文本进行推断的主要缺点是大多数用户不提供书面评论，因此这些方法不适用。类似地，推荐系统可能不能找到它们想要推断细节的用户的社交网络。
[0006] 可以看到，期望基于尽可能少信息的用户人群统计推断方法。本发明涉及这种推断方法。

【发明内容】

[0007] 本
【发明内容】
部分旨在以简化形式介绍一些概念，这些概念在以下【具体实施方式】部分中进一步描述。本
【发明内容】
部分并非意在标识所请求保护的主题的关键特征或必要特征，且并非意在用来限制所请求保护的主题的范围。
[0008] 本发明包括一种用于使人群统计信息混淆的方法和装置，人群统计信息可以根据用户对数字内容的评级来确定。在一个实施例中，可以根据用户的电影评级确定性别信息。为了解决隐私问题，提出了混淆方法和装置。混淆方法包括：训练与混淆引擎进行通信的推断引擎。推断引擎使用训练数据集合确定人群统计信息，训练数据集合包括来自多个其他用户的电影评级和人群统计信息。然后，接收到来自新用户的电影评级，其中所接收的来自该特定用户的电影评级不具有人群统计信息。使用经训练的推断引擎确定新用户的人群统计信息。然后将额外电影评级添加到用户生成评级。额外评级被生成为不利于发现用户的人群统计信息（在由外部推断引擎执行的情况下）。外部推断引擎可以是推荐系统的一部分，推荐系统推荐电影供用户观看。
[0009] 根据以下参考附图对示意性实施例的详细描述中，本发明的额外特征和优点将变得清楚明白。
【附图说明】
[0010] 当结合附图阅读时，可以更好地理解上述
【发明内容】
部分和以下对示意性实施例的详细描述，附图仅作为示例，而绝不是要限制所请求保护的发明。
[0011] 图1示出了根据本发明方面的针对推断引擎的示例性环境实施例；
[0012] 图2a示出了针对Flixster训练数据集合的不同分类器的接收机操作特性（ROC) 图；
[0013] 图2b示出了针对Movielens训练数据集合的不同分类器的接收机操作特性（ROC) 图；
[0014] 图2c示出了准确度随Flixster训练数据集合大小的增加；
[0015] 图2d示出了针对Flixster置信度的累积分布函数（CDF);
[0016] 图3示出了根据本发明方面的推断引擎的使用的示例流程图；
[0017] 图4示出了根据本发明方面的示例推断引擎；
[0018] 图5a示出了混淆引擎环境的第一实施例示例；
[0019] 图5b示出了混淆引擎环境的第二实施例示例；
[0020] 图5c示出了根据本发明方面的示例混淆引擎；以及
[0021] 图6示出了根据本发明方面的混淆引擎的使用的示例流程图。
【具体实施方式】
[0022] 在以下各种示意性实施例的描述中，参考了形成各种示意性实施例的一部分的附图，在附图中通过示意性方式示出了可以实现本发明的多种实施例。应当理解，在不脱离本发明的范围的前提下，可以利用其他实施例，并且可以作出结构性和功能性修改。
[0023] 通过人群统计信息（例如性别、年龄、收入或种族）对用户建档对于针对性广告和个性化内容传递很重要。推荐系统也可以受益于这种信息来提供个性化推荐。然而，推荐系统的用户通常不自愿提供这种信息。这可能是有意的（为了保护他们的隐私）或无意的 (出于懒惰或不感兴趣）。因此，从由于从多个用户收集用户评级而出现的模式中提取有意义信息的传统协作过滤方法避免使用这些信息，而是仅依赖于用户提供的评级。
[0024] 乍一看，向推荐系统公开评级可能是相当无害的动作。当然存在用户从这种公开中获益的效用，即，发现相关内容/项目的能力。然而，大量工作已经表明用户人群统计信息与用户在社交网络、博客和微博等上的动作有关并因此可以从中推断出用户人群统计信息。因此，自然会问从向协作过滤系统公开的信息中是否还可以推断出诸如年龄、性别、种族或甚至政治倾向等人群统计信息。实际上，不论评级值，仅仅用户已经与事项交互的事实 (例如观看特定电影、收听特定歌曲或购买产品）就可以与人群统计信息相关。
[0025] 这种推断的潜在成功具有若干重要意义。一方面，从推荐者的角度看，关于人群统计信息对用户建档开启了通往若干应用的道路；除了推荐之外，这种建档可以通过广告生成额外收入，因为广告商主要兴趣在于针对特定的人群。本发明涉及这种推断技术。假定用户希望推断的信息是他们的性别；然而，当推断不同的人群统计特征（年龄、种族、政治倾向等）时本发明的方法同样可以应用。此外，尽管具体实施例涉及对电影的评级，但这仅是一个示例。可以使用任意类型的评级（包括但不限于对歌曲、数码游戏、产品、餐馆等的评级）。为了理解的简单和清楚起见，主要使用用电影评级来确定人群统计信息的示例，但其他类型的评级同样适用。
[0026] 图1示出了本文所讨论的推断引擎的示例性系统100或环境。其他环境是可能的。图1的系统100示出了推荐系统130,推荐系统130向网络120上的用户提供内容推荐。推荐系统的典型示例包括由内容提供商（例如NetHiX?、Hulu?、Amazon?等）运营的内容推荐系统。通常，推荐系统100向订阅用户提供候选数字内容。这种内容可以包括流视频、DVD邮寄、书、文章和商品。在流视频的一个示例实例中，可以基于用户过去的电影选择或选择用户简档特性，向用户推荐候选电影。作为一个示例实施例，考虑流视频的实例。
[0027] 在本发明的上下文中，推断引擎135可以是根据向推荐系统130发送电影评级的用户125提供的非人群统计信息来推断人群统计信息的数据处理设备。推断引擎135工作用于对由用户125提供的电影评级进行处理并推断人群统计信息。在一个示例实例中，所时论的人群统计信息是性别。但本领域技术人员应认识到，根据本发明的方面，还可以推断其

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：斯姆瑞蒂·巴哈特;尤迪·魏恩斯贝格;斯特拉蒂斯·约安尼季斯;尼娜·塔夫脱;
技术所有人：汤姆逊许可公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。