使用户人群统计信息混淆的方法和装置的制造方法

文档序号:8323953阅读:198来源:国知局
使用户人群统计信息混淆的方法和装置的制造方法
【专利说明】
[0001] 相关申请的交叉引用
[0002] 本申请要求2012年6月21日递交的题为"Method and Apparatus For Obfuscating User Demographics Based on Ratings (基于评级使用户人群统计信息混淆 的方法和装置)"的美国临时申请No. 61/662, 618的优先权,出于所有目的而将其整体内容 通过引用方式并入本文。
技术领域
[0003] 本发明一般地涉及推荐系统中的用户建档和用户隐私。更具体地,本发明涉及人 群统计信息推断。
【背景技术】
[0004] 已经在不同环境中并针对各种类型的用户生成数据研究了对用户人群统计信 息的推断。在交互网络的环境中,已经表明图结构对使用博客的基于链接的信息和来自 Facebook的社交网络数据来推断人群统计信息是有用的。其他工作依赖于从用户的作品推 导出的文本特征来推断人群统计。
[0005] 基于文本进行推断的主要缺点是大多数用户不提供书面评论,因此这些方法不适 用。类似地,推荐系统可能不能找到它们想要推断细节的用户的社交网络。
[0006] 可以看到,期望基于尽可能少信息的用户人群统计推断方法。本发明涉及这种推 断方法。

【发明内容】

[0007] 本
【发明内容】
部分旨在以简化形式介绍一些概念,这些概念在以下【具体实施方式】部 分中进一步描述。本
【发明内容】
部分并非意在标识所请求保护的主题的关键特征或必要特 征,且并非意在用来限制所请求保护的主题的范围。
[0008] 本发明包括一种用于使人群统计信息混淆的方法和装置,人群统计信息可以根据 用户对数字内容的评级来确定。在一个实施例中,可以根据用户的电影评级确定性别信息。 为了解决隐私问题,提出了混淆方法和装置。混淆方法包括:训练与混淆引擎进行通信的推 断引擎。推断引擎使用训练数据集合确定人群统计信息,训练数据集合包括来自多个其他 用户的电影评级和人群统计信息。然后,接收到来自新用户的电影评级,其中所接收的来自 该特定用户的电影评级不具有人群统计信息。使用经训练的推断引擎确定新用户的人群统 计信息。然后将额外电影评级添加到用户生成评级。额外评级被生成为不利于发现用户的 人群统计信息(在由外部推断引擎执行的情况下)。外部推断引擎可以是推荐系统的一部 分,推荐系统推荐电影供用户观看。
[0009] 根据以下参考附图对示意性实施例的详细描述中,本发明的额外特征和优点将变 得清楚明白。
【附图说明】
[0010] 当结合附图阅读时,可以更好地理解上述
【发明内容】
部分和以下对示意性实施例的 详细描述,附图仅作为示例,而绝不是要限制所请求保护的发明。
[0011] 图1示出了根据本发明方面的针对推断引擎的示例性环境实施例;
[0012] 图2a示出了针对Flixster训练数据集合的不同分类器的接收机操作特性(ROC) 图;
[0013] 图2b示出了针对Movielens训练数据集合的不同分类器的接收机操作特性(ROC) 图;
[0014] 图2c示出了准确度随Flixster训练数据集合大小的增加;
[0015] 图2d示出了针对Flixster置信度的累积分布函数(CDF);
[0016] 图3示出了根据本发明方面的推断引擎的使用的示例流程图;
[0017] 图4示出了根据本发明方面的示例推断引擎;
[0018] 图5a示出了混淆引擎环境的第一实施例示例;
[0019] 图5b示出了混淆引擎环境的第二实施例示例;
[0020] 图5c示出了根据本发明方面的示例混淆引擎;以及
[0021] 图6示出了根据本发明方面的混淆引擎的使用的示例流程图。
【具体实施方式】
[0022] 在以下各种示意性实施例的描述中,参考了形成各种示意性实施例的一部分的附 图,在附图中通过示意性方式示出了可以实现本发明的多种实施例。应当理解,在不脱离本 发明的范围的前提下,可以利用其他实施例,并且可以作出结构性和功能性修改。
[0023] 通过人群统计信息(例如性别、年龄、收入或种族)对用户建档对于针对性广告和 个性化内容传递很重要。推荐系统也可以受益于这种信息来提供个性化推荐。然而,推荐 系统的用户通常不自愿提供这种信息。这可能是有意的(为了保护他们的隐私)或无意的 (出于懒惰或不感兴趣)。因此,从由于从多个用户收集用户评级而出现的模式中提取有意 义信息的传统协作过滤方法避免使用这些信息,而是仅依赖于用户提供的评级。
[0024] 乍一看,向推荐系统公开评级可能是相当无害的动作。当然存在用户从这种公开 中获益的效用,即,发现相关内容/项目的能力。然而,大量工作已经表明用户人群统计信 息与用户在社交网络、博客和微博等上的动作有关并因此可以从中推断出用户人群统计信 息。因此,自然会问从向协作过滤系统公开的信息中是否还可以推断出诸如年龄、性别、种 族或甚至政治倾向等人群统计信息。实际上,不论评级值,仅仅用户已经与事项交互的事实 (例如观看特定电影、收听特定歌曲或购买产品)就可以与人群统计信息相关。
[0025] 这种推断的潜在成功具有若干重要意义。一方面,从推荐者的角度看,关于人群统 计信息对用户建档开启了通往若干应用的道路;除了推荐之外,这种建档可以通过广告生 成额外收入,因为广告商主要兴趣在于针对特定的人群。本发明涉及这种推断技术。假定 用户希望推断的信息是他们的性别;然而,当推断不同的人群统计特征(年龄、种族、政治 倾向等)时本发明的方法同样可以应用。此外,尽管具体实施例涉及对电影的评级,但这仅 是一个示例。可以使用任意类型的评级(包括但不限于对歌曲、数码游戏、产品、餐馆等的 评级)。为了理解的简单和清楚起见,主要使用用电影评级来确定人群统计信息的示例,但 其他类型的评级同样适用。
[0026] 图1示出了本文所讨论的推断引擎的示例性系统100或环境。其他环境是可能的。 图1的系统100示出了推荐系统130,推荐系统130向网络120上的用户提供内容推荐。推 荐系统的典型示例包括由内容提供商(例如NetHiX?、Hulu?、Amazon?等)运营的 内容推荐系统。通常,推荐系统100向订阅用户提供候选数字内容。这种内容可以包括流 视频、DVD邮寄、书、文章和商品。在流视频的一个示例实例中,可以基于用户过去的电影选 择或选择用户简档特性,向用户推荐候选电影。作为一个示例实施例,考虑流视频的实例。
[0027] 在本发明的上下文中,推断引擎135可以是根据向推荐系统130发送电影评级的 用户125提供的非人群统计信息来推断人群统计信息的数据处理设备。推断引擎135工作 用于对由用户125提供的电影评级进行处理并推断人群统计信息。在一个示例实例中,所 时论的人群统计信息是性别。但本领域技术人员应认识到,根据本发明的方面,还可以推断 其
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1