自动生成推荐的方法和装置制造方法

文档序号:6496843阅读:159来源:国知局
自动生成推荐的方法和装置制造方法
【专利摘要】一种向用户推荐内容项的推荐引擎(100)包含:个人资料生成单元,其含有预备个人资料输入单元(110),其被配置成接收预备个人资料数据,其包含适合标识给定用户感兴趣的实体的预备个人资料文本数据,以及含有预备个人资料分析单元(112),其与该预备个人资料输入单元(110)连接,并配置成从预备个人资料数据中提取标识感兴趣的实体的标识数据,和从所提取标识数据中为给定用户生成初始用户个人资料数据集;询问生成单元(120),其与该个人资料生成单元连接,并配置成使用从初始用户个人资料数据集中所提取标识数据生成语义上相互不同以便指向至少一个内容存储库的至少两个询问;内容检索单元(128),其与该询问生成单元(120)连接,并配置成将生成的询问发给至少一个内容存储库(122)和配置成响应该询问,从至少一个内容存储库接收包含各自目标列表的内容相关响应数据,该目标列表含有指示各自内容项的存储地点的至少一个各自内容地点标识符;以及交织单元(132),其与该内容检索单元连接,并配置成通过相互交织包含在不同几个目标列表中的内容地点标识符从不同目标列表中生成单个推荐列表。
【专利说明】自动生成推荐的方法和装置
[0001]本发明涉及向用户推荐内容项的推荐引擎、内容存储库、操作向用户推荐内容项的推荐引擎的方法、和计算机可读存储介质。
[0002]自动推荐系统常常用于帮助用户选择适合他们口味的项目。从个人可以从中选择的一大组项目中,推荐系统作出适合给定用户的口味的选择。
[0003]在推荐系统可以给定真正个性化的推荐之前,首先必须了解用户的口味。为此,用户通常必须评价若干项目,例如,指定他喜欢或不喜欢若干项目的程度。
[0004]推荐系统可大致分为两类,即基于内容的推荐系统和基于协同过滤的推荐器。对于第一种类型,必须通过若干特征来表征项目。例如,可以通过标题、风格、导演、演员等表征电影。然后可以将用户的评价历史(若干项目的喜欢或不喜欢的指定)用于估计特征值与用户喜欢具有这些特征值的项目的概率之间的关联。相反,使用协同过滤的推荐系统使用大型用户群体的评价,以便从中提取用户之间的相似性(因为他们喜欢/不喜欢相同项目)或项目之间的相似性(因为相同用户喜欢/不喜欢它们)。然后将这个信息用于推荐与用户已经指定了喜欢的项目类似的项目,或推荐与给定用户类似的用户喜欢(但给定用户还未看到过或购买过)的项目。协同过滤做法无需用特征值表征项目。
[0005]过去几年来,像Facebook和LinkedIn那样的社交网络服务的普及性大大提高。这些服务支持用户容易地与朋友、家人或同事交流思想、兴趣等。这些服务还向用户提供了通过“喜欢”诸如电影、音乐、名人、机构、产品等的实体表达它们的兴趣的可能性。这些实体的每一个通过给出特定实体的进一步细节的网页来指定。例如,Facebook拥有可以供用户搜索的这些实体的巨大集合。
[0006]假设用户想表达他或她对给定实体的兴趣。如果已经存在有关这个实体的网页,则用户可以简单地按相应“喜欢”按钮,将与这个网页相对应的链接加入用户的个人资料中。如果没有合适的网页表达他或她感兴趣的实体,则用户可以通过另外添加有关该实体的文本信息创建这样的网页。对于许多实体来说,可以从维基百科或其它资源中提取这个信息,提供详细的高质量信息。
[0007]对于上述的两类推荐系统,对推荐系统来说是新人的用户首先必须在推荐器可以生成有用个性化推荐之前评价若干项目。这可能妨碍推荐系统的广泛使用,因为用户可能并不总是愿意一开始就把时间和精力投入到向系统“说明”他们的口味中。而是,用户期望马上推荐。推荐系统能够随时间了解用户的口味,但在那种情况下,不能一开始就最佳地将推荐转给特定用户。
[0008]解决这个问题的一种方式是让推荐系统一开始就推荐许多用户喜欢的项目。但是,关键用户可能意识不到这些推荐非常宝贵,他或她可能在推荐系统能够调整它的推荐之前停止使用推荐系统。
[0009]在如下文献中找到了另一种做法:Chumki Basu ET AL: "Technical paperrecommendation:A study in combining multiple information sources'Journal ofArtificial Intelligence Researchl, ljanuary2001 (2001-01-01),pages231_252。在这篇文章中,提出了使用WHIRL系统从多个信息源中检索目标。[0010]按照本发明的第一方面,一种向用户推荐内容项的推荐引擎包含:
[0011]-个人资料生成单元,其含有预备个人资料输入端,其被配置成从该推荐系统外部的数据库接收预备个人资料数据,其包含适合标识给定用户感兴趣的实体的预备个人资料文本数据,以及含有预备个人资料分析单元,其与该预备个人资料输入端连接,并配置成从预备个人资料数据中提取标识感兴趣的实体的标识数据,和从所提取标识数据中为给定用户生成初始用户个人资料数据集;
[0012]-询问生成单元,其与该个人资料生成单元连接,并配置成使用所提取标识数据从初始用户个人资料数据集中生成语义上相互不同以便指向至少一个内容存储库的至少两个询问;
[0013]-内容检索单元,其与该询问生成单元连接,并配置成将生成的询问发给至少一个内容存储库和配置成响应该询问,从至少一个内容存储库接收包含各自目标列表的内容相关响应数据,该目标列表含有指示各自内容项的存储地点的至少一个各自内容地点标识符;以及
[0014]-交织单元,其与该内容检索单元连接,并配置成通过相互交织包含在不同几个目标列表中的内容地点标识符从不同目标列表中生成单个推荐列表。
[0015]该交织单元组合源自语义上相互不同的至少两个显性询问的目标列表。换句话说,交织至少两个目标列表,以生成如与使用单个选言询问相反的推荐列表。导致不同目标列表的多个语义上不同询问的显性创建产生了对单独列表应用高级交织算法,例如,以便在所得列表中达到足够程度的多样性的可能性。
[0016]本发明的第一方面的推荐引擎基于通过根据从外部数据库接收、本文称为预备个人资料数据的用户相关数据,自动创建初始用户个人资料,能够生成给予新用户的内容项的推荐的构思。推荐引擎的新用户可以,例如,在已知其例子有商标Facebook或LinkedIn的电子社交网络的数据库中在他或她的帐户下访问数据。存在许多其它这样的电子社交网络。
[0017]电子社交网络包含有关像如下那样的实体的用户特定数据:个人、艺术家、人群、城市、国家、俱乐部、政党、公司、思想、理论、科学、包罗万象的东西、游戏、艺术作品,例如,音乐作品、电影、戏剧、文章、书籍、照片、版画、油画、艺术的风格、事件、活动、体育等。术语“实体”在本申请中用于指给定用户的任何这样可识别兴趣。
[0018]于是,本发明的推荐引擎通过根据像电子社交网络那样,推荐引擎外部的环境中用户的归档活动作出推荐,强有力地加速了解用户口味的过程。同时,本发明通过交织来自推荐引擎检索的、本文也称为目标列表的不同内容列表推荐,识别并克服用户早期使用推荐引擎的另一个主要问题。这种交织提高了如可以通过生成的推荐的总使用频率来度量,尤其对于推荐列表的顶部区域来说,是推荐引擎的重要功能要求的推荐的多样性。因此,本发明的推荐引擎不仅能够在单个列表中向用户展示用户已经知道的推荐,而且通过交织源自两个语义上不同询问的推荐,向用户展示多样的一组推荐。
[0019]因此,通过为给定用户组合输入预备个人资料数据的自动评估和来自不同内容目标列表的推荐的交织,本发明的推荐引擎无需拟订输入或与用户有关他或她的口味的初始交互地一开始马上就可以从推荐系统中实现推荐对用户的实际兴趣和期望的密切依从性。因此这两项措施在第一次与给定用户交互之后马上就强有力地协同加速推荐引擎的用户特定了解过程。一开始马上就向其提供与他或她的兴趣接近的推荐的感兴趣用户会更频繁地交互,因此更快地提供细化初始个人资料数据集所需的信息。这又提高了对推荐的质量和适当性的总体认知,并为用户传达更好的产品体验。
[0020]在下文中,将描述本发明的第一方面的推荐引擎的实施例。可以相互结合不同实施例的另外特征以形成进一步实施例,除非在本说明书中明确加以排除。
[0021 ] 优选的是,该推荐引擎按照关联性分类推荐。为此目的,该内容检索单元在一个实施例中被进一步配置成响应询问检索与各自内容地点标识符相联系的内容文本数据。这样,预备个人资料数据与内容文本数据之间的文本相关性可以用于自动评估关联性。为此目的,一个实施例包含与该内容检索单元连接并配置成执行如下步骤的排序单元:
[0022]-对响应至少两个询问的每一个接收的内容地点标识符指定基于评估预备个人资料文本数据与内容文本数据之间的文本相关性的相似性准则的关联性指示符;
[0023]-按照如该关联性指示符所表达的关联性分类目标列表;以及
[0024]-将所分类目标列表提供给该交织单元。
[0025]因此,该排序单元与其它排序做法的不同之处在于该排序不是基于用户个人资料(如在现有技术中那样)而是基于预备个人资料数据,例如,根据可以从,例如,社交网络中检索的用户相关数据。
[0026]在另一个实施例中,该个人资料生成单元包含对要包括在询问中的至少一个关键字的各自集合按照至少一条实体分类准则指定各自一类实体的分类数据库。
[0027]-其中该个人资料生成单元被配置成依照该分类数据库对标识各自感兴趣实体的所提取标识数据指定至少一个类别;以及
[0028]-其中该询问生成单元被配置成依照该分类数据库使用各自标识数据和指定给各自一类标识数据的至少一个关键字生成询问。
[0029]这个实施例的优点通过如下应用例子例示出来:知道在预备个人资料数据中识别的实体是个人可以通过本实施例的推荐引擎给出将人名与关键字“采访”或“传记”组合的询问。当发给像YouTube或维基百科那样的内容提供商的内部存储库时,这些询问可以导致包含对该人士的采访的视频或包含有关给定人士的传记材料的网络被推荐。
[0030]在进一步的实施例中,该预备个人资料分析单元被进一步配置成按其语言分类预备个人资料文本数据,并在其输出端上提供指示用在预备个人资料文本数据中的各自语言的至少一个语言标识符。这个实施例的推荐引擎的分类数据库包含不同语言的关键字。该询问生成单元被配置成使用与语言标识符相对应的语言的关键字生成询问。例如,如果实体涉及法国作家,则在询问中将作家的姓名与“6crit par”组合而不是与“written by”组合,以找出他或她写的书。在这个实施例的变体中,该询问生成单元另外被配置成如果对于各自类别在分类数据库中不存在所指定其它语言的关键字,则使用默认语言的关键字生成询问。
[0031]为了进一步提高生成的推荐列表的多样性,该询问生成单元在一个实施例中被配置成将感兴趣的至少两个实体的所提取标识数据包括在询问中。
[0032]在另一个实施例中,该个人资料生成单元被配置成在个人资料数据中检索与广域数据网络的网络地点上的内容资源的资源链接,访问该内容资源,并将可从该内容资源中获得的文本数据加入预备个人资料文本数据中。这样的链接通常指语义上与原始“喜欢”实体有关的实体。例如,如果原始“喜欢”实体是电影导演,则链接通常指定他或她执导的电影的名称。对于作家,它们可以指定他或她写的书。链接也可以指相关艺术家或通常与“喜欢”实体相联系的艺术运动的类型。因此,通过生成将这些部分与像“written by”、“influenced by”等那样的可能不同另外定向关键字组合的特定询问,以及通过将这些询问发给特定内容存储库,使用可以在文本描述中找到的各种潜在链接获取大范围返回结果O
[0033]在这个实施例的变体中,该个人资料生成单元可替代地或另外被配置成针对通过像粗体外观等那样,标记标签除了标识链接的那些之外的类型强调的分段扫描预备个人资料数据。
[0034]为了进一步改善推荐生成,该推荐引擎的一个实施例的个人资料生成单元被配置成从预备个人资料数据中提取通过如外部数据库所指定的它们的生成日期相互区分的预备个人资料文本数据的不同子集,以及从该子集中提取生成该子集的各自日期。这使得可以按照它们的生成日期过滤子集。这个实施例的排序单元优选的是又配置成将权重应用于关联性指示符,越多地增加关联性指示符的权重,生成与属于给定感兴趣实体的给定内容地点有关的各自一个子集的日期就越近。
[0035]在进一步的实施例中,该预备个人资料分析单元被配置成从预备个人资料文本数据中检测指示给定用户或按照外部数据库与给定用户有关的某个其它实体(通常是个人)喜欢一个实体/项目的关键字的存在,以及对初始用户个人资料数据集中的各自实体/项目指定“喜欢”指示符。这个实施例的排序单元优选的是被配置成将权重应用于关联性指示符,如果给定感兴趣实体/项目含有相关“喜欢”指示符,则增加关联性指示符的权重。
[0036]在该推荐引擎的进一步实施例中,该排序单元被配置成评估预备个人资料文本数据与内容文本数据之间的文本相关性的数值。优选的是,使用词频-逆文档频率权重,在下文中,tf-1df权重评估文本相关性。这个实施例的实现可以使评估基于包含在预备个人资料数据中和包含在内容文本数据中的一组词汇。例如,可以识别以及一方面为预备个人资料文本数据和另一方面在内容文本数据中准备超过预定tf-1df权重的词汇。另外或可替代地,出现在两种类型的文本数据中的词汇的tf-1df权重的数字上预定义相似性准则可以用于评估文本相关性。
[0037]在一个实施例中实现了加权目标的关联性的另外或可替代做法,其中该排序单元被配置成根据评估在询问中检索到的不同内容项的内容文本数据之间的文本相关性的相似性准则加权关联性指示符。在这个实施例中,如果要针对关联性评估的内容项与前一次评估的内容项存在文本相关性,该文本相关性超过预定数值,则减小关联性指示符的权重。这个实施例进一步提高了所生成推荐列表的多样性,因为按照它们的文本相关性具有高相互相似性的查询结果被评估为不是同等关联的,从而对于要生成的单个推荐列表,只自动偏选相互相似查询结果之一。
[0038]在进一步的实施例中,该推荐引擎进一步包含验证单元,其被配置成经由用户输入界面接收适合访问外部数据库的用户验证数据。该个人资料生成单元被配置成访问该外部数据库以检索预备个人资料数据。
[0039]为了使用户个人资料继续适用,除了该个人资料生成单元之外,该推荐引擎的另一个实施例进一步包含个人资料维护单元。该个人资料维护单元被配置成从检索的内容文本数据中为另外实体提取另外标识数据。该个人资料维护单元优选的是进一步配置成一旦检测到超过预定阈值的预备个人资料文本数据与内容文本数据之间的文本相关性的数值,就将提取的另外标识数据加入用户个人资料数据集中。因此在这个实施例中通过进一步维护初始生成的用户个人资料,使用户个人资料进一步适用。
[0040]本发明的第二方面由内容存储库形成,其包含:
[0041]-以存储在内容地点上的数据文件的形式包含内容项的内容数据库;以及
[0042]-按照本发明的第一方面或按照公开在包括权利要求书的本说明书中的其实施例之一的推荐引擎。
[0043]在本发明的第二方面的内容存储库中,该推荐引擎的内容检索单元被配置成将生成的询问发给内容数据库。基本上不排除将生成的询问发给本发明的当前方面的内容存储库未包含的其它外部内容数据库。但是,在一个实施例中,询问的发给事实上不局限于内容存储库本身的内容数据库。
[0044]内容存储库的实施例包含按照本发明的第一方面的推荐引擎的至少一个实施例。本发明的第二方面的内容存储库的优点及其实施例因此对应于上面在本发明的第一方面的各自背景下所述的那些,因此在当前背景下不再重复。
[0045]按照本发明的第三方面,一种操作向用户推荐内容项的推荐引擎的方法包含:
[0046]-从该推荐系统外部的数据库接收预备个人资料数据,其包含适合标识给定用户感兴趣的实体的预备个人资料文本数据;
[0047]-从预备个人资料数据中提取标识感兴趣的实体的标识数据;
[0048]-从所提取标识数据中为给定用户生成初始用户个人资料数据集;
[0049]-使用所提取标识数据从初始用户个人资料数据集中生成语义上相互不同以便指向至少一个内容存储库的至少两个询问;
[0050]-将生成的询问发给至少一个内容存储库;
[0051]-响应该询问,从至少一个内容存储库接收包含各自目标列表的内容相关响应数据,该目标列表含有指示各自内容项的存储地点的至少一个各自内容地点标识符;以及
[0052]-通过相互交织包含在不同几个目标列表中的内容地点标识符从不同检索目标列表中生成单个推荐列表。
[0053]第三方面的方法密切地对应于本发明的第一方面的推荐引擎的功能。因此,有关其优点和实施例的描述,请参考本说明书和权利要求书中对本发明的第一方面的推荐引擎及其各种实施例的描述。
[0054]本发明的第四方面由存储可执行程序代码的计算机可读存储介质形成,该程序代码实现按照本发明的第三方面的控制向用户推荐内容项的推荐引擎的操作的方法或其实施例之一。
[0055]本发明的优选实施例还定义在所附权利要求书中。本发明的前述和其它方面将从下文所述的实施例中明显看出以及针对下文所述的实施例得以阐明。在附图中:
[0056]图1示出了按照一个实施例的推荐引擎以及内容存储库的框图;以及
[0057]图2示出了按照进一步实施例操作推荐引擎的方法的流程图。
[0058]图1示出了按照一个实施例的推荐引擎的框图。下面还将进一步使用图1来说明内容存储库的实施例。[0059]图1的推荐引擎100 —般用于向用户推荐内容项。用户操作内容显示设备102。本实施例的推荐引擎100像在物理上与显示设备102分开的设备那样操作。换句话说,在本实施例中,显示设备在推荐引擎100的外部。在另一个有用实施例中,将推荐引擎与内容显示设备102集成在一起。在这些实施例的任何一个中,推荐引擎100和内容显示设备102都可通信地相互连接。
[0060]也可以在推荐引擎100与用户终端设备104之间建立通信连接,用户终端设备104通常是像台式计算机、像笔记本电脑那样的移动计算机、或智能电话那样某种形式的计算机。终端设备104和内容显示设备102在许多应用情况中被集成在一个单独设备中。但是,为了清楚表示它们与推荐引擎I交互的功能起见,图1将它们显示成分开方块,还指出了它们事实上可以在物理上分开的设备上实现。
[0061]终端设备104被配置成与电子社交网络的数据库106交换信息。众所周知,用户可以应用终端设备104来输入,因此向社交网络,即就本描述而言,向数据库106发送他的个人信息、评论、偏爱项目(“喜欢”)、与网站的链接等,以及从社交网络的其他用户(他的“朋友”)接收类似输入。
[0062]如下面进一步所述,终端设备104也可以用于与推荐引擎100交互。
[0063]推荐引擎100包含个人资料生成单元108。个人资料生成单元108被划分成预备个人资料输入单元110,其可通信地可与数据库106或(未显示在图1中)终端设备104,或两者连接。预备个人资料输入端被配置成接收预备个人资料数据,其包含适合标识给定用户感兴趣的实体的预备个人资料文本数据。例如,预备个人资料数据可以包含通常用像html或xml那样的标记语言写成、通过帖子、评论、其它类型的文本或文本片段、链接指定用户感兴趣的实体以便使用万维网浏览器软件显示、和也使用社交网络的提供商向用户展示的万维网浏览器界面由用户经由他对数据库106的输入保持的个人“喜欢”页面,即,代码。
[0064]个人资料生成单元108进一步包含预备个人资料分析单元112,其与预备个人资料输入单元110的输入端连接,并配置成从预备个人资料数据中提取标识感兴趣的实体的标识数据,和从所提取标识数据中为给定用户生成初始用户个人资料数据集。例如,指定给定用户“喜欢”的实体的网页通常包含像类别、实体的图像、“喜欢”实体的若干用户那样,几乎总是存在的若干特征。指定类别的文本通常是免费文本,即,它可以是任何文本片段,但可以识别像,例如,“音乐家/乐队”或“公众人物”那样大多数出现的类别。另外,提取“喜欢”页面包含大文本份额的部分。这些通常被表示成“描述”、“关于”等。针对指示链接、强调、粗体等的部分的特定标记标签扫描这些文本片段,这些部分通常指语义上与原始“喜欢”实体有关的实体。例如,如果原始“喜欢”实体是电影导演,则这些部分可以指定他或她执导的电影的名称。对于作家,它们可以指定他或她写的书。但是,这些特定部分也可以指相关艺术家或通常与“喜欢”实体相联系的艺术运动的类型。另外,像Facebook、YouTube和Twitter那样的许多社交媒体使用户可以在社交媒体上“张贴”也与项目有关的评论和信息,以便为朋友更新自己的活动或兴趣。包含在帖子或评论中的信息以及与这些帖子和评论相联系的“喜欢”(未必属于张贴评论的用户,而是属于朋友)也可以作为预备个人资料数据被预备个人资料分析单元用在生成初始用户个人资料数据集的过程中,以便用于生成给予用户的第一推荐。
[0065]为了识别朋友对“喜欢”实体的评论应该解释为正面的还是负面的,可以在本实施例的变体中,例如,由预备个人资料分析单元112寻找通常与正面情感相联系的词汇、和通常与负面情感相联系的词汇的出现分析评论的情感。
[0066]获取预备个人资料数据的选择是对推荐引擎装备验证单元,其被配置成经由用户输入界面接收适合访问数据库106的用户验证数据。因此,用户经由验证单元114向推荐引擎100公开他访问数据库106所需的用户验证信息。在这种情况下,个人资料生成单元108被配置成应用用户验证数据来访问外部数据库106,以便检索预备个人资料数据。
[0067]但是,配备验证单元112是推荐引擎100的非必要特征。预备个人资料数据可以由用户本身经由他或她的终端设备104来提供。例如,用户可以首先从各自社交网络下载个人数据的副本,然后经由预备个人资料输入单元110将该副本作为预备个人资料数据提供给推荐引擎。
[0068]推荐引擎100的个人资料生成单元108的个人资料分析单元112另外被配置成依照分类数据库116对标识感兴趣的各自实体的所提取标识数据指定至少一个类别。实体的类别可以,例如,通过指定像如下那样的属性来区分实体:个人、艺术家、人群、城市、州、国家、机构、俱乐部、政党、公司、思想、理论、科学、(包罗万象的)东西、游戏、艺术作品,例如,音乐作品、电影、戏剧、文章、书籍、照片、版画、油画、艺术的风格、事件、活动、体育等。分类数据库另外还对要包括在询问中的至少一个关键字的各自集合指定各自一类实体。
[0069]分类数据库116有利的是包含不同语言的关键字。如下面所进一步说明,这使得可以用他从若干可用语言中选择的优先语言向用户提供推荐。在个人资料生成单元的一侦牝这个特征通过预备个人资料分析单元112来支持,其被进一步配置成按其语言分类预备个人资料文本数据,并在其输出端上提供指示用在预备个人资料文本数据中的各自语言的至少一个语言标识符。
[0070]将个人资料生成单元生成的初始用户个人资料数据集存储在用户个人资料数据库118中。
[0071]推荐引擎100进一步包含询问生成单元120。询问生成单元120与个人资料生成单元108连接,并被配置成使用所提取标识数据从初始用户个人资料数据集中生成语义上相互不同以便指向至少一个内容存储库的至少两个询问。两个不同内容存储库在图1中用标号124和126表不,并且为了易于图形表不起见用标号122概括。为了描述本实施例的目的,假设内容存储库可由推荐引擎经由像互联网那样的公用通信网络访问。这样内容存储库的例子是,例如,像YouTube或维基百科那样的免费访问内容源,但也可以是像商业电影数据库那样的访问受限内容源。
[0072]通过生成将个人资料生成单元108标识成感兴趣实体的部分与像“written by”、“influenced by”等那样的不同另外定向关键字组合的特定询问,以及通过将这些询问发给特定内容存储库122,使用预备个人资料分析单元在文本描述中找到的各种潜在线索获取大范围返回结果。另外,由于如前所述,标识了用在文本描述中的语言,所以这有利地用于使用与用在标识感兴趣实体的那些部分中相同的关键字的语言生成询问。例如,如果实体涉及法国作家和相应“喜欢”页面,则有意义的是将作家的姓名与“6crit par”组合而不是与“written by”组合,以试图找出他或她写的书。询问生成单元120为此被配置成使用与语言标识符相对应的语言的关键字,或如果对于各自类别在分类数据库中不存在这种语言的关键字,则使用默认语言的关键字生成询问。[0073]与询问生成单元120连接的内容检索单元128被配置成将生成的询问发给至少一个内容存储库128以及响应该询问,从至少一个内容存储库128接收包含各自目标列表的内容相关响应数据,该目标列表含有指示各自内容项的存储地点的至少一个各自内容地点标识符。
[0074]注意,如个人资料生成单元108从预备个人资料文本数据中检索的“喜欢”实体的描述的广泛性将影响所发询问和返回结果的多样性。例如,假设Facebook的用户指定了他或她“喜欢”作曲家Mozart (莫扎特)。有关Mozart的Facebook页面包含,例如,指向像“Salzbrug”和“Vienna”那样的城市,而且还指向“Requiem”和“Constanze”的许多链接。可以在询问中与“Mozart”组合的这些术语的多样性给出了极其多样的结果。尤其,在这种情况下,包含关键字“Vienna”或“Salzbrug”的询问可能返回与Mozart毫无关系的结果。因此,加入过滤掉不应该推荐的无关结果的另外步骤是有利的。于是,本实施例的推荐引擎包含排序单元130,其与内容检索单元连接并被配置成对响应至少两个询问的每一个接收的内容地点标识符指定基于评估预备个人资料文本数据与内容文本数据之间的文本相关性的相似性准则的关联性指示符,按照如该关联性指示符所表达的关联性分类目标列表,以及在其输出端上提供所分类目标列表。
[0075]根据在可能针对不同内容存储库的多个询问中检索的结果,推荐引擎操作排序单元130。排序的目的是推荐的最终列表的顶部应该给出一组关联结构。结果的关联性通过确定结果与原始“喜欢”实体的文本相关性来建立。存在在现有技术中已知的识别内容相关性的若干做法。在本说明书中前面已经提及的称为tf-1df的做法常常用在实际中。使用矢量空间模型也是常见的,其中每个文本(或文档)用多维矢量表示,其中每维对应于出现在文本中的一个词汇。这样词汇矢量的项目通过如下计算:将相关词频(tf),S卩,给定词汇出现在文本中的次数除以文本中的词汇的总数乘以表达一个词汇多频繁地出现在文档的给定文集的一个文档中的逆文档频率(idf)。注意,一个文集是特定语言的。如前所述,从中生成询问的文本的语言被标识,并且可以用于选择适当文集来计算逆文档频率。这样,原始“喜欢”实体的文本和与给定结果相对应的文本两者可以被表示成高维空间中的矢量,这些矢量之间的余弦可以用作它们文本相关性的度量。
[0076]为了实现排序,我们可以按如下进行。设ql,...,qn是已经发送给内容存储库的询问的列表,对于每个qi,让R(qi)表示在发出qi时返回的结果的列表。现在,对于每个qi,我们可以按与原始“喜欢”实体的文本相关性减小的次序排序R(qi)中的结果。
[0077]在一些变体中排序也可能牵涉到将权重应用于评估的关联性指示符。根据用户对数据库106所作的不同输入的所提取生成日期,排序单元130可以按照各自用户输入的年龄将权重应用于关联性指示符。换句话说,越多地增加关联性指示符的权重,生成与属于给定感兴趣实体的给定内容地点有关的各自一个子集的日期就越近。例如,“喜欢”实体可以包含报告相应实体的最近新闻的新闻供应站。此外,在那里,为了重新排序结果,或甚至为了预先更多最近文本竹以便生成询问,可以通过对“喜欢”实体的最近添加物适当加权给予优先考虑。在另一种变体中,将预备个人资料分析单元配置成从预备个人资料文本数据中检测指示给定用户或与给定用户有关的某人喜欢实体的关键字的存在。因此可以对初始用户个人资料数据集中的各自实体指定“喜欢”指示符,并且排序单元可以将权重应用于关联性指示符,如果给定感兴趣实体含有相关“喜欢”指示符,则增加关联性指示符的权重。[0078]配备排序单元不是推荐引擎所强制的。例如,如果内容存储库已经根据用于询问的术语将排序应用于它们的目标列表,则在生成单个推荐列表的过程中可以省略推荐引擎的排序。此外,可以将排序实现成可以由用户开关的选项。
[0079]为了获得在其项目方面提供多样性的推荐的单个列表,推荐引擎100包含交织单元132。交织单元132与内容检索单元128连接(在本实施例中,通过排序单元130),并配置成通过相互交织包含在不同几个目标列表中的内容地点标识符从不同目标列表中生成单个推荐列表。可以例如通过使用联名声明(round-robin)方法或通过使用更高级的基于信用的调度方法来进行不同询问的结果的排列列表的交织。
[0080]该交织在一个实施例中基于从不同询问中获得的结果的文本相关性的评估。该交织单元被配置成根据评估在询问中检索到的不同内容项的内容文本数据之间的文本相关性的相似性准则加权关联性指示符。如果要针对关联性评估的内容项与前一次评估的内容项存在文本相关性,该文本相关性超过预定数值,则减小关联性指示符的权重。此外,通过这种实现,保证了推荐的最终列表的顶部足够的多样性。
[0081]除了有助于渡过推荐引擎10仍然必须了解用户的口味的初始阶段之外,可以按如下实现推荐系统的了解过程的加速。被识别为足够关联的结果一例如,因为它们的描述与“喜欢”实体的描述的余弦相似性足够高一可以被推荐器解释为喜欢。这可以直接导致相对较大的一组喜欢。对于使用协同过滤做法的推荐引擎,将这些作为喜欢直接加入用户项目表中。对于基于内容的推荐系统,倘若可以从结果中识别这些特征,可以将这些“喜欢”转换成特征值对的喜欢程度的变化。如果结果被识别成存储有关内容项的特征值对信息的数据库中的项目,则可以实现这一点。为了能够实现这样的改进了解过程,本实施例的推荐引擎100还包含个人资料维护单元134。该个人资料维护单元被配置成使存储用户个人资料数据库118中的初始用户个人资料数据集适用于进一步的使用过程。为此,该个人资料维护单元被配置成从检索的内容文本数据中为另外实体提取另外标识数据,并且一旦检测到超过预定阈值的预备个人资料文本数据与内容文本数据之间的文本相关性的数值,就将提取的另外标识数据加入用户个人资料数据集中。
[0082]进一步的维护可以基于应用所检测用户交互的已知算法。为了能够实现这样的用户交互,提供界面136以便向显示设备102输送交织单元132通常以允许图形表示推荐列表,以便能够实现用户选择,去选或另一种类型评价推荐项目的直观用户交互的数据形式提供的所生成单个推荐列表。
[0083]推荐系统可以用将专用电路用于推荐引擎的不同功能单元的硬件来实现。在另一个实施例中,推荐引擎用将一个或多个程序控制处理器用于实现该引擎的不同功能单元的计算机硬件来实现。
[0084]图1还适合例示按照本发明的内容存储库200的实施例。在内容存储库中,推荐引擎和至少一个内容数据库122由相同提供商运营。访问除了依照以前的描述的内容存储库200的内部内容数据库122之外的内容数据库可以或可以不按照提供商的商业模式来实现。因此,内容存储库200可以使推荐限于包含在提供商的内容数据库中的内容项。通过与内容数据库一起应用推荐引擎,创建了向内容存储库的用户广告内容项的有吸引力方式。
[0085]图2示出了按照本发明的实施例操作向用户推荐内容项的推荐引擎的方法的流程图。该方法包含如下步骤:[0086]步骤S1:从推荐系统外部的数据库接收预备个人资料数据,其包含适合标识给定用户感兴趣的实体的预备个人资料文本数据;
[0087]步骤S2:从预备个人资料数据中提取标识感兴趣的实体的标识数据;
[0088]步骤S3:从所提取标识数据中为给定用户生成初始用户个人资料数据集;
[0089]步骤S4:使用所提取标识数据从初始用户个人资料数据集中生成语义上相互不同以便指向至少一个内容存储库的至少两个询问;
[0090]步骤S5:将生成的询问发给至少一个内容存储库;
[0091]步骤S6:响应该询问,从至少一个内容存储库接收包含各自目标列表的内容相关响应数据,该目标列表含有指示各自内容项的存储地点的至少一个各自内容地点标识符;以及
[0092]S7:通过相互交织包含在不同几个目标列表中的内容地点标识符从不同检索目标列表中生成单个推荐列表。
[0093]根据像指定感兴趣实体的网页那样的给定“喜欢”页面生成推荐的过程的另一个实施例包含如下步骤。
[0094]1.通过提取实体的类型以及通过从文本中提取特定文本片段分析网页的文本。
[0095]2.这个步骤通过如下2a或2b或两者来实现:
[0096]2a.使用喜欢实体的类别以及使用所提取的文本片段生成询问。使用像,例如,YouTube和Amazon那样的在线内容存储库为这种类型的使用提供的API将这些询问发给这些存储库。
[0097]2b.取代将询问发给可能外部内容存储库,可替代地可以将所提取文本片段和喜欢实体的类别与内部内容存储库中的项目匹配,其中完全控制如何实现匹配。
[0098]3.分析在线存储库返回的结果,以便针对这些结果的每一个确定与原始“喜欢”实体的语义相关性。另外,作为选项,可以分析每个结果对之间的相互相似性。两种分析都可以基于比较它们的文本相似性。
[0099]4.随后,将结果组合成推荐的单个列表,目的是在列表的顶部含有语义上与原始“喜欢”实体高度相关但相互充分不同的结果。
[0100]5.作为一个选项,使与原始“喜欢”实体具有足够高文本相似性的结果可以作为“喜欢”直接包括到推荐系统中,以便加速了解用户的个人资料的过程。
[0101]总之,本发明允许尤其为开始使用推荐系统的新用户生成个人和多种多样推荐。因此,渡过由于缺乏新用户的评价,推荐器了解不到用户的口味的阶段。用户可以使用他或她的社交网络服务帐户和允许推荐系统使用用户以前指定的“喜欢”登录到推荐系统中。这样,在扩大评价的列表的同时给予推荐器以足够的时间来了解用户的口味。
[0102]通过适当使用不同内容存储库的API,可以使用本发明来推荐多种类型的内容,包括电影、电视节目、书籍、文章、数字文档等,因此推荐包括个人和一般兴趣的非常不同实体。
[0103]虽然在附图和前面的描述中详细例示和描述了本发明,但这样的例示和描述应当被认为是例示性的或示范性的而不是限制性的;本发明不局限于所公开的实施例。
[0104]通过研究附图、公开、和所附权利要求书实践要求保护的发明的本领域的普通技术人员可以明白和实现所公开实施例的各种变体。[0105]在权利要求书中,词汇“包含”不排除其它元件或步骤,不定冠词“一个”或“一种”不排除复数。单个单元可以完成在权利要求书中所述的几个项目的功能。在相同不同人性权利要求中阐述某些措施的仅有事实不并指示不能有利地使用这些措施的组合。
[0106]计算机程序可以存储/分布在像与其它硬件一起或作为其一部分供应的光存储介质或固态介质那样的适当介质上,但也可以像经由互联网或其它有线或无线电信系统那样,以其它形式分配。
[0107]权利要求书中的任何标号都不应该理解为限制范围。
【权利要求】
1.一种向用户推荐内容项的推荐引擎(100),包含: -个人资料生成单元,其含有预备个人资料输入单元(110),其被配置成接收预备个人资料数据,其包含适合标识给定用户感兴趣的实体的预备个人资料文本数据,以及含有预备个人资料分析单元(112),其与该预备个人资料输入单元(110)连接,并配置成从预备个人资料数据中提取标识感兴趣的实体的标识数据,和从所提取标识数据中为给定用户生成初始用户个人资料数据集; -询问生成单元(120),其与该个人资料生成单元连接,并配置成使用从初始用户个人资料数据集中所提取标识数据生成语义上相互不同以便指向至少一个内容存储库的至少两个询问; -内容检索单元(128),其与该询问生成单元(120)连接,并配置成将生成的询问发给至少一个内容存储库(122)和配置成响应该询问,从至少一个内容存储库接收包含各自目标列表的内容相关响应数据,该目标列表含有指示各自内容项的存储地点的至少一个各自内容地点标识符;以及 -交织单元(132),其与该内容检索单元连接,并配置成通过相互交织包含在不同几个目标列表中的内容地点标识符从不同目标列表中生成单个推荐列表。
2.如权利要求1所述的推荐引擎, -其中该内容检索单元(128)被进一步配置成响应询问检索与各自内容地点标识符相联系的内容文本数据;该推荐引擎(100)进一步包含: 排序单元(130),其与该内容检索单元(128)连接并配置成: -对响应至少两个询问的每一个接收的内容地点标识符指定基于评估预备个人资料文本数据与内容文本数据之间的文本相关性的相似性准则的关联性指示符; -按照如该关联性指示符所表达的关联性分类目标列表;以及 -将所分类目标列表提供给该交织单元。
3.如权利要求1或2所述的推荐引擎, -其中该个人资料生成单元(108)包含对要包括在询问中的至少一个关键字的各自集合按照至少一条实体分类准则指定各自一类实体的分类数据库(116), -其中该个人资料生成单元(108)被配置成依照该分类数据库对标识各自感兴趣实体的所提取标识数据指定至少一个类别;以及 -其中该询问生成单元(120)被配置成依照该分类数据库使用各自标识数据和指定给各自一类标识数据的至少一个关键字生成询问。
4.如权利要求3所述的推荐引擎, -其中该预备个人资料分析单元(112)被进一步配置成按其语言分类预备个人资料文本数据,并在其输出端上提供指示用在预备个人资料文本数据中的各自语言的至少一个语言标识符; -其中该分类数据库(116)包含不同语言的关键字;以及其中该询问生成单元(120)被配置成使用与语言标识符相对应的语言的关键字生成询问,或如果对于各自类别在分类数据库中不存在这种语言的关键字,则使用默认语言的关键字生成询问。
5.如前面权利要求之一所述的推荐引擎,其中该询问生成单元(120)被配置成将感兴趣的至少两个实体的所提取标识数据包括在询问中。
6.如前面权利要求之一所述的推荐引擎,其中该个人资料生成单元(108)被配置成在预备个人资料数据中检测与广域数据网络的网络地点上的内容资源的资源链接,访问该内容资源,并将可从该内容资源中获得的文本数据加入预备个人资料文本数据中。
7.如前面权利要求之一所述的推荐引擎, -其中该个人资料生成单元(108)被配置成从预备个人资料数据中提取通过如外部数据库所指定的它们的生成日期相互区分的预备个人资料文本数据的预备个人资料数据不同子集,以及从该子集中提取生成该子集的各自日期;以及 -其中该排序单元(130)被配置成将权重应用于关联性指示符,越多地增加关联性指示符的权重,生成与属于给定感兴趣实体的给定内容地点有关的各自一个子集的日期就越近。
8.如前面权利要求之一所述的推荐引擎,其中该预备个人资料分析单元(112)被配置成从预备个人资料文本数据中检测指示给定用户或与给定用户有关的某个人喜欢一个实体的关键字的存在 ,以及对初始用户个人资料数据集中的各自实体指定“喜欢”指示符,以及其中排序单元(130)被配置成将权重应用于关联性指示符,如果给定感兴趣实体含有相关“喜欢”指示符,则增加关联性指示符的权重。
9.如前面权利要求之一所述的推荐引擎,其中该排序单元(130)或该交织单元(132)被配置成评估预备个人资料文本数据与内容文本数据之间的文本相关性的数值。
10.如权利要求2到9之一所述的推荐引擎,其中 -其中该交织单元(132)被配置成根据评估在询问中检索到的不同内容项的内容文本数据之间的文本相关性的相似性准则加权关联性指示符,其中如果要针对关联性评估的内容项与前一次评估的内容项存在文本相关性,该文本相关性超过预定数值,则减小关联性指示符的权重。
11.如前面权利要求之一所述的推荐引擎, -进一步包含验证单元(114),其被配置成经由用户输入界面接收适合访问外部数据库的用户验证数据, -其中该个人资料生成单元(108)被配置成访问该外部数据库以检索预备个人资料数据。
12.如权利要求9所述的推荐引擎,进一步包含个人资料维护单元(134),其被配置成从内容文本数据中为另外实体提取另外标识数据,以及被配置成一旦检测到超过预定阈值的预备个人资料文本数据与内容文本数据之间的文本相关性的数值,就将提取的另外标识数据加入用户个人资料数据集中。
13.一种内容存储库(200),包含: -以存储在内容地点上的数据文件的形式包含内容项的内容数据库;以及 -按照前面权利要求之一所述的推荐引擎, -其中该推荐引擎的内容检索单元被配置成将生成的询问发给内容数据库。
14.一种操作向用户推荐内容项的推荐引擎的方法,包含: -从该推荐系统外部的数据库接收(Si)预备个人资料数据,其包含适合标识给定用户感兴趣的实体的预备个人资料文本数据; -从预备个人资料数据中提取(S2)标识感兴趣的实体的标识数据;-从所提取标识数据中为给定用户生成(S3)初始用户个人资料数据集; -使用所提取标识数据从初始用户个人资料数据集中生成(S4)语义上相互不同以便指向至少一个内容存储库的至少两个询问; -将生成的询问发给(S5)至少一个内容存储库; -响应该询问,从至少一个内容存储库接收(S6)包含各自目标列表的内容相关响应数据,该目标列表含有指示各自内容项的存储地点的至少一个各自内容地点标识符;以及-通过相互交织包含在不同几个目标列表中的内容地点标识符从不同检索目标列表中生成(S7)单个推荐列表。
15.一种存储可执行程序代码的计算机可读存储介质,该程序代码实现按照权利要求12所述的控制向用户推荐内容项的`推荐引擎的操作的方法。
【文档编号】G06F17/30GK103890761SQ201280051331
【公开日】2014年6月25日 申请日期:2012年9月4日 优先权日:2011年9月8日
【发明者】J.科斯特, M.巴比里, R.克劳特, S.P.P.普龙克 申请人:阿克塞尔斯普林格数字电视指导有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1