基于用户兴趣建模的个性化视频推荐系统和方法

文档序号:6546930阅读:314来源:国知局
基于用户兴趣建模的个性化视频推荐系统和方法
【专利摘要】本发明提供一种基于用户兴趣建模的个性化视频推荐系统和方法。其中,该方法包括:检测内容呈现装置的至少一个用户的观看活动,所述内容呈现装置能够在一个或多个频道中呈现多个视频节目;通过使用主题模型来表示所述至少一个用户的用户兴趣;从用户观看历史发现所述用户兴趣;生成个性化视频内容的个性化视频列表;向所述至少一个用户推荐所述个性化视频内容;以及将所述推荐的个性化视频内容发送给所述至少一个用户,使所述个性化视频内容呈现在所述内容呈现装置上。本发明提供具有个性化技术、推荐和可缩放内容发现技术的独特组合的电视频道的新方案,可以将用户引导到喜爱的内容的世界并享受该体验,而无需与电视机互动。
【专利说明】基于用户兴趣建模的个性化视频推荐系统和方法

【技术领域】
[0001]本发明涉及视频过滤和推荐【技术领域】,尤其涉及基于用户兴趣建模的个性化视频推荐技术。

【背景技术】
[0002]随着每天有海量的视频数据上载到互联网,如何分析用户的兴趣以及如何推荐用户可能感兴趣的视频是一个很大的挑战。大多数的基于内容的推荐系统将内容局限在与视频相关联的元数据,这可导致粗劣的推荐结果,因为元数据并不总是存在或正确的。对于这些视频,要么需要花费大量的精力来手动地给它们做注解,要么必须运用自动标注方法,否则这些系统将无法推荐个性化视频。
[0003]另一方面,从整个视频到视频的部分再到视频中的对象所包含的不同信息粒度的视频的视觉内容还未完全探究。
[0004]本发明所公开的方法和系统旨在解决以上阐述的一个或多个问题以及其它问题。


【发明内容】

[0005]鉴于上述现有技术的不足,本发明的目的在于提供一种基于用户兴趣建模的个性化视频推荐系统和方法,旨在解决目前问题。
[0006]本发明的技术方案如下:
[0007]本公开的一个方面包括一种基于用户兴趣建模的个性化视频推荐方法。该方法包括:检测内容呈现装置的至少一个用户的观看活动,内容呈现装置能够在一个或多个频道中呈现多个视频节目;以及通过使用主题模型来表示该至少一个用户的用户兴趣。该方法还包括:从用户观看历史来发现用户兴趣;以及生成个性化视频内容的个性化视频列表。此外,该方法还包括:向该至少一个用户推荐该个性化视频内容;以及将推荐的个性化视频内容发送到该至少一个用户,这样个性化视频内容就呈现在内容呈现装置上。
[0008]本公开的另一个方面包括一种基于用户兴趣建模的个性化视频推荐系统。该系统包括视频内容、数据存储、兴趣表示模块、兴趣发现模块、推荐生成模块、观看历史、用户行为和推荐项目。数据存储用于存储视频数据和/或视频数据的元数据。兴趣表示模块用于通过使用主题模型来表示至少一个用户的用户兴趣。兴趣发现模块用于从用户观看历史来发现用户的兴趣。推荐生成模块用于生成个性化视频推荐列表并将个性化视频推荐列表发送给该至少一个用户。视频内容可以包括任何适当类型的视频内容源,并且可以包含各种视频源。观看历史可以包括用户或用户们的任何适当的观看历史。用户行为可以包括任何适当的用户行为数据,例如逻辑操作、物理操作等。逻辑操作,例如换台(zapping)、页间导航。物理操作,例如按按钮、摆动遥控器。
[0009]本领域技术人员可根据本公开内容的说明书,权利要求书和附图来理解本发明公开的其它方面内容。

【专利附图】

【附图说明】
[0010]图1所不为结合本发明实施例的一典型环境;
[0011]图2所示为与本发明实施例对应的一典型计算系统;
[0012]图3所示为与本发明实施例对应的一典型个性化视频推荐系统;
[0013]图4所示为与本发明实施例对应的一典型个性化视频推荐过程;
[0014]图5所示为与本发明实施例对应的一典型用户兴趣随时间变化的马尔可夫链;以及
[0015]图6所示为与本发明实施例对应的一典型平滑化隐含狄利克雷分布(LDA)的盘子表示法。

【具体实施方式】
[0016]通过本发明的实施例对本发明进行详细说明,这也将在附图中进行阐述。在任何可能的情况下,相同的附图标记在整个附图中用来指代相同或相似的部件。
[0017]图1所示为结合本发明实施例的一典型环境100。如图1所示,环境100包括电视机(TV) 102,遥控器104,服务器106,用户108和网络110。还可以包括其它装置。
[0018]电视机102可包括任意适当类型的电视机,例如等离子电视机、液晶电视,投影电视,非智能电视,或智能电视。电视机102也可包括其他计算系统,例如个人计算机(PC),平板或移动计算机或智能电话等。进一步地,电视机102可以是能够在一个或多个频道中呈现多个节目的任何适当类型的内容呈现装置,其可通过遥控器104控制。
[0019]遥控器104可包括任意适当类型的遥控器,其可通过与电视机102的通信实现对电视机102的控制,例如定制的电视机遥控器,万能遥控器,平板电脑,智能手机,或者能够执行远程控制功能的任何其他计算设备。遥控器104也可包括其他类型的设备,例如基于遥控控制的运动传感器或深度相机增强的遥控器,以及简单的输入/输出设备,如键盘,鼠标,声控输入设备等。
[0020]此外,服务器106可包括任何适当类型的用于向用户108提供个性化视频内容的服务器计算机或多个服务器计算机。服务器106还可以促进实现遥控器104和电视机102之间通信、数据存储和数据处理。电视机102,遥控器104以及服务器106可以通过一个或多个通信网络110互相通信,如有线网络、电话网络和/或卫星网络等。
[0021]用户108可利用遥控器104与电视机102交互以便观看各种节目并进行感兴趣的其它活动,或者,如果应用了运动传感器或深度相机,用户可以简单地使用手或身体姿势来控制电视机102。用户108可以是单个用户或多个用户,例如一起观看电视节目的家庭成员。
[0022]电视机102、遥控器104和/或服务器106可以在任何适当的计算电路平台上实现。图2显示了一个能够实现电视机102、遥控器104和/或服务器106的示例性计算系统200的原理框图。
[0023]如图2所示,计算系统200可以包括处理器202,存储介质204,显示器206,通信模块208,数据库210和外围设备212。某些装置可被省略,而其他一些设备也可以包括其中。
[0024]处理器202可包括任何适当的处理器或处理机。此外,处理器202可以包括用于多线程或并行处理的多个内核。存储介质204可以包括内存模块,例如R0M、RAM、闪存模块和大容量存储设备,如CD-ROM和硬盘等。存储介质204可以存储计算机程序,用于处理器202执行计算机程序实施各种处理。
[0025]进一步地,外围设备212可以包括各种传感器和其它I/O设备,如键盘和鼠标,通信模块208可以包括通过通信网络建立连接的某些网络接口设备。数据库210可以包括用于存储数据的一个或多个数据库,并用于对所存储的数据执行特定操作,例如数据库搜索。
[0026]电视机102,遥控器104和/或服务器106可以实现用于向用户108推荐个性化视频的个性化视频推荐系统。图3所示为与本发明实施例对应的一典型个性化视频推荐系统300。
[0027]如图3所示,个性化视频推荐系统300包括视频内容302、数据存储304、兴趣表示模块306、兴趣发现模块308、推荐生成模块310、观看历史318、用户行为320和推荐项目322。某些组件可被省略,并且可以增加其它组件。
[0028]视频内容302可以包括任何适当类型的视频内容源,并且可以包含各种视频源(即,视频源1,视频源2,…,视频源η)。来自视频内容302的内容可以包括视频数据和元数据。
[0029]进一步地,数据存储304可以包括用于存储视频数据和/或视频数据的元数据的任何适当的存储介质(例如,存储介质204,数据库210)。视频数据可以在编码之后再存储在数据存储304中。
[0030]观看历史318可以包括用户的任何适当的观看历史。例如,观看历史318可以包括用户最近观看的视频。用户行为320是指用户如何执行视频内容探究和视频内容搜索。内容探究是指人们遇到新内容以及人们设法采取动作和决定来观看该内容。用户行为320可以包括任何适当的用户行为数据,例如逻辑操作、物理操作等。逻辑操作,例如换台(zapping)、页间导航。物理操作,例如按按钮、摆动遥控器。
[0031]兴趣表示模块306可以进一步划分为三个子模块:视觉分析312、文本分析314以及码本生成和主题分布316。兴趣表示模块306用于通过使用主题模型来表示用户兴趣。然后,用户兴趣表示被提供作为兴趣发现模块308的输入,用于计算在任何时间戳或时隙的兴趣的主题分布。所有任务都可以脱机完成来计算每个视频的主题分布。兴趣发现模块308用于基于前述输入以及来自观看历史318的用户的观看历史来发现兴趣。
[0032]对于新用户,当新用户正在观看视频时联机获悉其用户兴趣;对于现有用户,从现有用户的观看历史计算出所述用户兴趣并将所述用户兴趣保存到数据库以免每次重新计算。在获悉用户的兴趣之后,可以通过推荐生成模块310生成个性化推荐列表,最大化推荐准确度。推荐准确度受到其它条件限制,如覆盖率、多样性和新颖性。
[0033]推荐生成模块310可以通过遥控器使用模式等利用用户行为,用户行为是从观看者的个人装置收集的。基于来自观看者兴趣发现模块308和用户行为的信息,推荐生成模块310可以生成个性化推荐列表并将个性化推荐列表发送给用户108 (例如,发送到电视机102)。即,当个性化检测完成,推荐生成模块310可用于处理视频内容选择并为用户108推荐优选内容。
[0034]在某些实施例中,推荐生成模块310可进一步根据来自用户108的各种限制和/或来自服务提供商或服务器106的各种限制向用户提供视频内容选择和推荐信息。来自用户108的各种限制,如家庭网络状况、终端状况、视频点播(VOD)服务订阅等。来自服务提供商或服务器106的各种限制,如区域限制和云计算能力限制等。
[0035]在某些实施例中,对于特定用户108,节目频道可用于自适应地发现用户的观看偏好,向用户推荐视频内容,并通过那个特定频道向用户发送个性化视频内容。
[0036]换句话说,从用户的角度来看,个性化过程是透明的,并且用户可以从对于用户可用的所有或某些源观看个性化视频内容,而不会受到商业或广告的打扰。用户所具有的状况越好(例如,具有更多的可用源),那么屏幕上显示的个性化视频内容(例如,选自更多可用源)的质量也就越好,而无需任何显著的用户输入。
[0037]在操作中,个性化视频推荐系统300可以执行某些过程向用户推荐个性化视频内容。图4所示为用于向用户推荐个性化视频的示例性过程400。
[0038]如图4所示,一开始,可检测用户的观看活动(S402)。例如,用户可打开电视机102,拿起遥控器104,或者使用其它装置(例如,智能电话、平板电脑等)与电视机102或服务器106通信。在检测到用户的观看活动之后,可获得视频内容和用户行为,即获得用户输入(S404)。
[0039]如果用户刚打开电视机,还可以获得用户的某个节目选择。内容特性(例如标题、导演、演员、评分等)在节目选择过程中起着一定作用。标题通常是捕捉的第一个特性。演员、受欢迎度评分、年份和持续时间在做决策过程中也起着一定作用。用户行为可以包括逻辑操作、物理操作等。逻辑操作,例如换台(zapping)、页间导航。物理操作,例如按按钮、摆动遥控器。
[0040]进一步地,可以通过使用主题模型来表示用户或用户们的兴趣(S406)。词袋(Boff)模型是信息检索(IR)中所使用的模型。词袋模型在文档分类中对它进行了介绍,其按照词合集或词袋对文档进行建模而忽略其语法和词序,因此可以通过词汇上的稀疏直方图来表示文档。每个词是独立的假设可能会过于简化。如果将图像视作是文档并将图像特征/分块视作是词,那么可以通过视觉词袋来表示图像,它是图像分块的词汇上的稀疏直方图。因此,可以从视频合集生成组合词汇V= (W1,..., wv)它包含来自元数据的文本词和来自原始视频图像的视觉词。视觉分析和文本分析可以通过视觉分析312和文本分析314来实现。
[0041]为了生成码本,首先需要对视频合集执行视觉分析和文本分析。在视觉分析中,通过镜头边界检测法将每个视频划分成多个镜头,然后从镜头的关键帧检测视觉特征,并通过若干本地分块来表示每个关键帧。
[0042]尺度不变特征变换(SIFT)是在一定程度上可以处理强度、旋转、尺度和仿射变化的最有名的描述符之一。SIFT将每个分块转换为一个128维向量,并且现在用128维向量袋来表示每个关键帧,其中每个向量视为是独立的。然后,对来自所有关键帧的向量执行聚类以便将在视觉上类似的分块聚集到相同群组中。群集的中心定义为视觉词,并且群集的数量是视觉词汇的大小。在聚类之后,将群集成员指派给关键帧的每个分块,并且可以通过视觉词的直方图来表示关键帧。
[0043]通过增加来自相同视频的关键帧的直方图,可以通过视觉词的直方图来表示视频。也可以通过只考虑视频的一部分中的关键帧来以相同的方式表示视频的这一部分。与视觉码本生成过程相比,文本码本的生成相当简单。比如停用词移除、同义词扩展和词干提取的典型过滤步骤在文本分析中是必需的。然后,最后的词语形式视为是文本码本中的词,并且也可以将与视频相关联的元数据映射到文本词的直方图。通过组合视觉码本和文本码本,可以通过大小为V的单个组合码本的直方图来表示视频。
[0044]当在视频的一部分中分析用户的兴趣时,可以使用视频场景,这些兴趣称为场景级兴趣。出现在视频中的对象中的兴趣称为对象级兴趣,并且可以米用与场景级兴趣类似的方式进行分析。
[0045]一般来说,与文档的多个主题类似,图像通常包含若干不同的场景。因此,会很自然地运用文本挖掘中的主题模型来处理图像中的多场景问题。
[0046]给定非结构化文档的大合集,作为统计模型的一种,主题模型可以揭示语料库的潜在语义结构,并且可以自动发现其中的潜在主题。每个主题是一起频繁出现的词的群集,并且每个文档以不同比例展现这些主题。
[0047]概率潜在语义分析(pLSA)和隐含狄利克雷分布(LDA)是可以使用的两种代表性的主题模型。与LDA相比,pLSA不能缩放,因为一旦对该模型进行了评估,那么它便固定了文档的主题混合概率,并且当有新的文档到达时,需要重新评估该模型。
[0048]相比之下,LDA将文档表示为潜在主题上的随机混合,它表示为Z =(Z1,...,Zk,...,ZK),其中K是总的主题数,并且每个主题Zk通过词上的分布来表征。
[0049]LDA假设,词可以在每个文档内交换,并且文档可以在语料库内交换。考虑到LDA的这种强假设,基于LDA开发了诸如相关主题模型(CTM)和动态主题模型(DTM)的若干主题模型,来放宽这些限制或者将它扩展以适应特定情形。
[0050]尽管本文中使用LDA作为这些模型的基本形式,但是也可以使用基于LDA的其它方法。图像也可以视为是潜在场景的混合,并且场景是视觉词的混合。在某些实施例中,一般可以使用主题来代表关键帧的场景和元数据的主题。LDA可以将每个视频建模为主题的混合,而每个主题是组合词汇中的词的混合。因此,视频的主题分布和主题的词分布便可评估到。
[0051]用户的兴趣也被建模为主题的混合。因此,可以根据用户的观看历史评估其兴趣(S408)。但是,用户的兴趣通常随时间演变,并且即使在相同时间,兴趣也是多种多样的,这意味着用户可能会对多个主题有偏好。这种特性可以通过从用户刚刚观看的视频或视频的一部分评估到的主题上的分布以及用户之前的一些兴趣来捕捉。
[0052]换句话说,可以从刚刚观看的视频(视频的部分)以及在某个之前时间戳的兴趣到某之前的时间戳的兴趣预测当前时间戳的主题上的兴趣分布。所考虑的之前时间戳的数量对于不同用户有所变化。
[0053]例如,如果用户的兴趣变化通常与观看的视频数有关,那么所考虑的之前兴趣的终点应当远离前几个之前兴趣所在的起点。因此,随时间变化的兴趣的窗口大小越大或其存储器长度越长,那么可以更好地捕捉整体兴趣分布,以便进行预测。
[0054]相比之下,如果用户的兴趣在一段时间内保持一致,那么从起点到终点的长度可以很短,因为小的窗口大小已经可以提供关于用户兴趣的足够信息。
[0055]在概率上,利用马尔可夫链来以一直变化的随机变量对系统的视觉状态建模。如果以在特定时间戳的用户兴趣视作是随机变量,那么可以将它建模为s阶的马尔可夫链,其中s是窗口大小或存储器长度,并且是有限的。图5所示为用户兴趣随时间变化的马尔可夫链。
[0056]如图5所示,基于之前的s个兴趣以及刚刚观看的视频(视频的部分)确定用户的当前兴趣。
[0057]假设给予用户包含前η个推荐视频的列表Dt'并且从Dw选择视频< 1的概率一般估计与C1在Dm中的秩成比例。它可以用数学式表示为1 |r) = R(r),其中r是(在Dw中的秩,并且R(r)是单调递减函数。
[0058]在时间戳t,将用户兴趣表示为Xt, Xt可以视为是主题的混合,因此评估Xt就是根据 P (Zk I Xt-1),...,P (Zk I Xt-S)和 p(zk K)来评估 P (Zk I Xt)。
[0059]注意,Iif中的视觉词可以是整个视频中所包含的视觉词的子集,这是因为用户可以观看视频的部分。通过允许对实际出现在已经观看的视频部分中的视觉词计数,可以按不同粒度捕捉兴趣。
[0060]可以基于可能影响用户体验的多个准则来评价或优化推荐系统或推荐算法。例如,可以利用用户研究来评价推荐系统。但是,用户研究法可能具有小的样本大小/区域。在某些实施例中,可以利用脱机评价来评价推荐系统。可以基于准确度、覆盖率、多样性、新颖性、惊喜度、信任度和鲁棒性来执行脱机评价。
[0061]可以利用准确度作为主要准则,并且剩余的可以在试图使推荐准确度最大化时充当约束。因此,推荐列表Dt的生成可以归纳为对以下公式(I)求解(S410)。
[0062]F = (f1;..., fc)是约束集合,其中C是集合F中的总的约束数。I(Dt) > O是约束函数的一般形式。
[0063]arg max Accuracy (Dt)
[0064]s.t.fc (Dt) > 0, fc e F (I)
[0065]基于以下合理假设,即,如果用户对某个视频更感兴趣,那么该视频越有可能被观看。因此,推荐最符合用户兴趣的视频列表应当导致最高的推荐准确度。
[0066]于是,可以将优化推荐准确度的问题映射为寻找主题分布与用户兴趣Xt的主题分布相同或相近的视频集合Dt, S卩,使PaopicslDt)和PaopicsIxt)之间的差最小化,这通过以下公式来定义:
[0067]arg max Accuracy (Dt) = arg min | P (topics | Dt) -P (topics | Xt) (2)
[0068]但是,推荐系统是以用户为中心的,用户满意度是推荐系统的主要准则。因此,当设计推荐系统时,从用户的角度来看,诸如覆盖率、多样性和新颖性的准确度以外的准则也是需要的。
[0069]例如,许多协同推荐系统中存在马太效应,这意味着受欢迎的项目随时间会变得越来越受欢迎,而较冷门的项目则会变得更不受欢迎。这对于内容提供商来说显然是个问题,因为如果他们的项目一开始不受欢迎,那么这些项目有可能将永远没有机会被推荐给用户。
[0070]利用覆盖率来作为衡量推荐系统覆盖较冷门或所谓的长尾项目的能力的准则。利用Gini索引来描述对覆盖率的衡量,如公式(3)所示。po/?).是时间戳t时的项目Clj占总的用户选择的比例。如果推荐列表Dt的值Gini (Dt)大于表示为Gini (Histt)的用户观看历史的值,那么系统就具有马太效应。
[0071]因此,为了确保推荐系统的覆盖率,Gini (Dt)与Gini (Histt)之间的差必须小于某个阈值。
[0072]Gmi(Dt) = ^- (2j-n-l)pop(d',)

Il — I d,eDr
[0073]Coverage (Dt) = Gini (Dt) -Gini (Histt) (3)
[0074]可以将多样性划分为列表内多样性和列表间多样性。列表内多样性是指推荐的项目关于彼此有多么不同,而列表间多样性是指某个推荐列表关于另一个推荐列表有多么不同。在某些实施例中,利用列表内多样性来分析特定用户的推荐。
[0075]列表内多样性的常见定义利用推荐项目之间的平均两两相异性或距离,即,所谓的列表内距离。推荐列表Dt的多样性可以通过公式(4)来计算。是衡量两个项目 <和<之间的相异性的距离函数。可以使用各种度量,例如欧几里德距离、马氏距离、曼哈顿距离等。
[0076]Diversity[D1) =-dis^d^dj)(4)
1 ; ?><(?-1)(私/ 、 ’
[0077]新颖性通常与多样性相关,因为当列表是多样时,与推荐项目的其余项目相比,每个项目都是新颖的。但是,本文所用的新颖性可以是项目对于用户而言的,即,关于用户之前看过的项目,某个项目是新颖的。更一般来说,可以使用用户的上下文信息而不是用户的历史,因为用户虽然可能没有看过某个项目,但是他可能从其它某个地方得到了关于它的部分信息。
[0078]如果某个项目存在于少数几个用户的上下文中,那么它视为是具有高新颖性值,并且如果它是受欢迎的,那么它具有低新颖性值。推荐列表的新颖性可以定义为它的每个项目的新颖性的总和,如公式(5)所示,其中大距离指示高新颖性值。
[0079]项目 < 的新颖性与其在用户的上下文Ω中的项目之间的距离成比例。
是给定Ω和4选择Cli的概率,它可以视作是系数。
[0080]胸-(¢/:;.)=[P(咖,

d^Q.
[0081]^oveIty(Di)= ^ Noveity[d1)


JtJeD1
[0082]像惊喜度、信任度和鲁棒性的其它准则这里不再一一赘述。类似地,信任度和鲁棒性可以利用某个度量来表示且并入到优化过程中。介绍上述准则的目的是要传达这样一种概念,即,推荐是在某些约束下的单目标问题。当推荐系统试图优化其推荐准确度时,准则集合施加约束。
[0083]公式(6)是对在公式(3)、(4)和(5)中表示的覆盖率、多样性和新颖性限制约束时的公式(I)的特定形式。Th。、Th11和ThN分别是最小覆盖率、多样性和新颖性的阈值。
[0084]arg max Accuarcy (Dt)
[0085]s.t.Coverage (Dt) > Thc
[0086]Diversity (Dt) > ThD
[0087]Novelty (Dt) > ThN (6)
[0088]一开始,需要计算视频的主题分布P (topics I dj)和当前兴趣的主题分布PaopicslXt)以便对公式(2)求解。然后,可以通过公式(2)来求解对公式¢)中所定义的优化问题。
[0089]假设将K定义为是大小为M的视频合集D的独立主题,那么D中的每个视频也是彼此独立的。图6是平滑化的LDA的盘子表示法,其中方框是表示重复抽样,阴影圆圈是可观测变量,而非阴影圆圈是非观测或所谓的潜在变量。包含%个词的视频4由维度为Nj的向量%来表示,这是唯一的观测变量。图中的符号解释如下:a是Θ]的K维参数,它表示视频在K个主题上的先验权;β是Φ &的V维参数,它表示主题在V个词上的先验权;Θ是M*K矩阵,其中每个行Θ j是视频4在全部K个主题上的狄利克雷分布;Φ k是K*V矩阵,其中每个行Φ,是主题Zk在全部V个词上的狄利克雷分布;Wj是4的%向量,其中每个元素
Wji (表示V中的词)是具有参数的多项分布;Zj是dj的Nj向量,其中每个元素Zji (表示词Wm的主题)是具有参数Θ j的多项分布。
[0090]获悉所有视频中的所有词的主题分布就是获悉每个视频的P(Z」W1;a,β)。这可以通过倒塌吉布斯采样法来求解,由此积分出Θ和φ。由于将先验权a和β预定义为随机或经验值,所以为了简化起见,可以将P(Zj|Wy α,β)表示为P(Z|W)。因此,对于任何视频dj,P(Z|W)提供它在主题上的分布P(ZkIW),其中k e [1,K]。
[0091]由于、是K个主题的混合,所以可以采用不同的方式来评估Xt在主题上的分布。例如,一种方法如公式(7)所示,它将各分布与参数? = ( θ 0,...,9 s)、偏差参数β
以及正则化参数λ线性地组合,限制条件为β+Σ* = U b1)在兴趣表示中获悉,




1=0
其中可以与P(ZkIw)中的W互换,两者均表示词的出现率向量。在初始时间戳t = o,x°
是空值,并且P(ZkIX1)等于第一次观看的视频的主题分布Ppt1它由以下公式定义:
[0092]
F(z, \r) = fi+e0p(-k ) + flP(rA + |Λ'^2)+.?+6>.ρ(γ, H+老考
(7)
[0093]?、均匀分布和时间衰减分布的常见选择分别在以下公式⑶和(9)中示出。但是,它也可以从用户的反馈获悉。

【权利要求】
1.基于用户兴趣建模的个性化视频推荐方法,包括: 检测内容呈现装置的至少一个用户的观看活动,所述内容呈现装置能够在一个或多个频道中呈现多个视频节目; 通过使用主题模型来表示所述至少一个用户的用户兴趣; 从用户观看历史发现所述用户兴趣; 生成个性化视频内容的个性化视频列表; 向所述至少一个用户推荐所述个性化视频内容;以及 将所述推荐的个性化视频内容发送给所述至少一个用户使所述个性化视频内容呈现在所述内容呈现装置上。
2.根据权利要求1所述的方法,其中所述通过使用主题模型来表示所述至少一个用户的用户兴趣进一步包括: 执行视觉和文本分析以生成码本;以及 对每个视频的主题分布和每个主题的词分布进行建模。
3.根据权利要求1所述的方法,其中所述从用户观看历史发现所述用户兴趣进一步包括: 通过利用马尔可夫链捕捉兴趣的时变特性,并利用所述主题模型来使用文本和视觉信息计算每个视频的主题分布,从不同粒度发现被建模为主题的混合的所述用户兴趣。
4.根据权利要求1所述的方法,其中所述生成个性化视频内容的个性化视频列表还包括: 通过寻找在最小覆盖率、多样性和新颖性的约束下最符合所述用户兴趣的视频来生成个性化视频列表使推荐准确度最大化。
5.根据权利要求4所述的方法,其中: 使推荐准确度最大化映射为寻找主题分布与所述用户兴趣Xt的主题分布相同或相近的视频集合Dt, S卩,使P (topics I Dt)和P (topics | Xt)之间的差最小化,这通过以下公式来定乂:
arg max Accuracy (Dt) = arg min | P (topics | Dt) - (P (tpoics !Xt) |。
6.根据权利要求4所述的方法,其中: 通过使用Gini索引,利用所述覆盖率作为衡量推荐系统覆盖较冷门项目的能力的准则。
7.根据权利要求4所述的方法,其中: 利用所述多样性作为衡量两个推荐项目之间的相异性的准则以分析特定用户的推荐。
8.根据权利要求4所述的方法,其中: 项目的所述新颖性与其在用户的上下文中的项目之间的距离成比例。
9.基于用户兴趣建模的个性化视频推荐系统,包括: 数据存储,用于存储视频数据和/或视频数据的元数据; 兴趣表示模块,用于通过使用主题模型来表示至少一个用户的用户兴趣; 兴趣发现模块,用于从用户观看历史发现所述用户兴趣;以及推荐生成模块,用于生成个性化视频推荐列表并将所述个性化视频推荐列表发送给所述至少一个用户。
10.根据权利要求9所述的系统,其中所述兴趣表示模块进一步用于:执行视觉和文本分析以生成码本;以及 对每个视频的主题分布和每个主题的词分布进行建模。
11.根据权利要求9所述的系统,其中所述兴趣发现模块进一步用于:通过利用马尔可夫链捕捉兴趣的时变特性并利用所述主题模型来使用文本和视觉信息计算每个视频的主题分布,作为主题的混合以不同粒度发现所述用户兴趣。
12.根据权利要求9所述的系统,其中所述推荐生成模块进一步用于:通过寻找在最小覆盖率、多样性和新颖性的约束下最符合所述用户兴趣的视频来生成个性化视频列表使推荐准确度最大化。
13.根据权利要求12所述的系统,其中: 使推荐准确度最大化映射为寻找主题分布与所述用户兴趣Xt的主题分布相同或相近的视频集合Dt, S卩,使P (topics I Dt)和P (topics | Xt)之间的差最小化,这通过以下公式来定乂:
arg max Accuracy (Dt) = arg min | P (topics | Dt) - (P (tpoics !Xt) |。
14.根据权利要求12所述的系统,其中: 通过使用Gini索引,利用所述覆盖率作为衡量推荐系统覆盖较冷门项目的能力的准则。
15.根据权利要求12所述的系统,其中: 利用所述多样性作为衡量两个推荐项目之间的相异性的准则以分析特定用户的推荐。
16.根据权利要求12所述的系统,其中: 项目的所述新颖性与其在用户的上下文中的项目之间的距离成比例。
17.根据权利要求9所述的系统,其中: 对于新用户,当新用户正在观看视频时联机获悉所述用户兴趣;对于现有用户,从现有用户的观看历史计算出所述用户兴趣并将所述用户兴趣保存到数据库中。
【文档编号】G06F17/30GK104182449SQ201410212054
【公开日】2014年12月3日 申请日期:2014年5月19日 优先权日:2013年5月20日
【发明者】朱秋莎, 汪灏泓 申请人:Tcl集团股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1