利用标记云的内容推荐设备和方法

文档序号:6468080阅读:140来源:国知局
专利名称:利用标记云的内容推荐设备和方法
技术领域
本发明涉及内容推荐设备和方法,并具体地,涉及(a)利用分配给内容 的标记云(tag cloud)来计算用户之间的相似性并(b)基于所计算的相似性 向用户推荐内容的内容推荐设备和方法。
背景技术
随着因特网的普及性继续增加,可用内容的数量继续几何增加。特别是, 运动图像类型UCC (用户创建内容)的数目爆炸性增加。在该环境下,具有 有限信息和有限时间的用户在发现满足他们的兴趣的内容方面存在困难。因 此正越来越多地使用推荐系统,以基于用户的倾向(inclinations )和偏好向用 户推荐合适的内容。已知推荐系统通过确定与目标用户具有相似倾向的用户 邻居并利用目标用户和用户邻居的用户之间的关系,来推荐内容。
然而,传统推荐技术具有以下限制。首先,在显式(explicit)数据收集 的情况下,用户购买、使用和/或评估的内容的实际数目通常很小,并由此可 推荐的内容数量是有限的。
而且,传统推荐技术通常基于与目标用户使用相同内容的那些用户,来 选择与目标用户相似的用户。由此,相似用户的范围可能是有限的,并因此 可推荐内容的范围也可能是有限的,这可能导致不期望的内容的推荐。
此外,在内容的数目大于用户的数目的情况下,与目标用户使用相同内 容的用户的数目通常很小。由此,很难发现与目标用户相似的用户。
传统推荐技术的另 一限制在于基于目标用户过去使用的内容来选择相似 用户。然后,仅推荐与目标用户过去感兴趣的主题相关的内容。似和目标用户实际使用的内容的覆盖率很低,例如大约仅10%到30%。

发明内容
本发明的目的是提供一种通过使用分配给内容的标记云来增加内容的覆 盖率的内容推荐设备和方法。在内容数量大的那些情况下,本发明通过有效 发现与目标用户相似的用户,来增加推荐性能。
根据本发明第 一方面的内容推荐设备经由网络提供内容推荐服务,并包 括内容标记云生成模块,被配置为通过分析向每一内容分配的标记并累加每 一内容的每个标记的频率,来生成内容标记云。该内容推荐设备还包括用户 标记云生成模块、相似性计算模块、和推荐模块。该用户标记云生成模块被 配置为通过累加用户使用的内容的每个标记的频率,来生成用户标记云。该 相似性计算模块被配置为利用用户标记云来计算用户之间的相似性,而该推 荐模块被配置为通过基于所计算的用户之间的相似性计算目标用户将使用特 定内容的可能性,来推荐内容。
根据本发明第二方面的内容推荐方法经由网络提供内容推荐服务,并包 括以下步骤(a)通过分析分配给每一内容的标记并累加每一内容的每个标 记的频率,来生成内容标记云;(b)通过累加用户使用的内容的每个标记的 频率,来生成用户标记云;(c)利用用户标记云来计算用户之间的相似性; 和(d)通过基于所计算的用户之间的相似性计算目标用户将使用特定内容的 可能性,来推荐内容。


考虑到结合附图进行的详细描述,本发明的特征和优点将变得更明显, 其中相同的附图标记始终表示相同的部分,并且其中
图1图示了根据本发明实施例的内容推荐系统的网络配置; 图2图示了图1的服务管理单元的实施例; 图3图示了图1的内容推荐单元的实施例;
图4是图示了根据本发明实施例的构造内容标记云的处理的流程图; 图5是图示了根据本发明实施例的构造用户标记云的处理的流程图;和 图6是图示了根据本发明实施例的推荐内容的处理的流程图。
具体实施例方式
图1示出了根据本发明的内容推荐系统的网络配置。该内容推荐系统包
括经由网络130与内容推荐服务器200耦接的多个用户终端110。网络130
能够发送和接收内容,并可以是例如因特网、移动通信网络或者有线或无线
网络。用户终端110最好具有有线或无线因特网浏览器,并可利用浏览器连 接到内容推荐服务器200。用户终端110能够接收内容推荐服务器200提供 的内容,并可以是例如桌上型PC (个人计算机)、笔记本PC、 PDA(个人数 字助理)或移动通信终端。内容推荐服务器200向用户终端IIO处的用户推 荐内容。内容推荐服务器200提供的内容可包括运动图像、静止图像、声源 (例如,MP3文件)、或广告。
内容推荐服务器200向经由网络130与服务器200相连的用户终端110 提供包括内容和内容推荐服务的万维网站点。如图1所示,根据本发明,内 容推荐服务器200包括服务管理单元210和内容推荐单元230。服务管理单 元210存储和管理要提供给多个用户终端IIO的各种内容。当连接了用户终 端110时,服务管理单元210向用户终端IIO提供包括内容的万维网站点。 服务管理单元210向用户终端IIO提供标记设置接口,使得用户能够向万维 网站点中包括的每一内容分配相关字(即,标记),并存储和管理向每一内容 分配的标记。存储和管理向每一 内容分配的标记集作为每一 内容的标记云。 用户可向特定音乐-f见频分配例如一个或多个相关字作为标记,例如"性感"、
"奇妙的女孩,,或"跳舞"。服务管理单元210然后存储并管理"性感"、"奇 妙的女孩"和"跳舞"作为该音乐视频的标记云。
服务管理单元210还向多个用户终端IIO提供内容,并生成、存储和管 理每一用户的标记云。在任何一个用户使用多个内容的情况下,服务管理单 元210合成该用户使用的内容的标记云,生成对应用户的标记云,并存储和 管理标记云。在生成每一用户的标记云时,服务管理单元210管理标记云的 每一标记的生成频率。
内容推荐单元230利用服务管理单元210生成、存储并管理的用户的标 记云,来选择具有相似倾向的用户邻居。内容推荐单元230还基于用户邻居 中的用户使用的内容的列表,来向相似用户邻居中的用户推荐内容。下面详 细描述内容推荐算法。图2示出了根据本发明实施例的图1的服务管理单元210的配置。服务 管理单元210包括内容使用列表管理模块211、内容标记云生成模块213、用 户标记云生成模块215、使用列表数据库212、内容标记云数据库214、和用 户标记云数据库216。
内容使用列表管理模块211在使用列表数据库212中登记该内容推荐服 务器200向多个用户终端IIO提供的各种内容中的用户使用的内容列表。内' 容使用列表管理模块211还管理该内容使用列表。当用户终端IIO与内容推 荐服务器200相连并使用特定内容时,内容使用列表管理模块211在用户终 端110的用户标识信息(例如,cookie信息、ID等)中指示该使用,并在使 用列表数据库212中存储该内容使用信息。使用列表数据库212将用户使用 的内容的标识信息映射到每一用户标识信息,并存储该映射信息。
内容标记云生成模块213在内容标记云数据库214中登记向该内容推荐 服务器200提供给多个用户终端110的各种内容分配的标记。内容标记云生 成模块213管理这些标记,向用户终端IIO提供接口,使得用户能够直接将 标记分配给内容,并从用户接收分配给内容的标记。
内容标记云生成模块213接收用户定义的标记作为内容的标记。作为选 择,内容标记云生成模块213向用户提供多个预置标记,并接收任一个标记 或多个标记作为内容的标记。内容标记云生成模块213在内容标记云数据库 214中存储由用户向每一内容分配的标记的频率。内容标记云数据库214将 每一 内容的标识信息映射到向对应内容分配的标记的频率,并存储该映射信 息。例如,在用户#1向运动图像A分配"朴智星(Park Ji-Sung)"和"曼彻 斯特联合(Manchester United )"的标记、而用户#2向运动图像A分配"足球" 和"朴智星,,的标记的情况下,在内容标记云数据库214中构造以下作为运 动图像A的标记云{朴智星2,曼彻斯特联合1,足球1}。
内容标记云生成模块213构造的内容标记云由以下方程2表示。特别是,
假设
U^U,,U2,…UJ是用户的邻居, V^VhV2,…,Vm〉是内容集, T,,t2,…,tn〉是标记集,和
fyk是当用户^向内容Vj分配标记tk时具有值"1"、否则具有值"0"的
变量,内容v,的标记云VTC,由以下方程2来表示。方程2
即,VTCj是指示用户已向特定内容Vj分配的每一标记tk的总频率的n维 矢量。
只要用户使用内容,用户标记云生成模块215就累加向用户使用的内容 分配的标记云,并在用户标记云数据库216中存储这些标记云作为用户标记 云。用户标记云生成模块215根据标记累加对于用户使用的内容而构造的每 一标记的频率,并在用户标记云数据库216中存储全部标记的频率作为用户 标i己云。
用户标记云生成模块215构造的用户标记云由以下方程3表示。假设用 户u,的标记云是UTC,,当用户Ui进入系统(signs up)时,标记云UTC,(其 是n维矢量)被初始化为0。只要用户u,使用内容v」,用户u,的标记云UTC, 就根据方程3而更新。
方程3<formula>formula see original document page 8</formula>
这里,NVTCj是通过对VTCj进行归一化而获得的,NVTC」在方程4中定 义如下 方程4
<formula>formula see original document page 8</formula>
综合方程3和4, UTC,是每一标记的主题中的用户u,感兴趣的分布。用 户^对内容v」的使用意味着用户u,对表示为NVTCj的内容的主题感兴趣。由 此,方程3表示其中通过内容使用行为更新用户的兴趣的处理。
例如,假设{朴智星2,曼彻斯特联合1,足球1}被构造为运动图像A的 标记云并且新用户#1使用运动图像八。用户#1的标记云被归一化并构造为{朴 智星1/2,曼彻斯特联合1/4,足球1/4}。而且,在用户#1使用具有标记云{李 荣柏(Lee Young-Pyo ) 2,托特纳姆(Tottenham) 1,足球1)的运动图像B岛 情况下,运动图像B的标记云(李荣杓2,托特纳姆1,足球1}被归一化并添 加到用户#1的标记云(朴智星1/2,曼彻斯特联合1/4,足球1/4}。最后,{朴智星1/2,曼彻斯特联合1/4,李荣杓1/2,托特纳姆1/4,足球1/2}被构造为用 户#1的标记云。这里,根据生成全部标记的处理,在n维矢量的标记云中安
排标记的频率。
图3示出了根据本发明实施例的图1的内容推荐单元230的配置。内容 推荐单元230包括用户相似性计算模块231和内容推荐模块233。用户相似 性计算模块231利用在用户标记云数据库216中存储的用户的标记云来计算 每一用户之间的相似性。用户相似性计算模块231基于用户标记云数据库216 中存储的用户标记云,来计算两个任意用户u,和u,,之间的标记云相似性。标 记云相似性由以下方程5来表示。
假设两个任意用户u,和u,,之间的标记云相似性为sim(Ui,u,,),用户u,的标 记云为UTC严(a a 2',…,a n〕,而用户u「的标记云为UTC严(a a a /),贝'j sim(u,,iv)可被计算为方程5所示的两个矢量之间的每一角度 的余弦值。
方程5
这里,UTC, UTCi,是两个矢量UTC,和UTd,的点积。
内容推荐模块233使用该用户相似性计算模块231计算的目标用户和^r 意用户之间的相似性,对于所有内容计算目标用户将使用特定内容的可能性。 内容推荐模块233按照递减次序的可能性来向目标用户推荐内容。这时,内 容推荐模块233排除目标用户已使用过的内容。而且,在计算目标用户将使 用特定内容的可能性时,当应立即改变推荐列表时,只要目标用户使用了新 内容,内容推荐模块233就更新该可能性,或者否则,就在周期性更新处理 的类型中同时更新所有用户的可能性。
内容推荐模块233计算目标用户将使用特定内容的可能性的处理由方程 6表示
方程6
二A2^朋(W,, )X/7^
这里,U是与目标用户u,类似的用户邻居,而p,,,」是指示用户^是否使用特定内容Vj的变量。当用户Ui使用特定内容Vj时-p,,,j是"1",而当用户
Ui不使用特定内容Vj时-pi,j是"0"。归一化常数"k"如下
<formula>formula see original document page 10</formula>
内容推荐模块233 —般将已使用目标用户u,使用的内容集之中的至少两 个内容的用户的邻居S,确定为与目标用户相似的用户邻居U。然而,在内容 的数目压倒性地大于用户的数目时,已使用了至少两个内容的用户的数目非 常小,并由此很难发现与目标用户相似的用户。而且当目标用户已使用了正 好一个内容时,不可能确定用户邻居U。所以,内容推荐模块233如下确定 用户邻居U:
(1) 当IS&N时,U=S,;而
(2) 当IS^N时,U是基于方程5中计算的相似性与目标用户最相似的 N个用户的邻居。
这里,N是使得推荐系统的性能最大化而实验性确定的常数值。
图4图示了根据本发明的构造内容标记云的处理。内容推荐服务器200 在主页等上发布其中存储的多个内容(S401 )。内容可以是自己创建的内容和 /或UCC (用户创建的内容),并可包括运动图像、照片或广播。当内容推荐 服务器200在主页等上发布所述多个内容时,用户可使用用户终端110而连 接到内容推荐服务器200的主页,并可访问/使用所述多个内容。
当用户使用特定内容时,内容推荐服务器200向用户终端110提供相关 接口,使得用户能分配指示对应内容的特征的标记。更具体地,内容推荐服 务器200提供接口以使得用户能够直接定义内容的标记,或者向用户提供用 于选择的多个预定义的标记。在用户定义或选择标记之后,内容推荐服务器 200接收内容的标记。
当用户使用特定内容并通过接口向内容分配标记时,内容推荐服务器200 存储分配的标记及其生成频率,作为对应内容的标记云。内容推荐服务器200 还更新并存储内容使用列表(S403 )。例如,在用户#1使用运动图像A并向 对应运动图像A分配标记{朴智星,足球}之后,内容推荐服务器200存储用 于运动图像A的标记(朴智星,足球}及其生成频率{1,1}。
接下来,当另一用户使用相同内容并通过接口向内容分配标记时,内容 推荐服务器200更新所存储的对应内容的标记云和所存储的内容使用列表 (S405 )。即,内容推荐服务器200更新该内容的标记、其生成频率、和内容使用列表。例如,假设运动图像A的所存储的标记云的标记是(朴智星,足球} 而其生成频率是{1,1}。当向运动图像A分配新标记(朴智星,曼彻斯特联合} 时,将标记更新为(朴智星,足球,曼彻斯特联合},而将其生成频率更新为
{2,1,1}。
对所有用户使用的所有内容反复执行上述处理,以构造用于那些内容的 标记云和内容使用列表。该处理由以上方程2来表示。
图5图示了根据本发明的构造用户标记云的处理。在如上针对图4描述 的那样构造内容推荐服务器200提供的所有内容的标记云之后,该处理开始。 当新用户使用内容推荐服务器200提供的内容时,然后构造对应新用户的标 记云。如图5中所示,当新用户连接到内容推荐服务器200时,内容推荐服 务器200初始化与新用户对应的n维(等于内容推荐服务器200生成的标记 的数目)标记云(S501 )。
随后,当新用户使用内容推荐服务器200提供的内容中的任一个时,内 容推荐服务器200通过向初始化后的新用户的标记云添加新用户使用的内容 的标记云,来更新新用户的标记云(S503 )。在一些实现中,内容推荐服务器 200对内容的标记生成频率进行归一化,并将归一化后的生成频率添加到新 用户的标记生成频率。例如,假设新用户使用具有标记{朴智星,足球,曼彻 斯特联合}和标记生成频率{2,1,1}的运动图像A。新用户的标记是{朴智星, 足球,曼彻斯特联合},而关联的标记生成频率是{2/4,1/4,1/4}={0.5,0.25,0.25}。
当新用户使用内容推荐服务器200提供的另 一 内容时,内容推荐服务器 200在S503处生成的新用户的标记云上累加所述另一内容的标记云,以更新 新用户的标记云(S505 )。这时,内容推荐服务器200最好归一化对应内容的 标记生成频率,并在新用户的标记生成频率上累加归一化后的标记生成频率
对于所有用户平等地执行上述处理,以构造那些用户的标记云。这由以 上方程3和4来表示。
图6图示了根据本发明的推荐内容的处理。当如上针对图5描述的那样 构造用户的标记云时,内容推荐服务器200向任一用户(其后称为目标用户) 推荐感兴趣的内容。为了这样做,内容推荐服务器200首先基于用户标记云 计算目标用户和其他用户之间的"相似性"(S601 )。内容推荐服务器200计 算目标用户的标记云矢量和其他用户的标记云矢量之间的角度的余弦值作为 相似性。所计算的相似性由以上方程5表示。内容推荐服务器200然后确定和目标用户具有相似倾向的用户邻居 (S603 )。假设用户邻居是已使用该目标用户使用的内容集之中的至少两个内 容的Sp则与目标用户相似的用户邻居U被如下确定
(1) 当IS^N时,1^S!;
(2) 当IS,卜N时,U是基于所计算的相似性与目标用户最相似的N个用 户的邻居。
这里,N是使得推荐系统的性能最大化而实验性确定的常数值。 在确定了用户邻居之后,内容推荐服务器200基于(a)目标用户和相似 用户邻居中的用户之间的相似性和(b )相似用户邻居的用户的内容使用列表, 来对于目标用户过去没有使用的所有内容而计算目标用户将使用内容的可能 性(S605 )。这由以上方程6表示。
接下来,内容推荐服务器200基于对于所有内容所计算的目标用户将使 用内容的可能性,来按照递减次序的可能性向目标用户推荐内容(S607)。内 容推荐服务器200可按照顺序向目标用户推荐所有内容,或推荐更高等级的 一些内容。
尽管该实施例示出了内容推荐服务器200向目标用户推荐单独服务,但 是本发明不限于这方面。在确定了要向目标用户推荐的内容之后,除了确定 的推荐的内容之外,内容推荐服务器200还可向用户推荐具有大量内容的项 目封装、或具有大量内容的在线商店或网页。由此,图l的内容推荐单元230 可包括封装和网页推荐模块,用于向用户推荐具有该内容推荐模块233可向 目标用户附加推荐的大量内容的项目封装或在线商店。
总之,本发明(a)基于多个用户向内容统一分配的标记,根据用户的内 容使用类型,而生成并更新用户的标记云,(b)测量用户之间的相似性,和 (c)向用户推荐更适当和合适的内容。 、
相似性,并且尽管这两个用户不使用相同内容,但是用户可被标识为具有相 似倾向的用户邻居。传统上,用户使用用户给予相同内容的标志或相同内容 的购买信息的平均值,来推导两个用户之间的相似性。然而,这样的传统方
法具有大内容集的低覆盖率,而本发明有利地具有大内容集的高覆盖率。
根据本发明的推荐设备和方法可合并为计算机可读存储介质上的计算机 可读代码。计算机可读存储介质包括用于存储计算机系统可读的数据的各种存储装置。例如,计算机可读介质可以是CD-ROM (致密盘只读存储器)、 RAM (随机存取存储器)、ROM(只读存储器)、软盘、硬盘、或磁光盘。
尽管本说明书包括许多细节,但是这些不应被解释为对本发明或要求保 护的内容的范围的限制,而相反,它们应被解释为可对于本发明的某些实施 例特定的特征的描述。这里在单独实施例的上下文中描述的某些特征也可以 在单一实施例中实现。相反,单一实施例的上下文中描述的各种特征也可以 单独或按照任何适当子组合在多个实施例中实现。此外,尽管特征可已在上
些情况下可以从该组合实行来自要求保护的组合的一个或多个特征,并且要 求保护的组合可以针对子组合或子组合的变型。
类似地,尽管在图中按照特定顺序描绘了处理,但是这应被理解为需要 按照示出的特定顺序或依次顺序来执行这样的处理,或者需要执行所有图示 的操作,以实现期望的结果。注意,在某些情况下,多任务和并行处理可以 是可能和有利的。此外,上述实施例中的各种系统组件的分离不应被理解为 在所有实施例中需要这种分离,并且应理解可将描述的程序组件和系统一般 一起集成在单一软件产品中或封装在多个软件产品中。
尽管在上面描述了几个实现和示例,但是本领域技术人员可进行仍然在 本发明的范围之内的其他实现、增强和变型。所以,本发明仅由以下权利要 求限制。
权利要求
1. 一种能够操作以经由网络提供内容推荐服务的内容推荐设备,该设备包括内容标记云生成模块,被配置为通过分析分配给每一内容的标记并累加每一内容的每个标记的频率,而生成内容标记云;用户标记云生成模块,被配置为通过累加用户使用的内容的每个标记的频率,而生成用户标记云;相似性计算模块,被配置为利用该用户标记云来计算用户之间的相似性;和推荐模块,被配置为通过基于所计算的用户之间的相似性计算目标用户将使用特定内容的可能性,而推荐内容。
2. 根据权利要求1的内容推荐设备,其中,在累加用户使用的内容的每 个标记的频率时,用户标记云生成模块对用户使用的内容的每个标记的频率 进行归 一化,并累加归 一化后的每个标记的频率。
3. 根据权利要求2的内容推荐设备,其中该推荐模块确定与目标用户相 似的用户邻居,并基于该目标用户和所确定的用户邻居中的用户之间的相似 性,来推荐内容。
4. 根据权利要求3的内容推荐设备,其中该推荐模块基于已使用了该目 标用户使用的内容集之中的至少两个内容的用户,来确定用户邻居。
5. 根据权利要求3的内容推荐设备,其中该推荐模块基于该相似性计算 模块所计算的用户之间的相似性,来确定与目标用户最相似的用户邻居中的 N个用户。
6. 根据权利要求1的内容推荐设备,其中该相似性计算模块计算两个用 户的标记云的两个矢量之间的角度的余弦值。
7. 根据权利要求1的内容推荐设备,还包括第二推荐模块,被配置为推 荐具有该推荐模块推荐的大量内容的项目封装或网页。
8. —种用于经由网络提供内容推荐服务的内容推荐方法,该方法包括以 下步骤 '通过分析分配给每一 内容的标记并累加每一 内容的每个标记的频率,而 生成内容标^己云;通过累加用户使用的内容的每个标记的频率,而生成用户标记云; 利用该用户标记云来计算用户之间的相似性;和 通过基于所计算的用户之间的相似性计算目标用户将使用特定内容的可 能性,而推荐内容。
9. 根据权利要求8的内容推荐方法,其中,在累加用户使用的内容的每 个标记的频率时,生成用户标记云的步骤对用户使用的内容的每个标记的频 率进行归 一化,并累加归 一化后的每个标记的频率。
10. 根据权利要求9的内容推荐方法,其中该推荐内容的步骤包括 确定与目标用户相似的用户邻居;和基于该目标用户和所确定的用户邻居中的用户之间的相似性,来推荐内容。
11. 根据权利要求10的内容推荐方法,其中所述确定相似用户邻居的步 骤包括确定已使用了该目标用户使用的内容集之中的至少两个内容的用户 的邻居。
12. 根据权利要求IO的内容推荐方法,其中所述确定相似用户邻居的步 骤包括基于在该计算相似性的步骤中所计算的用户之间的相似性,来确定 与目标用户最相似的用户邻居中的N个用户。 ;
13. 根据权利要求8的内容推荐方法,其中所述计算相似性的步骤包括 计算两个用户的标记云的两个矢量之间的角度的余弦值。
14. 根据权利要求8的内容推荐方法,还包括推荐具有该推荐步骤中推 荐的大量内容的项目封装或网页。
15. —种其上存储有计算机程序的计算机可读存储介质,用于在具有处 理器的计算机中实现利用标记云的内容推荐功能,该功能包括通过分析分配给每一 内容的标记并累加每一 内容的每个标记的频率,而 生成内容才示i己云;通过累加用户使用的内容的每个标记的频率,而生成用户标记云;利用该用户标记云来计算用户之间的相似性;和通过基于所计算的用户之间的相似性计算目标用户将使用特定内容的可 能性,而推荐内容。
全文摘要
利用标记云的内容推荐设备和方法经由网络提供内容推荐服务。该设备包括内容标记云生成模块,被配置为通过分析分配给每一内容的标记并累加每一内容的每个标记的频率,而生成内容标记云。该设备还包括用户标记云生成模块,被配置为通过累加用户使用的内容的每个标记的频率,而生成用户标记云。该设备还包括相似性计算模块和推荐模块。该相似性计算模块被配置为利用该用户标记云来计算用户之间的相似性,而该推荐模块被配置为通过基于所计算的用户之间的相似性计算目标用户将使用特定内容的可能性,而推荐内容。
文档编号G06Q50/00GK101442546SQ20081017828
公开日2009年5月27日 申请日期2008年11月19日 优先权日2007年11月19日
发明者朴钟宪 申请人:韩国科亚电子股份有限公司;首尔大学校产学协力团
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1