推荐标签的方法和装置的制作方法

文档序号:6441492阅读:128来源:国知局
专利名称:推荐标签的方法和装置的制作方法
技术领域
本发明涉及一种推荐标签的方法及装置,特别涉及一种根据用户的评分进行标签推荐的方法和装置。
背景技术
通过标签(tag)允许用户用关键词或术语来标注各种对象(例如图片,文章,视频等)。对于网站来说,标签可以扩大资源的标签集,从而增加检索资源时的索引集;而对于用户来说,标签推荐的目的是增强用户在标注过程中的用户体验,方便用户快速进行标签标注。作为web2.0的一个重要特性,标签推荐对如何改进标签推荐使其更好的帮助用户分类整理和查询各类信息,以及对网络搜索、个性化搜索、网络资源分类和聚类等方面都有着很大的价值。在一些现有技术中,可以推荐个性化的标签,例如,根据用户桌面或历史信息进行推荐。在另外一些采用协同过滤的现有技术中,可根据相同社区的人具有相似兴趣的原理,为相同社区的用户推荐相似的标签。此外,现有技术中,还允许用户给对象的某一方面或在总体上进行评价,通常用打分的形式进行,通常用星数表示。例如,用户对于某篇文章的整体打了 5分表示非常满意,或者,用户在某电子商务网站购书交易成功后,可以对商家服务的质量打3分表示一般。但并没有任何现有技术公开或教导根据评分进行标签的推荐,因此,现有技术仍然存在改进的空间。

发明内容
根据本发明的第一方面,提供了一种为用户推荐标签的方法,该方法包括:接收当前用户对当前对象的当前评分;根据所述当前用户以及所述当前评分确定候选标签集;根据所述候选标签集中候选标签的指标值进行排序;根据所述排序为所述当前用户推荐标签。根据本发明的第二方面,提供了一种为用户推荐标签的装置,该装置包括:评分部件,配置为接收当前用户对当前对象的当前评分;确定部件,配置为根据所述当前用户以及所述当前评分确定候选标签集;排序部件,配置为根据所述候选标签集中候选标签的指标值进行排序;推荐部件,根据所述排序为所述当前用户推荐标签。通过采用本发明所提供的方法和装置,可以实现根据用户的评分进行标签的推荐。


从以下结合附图对各种示例性实施例的描述中,将进一步理解本发明的多个方面,在附图中:
图1示出用来实现本发明实施方式的示例性计算系统100的框图。图2示出了在一个实施方式进行标签推荐的方法流程。图3示出了在第一个实施例中,为当前用户u针对对象i推荐标签时的流程图。图4示出了在另一个实施例通过概率生成模型的方式实现图2中步骤202、203的流程图。图5示出了现有技术中LDA图模型的示意图。图6示出了在一个实施例的用户标签概率生成模型示意图。图7示出了在一个实施例中LDA图模型的示意图。图8示出了在一个实施例中通过Gibbs采样进行参数推断的流程。图9示出了本申请公开的一种为用户推荐标签的装置示意图。
具体实施例方式下面对本发明的具体实施方式
进行详细描述。所属技术领域的技术人员知道,本发明可以体现为系统、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即,可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“系统”的软件部分与硬件部分的组合。此外,本发明还可以采取体现在任何有形的表达介质(medium of expression)中的计算机程序产品的形式,该介质中包含计算机可用的程序码。可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质,计算机可读存储介质例如可以是一但不限于一电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPR0M或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的有形介质。计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的带有计算机可读程序代码的数据信号。这样一种传播信号可以采取任何适当的形式,包括-但不限于-电磁的、光的或其任何适当的组合。计算机可读信号介质可以是不同于计算机可读存储介质的、可以传达、传播或传输供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的任何一种计算机可读介质。包含在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括-但不限于-无线、有线、光缆、射频等等、或上述各项的任何适当的组合。用于执行本发明的操作的计算机程序码,可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言-诸如” C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络一包括局域网(LAN)或广域网(WAN)-连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。以下参照按照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。要明白的是,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令,产生实现流程图和/或框图中的方框中规定的功能/操作的装置。也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品。也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上,使得在计算机或其它可编程数据处理装置上执行一系列操作步骤,以产生计算机实现的过程,从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。现参看图1,示出了适于用来实现本发明实施方式的示例性计算系统100的框图。如所示,计算机系统100可以包括:CPU(中央处理单元)101、RAM(随机存取存储器)102、ROM(只读存储器)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。在这些设备中,与系统总线104耦合的有CPU 101、RAM102、ROM103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合,键盘111与键盘控制器106耦合,串行外部设备112与串行接口控制器107耦合,并行外部设备113与并行接口控制器108耦合,以及显示器114与显示控制器109耦合。应当理解,图1所述的结构框图仅仅为了示例的目的而示出的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况而增加或者减少某些设备。图2示出了按照本申请的一个实施方式进行标签推荐的方法流程,主要包括以下步骤:在步骤201中,接收当前用户对当前对象评分等级的当前评分。在该步骤中,评分可是对某一方面的评价,例如服务、产品质量等,也可是总体评价。在步骤202中,根据所述当前用户以及所述当前评分确定候选标签集。在一个实施例中,根据预先确定的用户在不同评分等级下与历史标签的关联关系确定所述当前用户在所述当前评分下的历史标签作为所述候选标签集。所属领域技术人员可以采用多种方式实现该步骤,在一个实施例中,将对象间两两相似度作为所述用户在不同评分下与历史标签内容的关联关系,所述对象间两两相似度是根据对象历史标签的内容相似度以及不同用户对同一对象的评分相似度确定的;在另一个实施例中,所述用户在不同评分下与历史标签的关联关系是用户在不同评分下的标签生成概率P (t I u,r),所述指标值是所述候选标签的生成概率。上述预先确定的关联关系既可以根据所有用户和所有历史标签确定,也可以根据部分用户和部分历史标签确定。以下,将结合图3至图8对其做进一步的介绍。在步骤203中,根据所述候选标签集中候选标签的指标值进行排序。在一个实施例中,所述指标值是候选标签的权重,在另一个实施例中,所述指标值候选标签的生成概率。在步骤204中,根据所述排序推荐标签。可以根据排序结果推荐排序最靠前的一个或多个候选标签供用户选择。图3示出了按照本申请的第一个实施例中,为当前用户u针对对象i推荐标签时的流程图,该实施例是以协同过滤为基础的一种实现方式,至少包括以下步骤:在步骤301中,计算所有对象标签之间的两两相似度。所述对象间两两相似度是根据对象历史标签的内容相似度以及不同用户对同一对象的评分相似度确定的。所述每个对象具有第一向量和第二向量,所述第一向量是所述每个对象在相应的历史标签上的词频/逆向文件频率(TF/IDF)值,所述第二向量是所述每个对象上的历史评分。在该步骤中,需要根据所述第一向量之间的相似度确定所述内容相似度Siml (i,j),所述第一向量中的每一维是所述每个对象在相应的历史标签上的词频/逆向文件频率(TF/IDF)值。TF/IDF (term frequency-1nverse document frequency)是用于信息检索与文本挖掘的常用加权技术,用以评估一字词对于一个文档集或一个语料库中的其中一份文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。在这个实施例中,把对象视为文档,对象上的标签视为文档中的单词。通过词频/逆向文件频率(TF/IDF)计算文档在每个单词上的权值,然后每个对象可以表不成一个向量,向量中的每一维表不该文档在相应的单词上的TF/IDF值,进而,计算两个向量之间的相似度作为第一内容相似度Siml (i,j)。在一个实施例中,用向量空间余弦相似度(Cosine Similarity)计算两个向量之间的内容相似度Sim (i,j),余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。所属领域技术人员还可采用其它方式,例如欧几里得距离(EuclideanDistance)。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题。还需要根据所述第二向量之间的相似度确定所述评分相似度Sim2 (i,j)。所述第二向量是所述每个对象上的历史评分,换句话说,就是把每个对象上的用户评分作为一个向量,该向量中的每一维对应一个用户的评分。然后综合标签内容和评分,确定所述对象间两两相似度Sim(i,j) = Siml (i,j) *a+Sim2 (i,j) * (1-a),其中0 < a < I,参数a用于调节内容相似度和评分相似度的权重,a趋近于I时,表示增加内容相似度权重,a趋近于O时,表示增加评分相似度的权重。 在步骤302中,确定K个对象,所述K个对象是根据所述对象间的两两相似度所确定的与所述当前对象相似度最高,且所述当前用户使用过的标签。在该步骤中,作为替代的实施方式,还可进一步限制所述当前用户评分也为r.
在步骤303中,以该当前用户u在该K个对象上使用过的标签作为所述候选标签集。
在步骤304中,计算所述候选标签集合中每个标签的权值作为指标值,选择权值
最高的N个标签推荐给用户U。在一个实施例中,所述权值是
权利要求
1.一种为用户推荐标签的方法,该方法包括: 接收当前用户对当前对象的当前评分; 根据所述当前用户以及所述当前评分确定候选标签集; 根据所述候选标签集中候选标签的指标值进行排序; 根据所述排序为所述当前用户推荐标签。
2.根据权利要求1所述的方法,其中,根据所述当前用户以及所述当前评分确定候选标签集包括:根据预先确定的用户在不同评分等级下与历史标签的关联关系确定所述当前用户在所述当前评分下的历史标签作为所述候选标签集。
3.如权利要求2所述的方法,其中,所述用户在不同评分等级下与历史标签内容的关联关系包括对象间两两相似度,所述对象间两两相似度是根据所述对象历史标签的内容相似度以及不同用户对同一对象的评分相似度确定的。
4.如权利要求3所述的方法,其中,每个对象具有第一向量和第二向量,所述第一向量是所述对象在相应的历史标签上的词频/逆向文件频率值,所述第二向量是所述对象上的历史评分,所述对象间两两相似度的确定包括: 根据所述第一向量之间的相似度确定所述内容相似度Siml (i,j); 根据所述第二向量之间的相似度确定所述评分相似度Sim2(i,j); 确定所述对象间两两相似度Sim(i, j) = Siml (i, j)*a+Sim2(i, j)*(l_a),其中O < a< 1,参数a用于调节权重。
5.如权利要求4所述的方法,其中,根据预先确定的用户在不同评分等级下与历史标签的关联关系确定所述当前用户在所述当前评分下的历史标签作为所述候选标签集包括: 确定K个对象,所述K个对象是根据所述对象间两两相似度所确定的与所述当前对象相似度最高,且所述当前用户使用过的标签; 以该当前用户在该K个对象上使用过的标签作为所述候选标签集。
6.如权利要求5所述的方法,其中,所述确定K个对象包括:进一步限制所述当前用户评分也为r。
7.如权利要求5或6所述的方法,其中,所述指标值包括所述候选标签的权值Σν Ww(M),其中,所述当前用户给第k个对象使用标签t,则Vt = I,否则Vt = O。k=l _
8.根据权利要求2所述的方法,所述用户在不同评分下与历史标签的关联关系包括用户在不同评分等级下的标签生成概率P (t|u,r),所述指标值包括所述候选标签的生成概率。
9.根据权利要求8所述的方法,还包括: 确定标签属性分布P (Xt),所述标签属性包括主观类和客观类; 确定对象i在标签t上的分布P (t I i); 确定所述尸O I K,) = 中=k)P(z = & I ,其中,K是所述历史标签的主题z的数k=\目,P(t|z)是所述主题z在所述历史 标签上的分布,所述P (z I u,r)是用户在不同评分等级下在所述历史标签的主题z上的分布。
10.如权利要求9所述的方法,其特征在于: 根据所述标签属性分布P (Xt)确定每个所述候选标签是客观类标签的概率P (Xt = O),以及是主观类标签的概率P (Xt = I); 根据公式P (Xt = O) *p (t I i) +p (Xt = I) *p (t I u, r)计算所述候选标签的生成概率。
11.一种为用户推荐标签的装置,该装置包括: 评分部件,配置为接收当前用户对当前对象的当前评分; 确定部件,配置为根据所述当前用户以及所述当前评分确定候选标签集; 排序部件,配置为根据所述候选标签集中候选标签的指标值进行排序; 推荐部件,根据所述排序为所述当前用户推荐标签。
12.根据权利要求11所述的装置,其中,所述确定部件包括:配置为根据预先确定的用户在不同评分等级下与历史标签的关联关系确定所述当前用户在所述当前评分下的历史标签作为所述候选标签集的部件。
13.如权利要求12所述的装置,其中,所述用户在不同评分等级下与历史标签内容的关联关系包括对象间两两相似度,所述对象间两两相似度是根据所述对象历史标签的内容相似度以及不同用户对同一 对象的评分相似度确定的。
14.如权利要求13所述的装置,其中,每个对象具有第一向量和第二向量,所述第一向量是所述对象在相应的历史标签上的词频/逆向文件频率值,所述第二向量是所述对象上的历史评分,其中,所述装置还包括: 配置为根据所述第一向量之间的相似度确定所述内容相似度Siml (i,j)的部件; 配置为根据所述第二向量之间的相似度确定所述评分相似度Sim2(i,j)的部件;配置为确定所述对象间两两相似度Sim(i, j) = Siml (i, j) *a+Sim2 (i, j) * (l_a),其中0 < a < 1,参数a用于调节权重的部件。
15.如权利要求14所述的装置,其中,所述确定部件还包括: 配置为确定K个对象的部件,所述K个对象是根据所述对象间的两两相似度所确定的与所述当前对象相似度最高,且所述当前用户使用过的标签; 配置为以该当前用户在该K个对象上使用过的标签作为所述候选标签集的部件。
16.如权利要求15所述的装置,其中,所述K个对象进一步限制所述当前用户评分也为r。
17.如权利要求15或16所述的装置,其中,所述指标值包括权值;其中, k=\所述当前用户给第k个对象使用过标签t,则vt = I,否则Vt = O。
18.根据权利要求12所述的装置,所述用户在不同评分等级下与历史标签的关联关系包括用户在不同评分等级下的标签生成概率P (t I u,r),所述指标值包括所述候选标签的生成概率。
19.根据权利要求18所述的装置,还包括: 配置为确定定标签属性分布P (Xt)的部件,所述标签属性包括主观类和客观类; 配置为确定根据对象i生成所述候选标签t的条件概率P (t I i)的部件; 配置为确定所述沖|w,r) = YjPit I z = k)p{z = k | m,^的部件,其中,K是所述历史标签 k=\的主题数目,P(t|z)是所述主题在所述历史标签上的分布,所述P (z I u,r)是用户在不同评分等级下在主题上的分布。
20.如权利要求19所述的装置,包括: 配置为根据所述标签属性分布P(Xt)确定每个所述候选标签是客观类标签的概率P (xt = O),以及是主观类标签的概率P (Xt = I)的部件; 配置为根据公式P(Xt = 0)*p(t| i)+p(Xt = l)*p(t|u,r)计算每个所述候选标签的生成 概率的部件。
全文摘要
本发明提供了一种为用户推荐标签的方法及装置,该技术方案包括接收当前用户对当前对象的当前评分;根据所述当前用户以及所述当前评分确定候选标签集;根据所述候选标签集中每一个候选标签的指标值进行排序;根据所述排序为所述当前用户推荐标签。利用本发明的技术方案,可以进一步改善标签的推荐。
文档编号G06F17/30GK103164463SQ20111042226
公开日2013年6月19日 申请日期2011年12月16日 优先权日2011年12月16日
发明者赵石顽, 包胜华, 袁泉, 吴贤 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1