一种兴趣标签推荐方法及系统的制作方法

文档序号:6489782阅读:205来源:国知局
一种兴趣标签推荐方法及系统的制作方法
【专利摘要】本发明属于互联网【技术领域】,尤其涉及一种兴趣标签推荐方法及系统。本发明兴趣标签推荐方法包括:统计存在的兴趣标签的特征向量;根据存在的兴趣标签的特征向量,计算存在的兴趣标签与推荐的兴趣标签的相似度;根据存在的兴趣标签与推荐的兴趣标签的相似度进行兴趣标签的推荐。本发明实施例的技术方案具有如下优点或有益效果:本发明实施例的兴趣标签推荐方法及系统根据某个兴趣标签,计算该兴趣标签与其他标签的相似度,进行兴趣标签推荐,提高了推荐的相关性,减少了干扰,且在进行兴趣标签推荐时还参考了标签间的共现关系,使推荐更加准确。
【专利说明】一种兴趣标签推荐方法及系统
【技术领域】
[0001]本发明属于互联网【技术领域】,尤其涉及一种兴趣标签推荐方法及系统。
【背景技术】
[0002]随着互联网技术的不断发展,越来越多的用户通过互联网进行相关活动,例如浏览新闻、购物等。但是随着互联网信息的不断增多,用户需要关注的内容随着增多。为帮助用户关注其感兴趣的内容,很多互联网应用中增加了兴趣标签,根据用户的兴趣标签向用户推荐相应的内容。兴趣标签是用户用来描述自己兴趣的词语,例如用户可以用“篮球”、“NBA”、“林书豪”等词语作为兴趣标签,来描述自己的兴趣。现有兴趣标签的推荐方法主要有:随机推荐:给用户随机推荐几个兴趣标签;热点推荐:根据当前的热点事件,给用户推荐兴趣标签按类别推荐。但是上述的推荐方式存在以下缺点:随机推荐方式准确性不高,推荐效果差,可能会推荐很多用户不感兴趣的标签;热点推荐方式只能覆盖热门兴趣标签,不能根据用户的选择和喜好进行相关推荐。

【发明内容】

[0003]本发明提供了一种兴趣标签推荐方法及系统,旨在解决现有技术的兴趣标签的推荐方式准确性不高、不能推荐相关的兴趣标签问题。
[0004]本发明是这样实现的,一种兴趣标签推荐方法,包括:
[0005]统计存在的兴趣标签的特征向量;
[0006]根据存在的兴趣标签的特征向量,计算存在的兴趣标签与推荐的兴趣标签的相似度;
[0007]根据存在的兴趣标签与推荐的兴趣标签的相似度进行兴趣标签的推荐。
[0008]本发明实施例采取的另一技术方案为:一种兴趣标签兴趣标签推荐系统,包括:
[0009]特征向量统计模块:用于统计存在的兴趣标签的特征向量;
[0010]相似度计算模块:用于根据存在的兴趣标签的特征向量,计算存在的兴趣标签与推荐的兴趣标签的相似度;
[0011]兴趣标签推荐|吴块:用于跟据存在的兴趣标签与推荐的兴趣标签的相似度进彳丁兴趣标签的推荐。
[0012]本发明实施例的技术方案具有如下优点或有益效果:本发明实施例的兴趣标签推荐方法及系统根据某个兴趣标签,计算该兴趣标签与其他标签的相似度,进行兴趣标签推荐,提高了推荐的相关性,减少了对用户的干扰;另外本发明实施例的兴趣标签推荐方法及系统进行兴趣标签推荐时还参考了标签间的共现关系,使推荐更加准确。
【专利附图】

【附图说明】
[0013]附图1是本发明第一实施例的兴趣标签推荐方法的流程图;
[0014]附图2是本发明第二实施例的兴趣标签推荐方法的流程图;[0015]附图3是本发明第一实施例的兴趣标签推荐系统的结构示意图;
[0016]附图4是本发明第二实施例的兴趣标签推荐系统的结构示意图。
【具体实施方式】
[0017]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0018]请参阅图1,是本发明第一实施例的兴趣标签推荐方法的流程图。本发明第一实施例的兴趣标签推荐方法包括以下步骤:
[0019]步骤100:统计存在的兴趣标签的特征向量;
[0020]在步骤100中,兴趣标签为用户预先设定,或者根据用户的浏览历史或者操作等计算出来的标签。统计兴趣标签的特征向量具体包括:提取互联网相关文件中标题或正文包含该兴趣标签的所有文章;对包含该兴趣标签的所有文章切词、提取特征词,统计特征词的词频(Tf, term frequency);对特征词进行相关排序,取一定数量的词,作为兴趣标签的特征向量Vx。其中,对特征词根据Tf*Idf (inverse document frequency,文档频率倒数)排序,取前50个词,作为这个兴趣标签X的特征向量Vx。可以理解,取词的数量可以根据需求进行设定。
[0021]步骤110:根据存在的兴趣标签的特征向量,计算存在的兴趣标签X与推荐的兴趣标签I的相似度;
[0022]在步骤110中,存在的兴趣标签X与推荐的兴趣标签y的相似度定义为:R (X,y)=COS (Vx, Vy),其中,R (X,y)表示存在的兴趣标签x与推荐的兴趣标签I的相似度,cos表示余弦函数,Vx及Vy分别表示存在的兴趣标签X及推荐的兴趣标签I的特征向量。
[0023]步骤120:根据存在的兴趣标签X与推荐的兴趣标签I的相似度进行兴趣标签的推荐。
[0024]在步骤120中,可以设定相似度阈值,在存在的兴趣标签X与推荐的兴趣标签y的相似度大于设定的阈值时才进行推荐,另外,可以理解,相似度阈值可以根据需要进行设定和变更。
[0025]请参阅图2,是本发明第二实施例的兴趣标签推荐方法的流程图。本发明第二实施例的兴趣标签推荐方法包括以下步骤:
[0026]步骤200:准备兴趣标签集,并进行分类;
[0027]在步骤200中,可以根据需求获得一个兴趣标签候选集合,常见的兴趣标签集包括影视明星、体育赛事、文学艺术等方面的词条。
[0028]步骤210:收集互联网相关本文作为语料;
[0029]在步骤210中,从互联网上收集相关的文本作为语料,用来统计兴趣标签的关系,其中,可以采用用户发表在博客或微博中的博文作为语料,也可以采用用户日志、心情或者文章等其他文本作为语料。
[0030]步骤220:确定兴趣标签的特征词词集;
[0031]在步骤220中,对语料切词、统计每个词的Idf (Idf:inversedocumentfrequency,文档频率倒数)值,去掉高频词、停用词,去掉低频词,将剩下的词作为特征词,其中,文档频率指出现某个词的文档个数。
[0032]步骤230:统计存在的兴趣标签的特征向量;
[0033]在步骤230中,兴趣标签为用户预先设定,或者根据用户的浏览历史或者操作等计算出来的标签。统计兴趣标签的特征向量具体包括:提取互联网相关文件中标题或正文包含该兴趣标签的所有文章;对包含该兴趣标签的所有文章切词、提取特征词,统计特征词的词频(Tf, term frequency);对特征词进行相关排序,取一定数量的词,作为兴趣标签的特征向量Vx。
[0034]步骤240:根据存在的兴趣标签的特征向量,计算存在的兴趣标签X与推荐的兴趣标签I的相似度;
[0035]在步骤240中,存在的兴趣标签X与推荐的兴趣标签I的相似度定义为:R (X,y)=COS (Vx, Vy),其中,R (X,y)表示存在的兴趣标签x与推荐的兴趣标签I的相似度,cos表示余弦函数,Vx及Vy分别表示存在的兴趣标签X及推荐的兴趣标签I的特征向量。
[0036]步骤250:统计存在的兴趣标签X与推荐的兴趣标签Y之间的共现关系;
[0037]在步骤250中,存在的兴趣标签X与推荐的兴趣标签I之间的共现关系是指存在的兴趣标签X与推荐的兴趣标签y在同一篇文档中出现的次数P (X,y),即P (X,y)为语料中同时包含标签词X和标签词I的文档数目,P (χ)为语料中包含标签词X的文档数目。
[0038]步骤260:根据存在的兴趣标签χ与推荐的兴趣标签I的相似度及共现关系进行兴趣标签的推荐。
[0039]在步骤260中,本发明还可以根据下列方式进行标签推荐:推荐的兴趣标签y满足(K1,K2,K3为设定的阈值)
[0040]存在的兴趣标签χ与推荐的兴趣标签y的相似度定R(x,y) >K1
[0041]M (x, y) =P(x, y)/(P(χ)*Ρ(y)) > Κ2
[0042]P (x,y) =兴趣标签x、y在语料中的共现次数>Κ3
[0043]若已知用户对已存在的多个Χ1,Χ2……Xn感兴趣,则将Xi的相关标签Y推荐给用户,Y在用户的相关标签列表中出现的次数越多,表示用户对Y有兴趣的概率越大。
[0044]请参阅图3,是本发明第一实施例的兴趣标签推荐系统的结构示意图。本发明第一实施例的兴趣标签推荐系统包括特征向量统计模块、相似度计算模块和兴趣标签推荐模块,其中,
[0045]特征向量统计模块用于统计存在的兴趣标签的特征向量。兴趣标签为用户预先设定,或者根据用户的浏览历史或者操作等计算出来的标签。特征向量统计模块统计兴趣标签的特征向量具体包括:提取互联网相关文件中标题或正文包含该兴趣标签的所有文章;对包含该兴趣标签的所有文章切词、提取特征词,统计特征词的词频(Tf,termfrequency);对特征词进行相关排序,取一定数量的词,作为兴趣标签的特征向量Vx。。
[0046]相似度计算模块用于根据存在的兴趣标签的特征向量,计算存在的兴趣标签X与推荐的兴趣标签I的相似度。存在的兴趣标签X与推荐的兴趣标签I的相似度定义为:R(χ, y) =cos(Vx, Vy),其中,R (x, y)表示存在的兴趣标签χ与推荐的兴趣标签y的相似度,cos表示余弦函数,Vx及Vy分别表示存在的兴趣标签χ及推荐的兴趣标签I的特征向量。
[0047]兴趣标签推荐模块用于跟据存在的兴趣标签X与推荐的兴趣标签I的相似度进行兴趣标签的推荐。兴趣标签推荐1吴块跟据存在的兴趣标签χ与推荐的兴趣标签y的相似度大于设定的阈值时才进行推荐,另外,可以理解,相似度阈值可以根据需要进行设定和变更。
[0048]请参阅图4,是本发明第二实施例的兴趣标签推荐系统的结构示意图。本发明第二实施例的兴趣标签推荐系统包括兴趣标签集分类模块、语料收集模块、特征词词集确定模块、特征向量统计模块、相似度计算模块、共现关系统计模块和兴趣标签推荐模块,其中,
[0049]兴趣标签集分类模块用于准备兴趣标签集,并进行分类。兴趣标签集分类模块可以根据需求获得一个兴趣标签候选集合,常见的兴趣标签集包括影视明星、体育赛事、文学艺术等方面的词条。 [0050]语料收集模块用于收集互联网相关本文作为语料。语料收集模块从互联网上收集相关的文本作为语料,用来统计兴趣标签的关系,其中,可以采用用户发表在博客或微博中的博文作为语料,也可以采用用户日志、心情或者文章等其他文本作为语料。
[0051]特征词词集确定模块用于确定兴趣标签的特征词词集。特征词词集确定模块语料切词、统计每个词的Idf (Idf:1nverse document frequency,文档频率倒数)值,去掉高频词、停用词,去掉低频词,将剩下的词作为特征词,其中,文档频率指出现某个词的文档个数。
[0052]特征向量统计模块用于统计存在的兴趣标签的特征向量。兴趣标签为用户预先设定,或者根据用户的浏览历史或者操作等计算出来的标签。特征向量统计模块统计兴趣标签的特征向量具体包括:提取互联网相关文件中标题或正文包含该兴趣标签的所有文章;对包含该兴趣标签的所有文章切词、提取特征词,统计特征词的词频(Tf,termfrequency);对特征词进行相关排序,取一定数量的词,作为兴趣标签的特征向量Vx。
[0053]相似度计算模块用于根据存在的兴趣标签的特征向量,计算存在的兴趣标签X与推荐的兴趣标签I的相似度。存在的兴趣标签X与推荐的兴趣标签I的相似度定义为:R(χ, y) =cos(Vx, Vy),其中,R (x, y)表示存在的兴趣标签χ与推荐的兴趣标签y的相似度,cos表示余弦函数,Vx及Vy分别表示存在的兴趣标签χ及推荐的兴趣标签I的特征向量。
[0054]共现关系统计模块用于统计存在的兴趣标签X与推荐的兴趣标签y之间的共现关系。存在的兴趣标签χ与推荐的兴趣标签y之间的共现关系是指存在的兴趣标签χ与推荐的兴趣标签y在同一篇文档中出现的次数P (x,y),即P (x,y)为语料中同时包含标签词χ和标签词y的文档数目,P (χ)为语料中包含标签词χ的文档数目。
[0055]兴趣标签推荐模块用于跟据存在的兴趣标签χ与推荐的兴趣标签I的相似度及共现关系进行兴趣标签的推荐。兴趣标签推荐模块还可以根据下列方式进行标签推荐:推荐的兴趣标签I满足(Kl,K2, K3为设定的阈值)
[0056]R(x, y) > Kl
[0057]M (x, y) =P(x, y)/(P(χ)*Ρ(y)) > Κ2
[0058]P (x,y) =兴趣标签x、y在语料中的共现次数>Κ3
[0059]若已知用户对已存在的多个Χ1,Χ2……Xn感兴趣,则将Xi的相关标签Y推荐给用户,Y在用户的相关标签列表中出现的次数越多,表示用户对Y有兴趣的概率越大。
[0060]本发明实施例的技术方案具有如下优点或有益效果:本发明实施例的兴趣标签推荐方法及系统根据某个兴趣标签,计算该兴趣标签与其他标签的相似度,进行兴趣标签推荐,提高了推荐的相关性,减少了对用户的干扰;另外本发明实施例的兴趣标签推荐方法及系统进行兴趣标签推荐时还参考了标签间的共现关系,使推荐更加准确。
[0061]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种兴趣标签推荐方法,包括: 统计存在的兴趣标签的特征向量; 根据存在的兴趣标签的特征向量,计算存在的兴趣标签与推荐的兴趣标签的相似度; 根据存在的兴趣标签与推荐的兴趣标签的相似度进行兴趣标签的推荐。
2.根据权利要求1所述的兴趣标签推荐方法,其特征在于,所述统计存在的兴趣标签的特征向量步骤包括:提取互联网相关文件中标题或正文包含所述兴趣标签的所有文章;对包含所述兴趣标签的所有文章切词、提取特征词,统计特征词的词频;对特征词进行相关排序,取一定数量的词,作为兴趣标签的特征向量。
3.根据权利要求1或2所述的兴趣标签推荐方法,其特征在于,所述统计存在的兴趣标签的特征向量步骤前还包括:准备兴趣标签集,并进行分类;收集互联网相关本文作为语料;确定兴趣标签的特征词词集。
4.根据权利要求3所述的兴趣标签推荐方法,其特征在于,所述确定兴趣标签的特征词词集步骤包括:对语料切词、统计每个词的文档频率倒数值,去掉高频词、停用词及低频词,将剩下的词作为特征词。
5.根据权利要求1所述的兴趣标签推荐方法,其特征在于,所述计算存在的兴趣标签与推荐的兴趣标签的相似度步骤后还包括:统计存在的兴趣标签与推荐的兴趣标签之丨司的共现关系,其中,共现关系是指存在的兴趣标签与推荐的兴趣标签在冋一篇文档中出现的次数。
6.根据权利要求5所述的兴趣标签推荐方法,其特征在于,所述根据存在的兴趣标签与推荐的兴趣标签的相似度进行兴趣标签的推荐步骤还包括:根据存在的兴趣标签与推荐的兴趣标签的共现关系进行兴趣标签的推荐。
7.一种兴趣标签推荐系统,包括: 特征向量统计模块:用于统计存在的兴趣标签的特征向量; 相似度计算模块:用于根据存在的兴趣标签的特征向量,计算存在的兴趣标签与推荐的兴趣标签的相似度; 兴趣标签推荐1吴块:用于跟据存在的兴趣标签与推荐的兴趣标签的相似度进彳丁兴趣标签的推荐。
8.根据权利要求7所述的兴趣标签推荐系统,其特征在于,所述特征向量统计模块统计兴趣标签的特征向量具体包括:提取互联网相关文件中标题或正文包含所述兴趣标签的所有文章;对包含所述兴趣标签的所有文章切词、提取特征词,统计特征词的词频;对特征词进行相关排序,取一定数量的词,作为兴趣标签的特征向量。
9.根据权利要求7或8所述的兴趣标签推荐系统,其特征在于,所述兴趣标签推荐系统还包括: 兴趣标签集分类模块:用于准备兴趣标签集,并进行分类; 语料收集模块:用于收集互联网相关本文作为语料; 特征词词集确定模块:用于确定兴趣标签的特征词词集。
10.根据权利要求9所述的兴趣标签推荐系统,其特征在于,所述特征词词集确定模块确定兴趣标签的特征词词集包括:对语料切词、统计每个词的文档频率倒数值,去掉高频词、停用词及低频词,将剩下的词作为特征词。
11.根据权利要求7或8所述的兴趣标签推荐系统,其特征在于,所述兴趣标签推荐系统还包括共现关系统计模块,所述共现关系统计模块用于统计存在的兴趣标签与推荐的兴趣标签之间的共现关系,其中,共现关系是指存在的兴趣标签与推荐的兴趣标签在冋一篇文档中出现的次数。
12.根据权利要求11所述的兴趣标签推荐系统,其特征在于,所述兴趣标签推荐模块还跟据存在的兴趣标签与推荐的兴趣标签的共`现关系进彳丁兴趣标签的推荐。
【文档编号】G06F17/27GK103729360SQ201210385630
【公开日】2014年4月16日 申请日期:2012年10月12日 优先权日:2012年10月12日
【发明者】贺翔, 王业, 亓超 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1