一种基于核的协同主题回归标签推荐方法

文档序号:9326951阅读:239来源:国知局
一种基于核的协同主题回归标签推荐方法
【技术领域】
[0001] 本发明是一种基于核的矩阵分解和主题模型相结合的混合方法做标签推荐的实 现方法。
【背景技术】
[0002] 标签以及标签系统,作为web2.0时代的一种重要标志,是很多网站的必要组成部 分。标签系统的鼻祖Delicious,音乐网站Last, fm和电影评论网站豆瓣等,都是标签系统 的代表性网站。在这些网站中,标签作为一种重要的特征(featrue)表现,联系着用户和物 品,反映着它们之间的喜好关系。同时当用户浏览某个物品时,用户需要被提供高质量的标 签来帮助了解该物品,同时标签系统也非常希望用户能够打给这个物品高质量的标签,这 样才能促进标签系统的良性循环。因此,标签推荐应运而生,在很多标签系统中都有提供给 用户标签推荐。同时,标签推荐也作为近些年的研究热点,受到各个领域的关注。
[0003] 标签推荐帮助用户节省了输入标签的时间,提高了用户的参与度。同时,在使用标 签推荐时,可以规范标签的书与,减少标签的规t旲,提尚标签的质量。一个网站有了尚质量 的标签,同时也反馈给了用户高质量的体验。
[0004] 标签推荐中存在着{物品,标签}行为信息、物品的文本信息以及其他一些信息。 如何合理的利用这些信息是传统协同过滤标签推荐中面临的一个挑战。针对上述问题,本 发明有效地将行为信息、文本信息还有社会关系信息整合到一个模型中训练。同时,冷启动 问题作为传统协同过滤算法的研究的重点也是标签推荐中面临的一大挑战,本发明将文本 信息经过主题模型LDA(Latent Dirichlet Allocation)训练出来的主题分布作为物品的 特征向量,有效的解决了冷启动问题。

【发明内容】

[0005] 本发明的目的是提供基于核的矩阵分解和主题模型组成的混合模型做面向物品 的标签推荐的实现方法。传统的标签推荐方法将物品之间看做是相互独立的,忽略了它们 之间存在社会关系的事实。物品之间存在主题或者语义上的相似性,而这种相似性通常通 过社会关系表现出来。通过引入核函数,本发明可以有效的表现出物品之间存在的社会关 系,而这种表现体现在算法训练过程中物品的特征会受到处于同一社会关系的其他物品的 特征的影响。使用本发明提供的方法,可以应用标签系统中,提供标签推荐的服务或者提高 标签推荐的质量。
[0006] 本发明提出的推荐方法是将矩阵分解、主题模型还有核方法结合到一起的混合方 法。该混合方法将{物品,标签}行为矩阵、物品的文本信息(主要包括摘要信息和标题信 息)还有社会关系信息有机的整合到一个模型中。为了方便使用这些信息,本发明需要做 一些初始工作:首先,使用LDA对文本数据进行处理,得到物品和主题的关系矩阵,并将其 作为物品的初始化的特征向量信息添加到模型中。其次,将物品间的社会关系信息,组成一 个拉普拉斯矩阵L = D-W。其中W表示物品间社会关系的无向图,如果Wu= 1,表示物品i 和物品j之间存在联系,反之Wlj=O13 D是对角矩阵,对角线的元素满足D11=E Jlj。在 L两边同时乘以fi,最终得到了正则化的拉普拉斯矩阵IUzr^/)七然后定义核函数,核 函数的如公式(1)所示:
(1)
[0008] 上式是正则化的拉普拉斯核函数,其中I是单位矩阵,γ是核函数的参数。为了 将核函数以及主题模型应用到矩阵分解模型中,本发明引入概率矩阵分解,同时将它的先 验分布从高斯分布替换为高斯过程,将主题模型得到的物品和主题关系矩阵作为物品的先 验均值,将正则化拉普拉斯核函数作为其协方差函数。这样就组成了基于核的混合模型,同 时也把三种信息整合起来做推荐。
[0009] 该算法的生成过程如下:
[0010] 1.对所有的标签tag,生成U:,d~GP (0,KU),其中GP表示高斯过程,d从1到D,D 表示隐藏特征的个数,Ku是协方差函数,可以用核函数代替;
[0011] 2.对于每个物品item的内容有以下的生成步骤:
[0012] 1)生成主题比例分布Θ Dirichlet ( α ),其中Dirichlet表示狄利克雷分布;
[0013] 2)对于物品item内容Wj中的每一个词w jn,
[0014] i.生成在主题分配上的分布zjn~ Mult ( Θ J,其中Mult表示多项式分布,
[0015] ii.生成每个词的分布wjn~ Mult (/?,,);
[0016] 3.对于每个物品item,生成V:,d~GP( Θ :,d,Kv),d从1到D ;
[0017] 4.对每个标签物品对,生成标记信息Γι?,有
,其中的N表示高斯 分,Cij表不 confidence parameter
[0019] 其中,有a和b满足a>b>0。
[0020] 为了简化计算本发明用Su替换I1,用Sv替换再根据上述的生成过程,得到 算法的对数似然函数,如公式(2)所示:
[0022] 通过计算最大后验估计(MAP),分别对item和tag的特征向量求偏导,并对其结果 赋值为〇。对item和tag的优化,本发明采用梯度上升方法,由于本发明使用的数据集中 不能提取出tag的社会关系信息,为了简化计算,tag的先验分布使用高斯分布替换,它们 的特征优化方法如公式(3)所示,其中11;表示标签i特征向量,V 表示物品j的特征向量。 对于主题比例分布Θ采用投影梯度算法进行优化,对于词的主题分布β,采用和LDA-样 的方法进行优化,如公式(4)所示是其特征优化方法。
[0023] U1^ (VC ,Vt+λ JK) 1VC1R1
[0024] 其中Cj是一个对角矩阵,对角线的元素是{c $ j = 1,···,J}。Sv(j, )是核函 数矩阵第j行,第j'列的元素,且j'不等于j。Ik是一个单位矩阵。

【附图说明】
[0026] 图1是本发明的概率模型图;
[0027] 图2是本发明在数据集上和传统协同过滤测试结果召回率的对比;
[0028] 图3是本发明在数据集上和传统协同过滤测试结果成功率的对比。
【具体实施方式】
[0029] 下面使用具体的数据集还有附图对本算法的【具体实施方式】进行描述,便于本领域 的技术人员更好地理解。
[0030] 1.数据集描述
[0031] 数据集是一个公开的数据集,采集自CiteULike上,其中包括5551个用户,16980 篇论文,46391个标签,44709个论文的引用关系以及204987个{用户,论文}对,其中每篇 论文还包括其标题,摘要等内容信息。
[0032] 2.数据预处理
[0033] 数据的预处理包括数据去噪、文本信息处理以及构建核函数三部分。
[0034] 1)数据去噪
[0035] 将数据集中使用次数少于5次的标签移除,最终得到7386个标签。
[0036] 2)文本信息处理
[0037] 对于论文的内容,经过去停用词后,根据TF_IDF(term frequency - inverse document frequency)的值从大到小排列,选取前8000个词,组成词汇表,并对其编号。根 据词汇表统计每篇论文的词频,组成文本向量,最后的文本处理成主题模型训练通用的格 式。例如" 101:5980: 1··
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1