基于社交图片的用户兴趣挖掘和用户推荐方法及系统与流程

文档序号:13446250阅读:261来源:国知局
基于社交图片的用户兴趣挖掘和用户推荐方法及系统与流程

本发明涉及计算机视觉与数据挖掘领域,具体地,涉及一种基于社交图片的用户兴趣挖掘和用户推荐方法及系统。



背景技术:

随着web2.0发展,社交媒体给人类的生活方式带来了巨大的变化。人们越来越喜欢在网络平台上花更多的时间,进行一系列活动,比如浏览网站,写下评论、感受,分享图片、视频。这些活动记录了人们在网络环境中的点点滴滴,也折射了他们的内在思想和偏好。通过对社交媒体中用户的数据进行分析,推断用户的思想偏好,服务商能够提供更友好的网站服务,探索潜在的商机。

现有的基于社交媒体的用户兴趣分析和用户推荐主要包括:对用户兴趣进行建模和基于用户兴趣的分析进行推荐。其中建立用户兴趣分析模型是兴趣相似用户推荐的基础。现有技术中,abel等人通过对twitter用户的文本进行分析来推断用户对哪种新闻感兴趣,进而进行新闻推荐。xie等人通过对flickr用户的图片内容运用分层贝叶斯网络从视觉角度来学习用户的兴趣。joshi等人将flickr用户的图片内容和标签先分别提取特征然后组合成一个特征向量,再对用户的兴趣进行分析。

如公开号为cn102402594a、申请号为201110345078.3的中国发明申请,该发明公开了一种富媒体个性化推荐方法,通过选择能够体现富媒体资源特征的语义标签集合,以语义标签的权值表示富媒体资源在该标签的语义强度,为每个富媒体资源形成一个特征描述样本;然后记录下用户富媒体资源使用情况,得到m个特征样本构成的用户兴趣度原始数据u,并经过归一化后得到的用户兴趣度模型u;最后,以富媒体资源的特征描述样本及用户兴趣度模型u为基础,采用兴趣度距离及特征距离来度量并形成推荐列表进行个性化推荐。

但以上工作,只是从单一的图片角度、文本角度,或者将两种角度进行简单的对接,没有考虑图片和文本之间的耦合关系,如文本和图片内容的对应和互补关系。这使得提取得到的特征不能完全反应用户的兴趣,或者出现过拟合现象,导致在用户兴趣推荐的应用中,无法正确、适度的满足用户的需求。

另外,图片和文本特征提取的角度,综合利用现有的深度神经网络提取的图片特征和话题模型提取的文本语义特征来综合分析用户的兴趣工作仍有待探索。



技术实现要素:

针对现有技术中的缺陷/之一,本发明的目的是提供一种基于社交图片的用户兴趣挖掘和用户推荐方法及系统,以解决现有用户兴趣分析方法中忽略文本和图片之间耦合关系的问题,充分利用图片和文本之间的互补和部分对应的特性提取出可靠的用户兴趣特征,实现用户的兴趣推荐,满足用户的需求。

根据本发明的第一目的,提供一种基于社交图片的用户兴趣挖掘方法,包括如下步骤:

社交图片收集步骤:从社交网站上获取用户的图片和图片标签;

特征提取步骤:对每张从社交图片收集步骤收集的图片,用深度神经网络提取固定长度的视觉向量;对每张图片的标签用话题模型提取固定长度的文本向量;

兴趣分析步骤:根据特征提取步骤提取的所有视觉向量和文本向量,采用用户兴趣挖掘模型,将视觉向量和文本向量按照相似度进行聚类,计算社交图片的兴趣-类别分布,并计算用户的用户-兴趣分布。

根据本发明的第二目的,提供一种基于社交图片的用户推荐方法,包括如下步骤:

用户兴趣挖掘步骤:采用上述用户兴趣挖掘方法得到用户的用户-兴趣分布;

用户推荐步骤:给定一个目标用户,根据用户兴趣挖掘步骤得到的用户-兴趣分布,计算目标用户与候选用户的用户-兴趣分布之间的欧式距离,选择欧式距离小的候选用户,进行推荐。

根据本发明的第三目的,提供一种基于社交图片的用户兴趣挖掘系统,包括:

社交图片收集模块:从社交网站上获取用户的图片和图片标签;

特征提取模块:对每张从社交图片收集模块收集的图片,用深度神经网络提取固定长度的视觉向量;对每张图片的标签用话题模型提取固定长度的文本向量;

兴趣分析模块:根据特征提取模块提取的所有视觉向量和文本向量,通过用户兴趣挖掘模型,将视觉向量和文本向量按照相似度进行聚类,计算社交图片的兴趣-类别分布,并计算用户的用户-兴趣分布。

根据本发明的第四目的,提供一种基于社交图片的用户推荐系统,包括:

用户兴趣挖掘模块:采用上述用户兴趣挖掘系统计算用户的用户-兴趣分布;

用户推荐模块:给定一个目标用户,根据用户兴趣挖掘系统计算出的用户-兴趣分布,计算目标用户与候选用户的用户-兴趣分布之间的欧式距离,选择欧式距离小的候选用户,进行推荐。

与现有技术相比,本发明具有如下的有益效果:

本发明通过深入挖掘社交媒体上的社交图片数据,提出用户兴趣挖掘的主题模型,将用户兴趣通过层次化的结构表示起来,直观而客观的展现出每个用户的兴趣特征。并且对所有用户-兴趣分布之间的欧氏距离进行分析,可以对目标用户推荐兴趣相似的候选用户。

本发明可以实现用户兴趣在图片和文本角度的可视化,对涉及在社交平台上依据用户需求分析来高效地进行产品推广的决策中有重要的辅助作用。同时本发明在用户兴趣的基础上,提供了一种用户与用户之间的推荐策略(用户推荐模块),可以进一步拓展现有的社交网络的密度,有利于用户之间的交流和信息的传播。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明一实施例中用户兴趣挖掘和用户推荐方法流程图;

图2为本发明一实施例中用户兴趣挖掘系统流程图;

图3为本发明一实施例中用户兴趣分析的图模型;

图4为本发明一实施例中图片和文本聚类结果图;

图5为本发明一实施例中用户兴趣分布图;

图6为本发明一实施例中用户推荐结果图;

图7为本发明一实施例中变微分流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明基于社交图片的用户兴趣分析和用户推荐主要包括以下两个部分:基于社交图片对用户兴趣进行建模和基于用户兴趣的相似度对用户进行朋友推荐。

建立用户兴趣分析模型是兴趣相似用户推荐的基础。各个社交媒体网站存在用户的各种类型的数据,但相对于浏览记录和社交网络等类型的数据,图片和文本都分别从视觉和文本语义的角度直观的反映出用户对这个世界的喜好。对这两类数据进行建模,建立用户分析模型,能够从两类数据角度学习用户的兴趣,解决现有用户兴趣分析方法中忽略文本和图片之间耦合关系的问题。

具体的,如图1所示,一种基于社交图片的用户兴趣挖掘方法,包括如下步骤:

社交图片收集步骤:运用爬虫技术从社交网站上获取用户的图片和图片标签;

特征提取步骤:对每张从社交图片收集步骤收集的图片,用深度神经网络提取固定长度的视觉向量;对每张图片的标签用话题模型提取固定长度的文本向量;

兴趣分析步骤:根据特征提取步骤提取的所有视觉向量和文本向量,采用用户兴趣挖掘模型,将视觉向量和文本向量按照相似度进行聚类,计算社交图片的兴趣-类别分布,并计算用户的用户-兴趣分布。

所述社交图片收集步骤,是运用网络爬虫技术从社交网站上爬取用户的所有图片和对应的文本标签。

所述特征提取步骤,是用常用的深度神经网络在有标签的开源图片数据集上预训练,然后用该神经网络来提取社交图片的视觉向量特征用话题模型lda对图片的标签提取一个文本向量特征其中vmn和wmn分别是第m个用户的第n个社交图片的视觉向量特征和文本向量特征。

本发明用神经网络的倒数第二层的输出作为图片的视觉特征向量,该向量有dv维,而对话题模型lda的话题数目设定为dw个,即提取的每个文本向量特征有dw维。

所述的兴趣分析步骤,包括特征聚类、兴趣-类别分析和用户-兴趣分析,其中:

所述的特征聚类,是通过兴趣分析模型,自动将m个用户的所有社交图片的视觉向量特征和文本向量特征进行聚类,对于每张社交图片视觉向量特征和文本向量特征的类别分布,分别用视觉高斯分布{n(μk1,σk1i)}k=1,...,k和文本高斯分布{n(μk2,σk2i)}k=1,...,k模拟,其中μk1和μk2分别为两个高斯分布的均值,σk1和σk2分别为两个高斯分布的协方差系数,i为单位方阵。计算所有高斯分布的参数;

所述的兴趣-类别分析,是通过兴趣分析模型,自动分析视觉向量和文本向量的特征聚类来计算社交图片的兴趣-类别分布,对于第m个用户的第n个社交图片,用多项式分布φmn(k维向量,所有元素大于零,且所有元素的和为1)来模拟兴趣-类别分布,并计算φmn;

所述的用户-兴趣分析,是通过兴趣分析模型,自动分析每个用户的每张社交图片的兴趣-类别分布来计算用户的用户-兴趣分布,对于每个用户m,用多项式分布θm(k维向量,所有元素大于零,且所有元素的和为1)模拟用户-兴趣分布,并计算θm。

其中,兴趣分析模型,是在设定模型聚类数目k的情况下,根据m个用户的所有的社交图片视觉特征和文本特征通过变微分推断,计算视觉高斯分布{n(μk1,σk1i)}k=1,...,k和和文本高斯分布{n(μk2,σk2i)}k=1,...,k,所有社交图片的兴趣-类别分布所有用户的用户-兴趣分布{θm}m=1,...,m;

在上述用户兴趣挖掘方法的基础上,进一步的,一种基于社交图片的用户推荐方法,包括如下步骤:

用户兴趣挖掘步骤:采用上述用户兴趣挖掘方法得到用户的用户-兴趣分布;

用户推荐步骤:给定一个目标用户,根据用户兴趣挖掘步骤得到的用户-兴趣分布,计算目标用户与候选用户的用户-兴趣分布之间的欧式距离,选择欧式距离小的候选用户,进行推荐。

对应于上述的用户兴趣挖掘方法和用户推荐方法:

如图2所示,一种基于社交图片的用户兴趣挖掘系统,包括:

社交图片收集模块:从社交网站上获取用户的所有图片和图片标签;

特征提取模块:对每张从社交图片收集模块收集的图片,用深度神经网络提取固定长度的视觉向量;对每张图片的标签用话题模型提取固定长度的文本向量;

兴趣分析模块:根据特征提取模块提取的所有视觉向量和文本向量,通过用户兴趣挖掘模型,将视觉向量和文本向量按照相似度进行聚类,计算社交图片的兴趣-类别分布,并计算用户的用户-兴趣分布。

一种基于社交图片的用户推荐系统,包括:

用户兴趣挖掘模块:采用上述用户兴趣挖掘系统计算用户的用户-兴趣分布;

用户推荐模块:给定一个目标用户,根据用户兴趣挖掘系统计算出的用户-兴趣分布,计算目标用户与候选用户的用户-兴趣分布之间的欧式距离,选择欧式距离小的候选用户,进行推荐。

由上述可见,本发明基于社交图片的用户兴趣挖掘和用户推荐方法及系统,主要分四部分:(一)社交图片收集;(二)特征提取;(三)通过用户兴趣分析模型来最大化训练数据的似然概率,完成模型的参数训练;(四)通过训练模型得到的用户-兴趣分布,计算用户兴趣的差异性,对目标用户进行用户推荐,整个流程图见图1。下面结合具体实施例对上述各个部分进行详细介绍:

(一)图片数据收集

系统在yahoo开源的yfcc100m数据集上随机抽取了m个用户,并用网络爬虫技术在该数据中集开源的图片和标签。

(二)特征提取

用在开源数据集imagenet预训练好的深度神经网络googlenet提取所有图片的视觉向量特征,用网络的倒数第二层作为提取的特征,即每个向量特征dv=1024维;用话题模型lda对所有图片的标签提取一个文本向量特征,每个向量dw=1000维。

(三)利用用户兴趣分析模型对社交图片的视觉特征和文本特征进行聚类,计算每个社交图片的兴趣-类别的概率分布以及每个用户的用户-兴趣的概率分布:

1.用户兴趣分析模型是一个概率生成模型,模型基于以下两个先验知识:一个用户有多个兴趣特征;每个兴趣特征对应了社交图片的视觉空间和文本空间的类别。

2.根据整个兴趣分析模型,有以下两个分布:每个社交图片的兴趣-类别分布φ;每个用户的用户-兴趣分布θ。

a)其中,对于第m个用户的第n个社交图片,兴趣-类别的概率分布为φmn=[(φmnk):k=1,2,...,k],其中k为聚类数目,φmnk为社交图片被指定为第k个兴趣-类别的概率,也就是该聚类对于兴趣的代表性强弱。对于每个社交图片,概率较大的聚类反映其兴趣-类别构成。

b)对于第m个用户,其用户-兴趣的概率分布为θm=[(θmk):k=1,2,...,k],其中k为聚类数目,θmk为第m个用户对第k个兴趣-类别的偏好概率。对于每个用户,概率较大的兴趣-类别反映这个用户的特征构成。

3.兴趣分析模型是一个概率生成模型,对第m个用户的第n个社交图片由如下步骤生成:

a)从超参数为α的狄利克莱分布中生成用户-兴趣概率分布θm;

b)根据概率分布θm,从中生成一个兴趣-类别zm,n;

c)根据第zm,n类的视觉空间高斯分布和文本空间高斯分布分别生成视觉向量vm,n和文本向量wm,n;

这样就生成了第m个用户的第n个社交图片视觉内容和文本标签,对应的图模型见图3。

4.使用变微分推断方法,求解上述模型中的φ,θ等参数。通过em迭代更新隐变量的变微分参数和模型参数。在该模型中,m为用户数,nm表示第m个用户的社交图片数,m=1,2,...,m,n=1,2,...,nm,k=1,2,...,k,dw=1000,dv=1024具体步骤如下:

a)待估计的隐变量分布为

b)假设简单分布为:q(θ,z)=q(θ|γ)q(z|ψ),其中q(θ|γ)为以γ为参数的狄利克雷分布,q(z|ψ)是以ψ为参数的多项式分布。

c)通过优化实际的隐变量分布和简单分布的kldivergence距离,可以得到隐变量θ,z的渐进估计,即e-step

d)利用隐变量的渐进估计,优化模型参数α,{(μ1k,σ1k)}k=1,...,k,{(μ2k,σ2k)}k=1,...,k:

对于模型参数α可以像话题模型lda一样用newton-raphson方法来优化,或者直接指定为0-1之间的常数。

迭代c,d两步直到收敛最终估计出模型的参数,图7给出了变微分流程图。然后根据以上计算的模型参数,通过点估计,每个用户的用户-兴趣分布便直接利用下式计算出来:

图4展示了变微分推断方法收敛后,兴趣分析模型的4个兴趣-类别在视觉空间的聚类图片和文本空间的可视化。从中可以看出兴趣分析模型得到了无论从图片角度和文本角度都可以反应用户兴趣的聚类,而且图片和文本之间在兴趣表达上拥有一致性。例如,图4中第四个兴趣-类别,从聚类图片中可以看出这个是跟小吃有关的类别,同样的从聚类主题中也反映了类似的语义。图5展示了变微分推断方法收敛后得到一个用户的用户-兴趣分布,通过观察该分布,可以直观的看出该用户对艺术类的东西有特别的偏好。这两个图证明了兴趣分析模型能够从无结构化的社交图片数据中挖掘出用户的兴趣。

(四)用户推荐

1.给定一个目标用户的图片和标签数据,利用现有的模型参数直接根据这些数据,计算用户的用户-兴趣分布点估计然后分别计算其与数据集中的所有的用户-兴趣分布的欧式距离,选择距离小的用户推荐给该目标用户。

具体的推荐的步骤如下:

1)将目标用户的数据输入特征提取模块提取相应的特征;

2)将这些特征代入用户兴趣模型的e-step,计算出这些社交图片的兴趣-类别分布和该用户的用户-兴趣分布的变微分参数,然后点估计得到该用户的用户-兴趣分布。

3)定义目标用户与数据集中用户的兴趣差异性为两个用户-兴趣分布的l2范数,即其中m=1,2,...,m,为目标用户的用户-兴趣向量,θm为第m个用户的用户-兴趣向量。

4)根据兴趣差异性较小的用户推荐给该目标用户。

图6展示了给定一个目标用户的图片和标签,从数据集中推荐前两个与此用户兴趣差异性很小的用户。通过观察目标用户和推荐用户的图片和标签,可以看出推荐用户与目标用户的兴趣相符,特别都跟车相关。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1