基于上下文感知张量分解的社交网络用户行为预测方法与流程

文档序号:15888685发布日期:2018-11-09 19:54阅读:237来源:国知局
基于上下文感知张量分解的社交网络用户行为预测方法与流程

本发明属于数据挖掘和行为预测技术领域,更具体地,涉及一种基于上下文感知张量分解的社交网络用户行为预测方法及系统。

背景技术

随着互联网技术以及移动技术的发展,社交网络的出现彻底改变了传统的网络存在模式,即网络用户从原始简单的信息消费者,逐步转变为社交网络中信息的生产者与传播者,如图1所示。正是由于社交网络的存在使得信息能够在很短的时间内产生大规模级联效应;同时,社交网络也记录了海量的用户活动数据,这些数据对人类行为规律具有重要的研究和应用价值。目前学术界和工业界对社交网络的研究主要集中在话题识别和跟踪、用户行为分析与预测、影响力最大化传播、社区发现和个性化推荐等方面。

众所周知,消息的级联传播从宏观上来看是具有传播力的消息文本在不同用户间的扩散过程。然而,从微观上来讲,消息的传播是由单个用户的转发行为所组成的。因此,开展用户转发行为的分析与研究是社交网络上信息传播研究的出发点和重要步骤。更进一步,解决转发行为的预测问题能够带来很多好处:首先,用户转发的话题反映了用户的兴趣,转发行为预测的研究也可用于个性化内容推荐:其次,转发行为预测的研究可建模社交网络中信息的传播模式及量化传播范围,其研究成果可应用于市场营销或是热点事件追踪等领域。

用户转发行为分析和挖掘的首要任务是探索和分析影响用户转发行为的主要驱动因素。因此,基于问卷调查、用户访谈、数据统计等大量定性分析方法主要集中在挖掘对用户转发行为产生影响的一些重要因素,如消息文本内容、粉丝数、关注数、用户是否认证、用户兴趣等。这些前期定性探索为后期的转发行为量化研究奠定了一定的基础。针对用户转发行为预测这个研究问题,已有大量研究工作从拓扑结构、文本内容、社交关系、社交影响力、交互行为信息、可视化信息等不同角度进行预测模型构建。对于预测模型所使用的方法也表现各异,如二值分类模型、因子图模型、条件随机场模型、矩阵分解模型和非参贝叶斯模型等。这些研究工作通过抽取大量与转发行为有关的特征,然后利用已有模型或改进模型进行转发行为预测,但利用启发式策略抽取特征的方法存在的最大挑战是选择合适的转发特征集合。同时,这类方法也未考虑到转发数据的稀疏性问题,导致预测的准确率较低。由此可知,社交网络上关于用户转发行为分析和预测的研究仍需要深入探索和研究。已有的方法和模型存在着对行为影响因素考虑不全或模型设计不适应等问题。因此,针对转发行为预测中仍存在的问题,本发明开展进一步的探索,从一个新的角度提出更好的解决方案。



技术实现要素:

针对现有技术存在的缺陷,本发明的目的是提出一种基于上下文感知张量分解的转发行为预测方法及系统,解决在现有的用户转发行为预测中,仅根据用户兴趣或者用户间影响力来对用户的转发行为进行预测而导致的预测准确率较低的技术问题。

为实现上述目的,本发明采用的技术方案是:

一种基于上下文感知张量分解的社交网络用户行为预测方法,步骤包括:

获取用户的社交网络数据,经预处理得到完整的社交数据;

从社交数据中获得接收消息用户、被转发消息、发布消息用户的转发关系,构建目标张量ro;

基于社交数据,统计在指定时间段内转发消息用户和发布消息用户之间被转发消息的次数,构建辅助张量ra;

从社交数据中获得用户话题兴趣和用户社交特征的相似度,构建用户相似性矩阵x;

从社交数据中获得不同消息文本的主题概率分布,构建消息主题相似矩阵w;

从社交数据中获得用户间交互行为,构建用户影响力矩阵f;

根据上述ro、ra、x、w、f,构建上下文感知的张量分解模型,协同分解目标张量ro和辅助张量ra,计算分解损失函数值,获得最优的转发消息用户、被转发消息以及发布消息用户的潜在特征矩阵和核心张量;

根据上述的潜在特征矩阵和核心张量,补全辅助张量ra,对用户转发行为进行预测。

所述社交网络数据包括用户注册信息、社交关系信息、被转发消息信息以及关注和被关注的用户信息。

所述预处理是指采用二次提取数据、人工查询数据的方法进行数据的补偿、筛选。

将用户话题兴趣和用户社交特征分别进行向量化表示,利用余弦函数分别计算两两用户间的用户话题兴趣和用户社交特征的相似度。

用户话题兴趣的向量化表示是通过用户所发布消息的集合,利用lda主题模型识别得到。

用户社交特征的向量化表示是通过用户基本属性特征向量第一用户活动特征向量和第二用户活动特征向量共同组成得到,其中包括注册时间、消息数、好友数、粉丝数、好友数/粉丝数;包括平均每条消息的提交数、平均每条消息的url数、平均每条消息的hashtag数;包括平均每条消息的转发数、平均每天的转发数。

所述用户间交互行为包括转发、评论、提及。

采用基于狄利克雷多项式混合的短文本主题挖掘模型gpu-dmm得到不同消息文本的主题概率分布。

根据用户相似性矩阵x、消息主题相似矩阵w、用户影响力矩阵f,分别构建用户正则项、消息正则项、影响力正则项,结合基于合并目标张量ro和辅助张量ra的转发张量r的损失函数模型以及防止分解过程中出现过拟合现象的正则化项,构建上下文感知的张量分解模型。

通过随机梯度下降算法计算分解损失函数值,直至达到收敛的预设值或迭代最大次数,获得最优的转发消息用户、被转发消息以及发布消息用户的潜在特征矩阵和核心张量。

一种基于上下文感知张量分解的社交网络用户行为预测系统,包括存储器和处理器,所述存储器存储计算机程序,所述程序被配置为由所述处理器执行,所述程序包括用于执行上述方法中各步骤的指令。

本发明方法与现有技术相比,能够取得下列有益效果:

(1)本发明首次将转发行为的预测建模为用户兴趣和用户间社交影响力的双向结合过程,相比于现有转发行为预测方法将个体特征分开单独建模的单向过程,本发明的建模思想更符合社交网络中用户转发行为的真实场景,本发明不仅可以捕捉用户之间的交互作用,而且还可以刻画不同用户的兴趣偏好产生影响的差异性,从而有效提高了转发预测精度。

(2)本发明通过将接收消息用户、被转发消息、发布消息用户三者建模为三元转发关系的张量分解,解决了张量分解模型存在的高时间复杂度问题,同时提出的张量分解模型由于集成了用户长期的转发行为偏好,可以有效减少数据稀疏的负面影响,所以本发明使得张量分解模型可以应用于大数据环境下的转发预测问题,而且上下文感知的张量分解模型可以在有限时间复杂度内获得更高的预测质量。

(3)社交网络上存在大量稀疏的隐反馈数据,直接通过预测分值求解模型的方法存在较大预测偏差,从而导致预测精度下降,而本发明为用户间相似度和影响力强度设置了个性化权重,用以捕捉个体偏好和用户间影响对不同消息内容的转发差异性,个性化权重的设置使得模型更加贴近转发行为形成的真实情景,有助于获得更好的转发预测精度和模型稳健性。

附图说明

图1是用户转发关系示意图。

图2是一种基于上下文感知张量分解的社交网络用户行为预测方法流程图。

图3是张量分解构成示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的目的、特征和优点能够更加明显易懂,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明从社交行为所处的上下文出发,考虑将量化的用户相似性、文本主题相似性和用户间社交影响力结合起来进行研究。对于用户维度,通过联合用户社交特征和行为特征构建用户相似性矩阵;对于消息维度,采用短文本主题挖掘模型对消息进行向量化,构建消息主题相似矩阵;对于影响力维度,具有社交关系的特定用户间存在交互行为,体现在用户间社交影响力强度,用户影响力矩阵可捕获周围其他用户对该用户兴趣的影响。在张量分解框架下,联合上述三个维度的信息分别构建用户正则项、消息正则项和影响力正则项,以此约束目标函数进行转发行为预测,有助于提升预测模型的性能。

本实施例公开一种基于上下文感知张量分解的社交网络用户行为预测方法,如图2所示,包括如下步骤:

(1)选取特定种子用户,采集并处理所获得的这些用户的社交网络数据,通过特定社交网络提供的开放接口进行函数调用,进行信息的采集,步骤如下:首先,随机选取100个种子用户;然后,收集这些用户的个人主页上注册信息、社交关系信息、被转发消息信息、关注和被关注的用户信息等;最后,基于已收集的关注和被关注的用户id,采用广度搜索式遍历策略进行对应用户信息的采集。

以上数据的存储类型为json格式,可以通过程序设计语言库进行提取和分析,将json中的对象转化为所需类型。其中,采集数据存在不完整信息,需要运用数据补偿、数据筛选方法对数据进行预处理。预处理的具体方式为二次提取数据或者人工查询数据,最终保证每个参与用户、每次消息转发的信息正确性和完整性。

(2)提取转发关系数据集中的用户集、消息集和三元组集,构建接收消息用户-被转发消息-发布消息用户所构成的目标张量ro;定义一个表示接收消息用户u、被转发消息v和发布消息用户s的转发关系:在转发关系ro中,u={u1,…,ui,…um}表示接收消息用户集合,ui表示任意第i个接收消息用户,1≤i≤|u|;v={v1,…,vj,…vn}表示被转发消息集合,vj表示任意第j个被转发的消息,1≤j≤|v|;s={s1,…,…sk,…sk}表示发布消息用户集合,sk表示任意第k个发布消息用户,1≤k≤|s|。

传统转发行为预测建模只考虑接收消息用户u和被转发消息v的交互,而本发明不仅考虑了接收消息用户u和被转发消息v的交互,同时也考虑了接收消息用户u和发布消息用户s的交互,而且针对不同用户的个人偏好和交互强度的二者差异性,本发明提出的上下文感知张量分解的转发行为建模思想与传统的转发行为建模思想有着明显的区别。

(3)基于用户之间在社交网络中的历史转发行为信息,统计用户在特定时间段内转发次数,构建转发消息用户-特定时间窗口内被转发消息-发布消息用户的辅助张量ra;ra中元素的计算公式如下:

公式(1)中表示从用户s到用户u所发送的消息集合,表示用户u所转发的消息集合,表示用户u转发的消息集合中来自用户s所发布的消息数。事实上,ra比ro更稠密,表征了用户的历史转发行为模式。

(4)社交网络上的用户具有兴趣偏好信息和用户社交信息,根据这些信息的不同类别可进行向量化表示,并利用余弦函数计算两两用户间相似度,构建用户相似性矩阵假设前提是兴趣和行为相同或相似的用户能够产生相同或相似社交行为偏好。用户间相似性的度量由话题兴趣和用户社交特征共同决定。用户间话题兴趣的相似度计算公式如下:

公式(2)中d(i)表示用户ui所发送的消息集合,ta表示通过lda主题模型建模后的文档a的向量化表示。

用户社交特征可用如下特征向量表示:用户基本属性特征向量包括注册时间、消息数、好友数、粉丝数、好友数/粉丝数;第一用户活动特征向量包括平均每条消息的提交数、平均每条消息的url数、平均每条消息的hashtag数;第二用户活动特征向量包括平均每条消息的转发数、平均每天的转发数构成。用户社交特征向量ssocial即由用户基本属性特征向量第一用户活动特征向量第二用户活动特征向量共同组成。与stopic(i,j)相同的,用户uii和uj的用户社交特征相似度ssocial(i,j)也应用公式(2)计算获得。最后,用户相似性矩阵x中第(i,j)项的计算公式如下

xij=ρstopic(i,j)+(1-ρ)ssocial(i,j)(3)

公式(3)中参数ρ>0用于控制用户话题兴趣和用户社交特征的贡献度。

基于用户相似性矩阵x,构建用户正则项

(5)根据不同社交文本间的主题分布相似性信息构建消息主题相似矩阵假设前提是文本相同或相似的消息被用户所采纳的可能性相同或相近。鉴于社交短文本长度有限,本发明将被转发消息聚合成一个更长的伪文档,以此消除短文本稀疏性问题,并采用最新的基于狄利克雷多项式混合的短文本主题挖掘模型gpu-dmm。gpu-dmm模型能够向量化每个短文本到主题级别概率分布。因此,消息主题相似矩阵w第(i,j)项计算公式如下:

wij=tik×tjk(4)

公式(4)中tik表示第i个消息在第k个主题上的概率。

基于消息主题相似矩阵w,构建消息正则项

(6)根据用户间的历史交互行为信息构建用户影响力矩阵假设前提是发布消息用户对接收消息用户的影响力强度同样影响着用户的行为。因此,用户影响力矩阵f第(i,j)项计算公式如下:

公式(5)中表示从用户s到用户u所发送的消息集合,表示用户u所交互的消息集合。其中,用户间交互行为包括转发、评论和提及等动作。

基于用户影响力矩阵f,构建影响力正则项

(7)根据建立的ro、ra、x、w及f,构建上下文感知的张量分解模型,协同分解目标张量ro和辅助张量ra,计算分解损失函数值,直至达到收敛的预设值或迭代最大次数,获得最优的转发消息用户、被转发消息以及发布消息用户的潜在特征矩阵和核心张量,如图3所示;

公式(6)中表示整个张量在转发行为预测分解过程中的损失函数模型,所述目标张量ro和辅助张量ra具有相同结构的维度,合并这两个张量为转发张量r=ro||ra。如果在转发关系数据集中存在着三元组(u,m,s),那么ro则为1,否则为0。c×uu×vv×ss表示在转发关系上矩阵张量分解,是防止分解过程中出现过拟合现象的正则化项,参数α>0用于控制用户正则项在ui上贡献度,参数β>0用于控制消息正则项在vi上贡献度,参数γ>0用于控制影响力正则项在ui上贡献度,参数λ>0是防止目标函数过拟合的修正参数。

在训练过程中,为了能使优化模型尽决收敛,本实施例在对接收消息用户潜在特征矩阵u、被转发消息潜在特征矩阵v和发布消息用户潜在特征矩阵s进行迭代更新的过程中采用随机梯度下降(stochasticgradientdescent)算法,依次迭代更新公式如下:

公式(7)、(8)、(9)和(10)中z=c×uu×vv×ss,表示kronecker乘积。

如果迭代达到最大次数或收敛于设定阈值,此时即完成r的协同分解,得到优化的u、v、s以及核心张量c。

(8)根据协同张量分解的结果,获得对转发消息用户-被转发消息-发布消息用户的辅助张量ra中缺失值的补全,从而实现用户转发行为进行预测。

当公式(6)中的目标函数协同分解结束后,获得最优的u、v、s及c后,可以根据计算公式r=c×uu×vv×ss对辅助张量ra中缺失的值进行填充,填充后的值代表用户的转发概率信息。

对于模型迭代过程中的残差评估,可采用均方差(meanabsoluteerror,mae)和均方根误差(rootmeansquarederror,rmse)进行近似值度量。mae和rmse计算公式如下

公式(11)和(12)中n表示测试集中转发数据点总数,rijk和分别是真实转发值和预测转发概率。从公式(11)和(12)可知,mae和rmse二者值越小表示模型性能越好。

对于模型在转发行为预测性能方面,可将该问题转化为二分类问题,采用准确度(precision)、召回率(recall)和f值(f-measure)来评估模型的性能。计算公式如下

当准确度或是召回率越高,表明模型的性能越好,当然,在有些情况下,这两者会相互矛盾,因此才需要使用f值来综合考虑两者性能。

本发明分别以新浪微博和推特的数据作为实验数据集,验证所提出方法的有效性。具体地,实验通过调用新浪微博api或推特api获取所需数据,并采用前述采集策略不断扩张数据采集规模。对于采集到的社交网络信息,需进行数据筛选、数据补全等数据预处理工作,最终获得本发明所需的用户转发行为验证数据集。

本发明提出的基于上下文感知张量分解的转发行为预测方法(ctfrp)和4个基准方法进行比较。这4个基准方法为:朴素贝叶斯方法(naivebayes)、基于局部社交影响力的转发预测方法(lrc-bq)、基于多维非负矩阵分解的转发预测方法(mnmfrp)、基于卷积神经网络的转发预测方法(sua-acnn)。在新浪微博数据集和推特数据集上用5种方法进行转发预测,并将预测结果进行比较,实验结果如表1所示。

表1本发现提出的转发预测方法与4个基准方法在两个数据集上的分类性能比较

实验结果表明本发明提出的基于上下文感知张量分解的转发行为预测方法(ctfrp)在上述两个转发数据集上都具有较好的性能,且分类精度始终优于4个基准方法。证实了基于上下文感知张量分解的转发预测算法能够消除数据稀疏性问题,提高社交网络上用户转发行为预测的精度。

以上所述仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1