一种热点话题下动态预测用户行为的系统及方法与流程

文档序号:11143609阅读:314来源:国知局
一种热点话题下动态预测用户行为的系统及方法与制造工艺

本发明涉及社交网络分析领域,尤其涉及热点话题下基于张量分解的用户行为动态预测。



背景技术:

随着互联网的发展,在社交网络大数据时代的条件下,微博成为一个基于用户关系的信息分享、传播和获取平台。通过挖掘微博用户间的交互行为数据,可以掌握社交网络中用户的行为、信息传播的规律。掌握用户行为特征,不仅可以帮助企业根据用户的行为特征为用户提供更好的产品和服务,还可以为不同的用户制定个性化的服务,从而提升自身企业的竞争力。而且,通过把握信息传播规律可以为有关部门对网络舆论进行合理的监控和干预提供理论依据。微博的出现极大地加快了信息传播的速度,微博提供的转发功能允许用户把其他微博用户的内容方便的呈现在自己的微博上进行分享,一条微博经过不同用户的转发,其受众面会呈几何形式递增,从而导致信息的病毒式传播和扩散,并且,微博的评论也可以体现出不同话题的热度以及波及的范围,因此,对用户行为的预测可以准确地推测出一条微博的传播范围和发展趋势等。同时,可以根据用户行为的预测,从而对社交网络中信息传播进行有效干预,控制信息传播的范围,这可以对舆论监控、网络水军的发现提供有力证据。

社会网络中的用户行为进行建模和预测是当前研究的重要问题,不仅需要各种技术手段分析用户行为的特点,还需要先进的技术对用户行为进行准确的建模和预测。目前关于互联网用户行为建模与预测方面的研究主要包含用户个体和群体行为两个方面。用户个体行为建模的研究主要基于数据驱动的建模方法,包括基于概率序列、条件随机场和主题模型等方法。如:根据用户的历史行为可能会对用户下一时刻采取的行为产生影响,Manavoglu和Pavlov提出采用概率序列模型来对用户行为进行建模,以时间顺序排列的用户行为序列为输入,以下一时刻将采取的行为的概率为输出;为更好地结合互联网用户个体的行为特征,除了用户自身的历史行为外,还需要考虑到用户所在的网络结构。根据网络结构特性,Peng等采用条件随机场对微博用户的转发行为进行建模。用户群体行为的研究,主要采用了随机模型(stochastic models)和时间序列模型等方法。如:Lerman和Hogg利用随机模型研究Digg网站上链接分享的得票总数。但是,以上基于用户个体和群体的用户行为预测都是静态的,基于热点话题的用户行为的动态预测的研究还比较少。并且,由于话题的时效性特征,在话题的不同阶段还存在数据不均匀和数据稀疏问题,这为动态进行用户行为预测带来了极大挑战。

为了动态预测用户的行为,本发明提出了基于热点话题的用户行为预测方法。为了说明本发明的实用性,需要具体的数据来验证,故本发明通过数据获取模块来获得本发明所需要的数据。由于本发明主要研究参与话题用户的粉丝是否会参与话题,故提出了属性提取模块来区分研究的对象。针对话题不同阶段的数据不均匀和数据稀疏问题,利用张量分解在数据空间转换和数据投影的特性,构建基于张量分解的预测模型。为了验证模型的实际效果,提出了模型预测分析模块验证模型的可用性及实用性。由于话题的爆发阶段会有很多用户一下子参与到该话题,从而导致话题下一阶段需要研究的粉丝量就会特别大,如何合理的确定需要研究的粉丝对象是本发明的一个难点。本发明未将合理过滤粉丝做为一个研究点,在后续研究中将会考虑此问题,为进一步提高模型的实用性而努力。



技术实现要素:

本发明旨在解决以上现有技术的问题。提出了一种热点话题下动态预测用户行为的系统及方法。本发明的技术方案如下:

一种热点话题下动态预测用户行为的系统,其包括数据获取模块,属性提取模块,模型构建模块和模型预测分析模块;其中数据获取模块,用于获取用户行为数据和用户关系数据;属性提取模块,用于提取社交网络中的用户参与话题的时间延迟属性并分为热点用户和备选用户;模型构建模块,根据备选用户的信息采用张量分解方法,构建用户参与热点话题预测模型;模型预测分析模块,利用张量进行分解得到模式展开矩阵的特征矩阵和核心张量,根据得到的特征矩阵和核心张量计算近似张量,并根据得到的近似张量预测备选用户的行为,在话题发展的不同阶段,根据新加入的备选用户行为数据构成的新张量和当前得到的特征矩阵和核心张量动态更新得到新的特征矩阵和核心张量,然后再根据新的特征矩阵和核心张量预测下一阶段的用户行为,同时,根据每一阶段预测的用户行为,可以把握话题发展的趋势。

进一步的,所述备选用户自身属性包括:备选用户是否是活跃用户,当备选用户过去一个月的动态达到某个阈值时就变为了活跃用户。并根据备选用户的属性构建话题当前阶段的张量,并得到张量模式展开成矩阵A(n),n=1,2,3,然后对张量模式展开成矩阵进行分解得到特征矩阵和核心张量S。

进一步的,所述张量模式展开成矩阵的分解采用的是Kernel SVD分解,Kernel SVD分解是将张量的模式展开矩阵A(n)利用映射函数将A(n)的内容映射到高维空间,即对于每一个A(n)可以找到一个对应的映射矩阵Gn,把A(n)中的每个元素axy映射成为Gn中的gxy,即gxy=Φ(axy),SVD分解计算A(n)(n=1,2,3)的左奇异矩阵U(n)是通过计算Gn的特征向量所得,而Kernel SVD利用核函数代替了Gn的内积计算,得到A(n)(n=1,2,3)的特征矩阵,并且根据特征矩阵的值计算核心张量。

进一步的,所述模型预测分析模块根据新加入的备选用户行为数据构成的新张量和当前得到的特征矩阵和核心张量动态更新得到新的特征矩阵和核心张量,包括:原始张量记为A,新增加的用户或新增加的话题构成的张量记为F,根据公式Vt表示t阶段得到的右奇异矩阵,通过对张量F进行第一模式展开得到的展开矩阵F(1)可以(F(1)没有具体的计算公式,按图2的规则展开)计算得到矩阵B,对矩阵B进行Kernel SVD分解计算,得到矩阵B的三个特征矩阵UB,VB和ΣB,并根据公式:和得到新的特征矩阵和式中If的大小为I′1×I′1的单位阵,I′1表示新增加的用户。

进一步的,所述模型预测分析模块当对在某个话题下对用户行为进行预测的时候,根据更新后的特征因子和以及核心张量S,得到A*的近似张量假设构建张量时第一模式表示用户u,第二模式表示话题s,第三模式表示用户行为a,因此对用户u在话题s下行为a的预测满足Pusa表示用户u在话题s下进行动作a的预测值,当大于某个阈值θ时,Pusa=1,则认为用户转发或评论了此话题的微博;反之,Pusa=0,则认为用户没有参与此话题,同时,可以根据预测的用户行为把握话题的发展趋势。

一种热点话题下动态预测用户行为的方法,其包括以下步骤:

获取社交网络中热点话题的互动数据以及用户的过往行为;根据用户的属性将用户定义为热点用户及其粉丝——备选用户;构建参与热点话题的用户行为预测模型即张量分解模型对用户行为进行预测;根据t阶段的已参与的用户预测t+1阶段备选用户的行为,结合话题的时效性特征,采用增量张量分解模型预测用户行为,根据预测的结果获取下一时刻备选用户归属的社交网络及数据流信息,调整网络结构。

进一步的,所述社交网络中热点话题的互动数据以及用户的过往行为的获取是利用网络爬虫或通过各社交网站开放API平台获取数据,数据内容是社交网络中热点话题的互动数据,包括用户行为数据和用户关系数据。

进一步的,根据用户的属性将用户定义为备选用户包括:

对数据进行切片以找出话题不同阶段的热点用户的粉丝——备选用户;

根据备选用户的信息构建张量A,张量A的数学表达式为表示三阶张量,其中,张量的第一阶表示用户,即包括I1个用户;张量的第二阶表示话题,即包括I2个话题;张量的第三阶表示用户行为,即包括I3种行为。体现了用户交互的信息,包括用户信息,话题信息和用户的行为。

本发明的优点及有益效果如下:

本发明是基于时间离散化及时间切片方法,加入话题信息的时效性影响,将话题生命周期分为几个不同的阶段并且针对热点话题不同阶段的数据不均匀和稀疏性问题,提出了一种高准确率,动态预测用户行为的张量分解模型,该模型不仅可以对用户行为进行预测还可以挖掘话题发展的趋势。

针对话题的周期性特点,采取了对话题进行时间切片,由于话题存在明显的时效性特征,那么对话题生命周期切片后,各阶段数据普遍存在不均匀性和稀疏性问题。由于张量可以良好的解决数据稀疏性问题,因此利用用户数据构建张量,并进行张量分解得到模式展开矩阵的特征矩阵和核心张量;由于话题在发展的过程中,不断会有新的用户,新的话题增加,故利用新增加的数据构成新的张量,利用增量张量分解动态更新各个特征矩阵和核心张量。最后,利用更新的特征矩阵和核心张量,得到近似张量,并根据设置合理的阈值对用户行为进行预测。同时,根据预测的用户行为把握话题的发展趋势。本发明采用的动态增量更新的方法解决了传统方法中静态数据的不足,提高了预测系统的实时性;而且,动态增量更新是根据历史结果和新增加的用户(话题)进行动态更新,不需要每次对所有数据构建张量进行分解,避免了每次都对历史行为进行重新计算。由于本发明可以根据用户行为的预测把握话题发展趋势,所以可以对舆情管控、网络水军的发现提供有力证据。

附图说明

图1是本发明提供优选实施例系统模型框架;

图2三阶张量的模式展开矩阵及具体实例;

图3张量动态更新的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是:

由于参与热点话题的用户表现形式有:热点用户和备选用户,热点用户指在话题当前阶段参与的用户;备选用户指话题当前阶段热点用户的粉丝。本发明的目的是对话题下一阶段的备选用户进行行为预测,直至话题的生命周期结束。由于话题的时效性特征,基于时间离散化与时间切片方法,针对热点话题存在生命周期各阶段数据不均匀和数据稀疏问题,构建增量张量预测模型,使其动态预测备选用户的行为,并根据预测的用户行为把握话题的发展趋势。

本发明的实现过程具体表述为:给定热点话题下某个阶段t的社交网络其中,Ut是热点用户,表示好友关系边,表示一系列话题下用户的历史交互信息。根据热点用户网络找出备选用户网络其中,Vt是备选用户。热点用户网络和备选用户网络构成了全网用户交互关系网

本发明根据t时间段的某话题下的话题参与情况来预测t+1阶段备选用户是否会参与此话题。本发明的模型框架图如图1所示,包括数据获取模块,属性提取模块,模型构建模块和模型预测分析模块。其中数据获取模块,用于获取用户行为数据和用户关系数据;属性提取模块,用于提取社交网络中的用户参与话题的时间延迟属性并分为热点用户和备选用户;模型构建模块,根据备选用户的信息采用张量分解方法,构建用户参与热点话题预测模型;模型预测分析模块,利用张量进行分解得到模式展开矩阵的特征矩阵和核心张量,根据得到的特征矩阵和核心张量计算近似张量,并根据得到的近似张量预测备选用户的行为,在话题发展的不同阶段,根据新加入的备选用户行为数据构成的新张量和当前得到的特征矩阵和核心张量动态更新得到新的特征矩阵和核心张量,然后再根据新的特征矩阵和核心张量预测下一阶段的用户行为,同时,根据每一阶段预测的用户行为,可以把握话题发展的趋势。

详细实施过程如下:

S1:获取数据源。数据获取可以利用网络爬虫或通过各社交网站开放API平台获取数据。数据内容是社交网络中热点话题的互动数据,包括用户行为数据和用户关系数据。

S2:提取属性模块。将社交网络中的用户根据参与话题的时间延迟分为热点用户和备选用户。

S3:建立模型,根据张量分解的基础思想和方法,构建用户参与热点话题预测模型。利用话题初始阶段(t0)的备选用户的行为数据构建张量A。

S31:话题从产生、发展到消亡要经历一个时间段称之为生命周期,为了更好的体现话题各生命阶段的特征,将话题数据进行了时间切片。对数据进行切片是为了找出话题不同阶段的热点用户的粉丝——备选用户。

S32:根据备选用户的信息构建张量A,张量A的数学表达式为表示三阶张量,其中,张量的第一阶表示用户,即包括I1个用户;张量的第二阶表示话题,即包括I2个话题;张量的第三阶表示用户行为,即包括I3种行为。体现了用户交互的信息,包括用户信息,话题信息和用户的行为。

S4:预测和分析过程。对S3中的张量A进行分解得到模式展开矩阵的特征矩阵和核心张量,根据得到的特征矩阵和核心张量计算近似张量并根据得到的近似张量预测备选用户的行为。在话题发展的不同阶段,根据新加入的备选用户行为数据构成的新张量和当前得到的特征矩阵和核心张量动态更新得到新的特征矩阵和核心张量,然后再根据新的特征矩阵和核心张量预测下一阶段的用户行为。同时,根据每一阶段预测的用户行为,可以把握话题发展的趋势,张量动态更新的流程图如图3所示。

S41:将S3中构建的张量A进行分解运算,首先将张量A按模式展开成矩阵A(1),A(2)和A(3),具体展开过程如图2所示;然后分别对每一个模式展开矩阵进行Kernel SVD分解,得到话题当前阶段t(t0)相应的特征矩阵和并利用得到的特征矩阵计算核心张量。

S411:由于张量的模式展开矩阵A(n)(n=1,2,3)同样存在数据稀疏问题,为了解决此问题,本发明没有采用传统的SVD分解,而是选择了Kernel SVD分解。Kernel SVD分解是将张量的模式展开矩阵A(n)利用映射函数将A(n)的内容映射到高维空间,即因此,对于每一个A(n)可以找到一个对应的映射矩阵Gn,把A(n)中的每个元素axy映射成为Gn中的gxy,即gxy=Φ(axy)。对于每个Gn矩阵应用SVD分解,即Gn=U(n)Σ(n)(V(n))T。为了避免显示计算Gn矩阵,可以采用一种内积的形式,定义一个矩阵Dn且满足对于Dn的计算是通过计算Gn的内积得到的,可以利用核函数替代此内积的计算。Dn是对称的方阵,对其进行特征值分解Dn=QΣQ-1,Q即是左奇异矩阵U(n),当可以得出右奇异矩阵V(n)和特征矩阵Σ(n),这样就可以得到所需的特征矩阵。

S412:根据S411中计算的U(n)和公式S=A×1(U(1))T×2(U(2))T×3(U(3))T得到核心张量S。

S42:在话题的t+1阶段,会有新的备选用户作为潜在用户存在,这些新的备选用户数据构成张量F,表示为t时刻的张量为两者在第一模式上合并后的张量为其中

S421:将张量A*按照模式展开成矩阵和其中是经过列变换得到,也是经过列变换得到。

S422:由于Ut,Vt是正交矩阵,所以有对做如下计算:其中令可以通过计算张量F的第一模式的展开矩阵F(1)得到。

S423:根据Kernel SVD分解有再根据公式和可以得到的特征矩阵,其中是单位阵。

S424:对做如下计算:令矩阵H可以通过计算张量F的第二模式的展开矩阵F(2)得到。

S425:根据Kernel SVD分解有再根据公式由于是经过列变换得到,所以应该做相应的逆变换。同理,按照S424和S425得到和

S426:根据核心张量和假设构建张量时第一模式表示用户u,第二模式表示话题s,第三模式表示用户行为a,因此对用户u在话题s下行为a的预测满足用户u在话题s下进行动作a的预测值用Pusa表示,当大于某个阈值θ时,将其置为1,即Pusa=1,则认为用户转发或评论了此话题的微博;反之,Pusa=0,则认为用户没有参与此话题。

S5:重复S4的过程,直至话题的生命周期结束。同时,通过预测话题的不同阶段备选用户的行为,可以判断出话题的每一阶段有多少人参与,从而可以把握话题的发展趋势。

本发明利用社交网络中热点话题的互动数据根据用户属性将用户分为热点用户和备选用户,利用张量分解及增量张量分解模型动态预测话题不同阶段备选用户的行为,即在话题生命周期的下一阶段备选用户是否会转发或评论该话题下的微博,并且通过预测的备选用户行为也可以把握话题发展的未来趋势。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1