一种训练用于预测社交网络用户转发消息的模型的方法与流程

文档序号:12126538阅读:327来源:国知局
一种训练用于预测社交网络用户转发消息的模型的方法与流程

本发明涉及对社交网络用户所期望转发的消息的预测。



背景技术:

随着在线社交网络的发展,其已成为人们获取信息、人际交流的主要方式。以微博为例,微博用户可以实时地分享140字以内的文字、图片和视频等感兴趣的内容,例如新闻热点、专业知识、舆论导向等。微博使得用户能够转发感兴趣的消息,并将所转发的消息推送给关注该名用户的粉丝,而在该名用户的粉丝看到推送的消息后也可以选择转发,继而推送给关注该名粉丝的其他用户,这使得例如微博的社交网络成为了当前信息传播的重要平台。

社交网络的上述特点可以被应用到许多领域,例如病毒营销、媒体广告和热点提取等,由此出现了许多关于预测用户所感兴趣的社交网络消息的研究。最普遍的传播预测模型有两种,第一种是基于显式或隐式的社交网络结构构建概率预测模型,然而在实际社交网络的场景中,社交网络结构很可能是随时间动态变化的,这使得此种方式需要不断地依据社交网络结构而更新所构建的概率预测模型才能保证预测的准确率;第二种是基于抽取用户、内容、时间序列等特征的机器学习模型,然而特征抽取的处理复杂度相对较高,并且不能保证特征的完全性和有效性。因此,如何设计一个既不需要社交网络结构信息,又不需要繁琐特征工程的预测模型是一个亟待解决的问题。

针对上述问题,Bourigault等人在最近的研究中提出了用于社交网络中消息传播预测的用户表达学习模型(CDK Model),该模型将先后参与消息传播的社交网络用户映射到表达空间中,然后利用先转发用户比后转发用户在欧式空间中距离消息源发用户更近、和转发用户比未转发用户在欧式空间中距离消息源发用户更近这两个约束条件,构建损失函数的表达式,通过最小化损失函数,确定用户空间表达的具体参数。在该模型中,只根据转发序列时间戳先后信息自动学习用户空间表达,既不需要社交网络结构关系,也不需要代价高的特征工程。

然而,上述CDK模型所基于的假设是理想状态下的,致使其仍存在需要改进的地方。例如,在CDK模型中假设社交网络中消息传播是对称的,即社交网络中的任意用户a向用户b传播信息的能力等同于用户b向用户a传播信息的能力。然而,在进行预测时,还应考虑不同的用户对其他用户的影响力和易感力是不同的,这是由于用户往往更倾向于转发微博明星、网络达人等影响力高的用户所发布的微博。基于上述理想状态下的假设,将会对预测的准确性造成影响,可见上述CDK模型的预测准确度仍有待改善。



技术实现要素:

因此,本发明的目的在于克服上述现有技术的缺陷,提供一种训练用于预测社交网络用户转发消息的模型的方法,包括:

1)确定以社交网络中的每名用户的影响力和易感性为参数的损失函数;

2)收集各名用户以往进行消息转发的样本;

3)根据所述样本和所述损失函数,搜索确定所述各名用户的影响力和易感性。

根据所述方法,其中步骤1)还包括:为对先后转发消息的用户设置不同的惩罚值。

根据所述方法,其中所述损失函数的表达式为:

其中,用户表达集合Z=(z(u1),…,z(uN)),z(ui)=(z(ui)I,z(ui)S),N代表所有用户的个数,ui影响力表达为z(ui)I,ui易感性表达为z(ui)S,m代表训练集Cl中任意源发消息,代表用户uj易感性表达到源发用户影响力表达的距离与用户ui易感性表达到源发用户影响力表达的欧式空间距离的差值η,当η≥C(i,j)时,不产生惩罚,当η<C(i,j)时,产生惩罚。

并且,本发明还提供了一种根据生成的模型来预测社交网络用户转发消息的方法,包括:

1)对于测试集中每个消息,计算消息m的源发用户的影响力表达与用户集合U中每个其他用户的易感性表达的欧式距离;

2)根据距离远近降序排列得到预测的用户列表,其中排在列表前边的用户比排在列表后边的用户更可能转发。

与现有技术相比,本发明的优点在于:

根据信息传播过程的不对称性来建立模型,从而提高模型的预测性能。并且,本发明可以区分预测用户列表不同位置用户对的重要性差别,如果出现前面的用户对相对位置判断错误,则其惩罚高于排在后面的用户对判断错误,不同位置的用户对根据其在结果列表中的位置具有不同的临界惩罚间隔,从而进一步提高模型的预测性能。

附图说明

以下参照附图对本发明实施例作进一步说明,其中:

图1示出了根据本发明的IS-VM模型的临界惩罚间隔示意图,其中用户0是发出信息的消息源,用户1~5为先后转发该条信息的其他用户;

图2示出了根据本发明的平均出度μ=2的消息扩散树的示意图;

图3示意性地示出了采用梯度法来训练IS-VM模型的流程;

图4示出了IS-VM模型与CDK模型在话题1的数据集A1、A2、A3上的预测成功率;

图5示出了IS-VM模型与CDK模型在话题2的数据集B1、B2、B3上的预测成功率;

图6示出了在分别建立IS-VM模型与CDK模型时为确定模型参数而进行迭代的收敛速度。

具体实施方式

下面结合附图和具体实施方式对本发明作详细说明。

如前文所述,Bourigault等人所提出的用户表达学习的CDK模型是建立在消息传播是对称的假设上,然而这种假设在真实的社交网络中往往是不成立的,例如在微博大V与其粉丝之间的消息传播是显然不对等的。对此,本发明提出了一种IS-VM模型以将每名用户的影响力和易感性考虑在内,从而在连续的欧式空间中对不同用户个体分别学习其影响力表达和易感性表达。

此外,发明人认为还可以进一步考虑针对不同用户设置不同的表达空间临界惩罚间隔,以对上述模型进行改进。在原有的CDK模型中,将用户列表中对预测结果影响力高的用户在判断错误时的惩罚,以及对预测结果影响力低的用户在判断错误时的惩罚均设置为1。而发明人认为如果针对用户列表中的对预测结果影响力高的用户设置更高的惩罚间隔,应当能提高预测的准确度。

出于上述考虑,发明人采用数学式来表达根据本发明的IS-VM模型,具体方式如下。

首先,为每名用户赋予影响力和易感性的表达。假设,用户集合为U,其中用户ui的影响力为z(ui)I、易感性为z(ui)S,将该名用户ui的学习性表示为z(ui)=(z(ui)I,z(ui)S),z(ui)I∈Rn,z(ui)S∈Rn,其中,n代表表达空间的维数,从而表示消息传播过程中的不对称性。

然后,根据用户转发消息的次序,确定每名用户在表达空间上的临界惩罚间隔。图1示出了本发明的空间临界惩罚间隔的一个示例,其中以用户0为发出一条微博m的消息源,用户1~5先后转发了该条微博m。以图1所示出的为例,其中临界惩罚间隔C(3,4)表示用户3较用户4更先转发微博m,C(3,4)的大小表示更先转发的程度;d(0,4)表示用户4的易感性到用户0的影响力的欧式空间距离;并且C(3,4)=d(0,4)-d(0,3)。

在临界惩罚间隔C(i,j)、欧式空间距离d(0,i)和d(0,j)之间的关系为:

其中,是消息源用户。

通过推导,可以得出以下不等式关系:

由上述不等式可以看出,临界惩罚间隔C(i,j)具有累积性,例如从图1中可以看出C(1,5)=d(0,5)-d(0,1)>C(1,2。)由此证明,将临界惩罚间隔设置为固定的常数(例如1)并不能很好地表达各个用户的临界惩罚间隔关系。

为此,发明人提出可以利用消息扩散树的方式对d(0,i)进行深度建模以确定更准确的临界惩罚间隔C(i,j)。具体地,将d(0,i)表示为从消息扩散树的树根到用户ui的书的深度,即

d(0,i)=logμ(1+i),

其中,其中μ代表消息扩散树的平均出度。为了方便,在图2的实施例中采用μ=2。图2示出了平均出度为2的消息扩散树的示意图。

基于通过上述消息扩散树而确定的d(0,i),可见将临界惩罚间隔C(i,j)表示为:

上述C(i,j)的表达式,具有以下两个优点:

(i)当i的值不变时,随着j-i值的增加,C(i,j)的大小也会增加,因而能够满足前文中所述C(i,j)应当具有累积性的要求;

以图2为例,假设需要学习用户0、1和5在连续欧式空间中的表达,可以利用上述C(i,j)的表达式为用户2~4在连续欧式空间中预留足够的空间位置;

(ii)当j-i的值不变时,随着i值减小,C(i,j)的大小也会增加,因而满足对判断错误时的惩罚的要求,即在靠前用户的相对位置被判断错误时所提供的惩罚会高于靠后用户的相对位置被判断错误时的惩罚,以提高预测的准确性。

根据上述临界惩罚间隔C(i,j)和欧式空间距离d(0,i)和d(0,j)的表达式,本发明的IS-VM模型的损失函数L(Z)为:

其中,用户表达集合Z=(z(u1),…,z(uN)),z(ui)=(z(ui)I,z(ui)S),N代表所有用户的个数,ui影响力表达为z(ui)I,ui易感性表达为z(ui)S,m代表训练集Cl中任意源发消息,代表用户uj易感性表达到源发用户影响力表达的距离与用户ui易感性表达到源发用户影响力表达的欧式空间距离的差值η,当η≥C(i,j)时,不产生惩罚,当η<C(i,j)时,产生惩罚。

可以根据上述损失函数L(Z),采用例如梯度下降或遍历搜索等搜索算法来估计参数对

以采用梯度下降的算法为例,参考图3,利用训练集来训练IS-VM模型,包括:

首先,确定和z(uj)S的梯度,即:

然后,对用户集合U中每个用户ui,用随机值初始化z(ui)=(z(ui)I,z(ui)S)的值,将初始迭代次数设置为k=0;

随后,计算训练集的梯度,并对用户表达参数进行迭代更新。这里的训练集是社交网络中的各名用户以往对社交网络消息进行转发的样本集合。对于训练集中的每个源发消息m,采样转发序列中的ui和uj,其中,i和j代表用户ui和用户uj在消息m先后转发序列中的位置,i<j,或者采样转发序列中的ui和未参与转发的用户uj,如果用户uj未参与转发,则j=(l_m+L_U)/2,其中l_m代表消息m的转发用户个数,L_U代表用户集合U中所有用户的个数;

下列伪代码示出了求解参数对的过程:

应当理解,在本发明中,还可以采用其他搜索算法针对所述损失函数L(Z)采用样本集来训练IS-VM模型。

根据本发明的上述方法训练得出的IS-VM模型可以被用于预测社交用户对消息的转发。在进行预测时,对于测试集中每个消息,计算消息m的源发用户的影响力表达与用户集合U中每个其他用户的易感性表达的欧式距离,然后根据距离远近降序排列得到预测的用户列表,排在列表前边的用户比排在列表后边的用户更可能转发。

下面将根据实验数据来具体说明根据本发明的IS-VM模型、以及现有技术CDK模型在使用时的比较结果。

为了进行模拟测试,发明人采集了新浪微博的部分数据进行了计算。为了保证根据本发明的技术方案在训练及测试效果方面的可靠性,使每个用户在转发关系中的特性均可用影响力和易感性两项来表达。进行模拟测试所采用的数据集首先对未发表过原创微博的用户进行了过滤,仅考虑有发表原创微博行为的用户。测试采集了两个热门话题的数据,记为话题1和话题2,并针对每个话题分别构建了3个子数据集。各个子数据集包含着不同数据量的活跃用户,第一个数据集中包括前4000个活跃用户,第二个数据集中包括前8000个活跃用户,第三个数据集中包括前18000个活跃用户,每个数据集中70%的数据用于训练,30%的数据用于测试。

在两个不同话题的实际新浪微博数据集上测试发现,如图4所示出的比较结果,本发明的IS-VM模型比CDK模型在话题1中3个数据集的在准确率上所提高的百分比分别是10.8%,18.3%,35.1%,平均提高21.4%。并且,如图5所示,IS-VM模型比CDK模型在话题2中3个数据集上的提高比例分别是18.7%,27.2%,56.4%,平均提高34.1%。可以看出在实验中,每个话题的三个数据集数据量是递增的上述结果表明数据规模越大,IS-VM模型优越性越明显。此外,与CDK模型相比,相同计算环境下IS-VM模型的收敛速度也有显著提高,如图6所示,IS-VM模型的预测性能大概在500次达到稳定,CDK模型的预测性能大概在8000次达到稳定,IS-VM模型的收敛速度显著快于CDK模型,提高了约16倍。

可以看出,采用根据本发明的IS-VM模型进行用户转发消息的预测准确性要优于采用传统的CDK模型。并且在建立IS-VM模型时为获得参数对而进行迭代的次数也要低于传统的CDK模型,因此根据本发明的技术方案而建立IS-VM模型具有复杂度低的优点。

最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1