一种高精度微博转发预测方法与流程

文档序号:12465759阅读:413来源:国知局

本发明涉及微博预测和数据挖掘领域,具体是一种高精度微博转发预测方法。



背景技术:

微博是一种基于用户关系的实时信息交流、分享、传播的社交平台,与Facebook、Twitter等社交网络一样影响了人类的生活交流方式。在微博平台上,随着用户数量以亿万级为单位数量的增加,大量的图片、文本等海量信息的背后反映的是人们的生活想法、知识和有趣的事情。微博的出现除了产生有益影响,也带来了很多问题,例如不良言论的无约束传播等严重破坏了社会生活风气。所以,对微博用户的活动状态进行预测,对于政府、企事业单位、个人都有重要的意义。

在现有的微博转发预测解决方案中,公开号为CN105550275A的中国专利公开了一种微博转发量预测方法,用于解决现有技术中对微博转发量预测的方法准确性较低的问题,该方法包括:获取训练微博数据和待预测微博数据;根据训练微博的转发量,将训练微博划分为对应的类别;提取训练微博特征,包括转发网络特征、内容特征和时序特征;建立所述微博特征和转发量类别之间的多分类模型;提取待预测微博特征,根据所述的待预测微博特征,基于多分类模型,预测待预测微博的转发量类别。本发明在微博内容特征和时序特征的基础上,加入多种转发网络特征,综合利用三类特征来预测转发量,提高了预测的准确性。该发明通过训练微博数据并提取特征、建立模型的方法在一定程度上提高了微博转发预测的准确度,但是对于多级层的微博转发关系网,无法做到精确预测其中的级层转发情况,而且运算成本较高。

公开号为CN103984701A的中国专利公开了一种微博转发量预测模型生成方法及微博转发量预测方法。微博转发量预测模型生成方法包括:获取训练数据,训练数据包括多条已知转发量的微博;以微博的转发量为依据,将微博分为3个以上转发量类别;提取每条微博的基本特征;建立基本特征与转发量类别之间的多分类模型;针对每一个转发量类别,建立基本特征与微博转发量之间的回归模型。微博转发量预测方法包括:提取待预测微博的基本特征;根据多分类模型及基本特征,判定待预测微博所属的转发量类别;获取转发量类别对应的回归模型;根据回归模型及基本特征,预测待预测微博的转发量。采用本发明的提供的方法特征提取简单且适合在大规模数据中使用。该专利与本发明采用的方法不同,且解决的问题不同。

公开号为CN104915397A的中国专利公开了一种微博传播趋势预测方法及装置,用于解决现有技术中对微博传播趋势预测的方法准确性较低的问题,该方法包括:获取待预测微博的基本属性特征以及传播过程特征;计算待预测微博与训练数据的基本属性特征、传播过程特征的相似度,并对待预测微博数据进行分类,得到待预测微博所属的传播过程类别,传播过程类别由训练数据的传播过程特征相似度聚类得到;为分类后的待预测微博选择对应的回归模型,对待预测微博的传播趋势进行预测,回归模型为预先根据各类训练数据建立的回归模型,该方案提高了微博传播趋势预测的准确性。该专利与本发明采用的方法不同。

在现有的微博预测解决方案中,一般的随机游走计算对于每个网络节点的选择权重都是一样的,而带权随机游走具备一定的偏向性。例如:如果一个人转发该用户的微博频率较高那么他下一次转发的可能性就更大,反之,则不是。所以,对于多种级层关系的微博转发关系网络,假设微博用户A发表了10篇微博,微博用户B转发了8篇,微博用户C转发了2篇。初始化节点权重:A=B=C=1/3,A的节点权重会以1:1的形式分给B,C,那么,如果A发布了一篇微博,将无法精确预测下一个转发者,因为概率都一样。

综上所述,现有的微博预测方法存在精度低且运算成本高的问题。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种高精度预测微博转发概率的方法,以至少实现提高预测精度、降低运算成本的效果。

本发明的目的是通过以下技术方案来实现的:一种高精度微博转发预测方法,它包括以下步骤:

S1:根据微博用户的转发关系建立有向图网络;

S2:统计待测微博用户发布的微博被转发的总数N,以及待测微博用户对应的各个关注者转发的数量n1,n2,n3…ni,计算对应的每条有向边的初始权重为

S3:统计有向网络中节点个数M,并给予每个节点1/M的权重;

S4:更新每个节点的权重,首先以发布微博的用户为节点,把当前节点的权重根据相应有向边的权重分配到直接关注该微博的节点上;

S6:重复执行S4步骤,直到每个节点的权重收敛;

S5:完成发布微博的用户和第一批关注者的节点权重更新以后,依次更新剩下的各批关注者的节点的权重;

S7:获取待测微博的第一批关注者的权重w1,w2,…wn

S8:根据需要设定权重阈值Q1,判断第一批关注者的权重w1,w2,…wn是否超过阈值Q1,如果超过,则保留;如果没有超过,则去除;如果都不超过,则去掉topK个权重值后作为下一个阶段的传播预测;

S9:重复步骤S8,根据需要设定一个关注者个数阈值Q2,直到关注者的权重都小于Q1且关注者的个数都小于Q2时,停止预测。

所述的步骤S6能够根据实际需求设置迭代次数直到满足实际情况需要或者通过设定一个节点变化率阈值Q3,如果每个节点的变化率都小于Q3,则停止迭代,进行该阶段的预测。

所述步骤S3中的网络节点个数M为涉及到转发微博的关注者个数。

所述步骤S4中,根据关注者转发的微博数占被关注者发布的被转发的微博总数的比例进行分配权重。

所述的第一批关注者为直接关注首先发布微博的用户的关注者,第二批关注者为通过关注第一批关注者关注到了该转发微博,第三批关注者为通过关注第二批关注者关注到了该转发微博,依次类推,第K批关注者为通过第K-1批关注者关注到了该转发微博。

所述的步骤S7中,第一批关注者的权重为w1,w2,…wn均为均分权重1/M。

所述的预测涉及关注者和被关注者两个级层,每一个级层预测一次。

所述的topK为按照从大到小排序的前K个项。

本发明的有益效果是:本发明通过建立微博用户的转发关系有向图网络,然后计算待测微博用户的微博转发总数,利用权重关系来刻画不同情况下的转发概率,从而建立起基于权重关系的微博转发预测向量关系模型,然后对微博转发的次数、规模进行计算预测;通过设定程序迭代阈值,降低了运算成本;本发明尤其是对于两个级层的微博转发关系进行预测,显著提高了预测精度,将本发明运用到微博转发规模的预测系统中,可以提高预测效率,降低程序运算成本。

附图说明

图1为本发明的执行步骤流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。

一种高精度微博转发预测方法,它包括以下步骤:

S1:根据微博用户的转发关系建立有向图网络;如果A关注了B,那么就有一条从B出发指向A的有向边;如果A同时关注了B,C,那么就存在两条分别从B,C出发的边,共同指向A。

S2:统计待测微博用户发布的微博被转发的总数N,以及待测微博用户对应的各个关注者转发的数量n1,n2,n3…ni,计算对应的每条有向边的初始权重为

S3:统计有向网络中节点个数M,并给予每个节点1/M的权重。

S4:更新每个节点的权重,首先以发布微博的用户为节点,把当前节点的权重根据相应有向边的权重分配到直接关注该微博的节点上;这一过程只涉及发布微博的用户和关注该微博的第一批关注者。

S6:重复执行S4步骤,直到每个节点的权重收敛。

S5:完成发布微博的用户和第一批关注者的节点权重更新以后,依次更新剩下的各批关注者的节点的权重。

S7:获取待测微博的第一批关注者的权重w1,w2,…wn

S8:根据需要设定权重阈值Q1,判断第一批关注者的权重w1,w2,…wn是否超过阈值Q1,如果超过,则保留;如果没有超过,则去除;如果都不超过,则去掉topK个权重值后作为下一个阶段的传播预测。

S9:重复步骤S8,根据需要设定一个关注者个数阈值Q2,直到关注者的权重都小于Q1且关注者的个数都小于Q2时,停止预测。

所述的步骤S6能够根据实际需求设置迭代次数直到满足实际情况需要或者通过设定一个节点变化率阈值Q3,如果每个节点的变化率都小于Q3,则停止迭代,进行该阶段的预测。

所述步骤S3中的网络节点个数M为涉及到转发微博的关注者个数。

所述步骤S4中,根据关注者转发的微博数占被关注者发布的被转发的微博总数的比例进行分配权重。假设A发表了10篇微博,B转发了8篇,C转发了2篇。而A到B的边权重就是0.8,A到C的边权重就是0.2。分配权重的过程中,A的节点权重会以4:1的形式分给B,C,那么,如果A发布了一篇微博,我们可以预测下一个转发者为B的概率更大。

所述的第一批关注者为直接关注首先发布微博的用户的关注者,第二批关注者为通过关注第一批关注者关注到了该转发微博,第三批关注者为通过关注第二批关注者关注到了该转发微博,依次类推,第K批关注者为通过第K-1批关注者关注到了该转发微博。

所述的步骤S7中,第一批关注者的权重为w1,w2,…wn均为均分权重1/M。

所述的预测涉及关注者和被关注者两个级层,每一个级层预测一次。

所述的topK为按照从大到小排序的前K个项。

所述的步骤S7中,第一批关注者的权重为w1,w2,…wn均为均分权重1/M。

所述的预测每一次预测涉及关注者和被关注者两个级层,每一个级层预测一次。

所述的topK为按照从大到小排序的前K个项。

以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1