一种基于主题的类引力模型微博预测方法与系统与流程

文档序号:12465751阅读:451来源:国知局

本发明涉及微博预测领域,具体是一种基于主题的类引力模型微博预测方法与系统。



背景技术:

微博是一种基于用户关系的实时信息交流、分享、传播的社交平台,与Facebook、Twitter等社交网络一样影响了人类的生活交流方式。在微博平台上,随着用户数量以亿万级为单位数量的增加,大量的图片、文本等海量信息的背后反映的是人们的生活想法、知识和有趣的事情。微博的出现除了产生有益影响,也带来了很多问题,例如不良言论的无约束传播等严重破坏了社会生活风气。所以,对微博用户的活动状态进行预测,对于政府、企事业单位、个人都有重要的意义。

在现有的微博预测解决方案中,公开号为CN104933622A的中国专利公开了一种基于用户和微博主题的微博流行度预测方法及系统,该方法包括:获取预设时间段内的微博数据和用户数据,根据所述微博数据和所述用户数据,获取用户属性特征和微博主题特征,将所述用户属性特征进行归一化处理,以处理后的所述用户特征进行用户聚类,并根据聚类结果,获取用户的类别信息;根据所述微博主题特征和所述用户的类别信息,获取用户聚类在所述微博主题下的转发特征,并计算所述用户聚类在所述微博主题下的权重系数;根据所述微博主题特征、所述用户属性特征、所述权重系数,构建微博流行度预测模型,通过所述微博流行度预测模型对微博流行度进行预测。该专利利用不同时间间隔的影响权重进行流行度预测模型的构建与本发明基于主题转发关系的有向图网络进行节点权重刻画不同的转发概率的方案不同,且本发明在不同的主题转发关系下不仅实现对任意第K批关注者的预测,而且提高了预测的准确度。

对于多种级层关系的微博转发关系网络,在不同主题类型的转发关系中,多种级层关系的预测的准确性并不高,不能实现对任意第K批关注者的转发情况预测。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种基于主题的类引力模型微博预测方法与系统,以至少实现对任意K度粉丝进行转发预测、提高准确性和预测精度的效果。

本发明的目的是通过以下技术方案来实现的:一种基于主题的类引力模型微博预测方法,它包括以下步骤:

S1:爬取微博,并根据时间窗D的大小分别存储相应的微博转发关系及微博内容;

S2:利用现有的主题模型对爬取的微博内容进行主题分类;

S3:根据不同的主题分类分别存储微博转发关系;

S4:基于不同主题分类的转发关系,建立有向图网络;

S5:统计有向图网络中的节点个数M,并给予每个节点1/M的权重;

S6:统计每个微博用户发布的微博被转发的总数N,以及每个微博用户对应的各个粉丝转发的数量n1,n2,n3…ni,计算每个粉丝对应的每条有向边的初始权重为:

S7:把选定节点的权重根据有向边的权重分配到关注该节点的节点上,用以更新关注该节点的每个节点的权重;

S8:根据更新以后的节点权重计算相应的有向边的权重;

S9:循坏执行S7~S8步骤,直到每个节点的权重收敛;

S10:根据需要获取待测微博的第K度粉丝的节点权重k1,k2,…kn

S11:计算待测微博到选定的一个K度粉丝的引力指数:

其中,M为待测微博用户的节点权重,m为选定的一个K度粉丝的节点权重,r为M到m的一条路线的所有有向边的权重之和的倒数,G根据实际需要设定;

所述步骤S1中的有向边是指在同一主题分类下由被关注者指向关注者的单向边。

所述步骤S2中的网络节点为涉及到转发微博的同一主题分类下的关注者,所述的节点个数M为涉及到转发微博的同一主题下的关注者个数。

所述的K度粉丝为第K批关注转发微博的用户,第K批用户通过关注第K-1批用户关注到该转发微博。

所述S5中,根据关注者转发的微博数占被关注者发布的被转发的微博总数的比例进行分配权重。

所述步骤S7中通过设定一个阈值,判断每个节点的变化率是否小于该阈值,若是,则停止迭代。

所述的G从一个设定值开始,通过测验预测效果直到找到最佳预测效果下的G值,然后以最佳预测效果下的G值作为选定的特定主题下的G值。

一种基于主题的类引力模型微博预测系统,它包括数据爬取模块、微博库、转发关系库、分析模块、预测关系库、用户前端模块和用户后端模块,所述数据爬取模块用于对微博的爬取;所述微博库用于存储爬取的微博内容;所述转发关系库用于存储数据爬取模块爬取的微博转发关系;所述分析模块用于对爬取的微博内容进行主题分类,对转发关系库中的转发关系进行统计分析,建立相应的图网络,并计算网络节点中的权重及边的权重;所述预测关系库用于保存分析模块生成的不同主题微博的转发预测信息;所述用户前端模块为用户提供界面方便其录入待测微博用户信息;所述用户后端模块调用分析模块的函数进行分析,根据用户输入的信息得到预测结果,预测结果存储后提供给特定网站进行调用。

本发明的有益效果是:本发明通过爬取微博,然后根据爬取的微博内容进行不同的主题分类,基于不同的主题分类转发关系下,统计所有节点个数并给予每个节点相同的初始权重后,基于相同的初始权重和节点的转发情况计算对应的每条边的初始权重,利用每条边的初始权重和相应的节点权重来更新所有节点权重,然后通过类引力模型建立任意两点之间的节点联系,同时利用带有权重的节点权重刻画不同的节点的转发概率,提高了局部预测的精度,同时通过带有权重的类引力模型可以任意预测第K批关注者的转发情况,相比通过逐个级层的迭代计算来预测第K批关注者的转发情况,提高了预测效率,并且基于不同的主题转发关系,提高了预测准确度。

附图说明

图1为本发明的方法执行步骤流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。

如图1所示,一种基于主题的类引力模型微博预测方法,它包括以下步骤:

S1:爬取微博,并根据时间窗D的大小分别存储相应的微博转发关系及微博内容;

S2:利用现有的主题模型对爬取的微博内容进行主题分类;

S3:根据不同的主题分类分别存储微博转发关系;

S4:基于不同主题分类的转发关系,建立有向图网络;

S5:统计有向图网络中的节点个数M,并给予每个节点1/M的权重;

S6:统计每个微博用户发布的微博被转发的总数N,以及每个微博用户对应的各个粉丝转发的数量n1,n2,n3…ni,计算每个粉丝对应的每条有向边的初始权重为:

S7:把选定节点的权重根据有向边的权重分配到关注该节点的节点上,用以更新关注该节点的每个节点的权重;

S8:根据更新以后的节点权重计算相应的有向边的权重;

S9:循坏执行S7~S8步骤,直到每个节点的权重收敛;

S10:根据需要获取待测微博的第K度粉丝的节点权重k1,k2,…kn

S11:计算待测微博到选定的一个K度粉丝的引力指数:

其中,M为待测微博用户的节点权重,m为选定的一个K度粉丝的节点权重,r为M到m的一条路线的所有有向边的权重之和的倒数,G根据实际需要设定;

所述步骤S1中的有向边是指在同一主题分类下由被关注者指向关注者的单向边。

所述步骤S2中的网络节点为涉及到转发微博的同一主题分类下的关注者,所述的节点个数M为涉及到转发微博的同一主题下的关注者个数。

所述的K度粉丝为第K批关注转发微博的用户,第K批用户通过关注第K-1批用户关注到该转发微博。

所述S5中,根据关注者转发的微博数占被关注者发布的被转发的微博总数的比例进行分配权重。

所述步骤S7中通过设定一个阈值,判断每个节点的变化率是否小于该阈值,若是,则停止迭代。

所述的G从一个设定值开始,通过测验预测效果直到找到最佳预测效果下的G值,然后以最佳预测效果下的G值作为选定的特定主题下的G值,用以提高不同主题预测的泛化能力。

一种基于主题的类引力模型微博预测系统,它包括数据爬取模块、微博库、转发关系库、分析模块、预测关系库、用户前端模块和用户后端模块,所述数据爬取模块用于对微博的爬取;所述微博库用于存储爬取的微博内容;所述转发关系库用于存储数据爬取模块爬取的微博转发关系;所述分析模块用于对爬取的微博内容进行主题分类,对转发关系库中的转发关系进行统计分析,建立相应的图网络,并计算网络节点中的权重及边的权重;所述预测关系库用于保存分析模块生成的不同主题微博的转发预测信息;所述用户前端模块为用户提供界面方便其录入待测微博用户信息;所述用户后端模块调用分析模块的函数进行分析,根据用户输入的信息得到预测结果,预测结果存储后提供给特定网站进行调用。

以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1