一种微博传播趋势预测方法及装置的制造方法

文档序号:9200413阅读:406来源:国知局
一种微博传播趋势预测方法及装置的制造方法
【技术领域】
[0001]本发明涉及通信技术领域,尤其涉及一种微博传播趋势预测方法及装置。
【背景技术】
[0002]目前,随着传统社会经济活动向社会化、网络化方向发展,以社会化媒体为载体、以突发、热点事件为焦点的社会舆情成为关注重点。在涉及国家安全、社会稳定、社会民生的突发、敏感事件的发酵和传播过程中,微博都起到了重要的推动甚至导向性作用。流行度预测是维护网络舆情安全的重要手段,对微博消息流行度以及微博传播模式做出快速、准确的预测,能够及早发现可能引发大规模爆发的微博,提早防范有害信息扩散和传播。
[0003]社交网络是一个多维度的复杂系统,节点间相互影响与相互作用频繁。在社交网络中,信息传播和用户群体行为一般都具有逐渐积累、混合发酵到瞬间爆发的特点,而这样的过程并不是线性的,不是单个因素作用简单迭加而成的,往往是多方面因素上一系列细微变化,综合作用使得整个系统达到某个临界状态时,出现涌现现象,微博的爆发是社交网络信息涌现现象在内容层面的一种表现形式。
[0004]在此系统特征背景下的微博传播趋势预测方法通常围绕微博转发特征挖掘和消息传播趋势建模两方面开展。在社交网络中基于泊松过程模型的事件流行度预测方法(申请号:201410334425.6)提出了一种对微博传播链上关键用户的转发行为进行泊松过程建模的方法进行事件流行度预测。然而,该方法需要对通过转发关系恢复完整的微博转发链,在实际应用中,爬取完整转发链面临好时较长和社交网络屏蔽、限制等多种困难,另外,该方法还需要对每个用户进行关键用户和非关键用户的识别,时间复杂度高,且建模过程的准确性过于依赖关键用户判别方法的准确性,使得其准确性较低。微博转发量预测模型生成方法及微博转发量预测方法(申请号:201410157342.4)提出的方法首先对微博转发量进行分级,然后提取每条微博的基本特征,建立基本特征与转发量类别之间的多分类模型,进而根据每一个转发量类别,建立基本特征与微博转发量之间的回归模型,最后利用训练好的多分类模型和回归模型进行待预测微博的转发量,可是该方法没有考虑传播过程的动态趋势,很多初始条件和内容相似的微博由于传播过程参与者等因素的不同而导致最终转发量存在巨大差异,仅依靠微博基本特征对微博最终转发量进行预测准确性较低。

【发明内容】

[0005]本发明提供一种微博传播趋势预测方法及装置,用于解决现有技术中对微博传播趋势预测的方法准确性较低的问题。
[0006]根据本发明的一个方面,提供了一种微博传播趋势预测方法,包括:获取待预测微博的基本属性特征以及传播过程特征;计算待预测微博与训练数据的基本属性特征、传播过程特征的相似度,根据计算得到的相似度按照传播过程类别对待预测微博进行分类,得到待预测微博所属的传播过程类别,传播过程类别由训练数据的传播过程特征相似度聚类得到;根据待预测微博的传播过程类别选择对应的回归模型,回归模型为预先根据训练数据建立的回归模型;根据选择的回归模型对待预测微博的传播趋势进行预测。
[0007]其中,上述传播过程特征包括:微博数据的传播过程中的内容特征、微博数据的传播过程中的转发数据特征以及微博数据传播过程中的用户特征。
[0008]进一步的,上述方法还包括:
[0009]在获取待预测微博的基本属性特征以及传播过程特征之前,根据训练数据的传播过程类别分别建立训练数据的传播中的内容特征、转发数据特征以及用户特征与训练数据的基本特征以及传播过程特征的线性回归模型。
[0010]其中,根据选择的回归模型对待预测微博的传播趋势进行预测,包括:
[0011]依次根据选择的回归模型对待预测微博的内容关键词的个数、待预测微博的转发量以及待预测微博的传播范围进行预测。
[0012]其中,上述基本属性特征,包括:发帖用户的属性以及微博内容的属性。
[0013]根据本发明的另一个方面,提供了一种微博传播趋势预测装置,包括:获取模块,用于获取待预测微博的基本属性特征以及传播过程特征;分类模块,用于计算待预测微博与训练数据的基本属性特征、传播过程特征的相似度,根据计算得到的相似度按照训传播过程类别对待预测微博进行分类,得到待预测微博所属的传播过程类别,传播过程类别由训练数据的传播过程特征相似度聚类得到;选择模块,用于根据待预测微博的传播过程类别选择对应的回归模型,训练回归为预先根据训练数据建立的回归模型;预测模块,用于根据选择的回归模型对待预测微博的传播趋势进行预测。
[0014]其中,上述传播过程特征包括:微博数据的传播过程中的内容特征、微博数据的传播过程中的转发数据特征以及微博数据传播过程中的用户特征。
[0015]进一步的,上述装置还包括:建立模块,用于在获取待预测微博的基本属性特征以及传播过程特征之前,根据训练数据的传播过程类别分别建立训练数据的传播中的内容特征、转发数据特征以及用户特征与训练数据的基本特征以及传播过程特征的线性回归模型。
[0016]其中,上述预测模块用于:依次根据选择的回归模型对待预测微博的内容关键词的个数、待预测微博的转发量以及待预测微博的传播范围进行预测。
[0017]其中,上述基本属性特征,包括:发帖用户的属性以及微博内容的属性。
[0018]本发明实施例提供的方案,充分考虑了微博传播过程的动态因素,基于微博传播过程中的多种传播过程特征来预测微博传播趋势,提高了微博传播趋势预测的准确性。
【附图说明】
[0019]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本发明实施例1提供的微博传播趋势预测方法的流程图;
[0021]图2为本发明实施例2提供的建立回归模型的流程图;
[0022]图3是本发明实施例2提供的待预测微博的传播趋势预测的流程图;
[0023]图4是本发明是实施例3提供的微博传播趋势预测装置的结构框图。
【具体实施方式】
[0024]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0025]实施例1
[0026]本实施例提供了一种微博传播趋势预测方法,如图1所示,该方法包括如下步骤:
[0027]步骤101:获取待预测微博的基本属性特征以及各传播过程特征;
[0028]其中,上述基本属性特征,包括:发帖用户的属性以及微博内容的属性,发帖用户属性包括用户是否加V、用户粉丝数、用户发帖数,微博内容属性包括是否含有URL (UniformResource Locator,统一资源定位符)、是否含有图片、是否含有视频、所含关键词个数和比例以及所含情感词个数和比例。
[0029]其中,微博的传播过程特征包括:微博数据的传播过程中的内容特征、微博数据的传播过程中的转发数据特征以及微博数据传播过程中的用户特征。
[0030]其中,内容特征包括以下信息:
[0031]内容关键词:对微博内容进行分词、统计词频,计算关键词特征向量;
[0032]内容实体词:提取内容关键词中的实体词,形成实体词特征向量;
[0033]实体连接密度:依据知网等外部知识库,计算实体词之间的连接密度,计算方法为,首先形成词为顶点、共现关系为连边的实体词图,共现一次则连边权重加1,连接密度为实体词之间的连边数量与全连通图连边数量的比值;该指标表明微博内容涉及的实体间的相互关系紧密程度,越紧密表示未来越有可能更多的出现在一起,衍生出新话题的概率越大,微博得到更多转发的概率也就越大;
[0034]内容关键词变化率:去掉垃圾回复(如推广链接和广告链接)和无实词回复(如“呵呵”和表情符号),取微博前100条回复,将内容加入到微博内容计算内容关键词特征向量,计算第i天相比第1-ι天微博内容的增长量;
[0035]内容实体词变化率:内容实体词变化率的计算方法,提取每天的内容关键词中的实体词,形成实体词特征向量,计算第i天相比第1-ι天微博内容所含实体的增长量;
[0036]数量特征:
[0037]日转发量:从发帖时间到观测结束,每天的转发次数;
[0038]转发量增长速度:计算第i天相比第i_l天转发量的增长量;表明微博持续被关注程度,增速越大,表明转发量增长越快;
[0039]饱和度:饱和度总和为1,分别计算达到饱和度为10%到100%的时间,以10%为步长;
[0040]用户特征:
[0041]发帖用户粉丝数:计算第i天相比第i_l天发帖用户粉丝总数的增长量,增长越快,表明有V用户加入微博转发过程,微博越有可能获得更多的曝光量,也就越有可能得到更多的转发次数;
[0042]发帖用户关系网络连接密度:首先形成以发帖用户为顶点,关注关系为连边的关注关系网络,计算发帖用户的连接密度,连接密度越高表明微博参与人之间关系越紧密,要么表明是一个讨论热烈的小圈子,要么是水军互相转发以提高转发率。
[0043]步骤102:计算待预测微博与训练数据的基本属性特征、传播过程特征的相似度,根据计算得到的相似度按照训练数据的传播过程类别对待预测微博进行分类,得到待预测微
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1