一种微博热度分析获取方法与流程

文档序号:14911396发布日期:2018-07-10 23:31阅读:296来源:国知局
本发明涉及一种微博热度分析获取方法,属于社交网络
技术领域

背景技术
:当前微博已成为网络社交的重要媒介之一,在知识传播、信息分享、社会舆情等方面影响着人们的行为方式。微博即微型博客的简称,也即是博客的一种,是一种通过关注机制分享简短实时信息的广播式的社交网络平台。微博是一个基于用户关系信息分享、传播以及获取的平台。用户可以通过WEB、WAP等各种客户端组建个人社区,以140字(包括标点符号)的文字更新信息,并实现即时分享。微博的关注机制分为可单向、可双向两种。微博作为一种分享和交流平台,其更注重时效性和随意性。微博更能表达出每时每刻的思想和最新动态,而博客则更偏重于梳理自己在一段时间内的所见、所闻、所感。因此,微博是当前社交网络中的重要方式,而微博热度是评价的微博消息的一个指标,当前技术中,还没有个准确的方式实现微博热度的评价,因此现有技术对于微博的评价还不够准确。技术实现要素:本发明所要解决的技术问题是提供一种能够针对微博消息实现准确评价的微博热度分析获取方法。本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种微博热度分析获取方法,用于实现目标微博消息热度的获取,包括如下步骤:步骤A.获取目标微博消息所对应各个指定的原始数据信息,并针对各个原始数据信息进行处理,获得相对应的各个微博因子数据,然后进入步骤B;步骤B.针对各个微博因子数据,获得各个微博因子数据分别所对应的系数,然后进入步骤C;步骤C.针对各个微博因子数据,进行因子分析,并降维操作,获得相对应的各个微博信息维度,以及各个微博信息维度的权重,然后进入步骤D;步骤D.基于各个微博因子数据分别所对应的系数,根据各个微博信息维度与各个微博因子数据之间的对应关系,通过加权方法,获得各个微博信息维度的数据,然后进入步骤E;步骤E.根据各个微博信息维度的权重,以及各个微博信息维度的数据,按如下公式:获得微博热度指数F,其中,I表示微博信息维度的个数,αi表示第i个微博信息维度的权重,Fi表示第i个微博信息维度的数据。作为本发明的一种优选技术方案:所述步骤B中,针对各个微博因子数据,通过采用因子抽取与因子旋转方法,获得各个微博因子数据分别所对应的系数。作为本发明的一种优选技术方案:所述步骤C中,针对各个微博因子数据,进行主成分因子分析,并降维操作。作为本发明的一种优选技术方案:所述步骤A中,目标微博消息所对应各个指定的原始数据信息,包括阅读量、点赞数、评论数、转发数、博主粉丝数、活跃天数、微博文字数、图片数、传播时长。作为本发明的一种优选技术方案:所述步骤A中,针对各个原始数据信息按如下步骤进行处理,获得相对应的各个微博因子数据;步骤A1.根据带有有效文字转发内容的转发数,获得转发并评论数,并根据参与评论或转发的用户的发博量少于3条,且用户的粉丝数少于5个视为僵尸用户,获得僵尸用户数,以及将用户发博内容原创率为0视为水军用户,获得水军用户数,然后进入步骤A2;步骤A2.根据微博文字数/140,获得文字充实度;根据图片数/9,获得图片充实度;根据转发并评论数/阅读量,获得深度传播率;根据僵尸用户数、水军用户数之和与阅读量的比值,获得负面传播率,然后进入步骤A3;步骤A3.将博主粉丝数、活跃天数、文字充实度、图片充实度、传播时长、深度传播率、负面传播率作为各个微博因子数据。本发明所述一种微博热度分析获取方法采用以上技术方案与现有技术相比,具有以下技术效果:本发明设计的微博热度分析获取方法,基于微博的网络数据,分析信息在微博中的传播特征,包括微博发博客户端分布、微博传播时间和微博传播参与度等传播特征,提炼影响微博传播的各种因素;并且基于微博的用户特征、内容特征和信息传播特征等指标,改进了的基于因子分析法的热度评价模型,通过对单条微博的各种数据特征进行测量和统计,并使用因子分析对数据进行整理分析,最终对其结果进行排序和对比,分析与原排序的差异产生原因,结果表明本模型具有较高准确性,并且本发明方法同时考虑到负面传播和深度传播这两种在微博中常见且不可忽视的现象,更能综合体现微博的热度。附图说明图1是本发明所设计微博热度分析获取方法的流程示意图;图2是本发明应用实施例中因子分析碎石图;图3是本发明应用实施例中旋转空间的成分图;图4是本发明应用实施例中数据删选整理后的分析图。具体实施方式下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。如图1所示,本发明设计了一种微博热度分析获取方法,用于实现目标微博消息热度的获取,实际应用过程当中,具体包括如下步骤:步骤A.获取目标微博消息所对应各个指定的原始数据信息,并针对各个原始数据信息进行处理,获得相对应的各个微博因子数据,然后进入步骤B。实际应用中,针对目标微博消息所对应各个指定的原始数据信息,具体设计包括阅读量、点赞数、评论数、转发数、博主粉丝数、活跃天数、微博文字数、图片数、传播时长。基于上述九项原始数据信息,针对各个原始数据信息按如下步骤进行处理,获得相对应的各个微博因子数据;步骤A1.根据带有有效文字转发内容的转发数,获得转发并评论数,并根据参与评论或转发的用户的发博量少于3条,且用户的粉丝数少于5个视为僵尸用户,获得僵尸用户数,以及将用户发博内容原创率为0视为水军用户,获得水军用户数,然后进入步骤A2。步骤A2.根据微博文字数/140,获得文字充实度;根据图片数/9,获得图片充实度;根据转发并评论数/阅读量,获得深度传播率;根据僵尸用户数、水军用户数之和与阅读量的比值,获得负面传播率,然后进入步骤A3。步骤A3.将博主粉丝数、活跃天数、文字充实度、图片充实度、传播时长、深度传播率、负面传播率作为各个微博因子数据。步骤B.采用SPPS软件,针对各个微博因子数据,通过采用因子抽取与因子旋转方法,获得各个微博因子数据分别所对应的系数,然后进入步骤C。步骤C.针对各个微博因子数据,采用SPPS软件,进行主成分因子分析,并降维操作,获得相对应的各个微博信息维度,以及各个微博信息维度的权重,然后进入步骤D。步骤D.基于各个微博因子数据分别所对应的系数,根据各个微博信息维度与各个微博因子数据之间的对应关系,通过加权方法,获得各个微博信息维度的数据,然后进入步骤E。步骤E.根据各个微博信息维度的权重,以及各个微博信息维度的数据,按如下公式:获得微博热度指数F,其中,I表示微博信息维度的个数,αi表示第i个微博信息维度的权重,Fi表示第i个微博信息维度的数据。将上述所设计微博热度分析获取方法,应用到实际当中,从2017年4月18日新浪微博平台按顺序选取了其热门推送内的十条微博,将这十条微博的数据,根据本发明所设计的微博热度分析获取方法进行处理。具体包括如下步骤:步骤A.分别针对十条微博消息,获取微博消息所对应的阅读量、点赞数、评论数、转发数、博主粉丝数、活跃天数、微博文字数、图片数、传播时长,并针对此九个原始数据信息按如下步骤进行处理,获得相对应的各个微博因子数据,即博主粉丝数、活跃天数、文字充实度、图片充实度、传播时长、深度传播率、负面传播率,进而分别获得各条微博消息分别所对应的各个微博因子数据,如下表1所示,然后进入步骤B。步骤A1.根据带有有效文字转发内容的转发数,获得转发并评论数,并根据参与评论或转发的用户的发博量少于3条,且用户的粉丝数少于5个视为僵尸用户,获得僵尸用户数,以及将用户发博内容原创率为0视为水军用户,获得水军用户数,然后进入步骤A2。步骤A2.根据微博文字数/140,获得文字充实度;根据图片数/9,获得图片充实度;根据转发并评论数/阅读量,获得深度传播率;根据僵尸用户数、水军用户数之和与阅读量的比值,获得负面传播率,然后进入步骤A3。步骤A3.将博主粉丝数x1、活跃天数x2、文字充实度x3、图片充实度x4、传播时长x5、深度传播率x6、负面传播率x7作为各个微博因子数据。表1步骤B.分别针对十条微博消息,采用SPPS软件,针对微博消息的各个微博因子数据,通过采用因子抽取与因子旋转方法,获得各个微博因子数据分别所对应的系数,如下表2所示,然后进入步骤C。其中,因子旋转方法为具有Kaiser标准化的旋转法。表2进行因子分析是有前提条件的,在进行因子分析之前,先要进行KMO和Bartlett的检验。KMO统计量:是通过比较各变量间简单相关系数和偏相关系数的大小,判断变量间的相关性,相关性强时,偏相关系数远小于简单相关系数,KMO值接近1。一般情况下,KMO>0.9非常适合因子分析;0.8<KMO<0.9适合;0.7以上尚可,0.6时效果很差,0.5以下不适宜作因子分析。接下来提取因子,按照特征值大于1和信息解释百分比超过80%为标准,一共提取了3个公因子,可以进一步发现3个公因子能够分别解释热度相关信息的30.637%,28.938%,和21.542%。最后累计能够解释总体信息的81.117%这一比率,这一结果显示了3个公因子能够很好的反映微博热度的总体信息。进一步根据因子分析的反馈成分矩阵对各个公因子含义及其构成进行分析。可以总结出以下信息:第一公因子与文字充实率和图片充实率有很高相关关系;第二公因子与粉丝数和活跃天数有很高的相关关系;第三公因子传播时长、重度传播率和负面传播率相关性较强,即执行如下步骤C。步骤C.分别针对十条微博消息,针对上述七个微博因子数据VAR00001至VAR00007,采用SPPS软件,进行主成分因子分析,并降维操作,如下表3和表4所示。获得相对应的三个微博信息维度F1、F2、F3,以及各个微博信息维度的权重α1、α2、α3,然后进入步骤D。其中,碎石图如图2所示,旋转空间的成分图如图3所示。其中,第一微博信息维度F1,为微博内容信息,包括文字充实度、图片充实度;第二微博信息维度F2,为微博博主信息,包括博主粉丝数、活跃天数;第三微博信息维度F3,为微博传播信息,包括传播时长、深度传播率、负面传播率。第一微博信息维度的权重α1=0.3064,第二微博信息维度的权重α2=0.2894,第三微博信息维度的权重α3=0.2154。表3表4步骤D.分别针对十条微博消息,基于各个微博因子数据分别所对应的系数,根据各个微博信息维度与各个微博因子数据之间的对应关系,通过加权方法,获得各个微博信息维度的数据,如下所示:第一微博信息维度F1=0.399x3-0.485x4;第二微博信息维度F2=0.460x1+0.474x2;第三微博信息维度F3=0.498x5+0.448x6+0.300x7;然后进入步骤E。步骤E.分别针对十条微博消息,根据各个微博信息维度的权重,以及各个微博信息维度的数据,按如下公式:F=(0.3064F1+0.2894F2+0.2154F3)/(0.3064+0.2894+0.2154)获得微博热度指数F,即分别获得十条微博消息微博热度指数F,如下表5所示。微博新排名微博原始排名F1F2F3F134341.32799.70224-0.52571675.201272963.80730.53074-1.239291130.029342770.67881.9113-1.336511075.386491466.6578.18746-1.07063556.6107521110.73368.36965-0.59919443.769468535.621912.72554-0.62901206.68377198.25606459.8552-0.62814201.001585215.924559.34416-3.03134101.923796171.137827.64094-2.1398573.93368101084.35302-13.1864-0.3279627.06975表5从表5可以看出本文按照新浪微博热门头条顺序截取的十条微博,通过数据分析所得出的真实热度排序,并根据初步所获取的大量数据和微博类型制作图表分析,如图4所示。上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1