一种基于微博用户质量的信息影响力评估方法

文档序号:9844565阅读:239来源:国知局
一种基于微博用户质量的信息影响力评估方法
【技术领域】
[0001] 本发明涉及社会网络数据挖掘领域,具体涉及一种基于微博用户质量的信息影响 力评估方法。
【背景技术】
[0002] 随着社会网络的飞速发展,社会媒体的多样化,以及社会网络用户的迅速增长,加 速了社会网络的大数据时代的来临。微博作为一个典型的社会网络平台,被大量的研究人 员所关注。
[0003] 早前的微博影响力的研究,主要是针对用户影响力的研究,广泛的研究人员认为, 微博的转发数和关注数可以代表微博消息的影响力。然而,近年来随着微博网络的兴起,微 博中产生了大量的用户,同时也产生了大量的僵尸粉丝以及机器人用户。僵尸用户以及机 器人用户的产生,对消息影响力的评价产生了巨大的冲击。例如,用户可以通过购买机器人 用户大量的转发其消息来形成虚假的影响力,已达到误导其他用户的目的。
[0004]微博消息影响力的评价对网络舆情和商业领域都有着重大的作用。在舆情领域 中,如何正确的评价一条信息的影响力是微博热门话题和突发话题检测的关键。在商业领 域,如何有效的评价一条信息的影响力可以帮助商家正确的评价广告投放的效果。现有的 消息影响力仅考虑微博的转发数和回复数,并没有考虑参与微博消息的用户,以及信息的 传播结构和时间属性。
[0005] 本文针对现有的消息影响力评估问题的不足,重点考虑参与信息传播的用户,提 出了一种基于微博用户质量的信息影响力评估方法。该算法能够有效的评估微博消息的真 实影响力。

【发明内容】

[0006] 本发明的目的在于提供一种利用从微博网络上获取的用户属性信息,通考虑时间 权重和结构权重来计算微博信息影响力的基于微博用户质量的信息影响力评估方法。
[0007] 本发明的目的是这样实现的:
[0008] 数据采集:
[0009] A1获取参与微博信息传播的用户的配置信息,包括粉丝数,关注数;
[0010] A2获取微博信息传播过程中的用户间的转发关系和回复关系;
[0011] A3获取用户转发和回复信息的时间;
[0012] 数据处理:
[0013] B1根据信息传播的转发和回复关系构建信息传播结构图;
[0014] B2根据参与微博信息传播的用户的操作行为分类用户;
[0015] 用户质量计算:
[0016] C1采用用户的粉丝数和关注数比作为用户质量的初始值;
[0017] C2根据用户参与信息传播的操作类型计算用户质量;
[0018] C3根据用户参与信息的时间给予不同的权重值;
[0019] C4根据用户在信息传播中的层级给予不同的权重值;
[0020 ]动态消息影响力计算:
[0021] D1根据参与的用户的时间考虑时间衰减来计算微博消息的影响力。
[0022]本发明的有益效果在于:
[0023]本发明提出一种基于微博用户质量的信息影响力评估方法,该技术主要考虑参与 微博信息传播的用户质量,来对传统的影响力最大化问题进行改进。并取得了良好的影响 效果。
[0024]本发明能够有效的评估微博消息影响力,屏蔽机器人粉丝造成的虚假微博影响 力。
【附图说明】
[0025] 图1是本发明第一实施例提供的基于微博用户质量的信息影响力评估方法的总体 流程图。
【具体实施方式】
[0026] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便 于描述,附图中仅示出了与本发明相关的部分而非全部内容。
[0027]为实现上诉发明目的,本发明提供一种基于微博用户质量的信息影响力评估方法 实现包括以下阶段:
[0028] A1数据采集;
[0029] A2数据处理;
[0030] A3用户质量计算;
[0031] A4动态计算消息影响力;
[0032]所述步骤A1中,其所述数据采集的步骤包括:
[0033]步骤All:获取参与微博信息传播的用户的配置信息,包括粉丝数,关注数;
[0034] 步骤A12:获取微博信息传播过程中的用户间的转发关系和回复关系;
[0035] 步骤A13:获取用户转发和回复信息的时间;
[0036]所述步骤A2中,其所述数据处理的步骤包括:
[0037] 步骤A21:根据信息传播的转发和回复关系计算用户所属层级;
[0038] 步骤A22:根据参与微博信息传播的用户的操作行为分类用户;
[0039]所述步骤A3中,其所述用户质量计算的步骤为:
[0040] 步骤A31:采用用户的粉丝数和关注数比作为用户质量的初始值;
[0041] 步骤A32:根据用户参与信息传播的操作类型计算用户质量。
[0042] 步骤A33:根据用户参与信息的时间给予不同的权重值。
[0043] 步骤A34:根据用户在信息传播中的层级给予不同的权重值。
[0044]所述步骤A4中,其所述的动态计算消息影响力步骤为:
[0045]步骤A41:根据参与的用户的时间考虑时间衰减来计算微博消息的影响力。
[0046] 图1是本发明第一实施例提供的微博特定类型用户的影响力最大化的总体流程 图,该方法详述如下:
[0047] 在步骤101,数据采集是指从微博网络中获取用户的粉丝数、关注数配置信息,同 时提取微博消息的转发与回复关系,以及操作时间。
[0048]在步骤102中,数据处理是指根据用户的操作信息将用户分类成为转发用户和回 复用户。
[0049] 根据用户在信息传播过程中的转发关系和回复关系计算用户所在层级。
[0050] 在步骤103中,用户质量计算主要是根据用户的粉丝数和关注数给予初始的用户 质量。
[0051]
[0052] 其中f ο 11 oweru表示u用户的粉丝数,f ο 11 owe eu表示u用户的关注数。
[0053]如果用户为转发用户则用户的质量为
[0054]
(2)
[0055] 其中λ为调节系数。
[0056] 如果用户为回复用户 1 Q{u) > 1 and'?Ι=0
[0057] TTlu - ·= Qiu) Q(") < 1 c"?t/ n=0 (3) 0 ? .0
[0058] 其中n表示u对消息的回复次数。
[0059] 然而在真实的计算中,尽管用户拥有很低的用户质量,但是如果通过大量的低质 量转发也会产生一定的影响力累积。因此本专利考虑针对大量低质量用户参与的惩罚机 制,惩罚机制如下:
[0060] w(t) =NXf (4)
[0061] 其中N表示低于一定阈值的用户个数,f表示惩罚系数。
[0062] 本专利考虑,用户在不同时间段内的转发会产生不同的效果,例如在晚上的上网 高峰期,用户转发后其粉丝转发他的转发的概率会更大。因此给予本文的时间权重。 f 1 ? s 6 ::00'~ 9::(M 欲 18:: 00 ~22 00 ,、
[0063] Γ' = f (5)
[D.5 otherwise
[0064] 本专利考虑时间重要性的同时考虑信息的传播结构,具有高影响力的信息其传播 具有高转发层级。因此针对用户的层级结构给予层级权重。
[0065] S(u)=0hu (5)
[0066] 其中β表示层级全值,hu表示u用户转发所在的层级。
[0067 ]在步骤10 4中,动态影响力计算,是指根据消息影响力的衰减,动态的计算信息的 影响力。
[0068]针对以上的用户质量计算给予了本文的信息影响力计算公式如下:
[0069]
(6)
[0070] 由于在真实信息的传播过程中,信息的影响力是具有衰减的,因此针对上文的信 息影响力公式,给予动态的影响力计算公式如下:
[0071 ] Mm(t) =μΜιη(?-1)+ Δ Mm(t) (7)
[0072]其中μ为衰减系数。
【主权项】
1. 一种基于微博用户质量的信息影响力评估方法,其特征在于,包括如下步骤:数据采 集: A1获取参与微博信息传播的用户的配置信息,包括粉丝数,关注数; A2获取微博信息传播过程中的用户间的转发关系和回复关系; A3获取用户转发和回复信息的时间; 数据处理: B1根据信息传播的转发和回复关系构建信息传播结构图; B2根据参与微博信息传播的用户的操作行为分类用户; 用户质量计算: C1采用用户的粉丝数和关注数比作为用户质量的初始值; C2根据用户参与信息传播的操作类型计算用户质量; C3根据用户参与信息的时间给予不同的权重值; C4根据用户在信息传播中的层级给予不同的权重值; 动态消息影响力计算: D1根据参与的用户的时间考虑时间衰减来计算微博消息的影响力。
【专利摘要】本发明涉及社会网络数据挖掘领域,具体涉及一种基于微博用户质量的信息影响力评估方法。本发明包括数据采集;数据处理;用户质量计算;动态消息影响力计算。本发明提出一种基于微博用户质量的信息影响力评估方法,该技术主要考虑参与微博信息传播的用户质量,来对传统的影响力最大化问题进行改进。并取得了良好的影响效果。本发明能够有效的评估微博消息影响力,屏蔽机器人粉丝造成的虚假微博影响力。
【IPC分类】G06Q50/00
【公开号】CN105608625
【申请号】CN201610003416
【发明人】杨武, 于淼, 王巍, 苘大鹏, 玄世昌
【申请人】哈尔滨工程大学
【公开日】2016年5月25日
【申请日】2016年1月4日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1