一种面向微博的特定倾向的高影响力用户群发现方法

文档序号:6384841阅读:353来源:国知局
专利名称:一种面向微博的特定倾向的高影响力用户群发现方法
技术领域
本发明涉及社会化媒体数据分析与挖掘技术领域,特别是涉及一种面向微博的特定倾向的高影响力用户群发现方法。
背景技术
微博,已经成为人们进行社交的一种重要平台与媒介之一,中国有超过4亿的微博用户,而Twitter用户更是超过5亿,信息日发送量则超过2亿,成为仅次于Facebook的第二大社交网站。近年来,微博成为无数热门话题与潮流的发源地。借助一个有效的传播模型来找到高影响力用户群,对企业来说,可以以最小的成本来获取最大的广告传播范围; 而对政府来说,则可以有效的对微博中的部分信息的传播进行一定的控制。因此,研究微博中的信息传播或影响力传播,是一个具有广阔的应用前景的研究课题,引起学术界和产业界的广泛关注。
现阶段对于用户影响力的研究主要分为两个不同的方向。一种是基于病毒式营销的思想,认为每个用户都能对其相邻用户(在微博中则为“关注”的关系)施加一定的影响。 基于本思想,David Kempe等学者提出两种基础的传播模型Independent Cascade (IC)模型与Linear Threshold (LT)模型,IC模型认为每个用户间具有一个相同的且为常数的传播概率P,即当t-1时刻时,用户传播(转发和评论)了信息(微博),则在t时刻,其邻点用户传播该信息的概率为P。而LT模型则认为相邻用户间具有不同的影响力,而每个用户需要其邻点施加一定的影响力(超过阀值)后才会传播信息,即对某一特定的信息而言,当t-1 时刻,某用户的传播了该信息的邻点用户对于该用户的影响力超过了其自身的阀值,则在t 时刻,该用户一定会传播该信息。借助相关算法(如贪婪算法或启发式算法),则可以找到使影响力最大的η个用户。
另一种则是单纯分析用户的影响力,通常基于PageRank思想并进行一定的改良, 基本思想是如果某用户能影响(连接)到影响力较大的用户,那该用户的影响力也较大。该方法能很好地在MapReduce模型上高效实现,在较短的时间内即可计算出所有用户的影响力。但与前一种方法不同的是,由于影响力最大的数个用户间可能存在大部分的影响范围重叠,因此,该方法无法解决影响力最大化问题,而只能根据计算出的影响力对用户进行排序。
从微博的运作方式上来看,IC模型能够较好的模拟真实的传播过程。用户每一次对微博的传播在网络拓扑结构中都可以表现为一种对其自身周围所有邻点的广播,而这每一次广播都有可能(一定概率)对邻点进行影响,即邻点可以选择传播该微博或者是忽略。 但其不足的地方在于,传统的IC模型认为所有用户之间的传播概率均为一恒定的常数,这一假设过于简单并与现实大相径庭。现实中,不同的用户具有不同的喜好,他们对于微博的转发或者评论多数出于他们对于该微博内容的关注,因此,不同的用户之间对于不同内容的微博将具有不同的传播概率。基于对真实微博数据的观测,我们发现,一条微博的传播范围与其中参 与的活跃用户有一定关系,也就是说,通过活跃用户传播的信息更容易被其相邻用户所传播。显然,传统的传播模型无法模拟真实网络中的信息传播方式。
综上所述,当前对复杂微博网络中的高影响力用户群发现的研究,仅仅考虑了网 络的拓扑结构,并没有分析影响力与微博内容或主题之间的关系,因此,相关现有技术不能 准确反映真实数据中的传播模式,导致该方法具有很大的局限性,不能投入应用。因此,现 有技术存在一定的缺陷,而有待于改进和发展。发明内容
本发明提供了一种面向微博的特定倾向的高影响力用户群发现方法,旨在解决现 有的高影响力用户群发现方法忽略了影响力与微博内容或主题之间的关系,不能反映真实 情况这一技术问题。本发明采用如下技术方案
一种面向微博的特定倾向的高影响力用户群发现方法,包括
S1、对微博网站上的数据进行抓取;
S2、对获取的数据进行分析,找出每条微博所对应的不同主题;
S3、建立新的微博网络拓扑结构;
S4、分析用户的特定倾向与活跃程度,计算出用户间的传播概率;
S5、根据得到的传播概率,找出面向特定主题的具有最大影响力的用户群。
优选地,在所述步骤SI中,抓取的数据包括用户ID、用户名、微博内容、微博序号 和参与转发与评论的用户ID ;其中所述微博序号为根据获取该微博的时间给予该微博的 序号,不同的微博对应不同的序号。
优选地,所述步骤SI具体为
抓取一设定时间段内的数据,并忽略其中参与人数较少的数据,保留参与人数较 多的数据。
优选地,所述设定时间段为近I年,所述参与人数较多的数据为转发与评论数量 之和大于30的微博。
优选地,所述步骤S2具体为
基于LDA模型计算微博的主题。
优选地,所述LDA模型不考虑语法问题,对于每一篇微博视为一个词频向量,将 文本信息转换为数字信息;通过提取微博中的互异单词,并删除其中的停用词,推断出“微 博-主题”的分布与“主题一单词”的分布;根据这两个分布,判断微博作者以及传播者所感 兴趣的主题与各主题所占的比例,作为分析用户的特定倾向;考虑到每条微博所包含的内 容较少,取其比例最高的前三项主题作为微博内容的特定倾向。
优选地,所述步骤S3具体为
取消原有微博网络中用户间关注关系的连接结构,根据步骤SI获取的数据中的 转发与评论的关系,重新建立微博网络拓扑结构。
优选地,所述步骤S4具体包括
S41、根据步骤SI抓取的数据和步骤S2获得的分析结果,建立“微博_用户”关系 矩阵、“微博一主题”关系矩阵和“用户-主题”关系矩阵;
S42、通过所述关系矩阵得到用户的特定倾向与活跃程度,并根据步骤S3得到的 新的微博网络拓扑结构,计算出两用户间的传播概率。
优选地,所述步骤S41具体包括
S411、根据步骤SI抓取的数据和步骤S2获得的分析结果,建立“微博一用户”关系矩阵和“微博一主题”关系矩阵;其中,所述“微博一用户”关系矩阵中,列为微博序号,行为用户ID,该矩阵表示用户是否在该微博的传播中出现;所述“微博一主题”关系矩阵中,列为微博序号,行为不同的微博主题,该矩阵表示微博内容所对应的不同主题所占的比重;
S412、将“微博一用户”关系矩阵和“微博一主题”关系矩阵相乘,得到“用户一主题”关系矩阵,其中各项数值表示用户对应不同主题的频数,并可以依次计算出不同主题所对应的频率;对于每个用户,其频数之和表现为该用户的活跃程度,对应主题的频率则表现为其特定倾向;
所述步骤S42具体为
结合所述频数和频率,并根据步骤S3得到的新的微博网络拓扑结构,计算出两用户间的传播概率。
优选地,在所述步骤S42中,以用户的活跃程度作为基础传播概率,以用户的特定倾向作为调整权重值,所述传播概率为传播概率乘以调整权重值。
优选地,所述步骤S5具体为
根据得到的传播概率,采用CELF贪婪算法,找出面向特定主题的具有最大影响力的用户群;
所述CELF贪婪算法的计算步骤为
S51、设立一种子集合A,所述A为空集合;
S52、对于任意节点S,计算δ s (A) =R(AU {s})-R(A),其中s e V_A,V为新的微博网络拓扑结构中所有节点的集合,R(A)为集合A中节点能够传播到的范围,Ss(A)为将任一点s加入集合A后的边际影响力增加;
S53、对所有的δ s(A)按降序排列,选取第一位的节点加入集合A,并将其从队列中删去;
S54、根据排列顺序,重新计算第一位的节点的δ s⑷值,并加入队列中排序;
S55、判断该节点是否依旧排在第一位,若是,执行步骤S56 ;否则,返回执行步骤 S54 ;
S56、选取该节点加入集合A,并将其从队列中删去;
S57、判断集合A中节点数量是否满足要求,若是,结束;否则,返回执行步骤S54。
本发明综合考虑了微博的拓扑结构和微博的内容及主题,其有益效果是
( I)本发明能 够有效地对原始的微博网络结构进行简化,并且所需要分析的数据量也随之大大减少;
(2)本发明对原有的传播模型进行了大幅度的改良,使其能更好的贴合实际;
(3)本发明对传播概率进行了重新定义,使得其考虑了用户间的亲疏关系、对于不同主题的倾向程度以及用户自身的活跃程度。


图1为本发明实施例一种面向微博的特定倾向的高影响力用户群发现方法流程
图2为本发明实施例一种面向微博的特定倾向的高影响力用户群发现方法的原 理图3为本发明实施例中CELF贪婪算法的计算方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
如图1和图2所示,本实施例提供了一种面向微博的特定倾向的高影响力用户群 发现方法,该方法包括下述步骤
步骤S1:微博数据抓取。
本步骤对微博网站上的数据进行抓取,获取现有的微博数据,包括微博内容与该 微博涉及到的所有用户。其中抓取的数据包括用户ID、用户名、微博内容、微博序号和参 与转发与评论的用户ID ;其中微博序号为根据获取该微博的时间给予该微博的序号,不同 的微博对应不同的序号。
在数据获取中,考虑到有大部分微博只产生了极小的影响(很低的评论与转发数 量),且不具备传播的意义(比如只是抒发自身情绪,不含有任何有意义的主题)。因此,只需 要对转发与评论数量超过一定数量的微博进行抓取,例如转发与评论数量之和大于30的 微博。另外,显然用户的兴趣可能会随着时间而产生变化,因此距离现在较远的数据其蕴含 的意义较低,只需要考虑某一设定时间段内的数据,例如近I年内的微博数据。因此,本实 施例中,抓取一设定时间段内的数据,并忽略其中参与人数较少的数据,保留参与人数较多 的数据。当然,时间段和对参与人数较多的数据的定义可根据实际情况自行设定,此处不做 限制,以上仅为举例说明。
步骤S2 :数据分析。
本步骤对获取的数据进行分析,找出每条微博所对应的不同主题。本实施例中,基 于LDA模型计算微博的主题,运用LDA模型,对获取的数据进行分析,找出每条微博所对应 的不同的主题。LDA模型作为一种非监督机器学习技术,对于每一篇文档(微博)视为一个词 频向量,而不考虑语法问题,将文本信息转换为数字信息。通过提取微博中的互异单词,并 进行部分处理,也即删除其中的停用词,可以推断出“微博-主题”的分布与“主题-单词” 的分布。根据这两个分布,就可以判断微博作者以及传播者所感兴趣的主题与各主题所占 的比例,作为分析用户的特定倾向。考虑到微博有其字数限制(每一篇不超过140字),所占 内容比例较小的主题较难引起用户重视,因此,只取其比例最高的前三项主题作为微博内 容的特定倾向。
步骤S3 :微博拓扑结构重建。
本步骤建立新的微博网络拓扑结构。取消原有微博网络中用户间关注关系的连接 结构,根据步骤SI获取的数据中的转发与评论的关系,重新建立微博网络拓扑结构。本实 施例取消了原有微博网络中的连接结构,即用户间的关注关系,而根据获取的数据中的转 发与评论的关系,重新建立网络。微博网络中传统的拓扑结构,也就是按照用户间关注的关 系连接不同的用户,随着用户的增加,该拓扑结构变得日益复杂。平均每个用户有超过50以上的连接关系,这种复杂的连接结构使得对微博网站的整体分析十分困难,而且显然这 种连接关系无法表现出现实中用户间的亲疏之分,用户间的连接关系大多是出于一种现实 中的联系(同学或同事等),毫无疑问在熟悉的用户间信息被传播的可能性要远远高于普通 的具有关注关系的用户,还有的只是出于一种礼节性的相互关注,这一关系对信息传播几 乎没有任何帮助,反而加深了网络的复杂程度。近年来Meeyoung Cha与Hamed Haddadi等 学者对微博网络中信息传播进行了一系列的观测,从中可以发现,通过转发与评论所表现 出来的用户间的联系要远远紧密于原始结构中关注用户间的联系。因此,本发明不采用微 博网络中原始的依据关注关系所建立的网络拓扑结构,而根据步骤SI中获取的数据,以用 户对微博的转发与评论为依据,重新建立用户间的联系。与原始网络结构相比较,新的网络 结构有了极大的简化,特别是对于有着众多关注的用户而言,其真正参与微博的传播(对其 关注用户的微博评论与转发)所涉及到的用户只占他所关注的一部分,另外由于在步骤SI 的数据获取中,省略了大部分缺乏分析意义的数据,因此也缩短了后续步骤中找出最大影 响力用户群时算法的计算时间。
步骤S4:计算传播概率。
本步骤分析用户的特定倾向与活跃程度,计算出用户间的传播概率。本步骤可通 过如下步骤具体实现
步骤S41、根据步骤SI抓取的数据和步骤S2获得的分析结果,建立“微博一用户” 关系矩阵M、“微博一主题”关系矩阵N和“用户一主题”关系矩阵O。在以优选实施方式中, 可通过如下步骤进行关系矩阵的建立
步骤S411、根据步骤SI抓取的数据和步骤S2获得的分析结果,建立“微博-用户” 关系矩阵M和“微博-主题”关系矩阵N。其中,“微博一用户”关系矩阵M中,列为微博序 号,行为用户ID,该矩阵表示用户是否在该微博的传播中出现,即Mi,j=0或1,表示用户i 是否在微博j的传播中出现。“微博一主题”关系矩阵N中,列为微博序号,行为不同的微博 主题,该矩阵表示微博内容所对应的不同主题所占的比重,即Ni,j=0-l,表示微博j对应主 题i所占的比重。
步骤S412、将“微博一用户”关系矩阵M和“微博一主题”关系矩阵N相乘,得到 “用户一主题”关系矩阵0,其中各项数值表示用户对应不同主题的频数,可以依次计算出相 应的频率;对于每个用户,其频数之和表现为该用户的活跃程度,每个用户对应的对于不同 主题的频率则表现为其特定倾向,也即其对于主题的偏好程度。
步骤S42、通过上面的关系矩阵得到用户的特定倾向与活跃程度,并根据步骤S3 得到的新的微博网络拓扑结构,计算出两用户间的传播概率。
本实施例中,通过结合频数和频率,并根据步骤S3得到的新的微博网络拓扑 结构,计算出两用户间的传播概率。对于传播概率,本实施例以用户的活跃程度作为 基础传播概率,以用户的特定倾向作为调整权重值,传播概率为传播概率乘以调整权 重值。其中,基础传播概率P的计算为用户a到用户b的基础传播概率为用户b的参与微博传播的次数除以用户a所有邻点参与次数之和,即pa4b其中,F表LSGAtS示为矩阵中计算出的用户的频数和,集合A为用户a的所有邻点,s为A中的任一用 户。而对于以用户的特定倾向而确定的权重值,则用余弦相似度来计算。例如,对于包含主题I与主题2的微博,其从用户a到用户b的传播概率的主题敏感度的表达式为对于主题I的频率。则对于某条微博,其从用户a传播到用户b的概率为k*pa —b。
根据“微博-用户-主题”的形式化模型,用真实数据衡量用户的主题敏感度与活跃度,并借此计算出传播概率。
步骤S5 :找出最大影响力用户群。
本步骤根据得到的传播概率,找出面向特定主题的具有最大影响力的用户群。对于某一主题,可以找到一个具有η个节点(用户)的用户群关于该主题具有最大的影响力。 本实施例中,根据得到的传播概率,采用CELF贪婪算法,找出面向特定主题的具有最大影响力的用户群。传统的贪婪算法,是通过比较每一节点(用户)所能够带来的影响力扩大,选取具有最大值的节点(用户)。由于选取节点的依据为边际影响力增加,因此,每当选取了一个节点进入用户群集合后,剩余节点的边际影响力则可能会有所变化(不变或者降低),传统贪婪算法需要不断循环而重复对所有节点(用户)的边际影响力增加进行计算与比较,其需要耗费大量的计算时间。本实施例采用优化的CELF贪婪算法,如图3所示,其计算步骤为
步骤S51、设立一种子集合A,A为空集合。
步骤S52、对于任意节点S,计算
权利要求
1.一种面向微博的特定倾向的高影响力用户群发现方法,其特征在于,包括51、对微博网站上的数据进行抓取;52、对获取的数据进行分析,找出每条微博所对应的不同主题;53、建立新的微博网络拓扑结构;54、分析用户的特定倾向与活跃程度,计算出用户间的传播概率;55、根据得到的传播概率,找出面向特定主题的具有最大影响力的用户群。
2.根据权利要求1所述的方法,其特征在于,在所述步骤SI中,抓取的数据包括用户 ID、用户名、微博内容、微博序号和参与转发与评论的用户ID ;其中所述微博序号为根据获取该微博的时间给予该微博的序号,不同的微博对应不同的序号。
3.根据权利要求1所述的方法,其特征在于,所述步骤SI具体为抓取一设定时间段内的数据,并忽略其中参与人数较少的数据,保留参与人数较多的数据。
4.根据权利要求3所述的方法,其特征在于,所述设定时间段为近I年,所述参与人数较多的数据为转发与评论数量之和大于30的微博。
5.根据权利要求1所述的方法,其特征在于,所述步骤S2具体为基于LDA模型计算微博的主题。
6.根据权利要求1所述的方法,其特征在于,所述LDA模型不考虑语法问题,对于每一篇微博视为一个词频向量,将文本信息转换为数字信息;通过提取微博中的互异单词,并删除其中的停用词,推断出“微博一主题”的分布与“主题-单词”的分布;根据这两个分布,判断微博作者以及传播者所感兴趣的主题与各主题所占的比例,作为分析用户的特定倾向; 取其比例最高的前三项主题作为微博内容的特定倾向。
7.根据权利要求1所述的方法,其特征在于,所述步骤S3具体为取消原有微博网络中用户间关注关系的连接结构,根据步骤Si获取的数据中的转发与评论的关系,重新建立微博网络拓扑结构。
8.根据权利要求1所述的方法,其特征在于,所述步骤S4具体包括541、根据步骤SI抓取的数据和步骤S2获得的分析结果,建立“微博一用户”关系矩阵、 “微博一主题”关系矩阵和“用户一主题”关系矩阵;542、通过所述关系矩阵得到用户的特定倾向与活跃程度,并根据步骤S3得到的新的微博网络拓扑结构,计算出两用户间的传播概率。
9.根据权利要求8所述的方法,其特征在于,所述步骤S41具体包括S411、根据步骤SI抓取的数据和步骤S2获得的分析结果,建立“微博一用户”关系矩阵和“微博一主题”关系矩阵;其中,所述“微博一用户”关系矩阵中,列为微博序号,行为用户ID,该矩阵表示用户是否在该微博的传播中出现;所述“微博一主题”关系矩阵中,列为微博序号,行为不同的微博主题,该矩阵表示微博内容所对应的不同主题所占的比重;S412、将“微博一用户”关系矩阵和“微博一主题”关系矩阵相乘,得到“用户一主题”关系矩阵,其中各项数值表示用户对应不同主题的频数,并可以依次计算出不同主题所对应的频率;对于每个用户,其频数之和表现为该用户的活跃程度,对应主题的频率则表现为其特定倾向;所述步骤S42具体为结合所述频数和频率,并根据步骤S3得到的新的微博网络拓扑结构,计算出两用户间的传播概率。
10.根据权利要求9所述的方法,其特征在于,在所述步骤S42中,以用户的活跃程度作为基础传播概率,以用户的特定倾向作为调整权重值,所述传播概率为传播概率乘以调整权重值。
11.根据权利要求1所述的方法,其特征在于,所述步骤S5具体为根据得到的传播概率,采用CELF贪婪算法,找出面向特定主题的具有最大影响力的用户群;所述CELF贪婪算法的计算步骤为.551、设立一种子集合A,所述A为空集合;.552、对于任意节点s,计算δs (A) =R(AU{s})-R(A),其中s e V_A,V为新的微博网络拓扑结构中所有节点的集合,R(A)为集合A中节点能够传播到的范围,Ss(A)为将任一点S 加入集合A后的边际影响力增加;.553、对所有的Ss(A)按降序排列,选取第一位的节点加入集合A,并将其从队列中删去;.554、根据排列顺序,重新计算第一位的节点的Ss(A)值,并加入队列中排序;.555、判断该节点是否依旧排在第一位,若是,执行步骤S56;否则,返回执行步骤S54 ;.556、选取该节点加入集合A,并将其从队列中删去;.557、判断集合A中节点数量是否满足要求,若是,结束;否则,返回执行步骤S54。
全文摘要
本发明涉及社会化媒体数据分析与挖掘技术领域,提供了一种面向微博的特定倾向的高影响力用户群发现方法,该方法包括S1、对微博网站上的数据进行抓取;S2、对获取的数据进行分析,找出每条微博所对应的不同主题;S3、建立新的微博网络拓扑结构;S4、分析用户的特定倾向与活跃程度,计算出用户间的传播概率;S5、根据得到的传播概率,找出面向特定主题的具有最大影响力的用户群。本发明综合考虑了微博的拓扑结构和微博的内容及主题,能反映真实情况。
文档编号G06F17/30GK103064917SQ20121055898
公开日2013年4月24日 申请日期2012年12月20日 优先权日2012年12月20日
发明者刘斯尧, 赵中英, 冯圣中 申请人:中国科学院深圳先进技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1