一种多特征融合的微博用户权威度评价方法与流程

文档序号:11251791阅读:587来源:国知局
一种多特征融合的微博用户权威度评价方法与流程

本发明涉及大数据分析技术领域,具体地说,涉及一种多特征融合的微博用户权威度评价方法。



背景技术:

微博(weibo),即微型博客(microblog)的简称,是一种基于有线或无线互联网终端向平台发布精短共享信息的即时信息网络,可通过计算机、手机、掌上电脑等多种终端进行微博的浏览、发布和评论。微博以其独特的开发性、实时性与互动性已然发展成为人们日常生活中不可或缺的信息传播媒介,以极快的速度影响着社会的传播格局。微博用户不仅包括普通的平民用户,还包括了许多知名人物以及一些权威机构或政府职能部门,其用户层次跨度较大,也使其成为社会热门话题产生的聚集地。因此,对微博传播的特点及影响因素的研究已经成为重要的研究课题。其中,微博用户作为信息发布和传播的主体,微博用户权威度是微博传播影响因素中的一个极为重要的评判指标。

目前国内外对微博用户权威度评价方法的研究已经开展了不少的研究工作,也取得了很多研究成果,国外对于用户权威度评价的研究大多集中在对twitter用户的研究,而国内则大多集中在对新浪微博用户的研究,其目的都是为了构建一种合理的用户权威度评价模型,为微博信息的获取、舆情的分析、社会关系网络的挖掘等方面的研究提供帮助。

目前用户权威度评价的方法主要有以下几类:第一类方法,也是最简单的方法,就是通过用户的粉丝数量直接衡量用户的权威度。第二类方法,也是目前比较主流的用户权威评价方法,就是参考搜索引擎中常用于网页排名的pagerank算法构建微博用户权威评价体系,通过微博用户关注与被关注关系网络来计算微博用户的权威度。第三类计算用户权威度的方法则是考虑用户行为信息,包括用户发布的微博、转发的微博、评论的微博、关注与被关注的情况以及其活跃度等方面的因素,综合评价用户的权威度。



技术实现要素:

本发明的目的在于提供一种多特征融合的微博用户权威度评价方法。该方法在新浪微博的用户信息体系的基础上,总结出了用户基本信息完整度、用户传播影响力、用户活跃度以及用户平台指数4项影响用户权威度的特征,并分别给出了提取与计算方法。在用户信息传播影响力的计算中,提出了一种基于pagerank算法改进的userrank模型,并通过实验验证了其相对于pagerank算法更加有效。最后,基于层次分析法确定了4项用户特征的权值,构建了多特征融合的微博用户权威度评价模型并进行了相关实验。实验结果表明,本发明提出的方法计算的微博用户权威度比较合理,为用户权威度的定量评价提供了一种可行的解决方案。该方法解决以下几个方面的问题:

1、针对微博用户的权威度评价,提出了一种多特征融合的微博用户权威度定量评价方法,充分考虑微博用户的个人信息指标和微博用户的行为数据指标。

2、针对微博用户权威度评价中用户基本信息完整度、用户传播影响力、用户活跃度以及用户平台指数4项影响用户权威度的特征融合问题,提出了采用层次分析法确定各个特征的权值的方法,解决了微博用户权威度的定量计算问题。

3、针对用户信息完整度评价问题,提出了采用微博用户在注册微博平台账号时,愿意向公众公开的个人基本信息标签占微博用户基本信息体系标签总数的比例的定量计算方法。

4、针对用户信息传播影响力的计算,提出了一种基于pagerank算法改进的userrank模型,考虑了用户转发微博与评论微博对用户信息传播影响力计算的影响。

5、针对用户获取度计算问题,提出了采用为微博用户在一定时间内发布微博数目与评论其它微博用户微博的数目的线性加权求和对时间的均值的定量计算方法。

6、针对用户平台指数计算问题,提出了采用层次分析法,综合考虑用户是否是认证用户、是否是vip用户以及用户勋章数三项指标,将官方评价体系定量的引入到了用户的权威度评价体系中。

为实现上述技术目的,达到上述技术效果,其技术方案具体为:

一种多特征融合的微博用户权威度评价方法,包括以下步骤:

步骤1、建立多特征融合的微博用户权威度定量评价体系:根据用户权威度评价的要求,通过分析新浪微博的用户信息平台,提取微博用户的个人信息指标和微博用户的行为数据指标,构建用户权威度(authority)评价指标特征四元组e(fui,fur,fua,fupa),其中,fui为用户基本信息完整度,fur为用户传播影响力,fua为用户活跃度,fupa为用户平台指数,将用户权威度定义为评价指标特征四元组e(fui,fur,fua,fupa)中各个评价指标特征的线性加权和,如式(1)所示:

authority=w1·fui+w2·fur+w3·fua+w1·fupi(1)

其中,wi(i=1,2,3,4)各个评价指标特征的权值系数,满足wi>0且

步骤2、用户特征指标权值的确定:权值系数的确定本发明采用层次分析法中的特征向量法,具体的权重的计算过程如下:

(1)构造用户权威度评价特征的判断矩阵如式(2)所示:

其中,判断矩阵a中的元素aij表示两个特征相比,特征i的重要程度比特征j重要程度重要的倍数,一般是引入数字1-9及其导数作为度量;

(2)求解判断矩阵的最大特征值的特征向量,并进行一致性检验;对式(2)的用户特征判断矩阵a采用matlab的eig()函数求取全部特征值,构成对角阵d如式(3)所示,并求取判断矩阵a的所有特征向量构成的列向量矩阵v如式(4)所示:

通过式(3)得到用户判断矩阵a的最大特征值λmax=4.0080,则矩阵a的最大特征值特征向量为w=[0.0909,0.8413,0.2611,0.4646]t

(3)对上面求出来的特征向量w进行归一化处理即得到式(1)中各个用户特征的权值为(w1,w2,w3,w4)=(0.0548,0.5075,0.1575,0.2802);

步骤3、用户基本信息完整度的计算:将用户基本信息完整度ui(userintegrity)定义为微博用户在注册微博平台账号时,愿意向公众公开的个人基本信息标签占微博用户基本信息体系标签总数的比例;其计算如式(7)所示:

其中,n为微博用户基本信息体系中标签的总数量,取值为12,ipi的定义如式(8)所示:

步骤4、用户传播影响力的计算:设fu(uj,ui)表示用户uj转发用户ui微博的次数,cu(uj,ui)为用户uj评论用户ui微博的次数,利用微博用户间转发与评论微博的次数给微博用户关注关系添加关系价值如式(9)所示:

w(uj,ui)=α·fu(uj,ui)+β·cu(uj,ui)(9)

其中,α和β分别代表转发微博与评论微博的权值系数,满足α>0,β>0且α+β=1;采用微博用户关注与被关注的关系价值,定义用户的微博传播指数为:若存在用户ui,其粉丝的集合为b,则用户ui的微博传播指数为其粉丝集合b中所有粉丝对其关注的权值之和,计算如式(10)所示:

利用用户的微博传播指数对pagerank算法进行改进,在微博用户关系之间引入关系权值,构建用户传播影响力的userrank算法,那么userrank值即为用户传播影响力,计算方式如式(11)所示:

其中,ur(ui)表示用户ui在用户关注关系网络中的传播影响力,q为阻尼系数;

步骤5、用户活跃度的计算:根据微博用户发布微博的数目和微博用户评论其它微博用户微博的数目,定义用户活跃度ua为微博用户在一定时间内发布微博数目与评论其它微博用户微博的数目的线性加权求和对时间的均值,计算如式(12)所示:

其中,n表示计算时间段的总天数,取近期的一个月或者一年的数据进行计算,或者定义为从注册日起到现在为止的所有数据;wi与ci分别表示用户在第i天发布的微博的数目与评论其它微博用户微博的数目,α和β分别表示用户发布微博数目与评论微博数目的权值,且满足α>0,β>0且α+β=1;它们所占比例相同,即α=β=0.5;

步骤6、用户平台指数的计算:根据用户权威度评价特征提取的用户权威度评价特征,用户平台指数包含3项内容,分别是是否是认证用户、是否是vip用户以及用户勋章数;采用这三项内容构建用户平台指数的计算方法如式(13)所示:

upi=α·a+β·m+γ·m(13)

其中,a表示微博用户是否经过平台认证,m表示微博用户具有的勋章数,v表示微博用户是否是vip会员用户,α、β和γ为三者的权值,由于这三项特征之间相对的重要性并不相同,同样采用层次分析法中的特征向量法确定各自的权值,构建用户平台指数判断矩阵如式(14)所示:

通过计算,得到式(14)的判断矩阵a的最大特征值为λmax=3.0015,计算判断矩阵的一致性比例为cr=0.0014,远远小于0.1,符合一致性检验结果,说明式(14)的构造的判断矩阵是合理的;最后,将最大特征值的特征向量进行归一化处理,得到用户平台指标的各项用户特征的权值为(α,β,γ)=(0.7373,0.0853,0.1773)。

进一步,步骤1中所述个人信息指标主要包括:个人资料、联系方式、职业信息、教育信息以及标签信息这五个大类的用户基本信息;所述用户行为数据,主要包括:用户粉丝数、微博被转发次数、微博被评论次数、用户关注数、用户发布微博总数、用户评论微博总数以及用户注册日期时间的行为数据。

进一步,步骤2中用户特征判断矩阵的一致性检验过程如下:

①计算一致性指标ci(consistencyindex)如式(5)所示:

②查找判断矩阵对应的平均随机一致性指标ri;

③计算一致性比例cr如式(6)所示:

当cr<0.1时,则认为构建的判断矩阵的一致性是可以接受的,否则,需要对判断矩阵做相应的修改再次计算;

通过一致性检验,构建的用户权威度评价的用户特征判断矩阵的一致性比例为cr=0.0030,远小于0.1,符合一致性检验结果。

本发明具有以下有益效果:

1、本发明综合考虑微博用户的个人信息、行为数据和官方认证数据,总结了影响微博用户权威度的四个不同的特征指标:用户基本信息完整度、用户传播影响力、用户活跃度以及用户平台指数,采用层次分析法中的特征向量法,构造用户权威度评价特征的判断矩阵,并通过计算确定了各个特征的权值,构建了多特征融合的微博用户评价体系。使得微博用户权威度可定量计算,并排除了“僵尸粉”对评价结果的影响,取得了较好的效果。

2、本发明针对用户信息传播影响力的计算,基于用户关系价值提出了一种pagerank算法改进的userrank模型,通过构建用户关注与被关注关系网络,将用户转发微博与评论微博作为关系价值引入关系网络之中,构建了用户信息传播影响力的计算模型,计算的用户传播影响力更加接近实际。

3、本发明将微博官方评价体系引入用户权威度评价模型之中,采用层次分析法,综合考虑用户是否是认证用户、是否是vip用户以及用户勋章数三项指标,使得用户权威度的评价更加全面。权威。

附图说明

图1为用户权威度评价体系层次结构;

图2为用户关注关系网络。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。

1、多特征融合的微博用户权威度定量评价体系

本发明根据用户权威度评价的要求,通过分析新浪微博的用户信息平台,提取微博用户的个人信息指标和微博用户的行为数据指标。个人信息指标主要包括:个人资料、联系方式、职业信息、教育信息以及标签信息这五个大类的用户基本信息。用户行为数据,主要包括:用户粉丝数、微博被转发次数、微博被评论次数、用户关注数、用户发布微博总数、用户评论微博总数以及用户注册日期时间等行为数据。另外,新浪微博的官方用户的平台认证属于微博官方认证,具有较高权威性,也将其作为用户权威度评价的一个重要指标。针对以上提取的微博用户个人信息与行为信息,对影响微博用户权威度的基本影响因素进行整理,构建了多特征融合的微博用户权威度评价的四个评价纬度:用户基本信息完整度、用户传播影响力、用户活跃度以及用户平台指数。构建用户权威度评价体系层次结构如图1所示:

按照图1所示的用户权威度评价体系层次结构,我们构建用户权威度(authority)评价指标特征四元组e(fui,fur,fua,fupa),其中,fui为用户基本信息完整度,fur为用户传播影响力,fua为用户活跃度,fupa为用户平台指数,将用户权威度定义为评价指标特征四元组e(fui,fur,fua,fupa)中各个评价指标特征的线性加权和,如式(1)所示:

authority=w1·fui+w2·fur+w3·fua+w1·fupi(1)

其中,wi(i=1,2,3,4)各个评价指标特征的权值系数,满足wi>0且

2、用户特征指标权值的确定

权值系数的确定本发明采用层次分析法中的特征向量法,具体的权重的计算过程如下:

(1)构造用户权威度评价特征的判断矩阵如式(2)所示:

其中,判断矩阵a中的元素aij表示两个特征相比,特征i的重要程度比特征j重要程度重要的倍数,一般是引入数字1-9及其导数作为度量。在微博用户权威度评价中,因为用户权威度的最直接体现就是用户的信息传播影响力,因此,其相对于其它因素,其重要程度最大。同时,鉴于平台认证信息经过了一定的官方审查,本身具有较高的权威性,因此用户的平台指数重要性占其次。最后,用户活跃度与用户基本信息完整度与用户权威有一定的关系但没有直接性的体现,因此它们的重要性较小。通过多次实验及第(2)的一致性检验,得到了如式(2)所示的用户权威度评价特征的判断矩阵。

(2)求解判断矩阵的最大特征值的特征向量,并进行一致性检验。对式(2)的用户特征判断矩阵a采用matlab的eig()函数求取全部特征值,构成对角阵d如式(3)所示,并求取判断矩阵a的所有特征向量构成的列向量矩阵v如式(4)所示:

通过式(3)我们可以得到用户判断矩阵a的最大特征值λmax=4.0080,则矩阵a的最大特征值特征向量为w=[0.0909,0.8413,0.2611,0.4646]t

用户特征判断矩阵的一致性检验过程如下:

①计算一致性指标ci(consistencyindex)如式(5)所示:

②查找判断矩阵对应的平均随机一致性指标ri(randomindex)。

表1给出了1-6阶的正互反矩计算1000次得到的平均随机一致性指标。

表1平均随机一致性指标ri

③计算一致性比例cr(consistencyratio)如式(6)所示:

当cr<0.1时,则认为构建的判断矩阵的一致性是可以接受的,否则,需要对判断矩阵做相应的修改再次计算。

通过一致性检验,本发明构建的用户权威度评价的用户特征判断矩阵的一致性比例为cr=0.0030,远小于0.1,符合一致性检验结果。

(3)对上面求出来的特征向量w进行归一化处理即可得到式(1)中各个用户特征的权值为(w1,w2,w3,w4)=(0.0548,0.5075,0.1575,0.2802)。

3、用户基本信息完整度的计算

本发明根据新浪微博的用户基本信息体系机构,总结了5大类共12项个人基本信息,构建微博用户基本信息体系如表2所示:

表2微博用户基本信息体系

根据以上微博用户信息体系,本发明将用户基本信息完整度ui(userintegrity)定义为微博用户在注册微博平台账号时,愿意向公众公开的个人基本信息标签占微博用户基本信息体系标签总数的比例。其计算如式(7)所示:

其中,n为微博用户基本信息体系中标签的总数量,根据表3所示,本发明中取值为12,ipi的定义如式(8)所示:

4、用户传播影响力的计算

微博用户信息的传播主要依靠用户之间的关注与被关注的关系,根据微博的用户关注关系可形成一种用户关注关系网络有向图如图2所示,其中圆点代表微博用户,箭头代表关注与被关注的关系。用户间的这种网络关系与网页之间的链接结构非常相识,在微博中,一个微博用户关注其他的微博用户相当于网页中从当前页面链接到其它页面,同样,一个微博用户被其他微博用户关注相当于网页中当前页面被其它页面链接。在网页搜索中对网页排名的计算中常常使用pagerank算法,pagerank算法又称google左侧排名或佩奇排名,是由google创始人拉里·佩奇和谢尔盖·布林于1997年在构建早期的搜索系统原型时提出的链接分析算法,此后,pagerank算法成为了其它搜索引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在pagerank算法基础上衍生出来的。但是,在计算微博用户传播影响力时,除了需要考虑到微博用户之间的关注与被关注的关系,还要考虑到“僵尸粉”的影响。因此,在本发明中,我们在pagerank算法的基础之上引入两个微博用户之间的互动关系,即微博被转发与被评论的次数,以此构建计算用户传播影响力的userrank算法。

本发明将微博用户的微博被转发数目与被评论数目作为关系价值融入到我们的评价体系中,用微博用户的微博被转发数目与被评论数目给每条连线进行赋值,对pagerank算法进行改进,构建用于计算微博用户传播影响力的userrank算法,使其更加适用于微博用户影响力的计算。

设fu(uj,ui)表示用户uj转发用户ui微博的次数,cu(uj,ui)为用户uj评论用户ui微博的次数,利用微博用户间转发与评论微博的次数给微博用户关注关系添加关系价值如式(9)所示:

w(uj,ui)=α·fu(uj,ui)+β·cu(uj,ui)(9)

其中,α和β分别代表转发微博与评论微博的权值系数,满足α>0,β>0且α+β=1。采用微博用户关注与被关注的关系价值,定义用户的微博传播指数为:若存在用户ui,其粉丝的集合为b,则用户ui的微博传播指数为其粉丝集合b中所有粉丝对其关注的权值之和,计算如式(10)所示:

利用用户的微博传播指数对pagerank算法进行改进,在微博用户关系之间引入关系权值,构建用户传播影响力的userrank算法,那么userrank值(以下称ur值)即为用户传播影响力,计算方式如式(11)所示:

其中,ur(ui)表示用户ui在用户关注关系网络中的传播影响力,q为阻尼系数。

5、用户活跃度的计算

本发明引入用户活跃度概念用于描述用户在微博中的主动行为发生的频率。微博用户的主动行为主要包括微博用户关注其他用户、发布微博、浏览微博、转发微博、评论微博等。简单来说,用户活跃度就是微博用户在平台中与其他用户(包括好友、粉丝、关注者等)进行互动的行为频率。由于微博用户关注其它用户和浏览微博的行为很难搜集到时间节点的信息,因此本发明中并没有将其纳入用户活跃度的度量体系之中。根据微博用户发布微博的数目和微博用户评论其它微博用户微博的数目,定义用户活跃度ua(useractivity)为微博用户在一定时间内发布微博数目与评论其它微博用户微博的数目的线性加权求和对时间的均值,计算如式(12)所示:

其中,n表示计算时间段的总天数,可以取近期的一个月或者一年的数据进行计算,也可以定义为从注册日起到现在为止的所有数据。wi与ci分别表示用户在第i天发布的微博的数目与评论其它微博用户微博的数目,α和β分别表示用户发布微博数目与评论微博数目的权值,且满足α>0,β>0且α+β=1。一般认为它们所占比例相同,即α=β=0.5。

6、用户平台指数的计算

本发明根据前文表1用户权威度评价特征我们提取的用户权威度评价特征,用户平台指数包含3项内容,分别是是否是认证用户、是否是vip用户以及用户勋章数。采用这三项内容我们构建用户平台指数的计算方法如式(13)所示:

upi=α·a+β·m+γ·m(13)

其中,a表示微博用户是否经过平台认证,m表示微博用户具有的勋章数,v表示微博用户是否是vip会员用户,α、β和γ为三者的权值,由于这三项特征之间相对的重要性并不相同,同样采用层次分析法中的特征向量法确定各自的权值。在此,本发明构建用户平台指数判断矩阵如式(14)所示:

通过计算,得到式(14)的判断矩阵a的最大特征值为λmax=3.0015,计算判断矩阵的一致性比例为cr=0.0014,远远小于0.1,符合一致性检验结果,说明式(14)的构造的判断矩阵是合理的。最后,将最大特征值的特征向量进行归一化处理,得到用户平台指标的各项用户特征的权值为(α,β,γ)=(0.7373,0.0853,0.1773)。

以上所述,仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1