一种基于用户综合影响力的微博意见领袖识别方法及系统

文档序号:29562239发布日期:2022-04-09 01:19阅读:326来源:国知局
一种基于用户综合影响力的微博意见领袖识别方法及系统

1.本发明属于计算机领域,尤其涉及一种基于用户综合影响力的微博意见领袖识别方法。


背景技术:

2.随着社交网络的蓬勃发展,社交网络中用户的影响逐渐受到人们的关注,目前与社交影响力有关的研究方向主要有发现意见领袖和影响力传播。通过用户之间的社交活动可观察出社交影响力的强弱,具体表现为影响力大的用户能够使其他用户的行为和思想发生改变。意见领袖不仅能引发议题并使议题存续,而且能通过影响其他网民的态度而改变舆论导向。准确地识别意见领袖对引导网民观点、有效治理舆情具有重要意义。新媒体时代下,意见领袖的概念已经受到了各行各业的广泛关注,也涌现出了不少关于意见领袖识别的研究。通常使用的方法有两种:基于用户关系网络的方法和基于指标模型的方法。基于指标模型的方法存在指标的选取对于结果影响较大,权重设置主观性较强等不足。基于用户关系网络的方法通常先构建用户关系网络,再利用网络结构指标,如节点的中心性指标从不同的角度评价网络中单个节点的影响。
3.经过检索,申请公开号为cn103150333a,微博媒体中的意见领袖识别方法,一种微博媒体中的意见领袖识别方法,包括网络意见收集,标准样本库标注,意见个体活跃度的分析,意见个体受关注度的分析,意见个体发文认同度的分析,意见领袖的分析和识别等六个步骤。本发明通过收集网络意见,对其进行意见个体活跃度、意见个体关注度、意见个体认同度三个方面的分析计算,以此为基础进行意见领袖的综合分析和识别。该专利是基于指标模型的方法来识别意见领袖,然而基于指标模型的方法存在指标的选取对于结果影响较大,权重设置主观性较强等不足。本发明在用户关系网络的基础上,引入全局影响力指标,提出了融合全局和局部影响力的意见领袖发现方法,更全面地反映意见领袖在用户关系网络中的结构特点,为准确识别意见领袖,有效地引导舆情提供依据。
4.申请公开号cn104298767a,一种微博网络中用户影响力度量的方法,包括以下步骤:1)编写获取微博用户信息及所发布微博内容的程序,再通过微博平台提供的api接口获取真实的微博用户信息,从所述真实的微博用户信息中提取用户所发微博被阅读、转发及评论的数量信息;2)得到用户的微博影响力it(u)值;3)获取用户的信息传播影响力id(u)值;4)根据用户的微博影响力it(u)值及用户的信息传播影响力id(u)值得用户的影响力初始权值w(u);5)根据用户的影响力初始权值w(u)迭代计算用户的影响力值i(u),以用户的影响力值i(u)度量用户在微博网络中的影响力。本发明能够更加准确的发现和识别微博网络中的影响力个;
5.该专利基于用户关系网络的方法往往从局部测度用户影响力,没有充分考虑网络的全局结构及其对用户的影响,这对意见领袖识别的准确性会产生一定的影响。为此,本发明在用户关系网络的基础上,引入全局影响力指标,提出了融合全局和局部影响力的意见领袖发现方法,更全面地反映意见领袖在用户关系网络中的结构特点,为准确识别意见领
袖,有效地引导舆情提供依据。


技术实现要素:

6.本发明旨在解决以上现有技术的问题。提出了一种能够准确识别的基于用户综合影响力的微博意见领袖识别方法及系统。本发明的技术方案如下:
7.一种基于用户综合影响力的微博意见领袖识别方法,其包括以下步骤:
8.进行微博用户关系网络的构建,包括对微博关注的话题进行数据采集及数据预处理;
9.利用处理后的数据得到用户和用户之间的关系邻接表,然后构建微博用户关系网络;
10.获取用户关系网络中的两个节点,计算两个节点之间的公共邻居数;对于用户关系网络结构中的两个节点,它们之间的公共节点越多,节点间的联系越紧密,说明节点的信息交互能力越强。因此,两个节点信息交互的能力,可以利用它们之间的公共邻居节点数来衡量。然后利用节点的公共邻居数来计算节点的全局影响力。计算节点的全局影响力;
11.计算用户的局部影响力;除了全局影响力,对关系网络中用户影响力的评估还需考虑用户自身的属性和特征以及其周围用户的影响。为了对用户的局部影响力进行测度,需要计算用户关系网络的度数中心性和节点的贡献概率来计算用户的局部影响力。最终,通过对每个用户节点的影响力进行测度,影响力越高,其在关系网络中的重要程度越高,最重要的节点即为该社交网络中的意见领袖。
12.进一步的,所述对微博关注的话题进行数据采集及数据预处理,具体包括:
13.利用python爬虫采集微博数据,采集的微博数据数据包含两类:(1)包含有其他用户id的转发微博;(2)提到了其他用户的原创微博;
14.进一步的,所述利用处理后的数据得到用户和用户之间的关系邻接表,具体包括:
15.将爬取到的用户id分别放入两列,微博发布者放入“publisher”列,产生联系的用户放入“mention”列,完成关系邻接表的建立。
16.进一步的,所述数据预处理据包括:针对邻接名单存在两个用户重复建立关系的情况,可能是因为同一用户对同一条微博进行了重复转发,或同一用户在两条原创微博中都提到了(@)同一个人,也可能是两个用户互相提到了(@)或互相转发了微博,以上操作都会造成数据的重复;由于建立的是无权无向图,只对两个用户间是否有联系进行统计,即只要两个用户之间有一条数据就可以成功建立联系;所以,对数据进行去重操作,得到无重复条目的数据集;由于有个别用户对自己的微博进行了转发,所以会产生自己和自己邻接,生成自环的关系,所以对第二类数据(指的是同一用户在两条原创微博中都提到了(@)同一个人)予以删除,完成数据预处理。
17.进一步的,对数据的预处理还包括:由于话题中会有许多用户发布广告或活动通知等与话题无关的信息,从而造成其他用户无意义的转发,这种转发建立的关系无法作为用户影响力的评估依据;所以,通过人工查找话题中发布此类信息的用户,将转发该用户微博产生的数据删除,得到最终数据预处理后的数据集。
18.进一步的,所述微博用户关系网络构建包括:对于微博用户和用户之间的关系可以抽象为无向无权图g(v,e),其中v表示节点集合,e表示边的集合,用户抽象为节点,用户
间的关系抽象为边;利用gephi进行网络可视化操作;将上述方法得到的邻接名单导入gephi,gephi自动生成包含节点和边的关系网络;根据需要调整网络布局,节点和边的尺寸等参数,最终导出.png文件,完成关系网络可视化操作。
19.进一步的,所述用户全局影响力计算包括:节点vi和vj的代表网络g中的两个不同节点,它们之间的公共邻居节点由com(vi,vj)表示为:
20.com(vi,vj)=nei(vi)∩nei(vj)
21.式中nei(vi)和nei(vj)分别表示节点vi和vj的所有邻居节点;利用节点vi与其他节点进行交互的能力来衡量其在整个网络,即网络全局结构中所具有的影响力,即用户在网络中与其他用户的信息交互能力的总和,节点的全局影响力用glbinflu(vi)表示为:
[0022][0023]
其中,d(vi)表示节点的度,pow表示数学的幂运算,节点vi的度即其最近邻居节点的数量总和,a是一个常数,将其设置为a=1.1,通过上面的表示,可以计算得出节点vi的全局影响力,即完成对用户的信息交互能力的测度。
[0024]
进一步的,所述计算用户局部影响力具体包括:为了对用户的局部影响力进行测度,需要计算两个指标;
[0025]
第一,度数中心性是基于用户关系网络的方法中用于衡量网络中节点影响力的最简单的指标,用dc(vi)表示为:
[0026][0027]
其中n是节点的总数,在基于用户关系网络的方法中,常常直接将度数中心性与节点的影响力相关联,度数中心性越高,节点的影响力越大;
[0028]
第二,计算节点vi的贡献概率,表示为:
[0029]
p(vi)=1/averd(vi)
[0030]
averd(vi)是节点vi所有邻居节点的平均度,用户的局部影响力是指用户抽象为节点后,在网络的局部结构中所具有的影响力,用locinflu(vi)表示为:
[0031][0032]
其中,dc(vj)表示节点vi的邻居节点的度数中心性,p(vj)指的是节点vi的最近邻居节点对于节点vi影响力的贡献概率;最后,通过该公式对关系网络中的用户局部影响力进行测度。
[0033]
进一步的,用户影响力计算包括:节点vi的影响力需要组合其局部影响力locinflu(vi)和其全局影响力glbinflu(vi)表示为:
[0034]
influ(vi)=glbinflu(vi)locinflu(vi)
[0035]
最终,通过influ(vi)对每个用户节点的影响力进行测度,影响力越高,其在关系网络中的重要程度越高,最重要的节点即为该社交网络中的意见领袖。
[0036]
一种基于用户综合影响力的微博意见领袖识别方法,其包括:
[0037]
微博用户关系网络构建模块:用于进行微博用户关系网络的构建,包括对微博关注的话题进行数据采集及数据预处理;利用处理后的数据得到用户和用户之间的关系邻接
表,然后构建微博用户关系网络;
[0038]
计算模块:用于获取用户关系网络中的两个节点,计算两个节点之间的公共邻居数;以及计算节点的全局影响力;以及计算用户的局部影响力;
[0039]
预测模块:用于通过对每个用户节点的影响力进行测度,影响力越高,其在关系网络中的重要程度越高,最重要的节点即为该社交网络中的意见领袖。
[0040]
本发明的优点及有益效果如下:
[0041]
本发明的主要创新是基于权利要求的用户全局影响力的计算:对于用户关系网络结构中的两个节点,它们之间的公共节点越多,节点间的联系越紧密,说明节点的信息交互能力越强。因此,两个节点信息交互的能力,可以利用它们之间的公共邻居节点数来衡量。节点vi和vj的代表网络g中的两个不同节点,它们之间的公共邻居节点由com(vi,vj)表示为:
[0042]
com(vi,vj)=nei(vi)∩nei(vj)
[0043]
式中nei(vi)和nei(vj)分别表示节点vi和vj的所有邻居节点;利用节点vi与其他节点进行交互的能力来衡量其在整个网络,即网络全局结构中所具有的影响力,即用户在网络中与其他用户的信息交互能力的总和,节点的全局影响力用glbinflu(vi)表示为:
[0044][0045]
其中,d(vi)表示节点的度,pow表示数学的幂运算节点vi的度即其最近邻居节点的数量总和,a是一个常数,将其设置为a=1.1,通过上面的表示,可以计算得出节点vi的全局影响力,即完成对用户的信息交互能力的测度。
[0046]
本发明的有益效果是:基于指标模型的方法存在指标的选取对于结果影响较大,权重设置主观性较强等不足。基于用户关系网络的方法往往从局部测度用户影响力,没有充分考虑网络的全局结构及其对用户的影响,这对意见领袖识别的准确性会产生一定的影响。为此,本发明在用户关系网络的基础上,引入全局影响力指标,提出了融合全局和局部影响力的意见领袖发现方法,更全面地反映意见领袖在用户关系网络中的结构特点,为准确识别意见领袖,有效地引导舆情提供依据。
附图说明
[0047]
图1是本发明提供优选实施例一种基于用户综合影响力的微博意见领袖识别方法流程图。
[0048]
图2是本发明情感极性分类流程图。
具体实施方式
[0049]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
[0050]
本发明解决上述技术问题的技术方案是:
[0051]
本发明提出一种基于用户综合影响力的微博意见领袖识别方法,其特征在于,所述方法包括以下步骤:
[0052]
s1、进行微博用户关系网络构建,包括对微博关注的话题话题进行数据采集及数
据预处理;
[0053]
s2、利用处理后的数据可以得到用户和用户之间的关系邻接表,然后构建用户关系网络;
[0054]
s3、利用用户关系结构的两个节点,计算两个节点之间的公共邻居数;
[0055]
s4、用户局部影响力除了全局影响力,对关系网络中用户影响力的评估还需考虑用户自身的属性和特征以及其周围用户的影响。为了对用户的局部影响力进行测度,需要计算两个简单指标,一是度数中心性,二是节点的贡献概率;
[0056]
s5、最终,通过对每个用户节点的影响力进行测度,影响力越高,其在关系网络中的重要程度越高,最重要的节点即为该社交网络中的意见领袖。
[0057]
进一步的,针对邻接名单存在两个用户重复建立关系的情况,可能是因为同一用户对同一条微博进行了重复转发,或同一用户在两条原创微博中都提到了(@)同一个人,也可能是两个用户互相提到了(@)或互相转发了微博,以上操作都会造成数据的重复。由于本方法建立的是无权无向图,只对两个用户间是否有联系进行统计,即只要两个用户之间有一条数据就可以成功建立联系。所以,对数据进行去重操作,得到无重复条目的数据集。由于有个别用户对自己的微博进行了转发,所以会产生自己和自己邻接,生成自环的关系。本方法不考虑自环,所以对第二类数据予以删除,完成第三步数据预处理。
[0058]
进一步的,对数据的预处理包括:由于话题中会有许多用户发布广告或活动通知等与话题无关的信息,从而造成其他用户无意义的转发,这种转发建立的关系无法作为用户影响力的评估依据。所以,通过人工查找话题中发布此类信息的用户,将转发该用户微博产生的数据删除,得到最终数据预处理后的数据集。
[0059]
进一步的,微博用户关系网络构建包括:对于微博用户和用户之间的关系可以抽象为无向无权图g(v,e),其中v表示节点集合,e表示边的集合。用户可以抽象为节点,用户间的关系可以抽象为边。为了更好地展示可视化效果,可以利用gephi进行网络可视化操作。将上述方法得到的邻接名单导入gephi,gephi自动生成包含节点和边的关系网络。根据需要调整网络布局,节点和边的尺寸等参数,最终导出.png文件,完成关系网络可视化操作。可视化的网络可以直观地感受到用户间的关系,并且可以整体把握网络中关键节点的范围,即可能是意见领袖的用户id,为后续进行影响力计算的验证建立初步基础。
[0060]
如图一,本发明是一种基于用户综合影响力的微博意见领袖识别方法,主要包括微博用户关系网络构建、用户全局影响力测度、用户局部影响力测度和用户影响力排名4个方面。
[0061]
实施例1:
[0062]
本实施例给出一种针对来源不同、数据结构不同的数据进行多源异构数据的融合过程的具体实施方式,即微博社交数据的采集及预处理数据的具体实施方式:
[0063]
在新浪微博平台上,人们通过“@”符号进行标记转发或是标记想要提醒查看该条消息的人。当人们发表的微博当中包含“@id”的内容时,无论原创微博或转发微博,都说明该用户(id)与评论人具有某种联系,二者之间是关联的。特别地,对于转发微博,由于人们转发时会包含之前所有转发关系,例如,a用户转发了b用户的原创微博,c用户又转发了a转发的这条微博,则c用户的这条转发当中会包含a、b两个用户的id,这样的传递性关系可能会导致关系网络过于密集,并且会使得很多无关系者产生联系。所以,为了避免这样的错
误,本方法只选取每一条转发微博当中“//@”后出现的用户id,即只记录与转发者亲密程度最高的人。数据采集时,不关注微博内容,只关注微博发布者的id以及其微博当中提到的id。因此,通过python爬虫,基于上述规则,采集两类数据:(1)包含有其他用户id的转发微博;(2)提到了其他用户的原创微博。最后,将爬取到的用户id分别放入两列,微博发布者放入“publisher”列,产生联系的用户放入“mention”列,完成关系邻接表的建立。
[0064]
成功建立关系邻接表之后,进行数据预处理:
[0065]
第一步,由于爬取到的数据当中“mention”一列中的id都包含了“@”符号,而“publisher”列不包括,这样会导致节点的错误识别,所以需要对“mention”列中的数据进行清洗,去除“@”符号,只保留用户id部分。
[0066]
第二步,邻接名单存在两个用户重复建立关系的情况,可能是因为同一用户对同一条微博进行了重复转发,或同一用户在两条原创微博中都提到了(@)同一个人,也可能是两个用户互相提到了(@)或互相转发了微博,以上操作都会造成数据的重复。由于本文建立的是无权无向图,只对两个用户间是否有联系进行统计,即只要两个用户之间有一条数据就可以成功建立联系。所以,对数据进行去重操作,得到无重复条目的数据集。
[0067]
第三步,由于有个别用户对自己的微博进行了转发,所以会产生自己和自己邻接,生成自环的关系。本方法不考虑自环,所以对第二类数据予以删除,完成第三步数据预处理。
[0068]
第四步,由于话题中会有许多用户发布广告或活动通知等与话题无关的信息,从而造成其他用户无意义的转发,这种转发建立的关系无法作为用户影响力的评估依据。所以,通过人工查找话题中发布此类信息的用户,将转发该用户微博产生的数据进行删除,得到最终数据预处理后的数据集。
[0069]
第五步,由于话题中微博评论的情感极性会影响舆论的走向,本方法使用fasttext文本分类器完成情感极性的分类。具体的流程见图2情感极性分类路程图。
[0070]
通过以上的方法,完成利用python对话题评论进行数据收集及预处理的工作后,可以得到用户和用户之间的关系邻接表。对于微博用户和用户之间的关系网络可以抽象为无向无权图g(v,e),其中v表示节点集合,e表示边的集合。用户可以抽象为节点,用户间的关系可以抽象为边。为了更好地展示可视化效果,本方法利用gephi进行网络可视化操作。将上述方法得到的邻接名单导入gephi,gephi自动生成包含节点和边的关系网络。根据需要调整网络布局,节点和边的尺寸等参数,最终导出.png文件,完成关系网络可视化操作。可视化的网络可以直观地感受到用户间的关系,并且可以整体把握网络中关键节点的范围,即可能是意见领袖的用户id,为后续进行影响力计算的验证建立初步基础。
[0071]
实施例2:
[0072]
微博的用户关系网络是微博用户及用户之间的信息交互而形成的相对稳定的社会关系体系。信息交互能力表明了用户在全局关系网络结构中的枢纽位置,能够促进网络信息的共享。意见领袖作为用户关系网络中的关键节点,是具有较强信息交互能力的节点。为了更好地体现用户在关系网络中的全局影响力,需要对用户的信息交互能力进行测度。用户全局影响力计算包括:节点vi和vj的代表网络g中的两个不同节点,它们之间的公共邻居节点由com(vi,vj)表示为:
[0073]
com(vi,vj)=nei(vi)∩nei(vj)
[0074]
式中nei(vi)和nei(vj)分别表示节点vi和vj的所有邻居节点。本方法利用节点vi与其他节点进行交互的能力来衡量其在整个网络,即网络全局结构中所具有的影响力,即用户在网络中与其他用户的信息交互能力的总和。节点的全局影响力用glbinflu(vi)表示为:
[0075][0076]
其中,d(vi)表示节点的度,节点vi的度即其最近邻居节点的数量总和。a是一个常数,将其设置为a=1.1。通过上面的公式,可以计算得出节点vi的全局影响力,即完成对用户的信息交互能力的测度。
[0077]
进一步的,用户局部影响力计算包括:为了对用户的局部影响力进行测度,需要计算两个简单指标,以满足后续的计算要求。计算两个简单指标,以满足后续的计算要求。第一,度数中心性是基于用户关系网络的方法中用于衡量网络中节点影响力的最简单的指标,用dc(vi)表示为:
[0078][0079]
其中n是节点的总数。在基于用户关系网络的方法中,常常直接将度数中心性与节点的影响力相关联,度数中心性越高,节点的影响力越大。第二,计算节点vi的贡献概率,表示为:
[0080]
p(vi)=1/averd(vi)
[0081]
averd(vi)是节点vi所有邻居节点的平均度。用户的局部影响力是指用户抽象为节点后,在网络的局部结构中所具有的影响力,用locinflu(vi)表示为:
[0082][0083]
其中,dc(vj)表示节点vi的邻居节点的度数中心性。p(vj)指的是节点vi的最近邻居节点对于节点vi影响力的贡献概率。最后,通过该公式对关系网络中的用户局部影响力进行测度。
[0084]
一个用户的影响力应综合考虑用户与其他用户的密切程度,以及最近邻用户的影响,来衡量用户的影响力,即融合全局结构和局部结构对用户影响力进行测度。进一步的,用户影响力计算包括:节点vi的影响力需要组合其局部影响力locinflu(vi)和其全局影响力glbinflu(vi)表示为:
[0085]
influ(vi)=glbinflu(vi)locinflu(vi)
[0086]
最终,通过influ(vi)对每个用户节点的影响力进行测度,影响力越高,其在关系网络中的重要程度越高,最重要的节点即为该社交网络中的意见领袖。
[0087]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0088]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的
包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0089]
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1