微博用户影响力的评估方法

文档序号:8339745阅读:537来源:国知局
微博用户影响力的评估方法
【技术领域】
[0001] 本发明涉及信息过滤和数据挖掘技术领域,特别是涉及一种微博用户影响力的评 估方法。
【背景技术】
[0002] 公认的互联网三大应用是电子邮件、即时通讯和信息检索,社交网络的出现实现 了三者的有机结合,并取得了巨大成功。近年来,微博的出现引起了人们极大的关注,它的 发展将社交网络的应用推到了一个新的层次。
[0003] 微博是一个基于用户之间关系的信息传播、分享以及获取的平台,用户可以通过 WEB、WAP以及各种客户端组建个人社区。对于信息的即时交流和分享,微博更注重随意性 和时效性,更能反映出时时的最新动态和思想。微博整合了博客、即时通信、电子邮件、移动 终端等网络应用,是当下移动网络和互联网结合融合的集大成者。因此微博作为复杂的、全 新的、庞大的且影响力广泛的网络服务平台,无论是对于网民、网络服务商还是网络管理者 来说,如何更好的利用微博这一新兴事物是值得深思的问题。
[0004] 用户影响力是微博用户在交互过程中表现出的一种重要特征,越来越多的用户倾 向于通过影响力较高的用户,有选择的获取高质量信息。因此,发现和预测有影响力用户, 有助于丰富和提高用户的浏览体验。微博用户的影响力还是微博数据利用的重要指标,它 反映了数据传播集中于重要的用户。发现和预测有影响力用户,可以更好的引导舆论,更高 效可靠的监管信息传播,更好的发挥微博的商业价值。
[0005] 现有的技术是通过粉丝数量来表征微博用户的影响力,而忽略了微博用户影响力 的其他组成部分,从而无法准确表征微博用户的影响力。

【发明内容】

[0006] 本发明提供的微博用户影响力的评估方法,可以准确评估微博用户的影响力。
[0007] 根据本发明的一方面,提供一种微博用户影响力的评估方法,包括:
[0008] 从微博网站中获取微博信息,将所述微博信息进行处理,将处理的微博信息进行 分类得到转发微博信息和原创微博信息;根据所述原创微博信息获取所述原创微博信息的 影响力;根据所述转发微博信息获取所述转发微博信息的影响力;根据所述原创微博信息 的影响力和所述转发微博信息的影响力获取微博用户的影响力;将所述微博用户的影响力 通过函数拟合预测微博用户未来阶段的影响力。
[0009] 本发明实施例提供的微博用户影响力的评估方法,通过原创微博信息的影响力和 转发微博信息的影响力获取微博用户的影响力,从而准确评估微博用户的影响力。
【附图说明】
[0010] 图1为本发明实施例提供的微博用户影响力的评估方法的流程图。
【具体实施方式】
[0011] 本发明的总体构思是,通过原创微博信息的影响力和转发微博信息的影响力获取 微博用户的影响力,从而准确评估微博用户的影响力。
[0012] 下面结合附图对本发明实施例提供的微博用户影响力的评估方法进行详细描述。
[0013] 图1为本发明实施例提供的微博用户影响力的评估方法的流程图。
[0014] 参照图1,在步骤S101,从微博网站中获取微博信息,将所述微博信息进行处理, 将处理的微博信息进行分类得到转发微博信息和原创微博信息。
[0015] 这里,处理阶段主要包括网页内容信息的抓取和信息的抽取两个阶段,将所述微 博信息进行处理包括:
[0016] 所述微博信息根据统一资源定位符URL抓取网页内容信息;
[0017] 根据所述网页内容信息中的链接信息逐级抓取网页信息;
[0018] 将逐级抓取的网页信息通过网页模板格式和定义表达式进行抽取得到所述处理 的微博信息。
[0019] 在步骤S102,根据所述原创微博信息获取所述原创微博信息的影响力。
[0020] 根据本发明的示例性实施例,所述根据所述原创微博信息获取所述原创微博信息 的影响力包括:
[0021] 从所述原创微博信息中进行提取得到第一微博属性信息和微博内容信息,所述第 一微博属性信息包括第一用户粉丝数量、第一微博评论数量、第一微博转发数量;
[0022] 根据所述第一微博评论数量和第一微博转发数量获取第一校正因子;
[0023] 将所述微博内容信息进行词性标注,获取所述微博内容信息对应的词性的数量, 通过多元线性回归对所述词性的数量及所述第一校正因子进行线性拟合得到拟合系数;
[0024] 根据所述第一校正因子和所述拟合系数获取所述原创微博信息的影响力。
[0025] 通过词性标注系统可以将微博的不同词性进行标注,并将微博分成不同的词条。 词性标注的结果通过拟合,可以获得按照重要性词条排名,进一步需要根据选出前k个词 条进行分析。选出词性数目最多的11种主要词性作为变量,使用前面所述的影响力大小的 实际情况进行线性拟合,得出各个词性的加权系数。
[0026] 具体地,微博用户的粉丝数较大,该用户发表的微博就有可能接受更多的认得评 论以及转发,因此在微博内容影响力的评估中就会受到粉丝数的影响,片面的强调粉丝数 的重要性,因此这里将转发数和评论数进行归一化处理。
[0027] 转发数和评论数作为最直观反应用户原创微博重要性的指标,同样二者之间也存 在着重要性的差异。用户对一条微博感兴趣,或者产生共鸣以后才会转发或者评论,而转发 后会有更多人看到该微博,因此直观上看转发微博具有更大的重要性。
[0028] 根据本发明的示例性实施例,所述根据所述第一微博评论数量和第一微博转发数 量获取第一校正因子包括:
[0029] 根据所述第一微博转发数量和第一微博评论数量通过层次分析方法分别获取第 一微博转发数量权重和第一微博评论数量权重;
[0030] 根据所述第一微博转发数量权重和第一微博评论数量权重获取第一校正因子。
[0031] 这里,对微博关注数量、微博粉丝数量、微博转发数以及微博评论数进行评估,构 成成对比较矩阵,具体如下:
[0032]
【主权项】
1. 一种微博用户影响力的评估方法,其特征在于,所述方法包括: 从微博网站中获取微博信息,将所述微博信息进行处理,将处理的微博信息进行分类 得到转发微博信息和原创微博信息; 根据所述原创微博信息获取所述原创微博信息的影响力; 根据所述转发微博信息获取所述转发微博信息的影响力; 根据所述原创微博信息的影响力和所述转发微博信息的影响力获取微博用户的影响 力; 将所述微博用户的影响力通过函数拟合预测微博用户未来阶段的影响力。
2. 根据权利要求1所述的方法,其特征在于,所述根据所述原创微博信息获取所述原 创微博信息的影响力包括: 从所述原创微博信息中进行提取得到第一微博属性信息和微博内容信息,所述第一微 博属性信息包括第一用户粉丝数量、第一微博评论数量、第一微博转发数量; 根据所述第一微博评论数量和第一微博转发数量获取第一校正因子; 将所述微博内容信息进行词性标注,获取所述微博内容信息对应的词性的数量,通过 多元线性回归对所述词性的数量及所述第一校正因子进行线性拟合得到拟合系数; 根据所述第一校正因子和所述拟合系数获取所述原创微博信息的影响力。
3. 根据权利要求2所述的方法,其特征在于,所述根据所述第一微博评论数量和第一 微博转发数量获取第一校正因子包括: 根据所述第一微博转发数量和第一微博评论数量通过层次分析方法分别获取第一微 博转发数量权重和第一微博评论数量权重; 根据所述第一微博转发数量权重和第一微博评论数量权重获取第一校正因子。
4. 根据权利要求3所述的方法,其特征在于,所述根据所述第一校正因子和所述拟合 系数获取所述原创微博信息的影响力包括: 根据下式计算所述原创微博信息的影响力:
其中,omi为所述原创微博信息的影响力,rep为所述微博转发数量,a、c为权重,com 为所述微博评论数量,fol为所述用户粉丝数量,b为所述拟合系数。
5. 根据权利要求4所述的方法,其特征在于,所述根据所述转发微博信息获取所述转 发微博信息的影响力包括: 从所述转发微博信息中进行提取得到第二微博属性信息,所述第二微博属性信息包括 第二用户粉丝数量、第二微博评论数量、第二微博转发数量和第二用户关注数量; 根据所述第二微博评论数量和所述第二微博转发数量获取第二校正因子; 根据所述第二校正因子和转发率获取所述转发微博信息的影响力。
6. 根据权利要求5所述的方法,其特征在于,所述根据所述第二微博评论数量和所述 第二微博转发数量获取第二校正因子包括: 根据所述第二微博转发数量和第二微博评论数量通过层次分析方法分别获取第二微 博转发数量权重和第二微博评论数量权重; 根据所述第二微博转发数量权重和第二微博评论数量权重获取第二校正因子。
7. 根据权利要求6所述的方法,其特征在于,所述根据所述第二校正因子和转发率获 取所述转发微博信息的影响力包括: 根据下式计算所述转发微博信息的影响力: rmi = rmipX (1+r) 其中,rmi为所述转发微博信息的影响力,rmip为所述校正因子,r为所述转发率。
8. 根据权利要求7所述的方法,其特征在于,所述根据所述原创微博信息的影响力和 所述转发微博信息的影响力获取微博用户的影响力包括: 根据下式计算所述微博用户的影响力:
其中,mui为所述微博用户的影响力,rmi为所述转发微博信息的影响力,omi为所述原 创微博信息的影响力,fol为所述用户粉丝数量。
【专利摘要】本发明提供的微博用户影响力的评估方法,包括:从微博网站中获取微博信息,将所述微博信息进行处理,将处理的微博信息进行分类得到转发微博信息和原创微博信息;根据所述原创微博信息获取所述原创微博信息的影响力;根据所述转发微博信息获取所述转发微博信息的影响力;根据所述原创微博信息的影响力和所述转发微博信息的影响力获取微博用户的影响力;将所述微博用户的影响力通过函数拟合预测微博用户未来阶段的影响力。本发明可以准确地评估微博用户的影响力。
【IPC分类】G06F17-30, G06Q50-00
【公开号】CN104657498
【申请号】CN201510105466
【发明人】胡文鹏, 郑楠, 戴汝为
【申请人】中国科学院自动化研究所
【公开日】2015年5月27日
【申请日】2015年3月11日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1