基于主题概率模型的微博传播群体划分与账户活跃度评估方法

文档序号:9274718阅读:459来源:国知局
基于主题概率模型的微博传播群体划分与账户活跃度评估方法
【技术领域】
[0001] 本发明涉及微博舆情监控领域,特别是基于主题概率模型自动划分在微博传播过 程中具有相似主题的群体的一种基于主题概率模型的微博传播群体划分与账户活跃度评 估方法。
【背景技术】
[0002] 近年来,微博凭借着快速便捷等特性成为了网民获取新闻时事、自我表达以及社 会参与的重要媒介,同时也成为了社会公共舆论、企业品牌和产品推广的重要平台。微博中 的话题更是成为了公众参与和获取社会焦点事件、综艺娱乐节目推广等的主要手段。
[0003] 微博传播是一把双刃剑:一方面,微博为一些社会事件中的信息公开提供了一个 快速响应的平台,它在一定程度上弥补了传统媒体和其他网络工具的不足。用户可以通过 #话题名#创建或者参与到特定话题的讨论中去。例如,在两会期间,由人民日报创建起来 的#2015两会#,由央视新闻创建的#微博看两会#和由用户为微博新鲜事创建的#两会 #,这三个话题在两会期间成为了热门的话题,以微博看两会该话题为例,其中有2. 9万微 博账户关注了该话题,约有65万人参与到了该话题的讨论当中去;另一方面,微博不同于 传统新闻媒体,其新闻的发布存在重复性,且真实性无法保证,可能会被利用成为谣言传播 的载体、不满情绪的导火索,甚至给国家安全和社会稳定造成极坏的后果。
[0004] 当新的热点事件出现后,政府部门需要及时掌握热点事件的主题、参与者以及舆 论的情感倾向,以便对后期的舆论引导具备快速响应能力。另外为了防止团伙利用话题进 行虚假信息扩散或者负面不良情绪煽动,政府部门需要掌握与特定事件相关的微博传播中 具有不同主题情感倾向性的群体。
[0005] 因此,面向新兴媒体,针对微博平台中的热门话题开展传播群体分析、主题挖掘、 情感倾向分析以及活跃账户识别,对于发现、预测、引导网络舆论,提高政府舆论监管能力, 维护社会和谐稳定具有重要的理论价值和现实意义。
[0006] 为了解决上述问题,与本发明相关的技术主要涉及到社团发现领域,目前社团发 现的方法有很多,最早Girav和Newman提出了一种基于中间度概念的社团发现算法。由于 社会网络的发展,社区结构开始出现彼此包含的关系,一些重叠社团发现算法相应提了出 来,除此之外,近几年也开始出现了关于动态社区发现算法的研宄,这些社团发现方法研宄 的出发点是社会网络中节点关系属性。该类研宄忽略了社会网络中存在的语义信息。2003 年,Blei提出了 LDA模型,认为文档是多个主题的概率分布。2004年,Syeyver等人认为主 题是多个关键词的概率分布,用户也以某种概率分布对多个主题感兴趣,并提出AT模型, 发现用户、文档、主题和关键词之间的关系。Zhou等人在AT模型中加入了 user分布取样, 提出了 CUT模型。但是,上面的方法只考虑到了文本内容忽略了用户联系的重要性,为此, 不少学者提出结合语义信息和社会联系的社团发现方法。而微博中含有大量的用户与微博 文本的交互信息,参与用户具有不同的行为表现,直接应用现有的社团方法解决微博话题 中传播人群的划分并不合适,需要对微博的特有性质进一步考虑并优化算法。

【发明内容】

[0007] 针对上述情况,为克服现有技术之缺陷,本发明之目的就是提供一种基于主题概 率模型的微博传播群体划分与活跃度评估方法,可有效解决按传播群体划分,将参与微博 话题传播的账户划分为多个群组,同时量化每个群组中活跃的微博账户。
[0008] 本发明解决的技术方案是,包括以下步骤:
[0009] (1)与特定事件相关的微博样本搜集:以特定事件的关键词为基础,基于爬虫技 术或微博公共开放平台获取微博具体文本信息以及参与微博传播的账户集合,其中包括微 博的原创账户集合,转发账户集合以及评论账户集合;
[0010] ⑵微博样本库中词汇表和参与人员表的构建:以单个微博的文本内容以及参与 微博的账户集合输入,首先利用中科院中文分词系统对微博文本进行分词,将微博文本表 示成多个关键词的形式,近而形成微博样本库上的词汇表;其次采用分割的方法,原理与分 词相同,构造参与人员表;
[0011] (3)主题概率模型生成:对样本库中的每一条微博d,d = 1,2, ???,0,基于主题概 率生成模型,为每一篇微博文本赋予一个群体编号,然后基于被赋予的群体编号,从构建的 词汇表和参与人员表中根据模型中的群体-主题,主题-词以及群体-人抽样出词和参与 人员;
[0012] (4)模型中的参数计算:采用吉布斯抽样的方法对模型中的群体-人员分布,群 体-主题分布,群体-人员-行为分布,群体-情感分布以及主题-词分布进行计算,由于 参与热门事件的微博传播的账户数目大都以万计,因此采用归并排序算法对每个主题下所 包含的单词以及每个群体中所包含的人进行排序,以找到群体中活跃度高的参与者以及最 能代表主题的单词。
[0013] 本发明方法计算复杂性较低,能够在有限次迭代后划分社团,揭示主题,并同时量 化社团中参与账户的活跃度,对于及时掌握微博热点、情感倾向和舆论引导,具有实际的应 用价值。
【附图说明】
[0014] 图1为本发明流程框示图。
[0015] 图2为本发明的炒作微博事务数据库示意图。
[0016] 图3为本发明中符号定义说明图。
[0017] 图4为本发明实验中不同话题的perplexity的值示意图。
[0018] 图5为本发明实验中两会话题数据集中的主要社团(K = 25, C = 10)示意图。 [0019] 图6为本发明关于两会的社团的主题分布的实验结果图。
[0020] 图7为本发明实验中社团2和社团10中相对活跃的用户行为比较图。
【具体实施方式】
[0021] 以下结合附图对本发明的【具体实施方式】作详细说明。
[0022] 由图1给出,本发明包括与特定事件相关的微博样本采集和预处理、主题概率模 型生成以及模型的推导和参数设计部分,微博样本采集和预处理模块主要负责采集与特定 事件相关的微博和参与账户,对微博内容进行分词和去停用词,判断微博文本的情感极性; 主题概率模型生成模块改进传统单纯面向主题的LDA模型,将微博账户情感极性、微博转 发关系因素加入模型,并增加社团层面的建模;模型的推导和参数设计模块通过多次迭代 得到社团、每个社团中相对比较活跃的用户及其行为模式,具体步骤是:
[0023]1)、与事件相关的微博样本采集:
[0024] 与特定事件的相关微博样本应当具有相关性,包括能够描述特定事件的关键词的 微博或具有相同的HashTag的微博及其相关转发和评论微博,微博样本的采集基于宽度优 先搜索获取与特定事件相关的微博及其转发和评论微博,采用爬虫技术,首先根据网页链 接下载微博网页、解析页面结构并提取微博文本信息及其他能够描述微博的元数据信息, 以获取的微博为起点,对其相关的转发微博及其评论微博和参与微博的传播的账户信息, 同样利用爬虫技术,获取相关数据;或是调用新浪公共开放平台,调用微博官方对外提供的 API函数获取微博文本信息及参与其传播的账户的信息,为有利于对事件传播中的群体划 分,在选取微博样本时遵循的原则为:选取转发数和评论数不为〇的微博;
[0025] 样本搜集的内容应包括微博表示号、微博文本内容、微博账户标识号,参与微博传 播的账户集合;
[0026] 2)、微博样本库中词汇表和参与人员表的构建:
[0027] 由于原始微博样本文字比较随意,在建模前要对微博样本数据进行预处理将微博 文本转换成关键词集合的表述形式,同时构建基于样本库的词汇表和参与人员表,判断每 个微博样本的情感极性,情感极性分为三种:积极的,消极的和中性的:
[0028] (1)文本分词,利用正则表达式去除文本中的无用的HTML标签,然后利用中科院 中文分词系统ICTCLAS,对文本进行分词,将微博文本转化成词向量;
[0029] (2)基于(台湾大学整理发布的NTUSD)情感词典对微博文本进行情感极性判定, 考虑到普适的情感词典缺少专门针对微博的情感词汇和表情符号,而微博文本中经常出现 微博平台提供的表情符来表达博主的情感(例如:4表示赞,是积极情感的表达,=表示鄙 视,是消极情感的表达),在普适情感词典的基础之上添加微博表情符,将微博的表情符转 化成对应的情感语义词;
[0030] (3)去除停用词,停用词主要指得是代词和表示时间的常用词,可以采用基于停用 词字典的方法将停用词去除,当去除停用词后,微博内容为空,则舍去这样的微博;
[0031] (4)构建样本库中的词汇表,首先初始化一个词典,包括两个内容:词的编号和具 体的词;以每条微博的词向量为起点,依次查询词向量中的关键词,是否存在于词典中;当 存在,则将具体的词转化成词典对应的编号;当不存在,则将词添加到词典当中去,同时将 词向量中具体的词转化成词典对应的编号;重复以上步骤,直到样本库中的每篇文本遍历 完为止,并构建样本库中的参与人员表;
[0032] 2)主题概率模型生成:
[0033] 对样本库中的每一条微博d,d = 1,2, ???,0,基于主题概率生成
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1