一种微博主题情感演化分析方法
【技术领域】
[0001] 本发明设及网络舆情分析技术领域,特别设及一种应用于Web2. 0环境下微博消 息的主题情感演化分析方法。
【背景技术】
[0002] 微博是Web2. 0时代兴起的一种集成化、开放化的互联网社交服务,它让用户能够 向公众发布简短的文本消息。由于其简便的特点,日益受到互联网用户的青睐。目前新浪 微博用户规模已经超过3亿,每天都有大量的微博消息发布。在该些海量的微博消息中,有 许多饱含个人情感的资源,如何从该些微博消息中高效自动地提取主题与情感,并且对主 题与情感进行演化分析,是一个很具有研究价值的热点。
[0003] 网络文本情感挖掘的算法大致可归纳为=类;有监督的情感挖掘、无监督的情感 挖掘与半监督的情感挖掘。有(半)监督的情感挖掘方法一般具有较高的分类准确率,但 是它们都需要人工标注的训练语料来训练生成文本情感分类器,而获得人工标注的训练语 料是十分耗时耗力的。传统的无监督情感挖掘方法是利用情感词典对文本进行情感分类, 该种方法对情感词典具有极强的依赖性,而好的情感词典却很难获得。因此,WJST、S-LDA 与DPLDA等为代表的无监督情感分类方法近年来备受青睐,此类方法不仅能有效地避免传 统无监督情感分类方法具有的情感词典依赖性缺点,达到较好的情感分类效果,而且该类 方法还可W很好的对文本进行主题挖掘。然而,现有的该些LDA主题情感模型都还不能很 好的展示微博主题与情感的演化,下面W例加W说明。
[0004] 例1 ;给定用户A的两条微博; A1 ;和朋友一起看NBA总决赛,很喜欢马刺队,团队篮球必胜! 一2014. 06. 15A2 ;今天晚上和朋友通宵看世界杯了,C罗又帅气又有实力! 一2014. 07. 13 针对该两条微博,虽然JST、S-LDA与ASUM可W获取A1的主题(NBA)与情感极性(积 极)还有A2的主题(世界杯)与情感极性(积极),但是JST、S-LDA与ASUM却无法表示 A1、A2的主题出现的时间,更无法确切地分析用户A关注的主题从NBA到世界杯的演化,该 是由于没有融入时间参数,3个模型会默认A1与A2的主题是在同一时间出现的。
[0005] 微博主题演化近几年吸引了不少人对其进行研究,其中基于LDA模型的主题演化 模型备受研究者瞩目,较具代表性的有;动态主题模型DTM、增量LDA模型ILDA、在线LDA模 型0LDA,扩展0LDA模型等。然而该些模型只考虑了主题随时间的演化却没有考虑情感随时 间的演化,导致该些模型无法很好地解释下列微博。
[0006] 例2 ;给定用户B的两条微博: B1 ;林俊杰的新歌《可惜没有如果》真是太好听了,非常喜欢,强力推 荐! 一2015. 03. 01 B2 ;浙江卫视的节目《奔跑吧兄弟》第二季又要开始了,又可W看见喜欢的邓超 了。一2015. 03. 08 B3 ;突然觉得《可惜没有如果》该首歌很难听!!! 一2015. 03. 15 DTM、ILDA、OLDA虽然可W捕获B1 (歌),B2 (节目),B3 (歌)的主题与主题随时间的 演化,可是该些模型却无法捕获B1、B2、B3的情感还有B1 (积极)、B3 (消极)的主题情感 演化。
[0007]从上述分析可知,现有LDA主题情感模型没有很好地从时间维的角度考虑主题与 情感的演化机制,而已有的LDA主题演化模型没有将情感很好地融入,该两种情况都可能 导致无法有效捕获隐含于微博消息中的主题情感演化趋势。
【发明内容】
[0008]本发明的目的在于提供一种微博主题情感演化分析方法,该方法能够有效发现隐 藏于微博消息中的主题情感演化模式。
[0009]为实现上述目的,本发明的技术方案是;一种微博主题情感演化分析方法,包括W下步骤: 步骤1、设置本方法相关的循环控制参数,W及情感词典; 步骤2、初始化微博消息集中的词语情感极性与主题归属:若微博消息集里的词语在 所述情感词典中出现,则将所述词语的情感极性赋为情感词典定义的情感极性值,否则为 所述词语随机分配情感极性7;若词语所在微博消息具有W特殊符号"#"标记的微博用 户明确定义的主题,则将所述主题作为所述词语的所属主题,否则为所述词语随机指定主 题; 步骤3、根据设定时间粒度TG计算微博消息的所属时间片编号;假定微博消息集里 的所有消息发布时间序列为{?弓,... ,《与},对于发布时间为《^成1消息^,根据 始1夺k-rc?tif:' -14十(襄卡1)'巧?计算出其所在的时间片编号为k; 步骤4 ;利用主题情感演化模型TSEM不断对变量
和占进行迭代更 新;其中,地表示时间片納发布的消息诚]句子冲主题漏于情感极性7的频数, ?<£,》,,,1表示时间片冰3发布的消息础勺句子5中属于情感极性7的主题总频数, 示词语时属于主题f、情感极性7和时间片端]频数,表示所有同时属于主题f、 情感极性7和时间片端]词语的总频数,表示时间片冰3发布的消息?中情感极性7 出现的频数,表示时间片冰3发布的消息?中情感极性并勺总频数,,表示时间片 冰3发布的所有消息中词语^^^时属于主题巧日情感极性7的概率;.4^%^^表示时间片^/ 内发布的消息?的句子5中主题漏于情感极性7的概率;舞^表示时间片冰g发布的消 息?中情感极性7出现的概率; 步骤5、通过打判断每条发表于时间片冰g的消息W的情感极性;若 其中7i为积极情感,72为消极情感,则判定消息础勺情感极性为积极情感,反之为消极情感。
[0010]进一步的,所述主题情感演化模型TSEM的建立方法为; 步骤A1、初始化主题情感演化模型TSEM的分布参数n= {A,B,巧,其中,A为(时间,消 息,句子,情感)-主题分布,表示在时间片冰g发布的消息"中的情感标签为7的句子5的 主题为巧勺概率,B为(时间,情感,主题)-词语分布,表示词语的H现在时间片冰3且情感 标签与主题分别为7和巧勺概率,H为(时间,消息)-情感分布,表示在时间片冰g发布的 消息"具有情感7的概率;A、B与H分别服从狄利克雷分布Dir(a)、Dir( 0 )与Dir(n), 其中a是指主题姐时间片冰g发布的消息w的句子5中出现的先验次数,e是指词语 在时间片冰3发布的消息集中出现的先验次数,n是指情感标签7在时间片冰3发布的消 息?中出现的先验次数; 步骤A2、重复如下操作直到生成一条微博消息中的所有词语;在确定的时间片冰3,首 先从(时间,消息)-情感分布H中选出一个情感标签7,然后根据产生的情感标签7从(时 间,消息,句子,情感)-主题分布A中选出一个主题最后根据选出的情感标签7与主题f 从(时间,情感,主题)-词语分布B中选择一个词语ff; 步骤A3、重复步骤A2直到微博消息集中的所有消息生成完毕。
[0011] 进一步的,利用主题情感演化模型TSEM对变量
和抒进行迭代更 新的方法为;设置本方法相关的循环控制参数C2、C3和C4, W及分别对应于循环控制参 数Cl、C2、C3与C4的阔值D、X、Md和肺1,然后按W下步骤进行4层迭代更新: 步骤B1、如果Cl大于阔值D,则结束迭代,根据判断每条发表于时间片冰g的消息 曲的情感极性,否则转步骤B2; 步骤B2、如果C2大于阔值X,则令C1加1,并置C2=0,然后转步骤B1,否则转步骤B3;步骤B3、如果Cs大于阔值Md,则更新及;;和好^>1^,并令C2加1,置C3=0,然后 转步骤B2,否则转步骤B4; 步骤B4、如果C4大于阔值Wm,则令C3加1,并置C4=0,然后转步骤B3,否则从变量姑片松r中除去当前词语诚的情感标签和主题,再给词语W重新赋一个情感标签和主题,并更新 变量姑令C4加1,然后重复步骤B4。<