一种微博主题情感演化分析方法

文档序号：9261342阅读：424来源：国知局

一种微博主题情感演化分析方法
【技术领域】
[0001] 本发明设及网络舆情分析技术领域，特别设及一种应用于Web2. 0环境下微博消息的主题情感演化分析方法。
【背景技术】
[0002] 微博是Web2. 0时代兴起的一种集成化、开放化的互联网社交服务，它让用户能够向公众发布简短的文本消息。由于其简便的特点，日益受到互联网用户的青睐。目前新浪微博用户规模已经超过3亿，每天都有大量的微博消息发布。在该些海量的微博消息中，有许多饱含个人情感的资源，如何从该些微博消息中高效自动地提取主题与情感，并且对主题与情感进行演化分析，是一个很具有研究价值的热点。
[0003] 网络文本情感挖掘的算法大致可归纳为=类；有监督的情感挖掘、无监督的情感挖掘与半监督的情感挖掘。有（半）监督的情感挖掘方法一般具有较高的分类准确率，但是它们都需要人工标注的训练语料来训练生成文本情感分类器，而获得人工标注的训练语料是十分耗时耗力的。传统的无监督情感挖掘方法是利用情感词典对文本进行情感分类，该种方法对情感词典具有极强的依赖性，而好的情感词典却很难获得。因此，WJST、S-LDA 与DPLDA等为代表的无监督情感分类方法近年来备受青睐，此类方法不仅能有效地避免传统无监督情感分类方法具有的情感词典依赖性缺点，达到较好的情感分类效果，而且该类方法还可W很好的对文本进行主题挖掘。然而，现有的该些LDA主题情感模型都还不能很好的展示微博主题与情感的演化，下面W例加W说明。
[0004] 例1 ;给定用户A的两条微博； A1 ;和朋友一起看NBA总决赛，很喜欢马刺队，团队篮球必胜！一2014. 06. 15A2 ;今天晚上和朋友通宵看世界杯了，C罗又帅气又有实力！一2014. 07. 13 针对该两条微博，虽然JST、S-LDA与ASUM可W获取A1的主题（NBA)与情感极性（积极）还有A2的主题（世界杯）与情感极性（积极），但是JST、S-LDA与ASUM却无法表示 A1、A2的主题出现的时间，更无法确切地分析用户A关注的主题从NBA到世界杯的演化，该是由于没有融入时间参数，3个模型会默认A1与A2的主题是在同一时间出现的。
[0005] 微博主题演化近几年吸引了不少人对其进行研究，其中基于LDA模型的主题演化模型备受研究者瞩目，较具代表性的有；动态主题模型DTM、增量LDA模型ILDA、在线LDA模型0LDA，扩展0LDA模型等。然而该些模型只考虑了主题随时间的演化却没有考虑情感随时间的演化，导致该些模型无法很好地解释下列微博。
[0006] 例2 ;给定用户B的两条微博： B1 ;林俊杰的新歌《可惜没有如果》真是太好听了，非常喜欢，强力推荐！一2015. 03. 01 B2 ;浙江卫视的节目《奔跑吧兄弟》第二季又要开始了，又可W看见喜欢的邓超了。一2015. 03. 08 B3 ;突然觉得《可惜没有如果》该首歌很难听！！！一2015. 03. 15 DTM、ILDA、OLDA虽然可W捕获B1 (歌），B2 (节目），B3 (歌）的主题与主题随时间的演化，可是该些模型却无法捕获B1、B2、B3的情感还有B1 (积极）、B3 (消极）的主题情感演化。
[0007]从上述分析可知，现有LDA主题情感模型没有很好地从时间维的角度考虑主题与情感的演化机制，而已有的LDA主题演化模型没有将情感很好地融入，该两种情况都可能导致无法有效捕获隐含于微博消息中的主题情感演化趋势。

【发明内容】

[0008]本发明的目的在于提供一种微博主题情感演化分析方法，该方法能够有效发现隐藏于微博消息中的主题情感演化模式。
[0009]为实现上述目的，本发明的技术方案是；一种微博主题情感演化分析方法，包括W下步骤：步骤1、设置本方法相关的循环控制参数，W及情感词典；步骤2、初始化微博消息集中的词语情感极性与主题归属：若微博消息集里的词语在所述情感词典中出现，则将所述词语的情感极性赋为情感词典定义的情感极性值，否则为所述词语随机分配情感极性7;若词语所在微博消息具有W特殊符号"#"标记的微博用户明确定义的主题，则将所述主题作为所述词语的所属主题，否则为所述词语随机指定主题；步骤3、根据设定时间粒度TG计算微博消息的所属时间片编号；假定微博消息集里的所有消息发布时间序列为{?弓，... ，《与}，对于发布时间为《^成1消息^，根据始1夺k-rc?tif:' -14十（襄卡1)'巧？计算出其所在的时间片编号为k; 步骤4 ;利用主题情感演化模型TSEM不断对变量
和占进行迭代更新；其中，地表示时间片納发布的消息诚]句子冲主题漏于情感极性7的频数， ?<￡，》，,，1表示时间片冰3发布的消息础勺句子5中属于情感极性7的主题总频数，示词语时属于主题f、情感极性7和时间片端]频数，表示所有同时属于主题f、情感极性7和时间片端]词语的总频数，表示时间片冰3发布的消息?中情感极性7 出现的频数，表示时间片冰3发布的消息?中情感极性并勺总频数，，表示时间片冰3发布的所有消息中词语^^^时属于主题巧日情感极性7的概率；.4^%^^表示时间片^/ 内发布的消息?的句子5中主题漏于情感极性7的概率；舞^表示时间片冰g发布的消息?中情感极性7出现的概率；步骤5、通过打判断每条发表于时间片冰g的消息W的情感极性；若其中7i为积极情感，72为消极情感，则判定消息础勺情感极性为积极情感，反之为消极情感。
[0010]进一步的，所述主题情感演化模型TSEM的建立方法为；步骤A1、初始化主题情感演化模型TSEM的分布参数n= {A，B，巧，其中，A为（时间，消息，句子，情感）-主题分布，表示在时间片冰g发布的消息"中的情感标签为7的句子5的主题为巧勺概率，B为（时间，情感，主题）-词语分布，表示词语的H现在时间片冰3且情感标签与主题分别为7和巧勺概率，H为（时间，消息）-情感分布，表示在时间片冰g发布的消息"具有情感7的概率；A、B与H分别服从狄利克雷分布Dir(a)、Dir( 0 )与Dir(n)，其中a是指主题姐时间片冰g发布的消息w的句子5中出现的先验次数，e是指词语在时间片冰3发布的消息集中出现的先验次数，n是指情感标签7在时间片冰3发布的消息?中出现的先验次数；步骤A2、重复如下操作直到生成一条微博消息中的所有词语；在确定的时间片冰3,首先从（时间，消息）-情感分布H中选出一个情感标签7,然后根据产生的情感标签7从（时间，消息，句子，情感）-主题分布A中选出一个主题最后根据选出的情感标签7与主题f 从（时间，情感，主题）-词语分布B中选择一个词语ff; 步骤A3、重复步骤A2直到微博消息集中的所有消息生成完毕。
[0011] 进一步的，利用主题情感演化模型TSEM对变量
和抒进行迭代更新的方法为；设置本方法相关的循环控制参数C2、C3和C4, W及分别对应于循环控制参数Cl、C2、C3与C4的阔值D、X、Md和肺1，然后按W下步骤进行4层迭代更新：步骤B1、如果Cl大于阔值D，则结束迭代，根据判断每条发表于时间片冰g的消息曲的情感极性，否则转步骤B2; 步骤B2、如果C2大于阔值X，则令C1加1，并置C2=0,然后转步骤B1，否则转步骤B3;步骤B3、如果Cs大于阔值Md，则更新及;；和好^>1^，并令C2加1，置C3=0，然后转步骤B2,否则转步骤B4; 步骤B4、如果C4大于阔值Wm，则令C3加1，并置C4=0，然后转步骤B3，否则从变量姑片松r中除去当前词语诚的情感标签和主题，再给词语W重新赋一个情感标签和主题，并更新变量姑令C4加1，然后重复步骤B4。<

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄发良;李超雄;李璇;元昌安;
技术所有人：福建师范大学;
我是此专利的发明人

上一篇：一种翻译异常的确定方法和设备的制造方法
上一篇：一种清单处理方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。