一种网络短评情感挖掘方法

文档序号：6639850阅读：185来源：国知局

一种网络短评情感挖掘方法
【专利摘要】本发明涉及一种网络短评情感挖掘方法，包括以下步骤：步骤1、设置本方法相关的循环控制参数以及情感词典；步骤2、利用情感词典对短评数据集进行情感极性先验处理：若短评数据集里的单词在情感词典中出现，则将该单词的情感极性赋为情感词典定义的情感极性值；步骤3、对先验处理后的短评数据集的单词情感极性与主题偏好进行初始化；步骤4、利用主题情感混合模型不断对 Tempθ 、、和进行迭代更新；步骤5、通过判断每篇短评 d 的情感极性：对于短评 d ，若，其中 l 1为积极情感， l 2为消极情感，则判定短评 d 的情感极性为积极情感，反之为消极情感。该方法能够有效挖掘出隐藏于短评中的用户真实情感与观点。
【专利说明】一种网络短评情感挖掘方法

【技术领域】
[0001] 本发明涉及网络舆情分析【技术领域】，特别涉及一种应用于Web2.0环境下社交网络的网络短评情感挖掘方法。

【背景技术】
[0002] 以自由开放共享为核心精神的Web2. 0使得用户成为互联网的主角，诸如社交网站、微博和BBS论坛之类的平台为网民发表意见和交流情感提供了经济便捷的渠道。一般来说，用户在这些平台上发表的言论比较简短却又饱含着丰富的个人情感与主观倾向性，例如，不同读者对于同一条新闻事件持有不同的看法，不同用户对于某款手机有着其个性化的用户体验，不同影视爱好者对于同一部电影会留下不同的观影评论，等等。研究如何高效挖掘隐藏于这些鱼目混杂的社会媒体网络言论中的观点与情感即文本情感挖掘有助于各级政府机构、企业组织与理性个体的管理决策，例如，政府机构可以对网络舆论进行实时监测与导向、网上商家能够根据用户反馈意见及时调整生产服务实现利润最大化、个体网民可以敏捷获取目标信息，等等。
[0003] 网络短评情感挖掘正在吸引着来自人工智能、数据挖掘、自然语言处理等不同领域研究者的广泛关注，涌现出的各种算法大致可归纳为三类：有监督的情感挖掘、无监督的情感挖掘与半监督的情感挖掘。有(半）监督的情感挖掘方法不同程度地利用训练语料来训练生成文本情感分类器，一般具有较高的分类准确率，但获取训练样本的昂贵代价极大地限制此类方法的应用性。因此，以JST、S-LDA与ASUM等为代表的无监督情感分类方法近年来备受青睐，此类方法能有效地避免传统无监督情感分类方法具有的情感词典依赖性缺点，能达到较好的情感识别效果。然而，现有的这些LDA情感主题模型还不能完全捕获网络短评用户的真实情感，下面以手机评论为例加以说明。
[0004] 例如，给定某款手机的网络评论MR为"Ihaveboughtagoodphone.Thephotos areveryclearalthoughthebuttonisalittlehard. "。根据文献可知，JST建模MR 生成过程的方法是先判断MR中每个词的情感极性(如：good的情感极性为积极)，然后判断 MR中每个词的主题(如：phone的主题为手机）;S-LDA是先判断MR中每个词的主题，然后判断MR中每个词的情感极性；ASUM是先判断MR中每个句子的情感极性(如：判定第一句的情感极性为积极)，然后再判断评论中每个句子的主题(如：判定第一句的主题为手机)。从上述建模过程可以看出，虽然JST、S-LDA与ASUM都可以获取评论中每个词(句子）的主题与情感极性，但是对于评论中的每一句话，短评-情感-主题分布都是相同的(如：第一句话的phone和第二句话的photos属于主题"手机"的概率是相同的)，这可能导致这两个词的主题不能正确地被捕获，因为根据网络短评的写作习惯，如果第一句话的主题是手机整体质量，那么第二句话的主题依然是手机整体质量的概率会相对较低。还有AUSM采用的捕获句子主题和情感极性的方法可能导致无法捕获积极词与消极词共存的句子的真实情感，例如对于MR中的含有情感积极词（clear)与情感消极词（hard)的第二句话，AUSM可能无法正确判断该句话的情感极性。另外，S-LDA的建模过程是采用先判断词语主题再确定词语情感极性的方法，这也不符合Web用户短评行为习惯. 总之，现有的基于LDA情感主题模型的情感分析技术没有很好地考虑用户写短评时的行为习惯，只是简单地假设短评中所有句子的主题概率分布都相同，这与Web用户短评行为习惯相悖，从而不同程度地偏离了用户的真实情感，因而不适合从网络短评中挖掘出用户的真实情感。

【发明内容】

[0005] 本发明的目的在于提供一种网络短评情感挖掘方法，该方法能够有效挖掘出隐藏于短评中的用户真实情感与观点。
[0006] 为实现上述目的，本发明的技术方案是：一种网络短评情感挖掘方法，包括以下步骤：步骤1、设置本方法相关的循环控制参数X、Y与Z，以及情感词典；步骤2、利用情感词典对短评数据集中的单词情感极性与主题偏好进行初始化：若短评数据集里的单词在情感词典中出现，则将该单词的情感极性赋为情感词典定义的情感极性值，否则随机分配情感极性Λ对短评数据集里的单词随机分配主题么并更新向量

【权利要求】
1. 一种网络短评情感挖掘方法，其特征在于，包括以下步骤：步骤1、设置本方法相关的循环控制参数X、Y与Z，以及情感词典；步骤2、利用情感词典对短评数据集中的单词情感极性与主题偏好进行初始化：若短评数据集里的单词在情感词典中出现，则将该单词的情感极性赋为情感词典定义的情感极性值，否则随机分配情感极性A对短评数据集里的单词随机分配主题么并更新向量
主题^属于情感极性7的频数，表示在短评冲的第外句子里主题^属于情感极性1 的所有主题的总频数，表示单词r同时属于主题妨P情感极性7的频数，/^所有属于主题妨P情感极性/的单词总频数，表示短评冲情感极性^的频数，&短评d中的单词总数；步骤3、利用主题情感混合模型TSCM不断对Tfe/职〃、、//1和；ri进行迭代更新：重复如下操作直到迭代次数大于最大迭代次数Z:对每篇短评冲的每个单词％计算
极情感，72为消极情感，则判定短评难]情感极性为积极情感，反之为消极情感。
2. 根据权利要求1所述的一种网络短评情感挖掘方法，其特征在于，所述主题情感混合模型TSCM的建立方法为： 1) 利用以，为参数的狄利克雷分布函数随机生成(情感，话题-单词）先验概率分布； 2) 利用以r为参数的狄利克雷分布函数随机生成(短评_情感）先验分布； 3) 利用以〃为参数的狄利克雷分布函数随机生成（短评，短评，情感）-话题先验分布； 4) 重复如下操作直到生成一篇短评中的所有单词：对每一篇短评首先利用（短评-情感）先验分布生成一个情感标签7,然后情感标签7从（短评，句子，情感）-话题分布生成一个主题标签^最后根据选出的情感7与主题z，从（情感，主题）-词语分布产生单词 5) 重复步骤4)直到短评数据集中的所有短评生成完毕。
【文档编号】G06F17/30GK104484437SQ201410813173
【公开日】2015年4月1日申请日期:2014年12月24日优先权日:2014年12月24日
【发明者】黄发良, 李超雄, 元昌安, 汪焱, 姚志强申请人:福建师范大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄发良;李超雄;元昌安;汪焱;姚志强;
技术所有人：福建师范大学;
我是此专利的发明人

上一篇：一种在linux下远程定时检测FTP服务器新增文件的方法
上一篇：野战传染病医疗所医技作业系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。