基于主体模型的网上评论情感分类方法

文档序号:6622970阅读:431来源:国知局
基于主体模型的网上评论情感分类方法
【专利摘要】本发明涉及一种基于主体模型的网上评论情感分类方法。本发明首先提取网站的评论。其次使用中文分词包对评论进行分词,去除人称代词、助词、数字、字母以及标点符号。然后选定各个模型参数以及需要进行分类的情感数,并进行建立模型。最后将建立的模型应用于评论的情感分类,根据情感分布来判断每篇文档的情感值。本发明代替了人力来进行评论的情感分类,解放了双手,并且效率更高,更快。
【专利说明】基于主体模型的网上评论情感分类方法

【技术领域】
[0001]本发明涉及一种主题类评论情感自动分类方法,具体是一种基于视频网站的主题类评论情感自动分类方法。

【背景技术】
[0002]随着Web2.0技术的出现和发展,互联网上(包括门户网站、电子商务网站、社交网站、音/视频分享网站、论坛、博客、微博等)产生了海量的、由用户发表的对于诸如人物、事件、产品等目标实体的评论信息。与客观性文本不同的是,这些主观色彩浓厚的评论信息蕴含着大众舆论对上述目标实体的看法,对潜在用户、商家以及政府部门等具有十分重要的参考价值。比如当我们计划旅行或者准备购买某件商品时,通常会利用网络查看相关评论信息,并以此来辅助我们的最终决策。潜在用户可能会根据这些评论信息做出是否购买的决定,商家需要了解用户使用其产品的反馈意见或者其他商家的竞争情报,政府各职能部门需要全面掌握大众对其所辖区域的新闻事件的思想动态。然而,如果采用人工方式对这些海量信息进行收集和分析,显然是成本高昂、低效和困难的。利用计算机对非结构化的文本评论进行分类和提取的文本情感分析技术(Text Sentiment Analysis)应运而生。


【发明内容】

[0003]本发明针对现有技术的不足,提供一种基于主题模型的面向网站评论的情感自动分类方法。
[0004]本发明具体包括以下步骤:
[0005]步骤⑴提取网站的评论,具体是:分析某门户网站以及某购物网站网页源代码,利用正则表达式获取评论栏,记录该主题属于哪一类别,并按照每类每条评论一个文本文件存储。
[0006]步骤(2)使用中文分词包对评论进行分词,具体是:选定中文分词包以及分词方法,选定要求是尽可能的保持原文的语义环境,这里使用的是最大粒度细分的方法。
[0007]步骤(3)去除人称代词、助词、数字、字母以及标点符号。
[0008]步骤(4)选定各个模型参数以及需要进行分类的情感数,具体是:
[0009]4-1、选定模型的超参数α,Y,将其设置为I。
[0010]4-2、设定模型参数Τ,即主题的数目。
[0011]4-3、设置另外一个超参数β, β设置为Τ/50。
[0012]4-4、设置情感数S。
[0013]步骤(5)建立模型,具体是:本模型在主题模型的基础上加入了情感因素的考量。按照自然语言的表达习惯,假设一句话只表达一个情感值,故对句子进行情感标签采样,建立文档-句子-情感关系。同样的,每句话也只表达一个主题,对句子进行主题采样,建立文档-句子-主题关系。
[0014]步骤(6)将步骤(5)中建立的模型应用于评论的情感分类,具体是:根据预处理的网上评论,也就是文档生成过程的最终结果一-主题情感词,逆向工程,求出在文档生成过程中发挥重要作用的三个概率分布变量,主题分布Θ,情感分布π和主题-情感词分布Ψ,然后根据情感分布π来判断每篇文档的情感值。
[0015]本发明的有益效果:
[0016]第一,本发明代替了人力来进行评论的情感分类,解放了双手,并且效率更高,更快。
[0017]第二,本发明改进了主题模型使其在提取主题词的同时能提取情感词,在后期使用的时候,可以通过观察主题情感词来获取用户对某方面的舆情。

【专利附图】

【附图说明】
[0018]图1为模型针对评论情感分类的流程图。
[0019]图2为模型的示意图。

【具体实施方式】
[0020]以下结合附图对本发明作进一步说明。
[0021]如图1所示,本发明具体包括以下步骤:
[0022]I)提取网站的评论;
[0023](2)使用中文分词包对评论进行分词;
[0024](3)去除人称代词(你,我,他),助词(的,了,呢)、数字、字母等无关停用词以及标点符号;
[0025](4)选定各个模型参数以及需要进行分类的情感数。
[0026](5)将数据导入模型,计算,分析输出结果。
[0027]所述的提取网站的评论,包括如下步骤:
[0028]A)分析某门户网站以及某购物网站网页源代码,利用正则表达式获取评论栏,记录该主题属于哪一类别,并按照每类每条评论一个文本文件存储;
[0029]所述的使用中文分词包对评论进行分词,包括如下步骤:
[0030]B)选定中文分词包以及分词方法,选定要求是尽可能的保持原文的语义环境,这里使用的是最大粒度细分的方法;
[0031]所述的去除人称代词(你,我,他),助词(的,了,呢)、数字、字母等无关停用词以及标点符号,包括如下步骤:
[0032]C)因为中文不像英文有天然的空格作为分隔符,所以要去除对语义环境影响不大的各种助词(的、了、呢之类)、数字、字母、无意义的符号以及相关的人称代词;
[0033]所述的选定各个模型参数以及需要进行分类的情感数,包括如下步骤:
[0034]D)首先选定模型的超参数α,α的选取没有特别的规则,一般是根据实验经验,这里将其设置为I ;
[0035]Ε)接着要设定模型参数Τ,即主题的数目。所谓主题数,和所要分析的评论类别有关,比如笔记本电脑,涉及到的主题可能有内存,显示器,键盘,外壳,散热等话题,要根据类别分别设置;
[0036]F)然后是另外一个超参数β,β的设置和主题数T息息相关,一般设置为Τ/50 ;
[0037]G)再者设置超参数Y,Y同α类似,根据经验设为I ;
[0038]H)最后是情感数S,这里要分类的情感只有两种,正面和负面,所以S为2;
[0039]所述的将数据导入模型,模型如图2所示:
[0040]I)本模型在主题模型的基础上加入了情感因素的考量。按照自然语言的表达习惯,假设一句话只表达一个情感值(转折句除外),故对句子进行情感标签采样,建立文档-句子-情感关系。同样的,每句话也只表达一个主题,对句子进行主题采样,建立文档-句子-主题关系。
[0041]J)下面步骤讲述的是本模型模拟文档(评论)生成的过程:
[0042]1.首先,根据先验狄利克雷分布Dirichlet ( β )生成对应主题ζ和相应情感s的主题-情感词分布ΨΖ3;
[0043]2.对每篇文档(评论):
[0044]i)根据先验狄利克雷分布Dirichlet ( Y),生成该文档的情感分布IId
[0045]ii)对于每个情感s,根据先验狄利克雷分布Dirichlet(a ),生成文档的主题分布^ds
[0046]iii)对文档(评论)中的每句话:
[0047]根据情感分布nd选择一个情感s ;
[0048]给定情感s后,根据主题-情感分布Θ ds,选择一个主题;
[0049]根据所选的主题ζ和情感S,从主题-情感词分布ΨΖ3中,选择一个主题-情感词。
[0050]将模型应用于评论情感分类,计算,分析输出结果。包括如下步骤:
[0051]K)将上述模型应用于评论的情感分类,需要做的是根据已有的、预处理的网上评论,也就是文档生成过程的最终结果一-主题情感词,逆向工程,求出在文档生成过程中发挥重要作用的三个概率分布变量,主题分布Θ,情感分布Π和主题-情感词的分布Ψ,然后根据情感分布Π来判断每篇文档的情感值。
[0052]L)使用Gibbs sampling算法来估计分布变量θ,Ψ,Π,马卡洛夫链的每次转移中,第i个句子的情感标签和主题标签是根据以下的条件概率来抽取的:

【权利要求】
1.基于主体模型的网上评论情感分类方法,其特征在于包括如下步骤: 步骤(I)提取网站的评论,具体是:分析某门户网站以及某购物网站网页源代码,利用正则表达式获取评论栏,记录该主题属于哪一类别,并按照每类每条评论一个文本文件存储; 步骤(2)使用中文分词包对评论进行分词,具体是:选定中文分词包以及分词方法,选定要求是尽可能的保持原文的语义环境,这里使用的是最大粒度细分的方法; 步骤(3)去除人称代词、助词、数字、字母以及标点符号; 步骤(4)选定各个模型参数以及需要进行分类的情感数,具体是: 4-1、选定模型的超参数α,Y,将其设置为I ; 4-2、设定模型参数Τ,即主题的数目; 4-3、设置另外一个超参数β,β设置为Τ/50 ; 4-4、设置情感数S ; 步骤(5)建立模型,具体是:本模型在主题模型的基础上加入了情感因素的考量;按照自然语言的表达习惯,假设一句话只表达一个情感值,故对句子进行情感标签采样,建立文档-句子-情感关系;同样的,每句话也只表达一个主题,对句子进行主题采样,建立文档-句子-主题关系; 步骤(6)将步骤(5)中建立的模型应用于评论的情感分类,具体是:根据预处理的网上评论,也就是文档生成过程的最终结果一-主题情感词,逆向工程,求出在文档生成过程中发挥重要作用的三个概率分布变量,主题分布Θ,情感分布Π和主题-情感词分布Ψ,然后根据情感分布Π来判断每篇文档的情感值。
【文档编号】G06F17/30GK104199845SQ201410389465
【公开日】2014年12月10日 申请日期:2014年8月8日 优先权日:2014年8月8日
【发明者】姜明, 王建, 陈婵, 王兴起, 张旻, 汤景凡, 胡宏宇 申请人:杭州电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1