一种基于情感分析的综合评分模型实现方法与流程

文档序号:15271660发布日期:2018-08-28 22:30阅读:2912来源:国知局

本发明涉及一种基于情感分析的综合评分模型实现方法,属于情感分析技术领域



背景技术:

随着web2.0的发展,越来越多的游客开始在电影社区上分享他们的观影体验,并针对电影的剧情、演员、电影特效等发表自己的观点。目前,国内电影相关的网站或app,如现有技术中都开设了平台让用户分享观影感受,这些电影评论日益增多,却缺乏加以挖掘和利用。这些信息大多都带着强烈的感情色彩,由于每个人的观影感受不同,所以大多是积极和消极的意见混合在一起。虽然这些信息能帮助用户更好的判断电影的好坏从而做出观影决策,但是互联网上的信息量以几何倍数增长,每时每刻互联网上都会出现海量的文本信息,由此而产生的“信息爆炸”成为人们必须要面对的一个问题,即互联网上虽然有海量的信息供我们参考,但人们获取所需知识的难度却越来越大,在这些海量信息中找到对自己有用的信息也变得越来越困难。因此,怎样有效地处理、分析这些海量信息,从中快速、准确地发现所需信息,已经成为当前信息科技领域一项非常有意义的课题。针对上述情况,情感分析技术广泛引起了研究者们的关注。

情感分析是自然语言处理(naturallanguageprocessing,nlp)的一个研究领域,涉及到认知理论、数据挖掘、信息检索、机器学习等多个领域,包含很多挑战性极强的待解决的问题。文本情感倾向性分析是对文本进行分析,判断其情感极性,即正面、负面或者中性情感。通过对海量的产品评论进行情感分析,可以得到用户对这个产品或者服务的信息的反馈,了解用户的真实感受和普遍看法,从而给服务提供商提供决策支持,同时给用户更好的使用体验。



技术实现要素:

本发明目的在于针对上述现有技术的不足,提出了一种基于情感分析的综合评分模型实现方法,该方法以原始影评数据为语料源,面向中文电影评论进行情感分析,通过改进特征选择和特征算法提高情感分析的效率,为广大用户做出观影决策提供重要依据。

本发明解决其技术问题所采取的技术方案是:本发明应用于在原有影评的基础上,对电影的评分做出一个相对客观准确的界定,分析原始语料资源需要进行自然语言处理。本发明提出了基于类间集中度和类内聚分散度的信息增益算法和基于位置分布权重的tf-idf-dw算法进行电影影评数据的处理,综合考虑每条影评的评论时间、点赞人数、用户评论、用户评分等影评信息构建crmdm模型。

本发明的方法是基于自然语言处理技术作为依托,以原始数据作为分析内容,客观准确的反映电影在人群中的真实反响。

方法流程:

步骤1:利用网络编程技术从指定网站爬取一部电影的所有影评数据;

步骤2:根据影评时间,将不符合要求的影评信息过滤,得到用户评分、评论内容和点赞人数三部分信息;

步骤3:对所有的评论进行文本预处理操作,包括分词,去停用词等;

步骤4:用改进的ig特征选择算法及tf-idf特征权重算法对文本进行特征表示,即将文本d表示为v(d)=(t1,w1;t2,w2;…;tn,wn);

步骤5:训练朴素贝叶斯分类器对待修正评分的影评分类,得出修正后评分;

步骤6:根据影评评分模型计算出电影的综合评分。

进一步的,本发明所述步骤1中,所获取的影评数据应包括影评时间,内容,评分,点赞数。

进一步的,本发明所述步骤2中,不符合时间的影评内容为在电影上映之前的影评数据,此部分影评数据多数为未观影观众的主观臆断或媒体的造势,可信度不高。

进一步的,本发明所述步骤3中,对影评内容进行预处理,中文的情感分析首先需要将每句话分词成词语组合的形式,故影评评分模型采用python中的jieba库对影评内容进行分词,得到分词后的句子,根据停用词表和无用词表过滤部分影响分类的词语。

进一步的,本发明所述步骤4中,改进后的ig特征选择公式为:

其中dw(ti)为特征项ti的位置分布权重,ig(ti)为特征项ti的信息增益值,dwig值跟特征项区分类别的能力成正比。

加入位置权重参数对tf-idf算法进行改进,则基于位置权重参数改进的tf-idf-dw算法公式如下:

其中n表示文本集总数,n表示含有特征项ti的文本个数,tf(d,ti)表示特征项ti在文本d中的词频,dd(cj,ti)表示特征项ti对类别cj的类内分散度,cd(cj,ti)表示特征项ti对类别cj类间集中度。

进一步的,本发明所述步骤5中,将待修正的影评进行情感倾向性分类后,得到三个类别,分别对应五星、三星、一星评分,得到经过情感倾向性分析计算的影评评级sm,用户原本的评级su。基于情感分析的影评评分计算公式如下:

将待修正评分影评进行情感倾向性分类后,得到好评、中评、差评三个类别,分别对应五星、三星和一星评分,得到经过情感倾向性分析计算的影评评级sm。用户原本的评级su,如果原评级为空,则设定su为0。则基于情感分析的影评评分(filmreviewrankingbasedonsentimentanalysis,frrsa)计算公式如下:

进一步的,本发明所述步骤6中,影评评分模型(crmdm)的计算公式如下:

权重计算公式如下:

最终结合权重的影评的评分计算公式如下:

其中表示第i条评论的权重,ni表示第i条影评的点赞人数,nsum表示评论总数。si表示第i条评论的评分。由于影片评分最终为10分制,所以最后总分公式中乘以2。

有益效果:

1、本发明改进的ig特征选择算法基于传统的ig特征选择算法进行改进,并与多种特征选择算法进行比较,结果证明改进的算法具有明显的优势。

2、本发明改进的tf-idf特征权重算法与tf-idf相比具有明显的准确率。

3、本发明使用的评分模型,加入点赞人数的权重能够较为准确的反映出观众的真实想法。

4、本发明使用的评分模型经过与现有模型评分的比较,发现该模型具有较为可靠的可用性。

附图说明

图1是本发明的整体结构框图。

图2是本发明中改进后的ig特征选择算法的结果对比图。

图3是本发明改进的tf-idf特征权重算法的结果对比图。

图4是本发明进行实际验证时的结果图。

具体实施方式

下面结合说明书附图对本发明创造作进一步的详细说明。

本发明设计的术语解释,包括:

情感倾向性分析时利用自然语言处理、机器学习、统计学等技术,将文本通过一定的方式转化为计算机能理解的语言,然后分析文本的情感、态度等信息。

特征选择时由于文本的特征词个数极多,特征空间维度一本比较大,计算复杂度过高,所以特征选择就尤为重要。

本发明采用传统的ig特征选择算法进行改进,改进后的特征算法具备优于其他特征选择算法的优势,结果可参考图2;

改进后的ig特征选择公式为:

其中dw(ti)为特征项ti的位置分布权重,ig(ti)为特征项ti的信息增益值,dwig值跟特征项区分类别的能力成正比。

本发明对传统的tf-idf特征权重算法进行改进,改进后的算法具备更好的结果,可参考图3;

加入位置权重参数对tf-idf算法进行改进,则基于位置权重参数改进的tf-idf-dw算法公式如下:

其中n表示文本集总数,n表示含有特征项ti的文本个数,tf(d,ti)表示特征项ti在文本d中的词频,dd(cj,ti)表示特征项ti对类别cj的类内分散度,cd(cj,ti)表示特征项ti对类别cj类间集中度。

将待修正的影评进行情感倾向性分类后,得到三个类别,分别对应五星、三星、一星评分,得到经过情感倾向性分析计算的影评评级sm,用户原本的评级su。基于情感分析的影评评分计算公式如下:

本发明将待修正评分影评进行情感倾向性分类后,得到好评、中评、差评三个类别,分别对应五星、三星和一星评分,得到经过情感倾向性分析计算的影评评级sm。用户原本的评级su,如果原评级为空,则设定su为0。则基于情感分析的影评评分(filmreviewrankingbasedonsentimentanalysis,frrsa)计算公式如下:

进一步的,本发明所述步骤6中,影评评分模型(crmdm)的计算公式如下:

权重计算公式如下:

最终结合权重的影评的评分计算公式如下:

其中表示第i条评论的权重,ni表示第i条影评的点赞人数,nsum表示评论总数。si表示第i条评论的评分。由于影片评分最终为10分制,所以最后总分公式中乘以2。

传统的ig算法计算只是基于特征项的信息量,而信息量的计算全部都是基于文档数目计算的,完全没有考虑特征项在类内和类间的分布情况。改进算法加入类间集中度和类内分散度。

类内分散度的计算公式如下:

其中表示含有特征项t的ci类文本的总数,表示文本集中ci类文本的总数。

类间集中度也是特征选择时衡量特征项分类能力的重要标准,其计算公式如下:

其中表示文本集中ci类文本的总数,nt表示含有特征项t的文本数。

加入结合类内集中度和类间分散度的分布权重(distributionweight,dw)对信息增益算法进行改进,特征项t的位置分布权重计算公式如下:

本发明改进后的基于类间集中度和类内分散度的信息增益算法即dwig计算公式如下:

其中dw(ti)为特征项ti的位置分布权重,ig(ti)为特征项ti的信息增益值,dwig值跟特征项区分类别的能力成正比。

对tf-idf特征选择算法的改进如下:

传统的tf-idf算法由于没有考虑到特征项的类别分布位置的情况,导致它会赋予虽然出现在很多文本中,但只出现在一个类别中的特征项较低的权重;赋予一些虽然稀有但是均匀分布在各类别中的特征项一个较高的权重。通过对特征项类内分散度和类间集中度的分析,可以加入位置权重参数对tf-idf算法进行改进,则基于位置权重参数改进的tf-idf-dw算法公式如下:

其中n表示文本集总数,n表示含有特征项ti的文本个数,tf(d,ti)表示特征项ti在文本d中的词频,dd(cj,ti)表示特征项ti对类别cj的类内分散度,cd(cj,ti)表示特征项ti对类别cj类间集中度。

要对中文影评进行情感分析,必须将其转化为计算机能理解的语言,自然语言常用向量空间模型进行处理,合适对特征选择算法对结果影响很大,朴素贝叶斯算法是一种基于概率的机器学习算法,广泛应用于文本分类中。

本发明最终电影影评评分模型构建包括:将待修正评分影评进行情感倾向性分类后,得到好评、中评、差评三个类别,分别对应五星、三星和一星评分,得到经过情感倾向性分析计算的影评评级sm。用户原本的评级su,如果原评级为空,则设定su为0。则基于情感分析的影评评分(filmreviewrankingbasedonsentimentanalysis,frrsa)计算公式如下:

权重计算公式如下:

最终结合权重的影评的评分计算公式如下:

其中表示第i条评论的权重,ni表示第i条影评的点赞人数,nsum表示评论总数。si表示第i条评论的评分。由于影片评分最终为10分制,所以最后总分公式中乘以2。

本发明经过本模型(crmdm)计算过后的电影评分具备一定的准确性,如图4所示。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1