一种面向点评数据的情感倾向性检测方法与制造工艺

文档序号:11133966
一种面向点评数据的情感倾向性检测方法与制造工艺
本发明属于信息技术、数据挖掘技术领域,具体涉及一种面向点评数据的情感倾向性检测方法。

背景技术:
随着电子商务的迅猛发展,互联网上的点评从逐渐进入人们视野,到慢慢影响网友的选择,再到对品牌的影响正一步步加深。以酒店业为例,酒店希望借助技术手段获取用户的点评反馈,用于指导酒店的品牌管理和运营管理,提升品牌形象和服务质量。用户希望查看别人的点评,明确酒店的优点和缺点,以此作为预订的重要参考。Tripadvisor研究显示,超过85%的用户非常重视酒店的口碑质量,近90%的用户在做出预订决策前查看用户点评。越来越多的用户乐于在互联网上分享自己的观点或体验,这类点评数据爆炸式增长,仅靠人工的方法难以应对在线海量点评的收集和处理。因此,迫切需要计算机帮助用户快速获取和整理这些点评信息,情感分析(SentimentAnalysis)技术应运而生。情感分析不仅是信息处理领域的研究热点,在产业界也引起了广泛关注。要分析点评的情感,首先要识别出点评中的有价值的情感信息要素,这包括:1)评价对象,如“酒店”、“价格”等;2)评价成分,如“非常好”、“还算干净”等。其中,评价成分包括情感词(如“好”、“干净”等)、程度副词(如“非常”等)、普通副词(如“大都”等)以及否定词(如“不”等),评价成分不仅表达了情感,还通过其修饰成分加强、减弱或置反了情感表达句的情感极性,从而使情感表达的更加丰富。情感词在情感分析中的重要性是不言而喻的。然而很多情况下,单独的情感词的极性是有歧义的,如“餐厅的价格很高”的“高”描述“餐厅价格”时表示贬义,而“餐厅员工工作效率很高”的“高”的描述“工作效率”时表示褒义。因此,在文本的情感分析中仅考虑情感词是远远不够的,还需要考虑评价对象与情感词的搭配,如<价格,高>,<工作效率,高>这样的二元搭配。上述各种情感信息要素以及搭配对于文本情感分析具有重要作用。如何从文本中分析出上述情感信息要素呢?分析的基础是要整理、积累一个较为完备的情感要素词典,包括各类情感要素的实例词及其属性(如极性)。有了情感要素词典作为基础,如何综合利用这些情感 要素识别情感句呢?毕竟不是出现了情感要素就是情感句。由此可见,如何从点评文本中检测出情感句尚未得到很好的解决。具体而言,其所面临的问题集中在以下两个方面:一是点评文本的分析和理解如何克服语言的多变性。目前自然语言处理的很多技术还不能很好的处理语言的多变性问题,因此实现应对这种复杂变化是需要我们进一步解决的问题。二是词典的收集、整理。评价对象词(Obj)、评价属性词(Attr)、情感词(Sent)、程度副词(Dgr)、普通副词(Adv)、否定词(Neg)、插入词(Inter)等情感要素在不同领域中使用不同的词汇,相同词汇所具有的极性也许会不同,这些都是实际应用中急待解决的问题。

技术实现要素:
本发明针对上述问题,提供一种面向点评数据的情感倾向性检测方法,用于挖掘点评数据中的用户观点。本发明采用的技术方案如下:一种面向点评数据的情感倾向性检测方法,包括如下步骤:1)获取点评数据,对其进行规范化处理;2)对规范化处理后的点评数据的句子进行分词处理;3)对分词后的句子进行要素分析,识别出影响文本情感倾向性检测的各类词语;4)根据句式模版库对进行要素分析后的点评数据进行句式模版匹配;5)确定点评数据的句子中指代语对应的先行语,并恢复省略的主语;6)将出现评价对象词、评价属性词或情感词的句子作为候选情感句,采用最大熵模型对候选情感句的句子极性进行判别,得到句子的情感倾向性。进一步地,步骤1)所述规范化处理,是采用基于规则的方法处理点评文本中的拼写错误,所述规则是“包含错别字的字串或词串”到“相应正确字串或词串”的映射;所述规则通过两种方法获取:一是根据现有经验知识,即前人总结的常见拼写错误;二是根据每个字或词的上下文抽取相似字或词,通过人工校验确定正确的字串或词串。进一步地,步骤2)首先采用基于词典的最大匹配分词方法进行分词,然后针对分词有歧义的部分采用序列标注的分词方法得到正确的分词结果;所述序列标注的分词方法将词的切分问题转换为字的分类问题,每个字根据其在词中的不同位置,赋予不同的位置类别标记,基于这样的标记序列确定句子的切分方式。进一步地,步骤3)所述要素包括点评数据中的评价对象词、评价属性词、情感词、程度副词、普通副词、否定词、插入词,以及关于城市、景点的词语等,在将句子中的要素识 别出来后,标记上相应的类别标签。进一步地,步骤4)通过基于点评的自举方法提取句式模版,从而建立句式模版库。进一步地,步骤5)中,如果当前句中没有评价对象词或评价属性词,则选择上一句最后提及的评价对象或评价属性词引入到当前句;如果当前句中只有评价属性词,则当上一句出现评价对象时将其引入到当前句。进一步地,步骤6)中,所述最大熵模型通过建立条件概率模型预测不同情感类别并估计其概率,所述情感类别包括-1、0、1三类,分别表示差评、无情感、好评。与现有技术相比,本发明的有益效果如下:1)本发明的规范化处理步骤可以灵活处理点评中的口语化问题;采用基于词典的方法,很好地对领域文本进行分词,歧义时引入序列标注方法的分词在很大程度上缓解了词典分词方法的歧义问题;要素分析时对于各个要素的识别,以及句式模版的匹配,这些对于情感倾向性检测至关重要的线索通过自举方法得到,极大提高了资源构建的效率;指代消解规则的应用简单有效地缓解了口语化点评中常见的主语省略问题;最大熵模型灵活融合上下文特征线索对点评片段情感倾向性最终判定。2)针对点评文本的多变性和口语性,本发明既考虑了拼写错误等不规范的问题,还通过指代消解处理主语省略问题,...
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1