一种基于条件随机场的网络短评论情感倾向性挖掘系统的制作方法

文档序号:6375834阅读:368来源:国知局
专利名称:一种基于条件随机场的网络短评论情感倾向性挖掘系统的制作方法
技术领域
本发明涉及web数据挖掘领域,特别涉及一种基于条件随机场的网络短评论情感倾向性挖掘系统。
背景技术
评论挖掘是当前研究的热点,主要任务是对评论进行主客观识别、词汇倾向性分类、文本倾向性分类和观点的抽取等,并且涉及到机器学习、自然语言处理、信息检索等多个领域的知识。近年来,国内外很多研究者在情感倾向性分类上做了很多研究工作,但是从国内外的研究现状发现,区分评论中的情感趋向是比较困难的,由两个或多个单词构成的短语、复合词、句式结构等语言元素一起出现时才会表达了非常显著的情感倾向,而那些单词并没有显著倾向性。通过研究国内外评论挖掘技术发现,短评论文本具有文本短小、内容稀疏、主观性 强、构词不规律、领域依赖性强的特点。由于国内的评论挖掘相关研究起步较晚,评论挖掘的相关产品在国内还比较少,其在技术以及功能上还存在着很多的不足。而国外的起步比较早,技术已经趋于成熟,但基于中英文的差异,其相关技术在中文的应用上不能直接运用。

发明内容
本发明为了克服现有技术存在的缺点与不足,提供一种基于条件随机场的网络短评论情感倾向性挖掘系统。本发明所采用的技术方案一种基于条件随机场的网络短评论情感倾向性挖掘系统,包括提取模块、识别模块、构建模块、分类模块;所述提取模块,用于提取短评论中的特征词;所述识别模块,用条件随机场模型的方法识别特征词对应的情感词,并与特征词匹配组合成元组;所述构建模块,用于构建与情感词相关的情感词典;所述分类模块,用于将元组在情感词典中查找分类,进而挖掘出短评论的情感倾向性。所述提取模块采用基于统计的方法和有向图理论的方法提取特征词。所述特征词同时符合如下条件(I)在一个文本中多次出现,(2)在词的前面或后面加上其他词形成新的词后,在文本中出现的频率降低。所述构建模块采用如下步骤构建情感词典,具体为(I)选择与特征词对应的带有三种感情色彩的情感词,系统将其划分为褒义词、中性词、贬义词;
(2)基于同义词词林扩展上述褒义词、中性词、贬义词,得到褒义词集、中性词集、贬义词集;(3)在(2)得到的词集中过滤掉属于同义词词林中的第一大类、第二大类、第四大类、第十大类和第十一大类的词;(4)系统过滤掉在上述词集重复出现的情感词和不具有描述能力的情感词,然后将其它词标上情感色彩,所述褒义词标为gg,中性词标为nn,贬义词标为bb,得到情感词典
并保存。所述识别模块采用如下步骤完成识别情感词,并与特征词匹配组合成元组;
所述步骤为,根据短评论中词语的构词规律,把每一个词语分类标注得到标注模型,然后通过条件随机场进行词语搭配的概率统计,得到需要的特征词-情感词元组。所述系统进行情感倾向性判断后,对情感词的前缀词是否存在否定词进行判断。本发明的有益效果本发明能够自动挖掘出网页上有关产品和服务的短评论,并将其中的特征词-情感词元组抽取出来,建立情感词典,对该元组的情感倾向性进行精确的判断,最后系统以这种精炼的特征词-情感词的元组形式将短评内容展示出来,这不仅为消费者提供了一种一目了然的消费参考,并且也对关注用户满意度及消费焦点等方面的企业具有非常大的战略意义。


图I为本发明的流程图。
具体实施例方式下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。实施例如图I所示,一种基于条件随机场的网络短评论情感倾向性挖掘系统,包括提取模块、识别模块、构建模块、分类模块;所述提取模块,用于提取短评论中的特征词;所述特征词同时符合如下条件(I)在一个文本中多次出现,(2)在词的前面或后面加上其他词形成新的词后,在文本中出现的频率降低。本发明基于统计的方法,根据组合词在语料库中出现的频率来判定是否符合构词的规律,如果符合采用有向图理论构建词语共现的单词网络,再根据词频以及词性提取候选特征词。在提取出候选的特征词之后,本发明采用了基于词性规则来过滤这些候选特征词得到特征词。汉语中有些词性是没有构词能力的,例如助词、叹词、标点等。由于词性信息有限,可以通过手工处理来筛选出没有没有构词能力的词性。目前本文认为数字串、时间串、助词、叹词、标点等70多个词性标记没有构词能力,收集它们到一起构成停用词性集,在新词识别过程中只要遇到此集合中的词性就认为此词不能构成新词。对于停用词性集以外的词性,本文认为它们都有一定的构词能力。但是观察发现,它们有的不能做新词首,有的不能做新词尾。对这些词性本文做了区分后构造出了新词首停用词性集和新词尾停用词性集,利用这两个集合可以去掉一大部分垃圾串。所述识别模块,用条件随机场模型识别特征词对应的情感词,并与特征词匹配组合成元组;所述识别模块采用如下步骤完成识别与特征词对应的情感词,并与特征词匹配组合成元组;所述步骤为,根据短评论中词语的构词规律,把每一个词语分类标注得到标注模型,然后通过条件随机场进行词语搭配的概率统计,得到需要的特征词-情感词元组。所述构建模块,用于构建与情感词相关的情感词典;
所述构建模块采用如下步骤构建情感词典,具体步骤为( I)选择与特征词对应的带有三种感情色彩的情感词,系统将其划分为褒义词、中性词、贬义词;(2)基于同义词词林扩展上述褒义词、中性词、贬义词,得到褒义词集、中性词集、贬义词集;(3)在(2)得到的词集中过滤掉属于同义词词林中的第一大类、第二大类、第四大类、第十大类和第十一大类的词;(4)系统过滤掉在上述词集重复出现的情感词和不具有描述能力的情感词后,将其它词标上情感色彩,所述褒义词标为gg,中性词标为nn,贬义词标为bb,得到情感词典并保存。所述分类模块,用于将元组在情感词典中查找分类,进而挖掘出短评论的情感倾向性。所述元组是有特征词和情感词匹配而成的,例如“服务很好”中的“服务”就是一个特征词,而“很好”是一个情感词。这样的一对特征词和情感词的匹配构成了一个特征情
感词信息元组。基于条件随机场的方法是一种监督机器学习访求,对于要识别特征词情感信息的句子,用条件随机场模型的方法对其进行状态标注,把每一个词标注为对应的状态,然后通过这些状态信息,我们便可得到我们所要的特征情感信息元组。一般来说在两个并列的特征词之间,例如“水煮鱼和麻辣田螺都很入味”中的水煮鱼和麻辣田螺都是特征词,而中间的“和”起了并列连接词的作用,所以我们用标注f来表示。而特征词前面及后面都由相关的连词及助词来构成,我们将所有连词或谓语g来表示,例如“听说麻辣诱惑蛙很好吃”,“听说”将标注为g。此外,特征词前面一般会带有连词、量词,我们称之为前缀词一、前缀词二并将其标为d,e,而情感词前面一般会存在否定词和程度副词,我们将其标为i,j,在情感词后面后面一般会存在语气助词,我们将其标为m,而将标点符号一律标为z,对且客观句的所有词语全部标为n,至此,我们便得到了标注模型所述标注模型中设定有15个状态标注,分别为a :由多个词构成的特征词的首词;b :由多个词构成的特征词的中间词;c :由多个词构成的特征词的尾词;
d :特征词的第一个前缀词(与情感特征描述对象关系较远);e :特征词的第二个前缀词(与情感特征描述对象关系较近);f :特征词的中间连接词(当并排罗列多个特征词时有用);g :特征词与情感对象的连词或谓语;h :由单个词构成的特征词;i :情感词的第一个前缀词(一般为否定修饰词,与情感词的距离较远);j :情感词的第二个前缀词(一般为程度修饰词,与情感词的距离较近);k :情感词; I :附加的情感词结尾词(如果网络短评文本中的情感词由两个分词构成则匹配);m:情感词的后缀词;η :不相关词;ζ :标点符号。情感词的前缀对于我们来说是有意义的,因为前缀词一、前缀词二一般都为否定词或副词,而否定词对于判定情感词的语义倾向性是有关联的,所以在提取情感词的时候需要连同前缀词一同提取出来。提取任务的第二部分是匹配特征词和情感词,就特征词和情感词的匹配来说,可以存在以下情况一个特征词,一个情感词;多个特征词,一个情感词;一个特征词,多个情感词;多个特征词,多个情感词;一个或多个特征词,无情感词;无特征词,一个或多个情感词;除了以上所列的多种匹配情况之外,特征词和情感词中间间隔的距离以及标点符号也是影响匹配准确度的主要因素。所以匹配算法时需要考虑以上的各种情况。通过对评论的观察得知,特征词与情感词一般是存在邻近关系,所以通过匹配相邻近的特征词与情感词就可以得到,但前提是这个距离不能太远,所以本系统所定义的邻近关系是3个分词,也就是说特征词尾词与情感首词中间的分词数如果大于等于3个时,则认为该特征词与情感词是不匹配的。由于条件随机场模型计算出来的词序列在断句是空一行,所以算法可以此来界定句子的边界,而对于同一句子内的不同子句(也就是用逗号或分号等隔开的小句),算法依然要体现句中优先的原则,也就是说优先匹配同一子句中的特征和情感词。根据以上总结的设计原则,设计匹配算法如下I、维护提取出来的特征词和情感词数组,每次提取出来的特征词和情感词都放到数组里面去;2、维护一个表示特征词间、情感词间或特征词与情感词间的间隔计数,当某一个特征词或情感词在其前后的特征词或情感词中间间隔计数大于3时,丢弃该特征词或情感词;3、当特征词和情感词数组不为空时,匹配两个数组中的数据;4、当特征词和情感词只有一方为空时,将该特征词或情感词添加到上一个匹配结果中去。由于情感词经过同义词词林扩展之后可能会出现多个种子情感词扩展出来的情感词集存在交集的情况,甚至出现同一个词出现在褒义和贬义的词集当中,这是由于汉语中存在一词多义的情况。此外某些扩展出来的同义词集并不具有具体的描述能力,而只是被当成色彩相同而被扩展出来,所以这些都应该被过滤掉。考虑到词典对于后续工作的重要性,决定通过手工过滤的方式来完善情感词词典,确保情感词典的质量。情感词典采用的人工过滤需要花费的时间并不多,因为需要过滤的词集已经比较小,人工过滤对接下来工作的进展又很有帮助,所以比较值得。最后我们提取到的情感词集保存到数据库表中去,并为他们标上情感色彩,褒义的标为gg,中性的标为nn,贬义的标为bb。本发明通过挖掘出来的情感词的标注来判定其语义倾向性,如果该情感词存在于 褒义词典中则标注该情感词为褒义,如果存在于贬义词典中,则为贬义,如果都不存在,则为中性词。上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
权利要求
1.一种基于条件随机场的网络短评论情感倾向性挖掘系统,其特征在于,包括提取模块、识别模块、构建模块、分类模块; 所述提取模块,用于提取短评论中的特征词; 所述识别模块,用条件随机场模型识别特征词对应的情感词,并与特征词匹配组合成元组; 所述构建模块,用于构建与情感词相关的情感词典; 所述分类模块,用于将元组在情感词典中查找分类,进而挖掘出短评论的情感倾向性。
2.根据权利要求I所述的一种基于条件随机场的网络短评论情感倾向性挖掘系统,其特征在于,所述提取模块采用基于统计的方法和有向图理论的方法提取符合条件的特征ο
3.根据权利要求2所述的一种基于条件随机场的网络短评论情感倾向性挖掘系统,其特征在于,所述特征词同时符合如下条件 (1)在一个文本中多次出现, (2)在词的前面或后面加上其他词形成新的词后,在文本中出现的频率降低。
4.根据权利要求I所述的一种基于条件随机场的网络短评论情感倾向性挖掘系统,其特征在于,所述构建模块采用如下步骤构建情感词典,具体为 (1)选择与特征词对应的带有三种感情色彩的情感词,系统将其划分为褒义词、中性词、贬义词; (2)基于同义词词林扩展上述褒义词、中性词、贬义词,得到褒义词集、中性词集、贬义词集; (3)在(2)得到的词集中过滤掉属于同义词词林中的第一大类、第二大类、第四大类、第十大类和第十一大类的词; (4)系统过滤掉在上述词集重复出现的情感词和不具有描述能力的情感词后,将其它词标上情感色彩,保存为情感词典。
5.根据权利要求I所述的一种基于条件随机场的网络短评论情感倾向性挖掘系统,其特征在于,所述识别模块采用如下步骤完成识别特征词对应的情感词,并与特征词匹配组合成元组; 所述步骤为,根据短评论中词语的构词规律,把每一个词语分类标注得到标注模型,然后通过条件随机场模型进行词语搭配的概率统计,得到需要的特征词-情感词元组。
6.根据权利要求I所述的一种基于条件随机场的网络短评论情感倾向性挖掘系统,其特征在于,所述系统进行情感倾向性判断后,对情感词的前缀词是否存在否定词进行判断。
全文摘要
本发明公开了一种基于条件随机场的网络短评论情感倾向性挖掘系统,包括包括提取模块、识别模块、构建模块、分类模块;所述提取模块,用于提取短评论中的特征词;识别模块,用条件随机场模型的识别特征词对应的情感词,并与特征词匹配组合成元组;构建模块,用于构建与情感词相关的情感词典;分类模块,用于将元组在情感词典中查找分类,进而挖掘出短评论的情感倾向性。本发明能够自动挖掘出网页上的短评论,并将其中的特征词-情感词元组抽取出来,建立情感词典,对该元组的情感倾向性进行精确的判断。
文档编号G06F17/30GK102890707SQ20121031153
公开日2013年1月23日 申请日期2012年8月28日 优先权日2012年8月28日
发明者马千里, 吴泽银, 林泽鑫, 陈威彪 申请人:华南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1