通过计算机智能分析汉语文字情感倾向的方法

文档序号:6614906阅读:470来源:国知局
专利名称:通过计算机智能分析汉语文字情感倾向的方法
通过计算机智能分析汉语文字情感倾向的方法技术领域
本发明属于计算机智能分析技术领域,具体涉及一种通过计算机智能分析汉语文字情感倾向的方法。
背景技术
上世纪60年代,文本的情感倾向分析这一领域刚刚开始,随着电子商务的发展,上世纪90年代以来,语义倾向性研究在国外才得到普遍关注,并迅速发展起来。 Hatzivassiloglou. V, McKeown K. R.在1997年首先开始了词汇的语义倾向性研究。他们主要是针对形容词作倾向性分析,利用词汇之间的连词(and,or, but等)训练生成词汇间的同意或翻译倾向的连接图,然后用聚类的方法将词汇聚成褒义和贬义两类。
汉语意见挖掘方法和技术的研究起步较晚。在汉语文本语义倾向自动识别方面, 徐琳宏、林鸿飞等提出了基于语义理解的文本倾向性识别机制,计算词汇与知网中已标注褒贬性的词汇之间的相似度,获取词汇的倾向性,加强对文本褒贬义强度的识别;在汉语句子语义极性分析和观点抽取研究方面,娄德成、姚天昉等利用自然语言处理技术,对汉语语句进行了语义极性分析和观点抽取,提出了计算词语的上下文极性的算法,并且分析了主题和极性修饰成分的匹配关系,研究并开发了用于汉语汽车论坛的意见挖掘系统(姚天昉、 聂青阳等);王素格研究了基于Web的评论文本情感分类问题,进行了多层次语言粒度分析。 目前,中文词汇倾向性研究和商品评论挖掘才刚刚起步,由于中文和英文的差异,传统的基于统计的方法很难准确地表达句子的观点,因此,借助自然语言处理技术,对句子的成分和结构进行语法分析,不仅增强语义理解的可靠性,而且还能提高极性分析的准确性。
但是目前的算法只是单纯的针对于短语或者依赖句法分析,这样就使得分析的精准度不高,尤其是召回率令人不满意。本发明因此而来。发明内容
本发明目的在于提供一种通过计算机智能分析汉语文字情感倾向的方法,解决了现有技术中通过计算机分析汉语语言精准度不高、召回率令人不满意等问题。
为了解决现有技术中的这些问题,本发明提供的技术方案是
一种通过计算机智能分析汉语文字情感倾向的方法,其特征在于所述方法包括以下步骤
(I)读取汉语文字段落文件,将汉语文字段落文件进行断句,然后对断句进行分词,词性标注,句法依存关系标注,形成XML文档;
(2)读取XML文档,遍历句子提取句法依存关系对,基于词典对提取的词进行赋值;将正极性词词典中的词赋值为1,负极性词典中的词赋值为-I ;程度副词根据程度不同分为5个等级,分别赋值为1.8,1.5,1.2,0. 9,O. 5 ;否定副词根据否定程度分为-1,-I. 5两个等级;
(3)遍历词典,按照公式情感得分=否定词*副词之和*形容词,获得汉语文字段落文件的情感得分;根据情感得分判断汉语文字段落文件的情感倾向。
优选的,所述方法步骤(2)中提取句法依存关系对包括以下步骤
Al)提取断句中所有的形容词,根据形容词的位置向句首上搜索,判断形容词的前面4个词是否有副词;如有副词,则进行记录保存;
A2)判断形容词是否在依存关系对的左侧;当形容词在依存关系对的左侧时,查找左侧的依存类型并保存相应的词;否则查找依存关系对右侧的依存类型并保存相应的词;依次循环。
本发明技术方案旨在提高文本情感倾向分析的准确率和召回率,本发明技术方案在进行智能分析前,将汉语文字段落进行断句后,将句子进行预处理,包括分词,词性标注和句法依存关系标记,然后遍历句子提取关系对。
本发明技术方案中分词指将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
词性标注即为对给定的一个分好词的句子,每一个词附上相应的词性。例如对晚上喝水进行分词和词性标注的过程如下
权利要求
1.一种通过计算机智能分析汉语文字情感倾向的方法,其特征在于所述方法包括以下步骤 (1)读取汉语文字段落文件,将汉语文字段落文件进行断句,然后对断句进行分词,词性标注,句法依存关系标注,形成XML文档; (2)读取XML文档,遍历句子提取句法依存关系对,基于词典对提取的词进行赋值;将正极性词词典中的词赋值为1,负极性词典中的词赋值为-I ;程度副词根据程度不同分为5个等级,分别赋值为I. 8,I. 5,I. 2,O. 9,O. 5 ;否定副词根据否定程度分为_1,-I. 5两个等级; (3)遍历词典,按照公式情感得分=否定词*副词之和*形容词,获得汉语文字段落文件的情感得分;根据情感得分判断汉语文字段落文件的情感倾向。
2.根据权利要求I所述的方法,其特征在于所述方法步骤(2)中提取句法依存关系对包括以下步骤 Al)提取断句中所有的形容词,根据形容词的位置向句首上搜索,判断形容词的前面4个词是否有副词;如有副词,则进行记录保存; A2)判断形容词是否在依存关系对的左侧;当形容词在依存关系对的左侧时,查找左侧的依存类型并保存相应的词;否则查找依存关系对右侧的依存类型并保存相应的词;依次循环。
全文摘要
本发明公开了一种通过计算机智能分析汉语文字情感倾向的方法,其特征在于所述方法包括以下步骤(1)读取汉语文字段落文件,将汉语文字段落文件进行断句,然后对断句进行分词,词性标注,句法依存关系标注,形成XML文档;(2)读取XML文档,遍历句子提取句法依存关系对,基于词典对提取的词进行赋值;将正极性词词典中的词赋值为1,负极性词典中的词赋值为-1;程度副词根据程度不同分为5个等级,分别赋值为1.8,1.5,1.2,0.9,0.5;否定副词根据否定程度分为-1,-1.5两个等级;(3)遍历词典,按照公式情感得分=否定词*副词之和*形容词,获得汉语文字段落文件的情感得分;根据情感得分判断汉语文字段落文件的情感倾向。
文档编号G06F17/27GK102929863SQ201210438608
公开日2013年2月13日 申请日期2012年11月6日 优先权日2012年11月6日
发明者陈国庆, 王嘉玲 申请人:苏州两江科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1