情感分析系统及方法

文档序号:6579423阅读:2202来源:国知局
专利名称:情感分析系统及方法
技术领域
本发明涉及一种情感分析系统及方法,特别涉及一种中文微博的情感分析系统及 方法。
背景技术
随着互联网的发展,越来越多用户通过网络平台表达自己观点,从而产生了大量 的主观性文本数据。这些数据中蕴含的大量情感信息,其具有非常大的潜在价值,在社会舆 情分析、有害信息过滤、产品推荐等诸多领域有着广阔的发展前景。然而这些数据的主观性 情感分类无法通过传统的基于关键词和自动索引信息获取,而人工浏览大量文本又十分低 效。近年来,针对文本的情感分析是一个研究热点,相关技术已在电子产品、影视娱乐和新 闻等多个领域得到应用。
微博信息是一种在社交网络上通过关注机制分享的简短实时信息,其内容具有时 效性,主题包罗万象,且拥有海量数据。基于微博的情感分析技术可以在各个领域提供有用 信息。但与传统的情感分析不同,微博由于其内容过于简短(如新浪微博不超过140字), 用户发言含各种噪声(如错别字,非正式用语等)等因素,对其进行情感分析相比传统的在 产品评论等领域的相关工作要困难得多。近年来国际上有关英文Twitter的情感分析研究 较为热门。但基于中文微博的相关工作相对较少,中文微博中经常使用反讽等方式表达情 感,这也使得中文微博的情感分析更为困难。
关于情感分析的研究方法,主要有两种基于词典的语义方法和机器学习的方法。 语义方法通常通过计算候选词和通用情感词典中的基准词的语义距离,判断候选词的情感 倾向。例如,Lu等将不同来源的信息结合起来构成一个统一的最优框架,这些信息包括通用 情感词典中该词的极性,整个文档的情感分数,WordNet中的同义词、反义词信息,以及一些 语法规则(比如两个用“和”连接的词的极性也更相近)。另一方面,机器学习的方法首先 需要人工标记情感语料库,然后训练出一个模型来学习出不同类别的特征,从而预测目标 文本属于哪一类别。用于训练的特征通常包括unigrams, bigrams,词性和词的位置等等。 分类算法主要有监督学习和半监督学习两种。常用的监督学习的方法包括SVM(支持向量 机),NaliveBayes(贝叶斯模型),Maximum Entropy(最大熵)和K-nearest neighbor(K_近 邻)。一些半监督学习的方法应用了 bootstrap策略,比如自我训练和联合训练。
传统的情感分析处理的都是一些比较规范的文本,如产品评论或博客等,然而,社 交网络的情感分析处理的是内容较短且语法不规范的文本。判断微博的主客观和情感倾向 性比传统的情感分析要困难的多。目前,国外关于Twitter的研究日益增多,其中包括对每 条Tweet的情感分析,对于一个话题的情感分析,以及用户级别的情感分析。在2011年, Jiang等提出了一种与情感对象有关,上下文相关的方法来判断Tweet的情感。虽然这种方 法提高了关于Twitter的情感分类的性能,但其主客观分类器的准确率并不是很高(最好 的情况下为68.2% )。发明内容
为克服上述现有技术存在的不足,本发明目的在于提供一种情感分析系统及方法,其使用微博中与相关话题的微博作为训练数据,以Support VectorMachine和
权利要求
1.一种情感分析系统,至少包括 语料库建立模组,用于建立观点句识别及情感倾向分析所需的训练集; 数据预处理模组,用于对训练集中的句子进行预处理; 观点句识别模组,采用支持向量机分类器与贝叶斯分类器分别对预处理后的句子进行观点句识别,并对两分类器的结果进行集成处理,得到最终的分类结果;以及 情感倾向分析模组,采用支持向量机分类器及贝叶斯分类器分别直接将预处理后的句子分为正面、负面和无观点三类,并通过集成公式将该支持向量机分类器和贝叶斯分类器的分类结果集成,得到当前句子的分类结果。
2.如权利要求1所述的一种情感分析系统,其特征在于该训练集包括中国计算机学会所提供的来自腾讯微博的样例数据和从新浪微博上抓取的数据。
3.如权利要求2所述的一种情感分析系统,其特征在于该训练集为人工标注,由两个人分别独立标记,结果不同的再由第三个人进行裁决。
4.如权利要求1所述的一种情感分析系统,其特征在于该预处理包括去掉句子中的标签仅保留句子本身的内容及对句子中的特殊符号进行了正规化处理。
5.如权利要求4所述的一种情感分析系统,其特征在于对句子中的特殊符号的处理包括将所有全角符号转化为半角、将英文标点替换为中文标点、将连续的数字替换为〈NUM〉、将所有不规范的省略号替换为〈ETC〉以及将短链接替换为<SHORT_URL>。
6.如权利要求1所述的一种情感分析系统,其特征在于,该支持向量集分类器采用线性核函数,以词袋模型为基础使用以下不同的特征集合 .1.一元文法的二进制表示,若该单词出现,则特征向量的相应维的值为1,否则为O ; .2.—元文法的tf值表示
7.如权利要求6所述的一种情感分析系统,其特征在于该观点句识别模组的集成处理采用将两种分类器的分类结果和置信度作为更高一层集成分类器的特征进行再分类的方法。
8.如权利要求6所述的一种情感分析系统,其特征在于该观点句识别模组的集成处理采用直接对置信度加权平均得到最终的分类结果。
9.如权利要求1所述的一种情感分析系统,其特征在于,该集成公式为
10.ー种情感分析方法,包括如下步骤 步骤一,建立观点句识别及情感分析所需的训练集; 步骤ニ,用于对训练集中的句子进行预处理,去掉句子中的标签,仅保留句子本身的内容,同时在分词之前,对句子中的特殊符号进行了正规化处理; 步骤三,采用支持向量机分类器和贝叶斯分类器集成的方式对预处理后的句子进行观点句识别;以及 步骤四,基于支持向量机分类器及贝叶斯分类器分类器直接将预处理后的句子分为正面、负面和无观点三类,并通过ー集成公式将两分类器的分类结果集成,得到当前句子的分类結果。
11.如权利要求10所述的ー种情感分析方法,其特征在干,该步骤三包括如下步骤 采用支持向量机分类器对预处理后的句子进行观点句识别,对每个句子得到一分类结果和属于该类别的置信度; 采用贝叶斯分类器对预处理后的句子进行观点句识别,对每个句子得到一分类结果和属于该类别的置信度;以及 将两个分类器得到的结果集成,得到最終的分类結果。
12.如权利要求11所述的ー种情感分析方法,其特征在于将两个分类器得到的结果集成包括将两种分类器的分类结果和置信度作为更高ー层集成分类器的特征进行再分类以及直接对置信度加权平均得到最終的分类结果两种方法。
13.如权利要求10所述的ー种情感分析方法,其特征在于该训练集包括中国计算机学会所提供的来自腾讯微博的样例数据和从新浪微博上抓取的数据。
14.如权利要求10所述的ー种情感分析方法,其特征在于,该集成公式为
全文摘要
本发明公开了一种情感分析系统及方法,该系统包括语料库建立模组,用于建立观点句识别及情感倾向分析所需的训练集;数据预处理模组,用于对训练集中的句子进行预处理;观点句识别模组,采用支持向量机分类器与贝叶斯分类器分别对预处理后的句子进行观点句识别,并对两分类器的结果进行集成处理,得到最终的分类结果;以及情感倾向分析模组,基于支持向量机分类器及贝叶斯分类器分别直接将预处理后的句子分为正面、负面和无观点三类,并通过一集成公式将该支持向量机分类器和贝叶斯分类器的分类结果集成,得到当前句子的分类结果,本发明可提高中文微博的观点句判断和情感倾向性分类的性能。
文档编号G06F17/27GK103034626SQ20121057703
公开日2013年4月10日 申请日期2012年12月26日 优先权日2012年12月26日
发明者李武军, 罗珞, 过敏意 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1