基于领域的中文短文本情感分类方法

文档序号:9349955阅读:940来源:国知局
基于领域的中文短文本情感分类方法
【技术领域】
[0001] 本发明涉及机器学习技术领域,尤其涉及一种基于领域的中文短文本情感分类方 法。
【背景技术】
[0002] 互联网的迅速发展使得社交网络和电商购物平台得以越来越广泛地受到用户的 青睐,如脸书、推特、新浪微博、豆瓣、京东和淘宝等国内外网络平台。在这些网络平台上数 据呈现爆炸式地增长,包括对商品的评价、对周围事件的看法和对生活趣事或情绪波动的 记录等。其中,短文本是这些数据常用的重要形式,并且往往带有情感色彩或主观意识。对 这种短文本数据中用户所表达的情感进行挖掘,有助于让不同用户对象进行更好的决择或 服务,如向用户在选择时提供更加中肯的推荐,向电商在推广产品时提供更有效的服务,向 政府或新闻媒体部门提供可靠的预测或推送潜在热点事件等。
[0003]文本情感分析是自然语言处理(Natural Language Processing,NLP)领域中热门 的研究方向,得到了学者的广泛研究分析。所提出的技术有很多,但主要可分为2种:一种 是基于情感词典的方法,另一种是基于机器学习的方法。基于情感词典的方法是以情感词 (分为积极和消极)作为情感判别的主要依据,即根据情感词来决策文本含有的情感。基于 机器学习的方法是利用根据语料库训练的分类器对文本的情感进行分类。两种技术方案均 有利弊:前者算法往往较为简单,算法复杂度较低,并且无需大量标签语料库;但存在情感 词典易遗漏、歧义或偏激,而且对不同场景的情感词产生的情感差异常常无法感知。后者准 确率往往较前者高,但训练情感特征分类器需要大量的带标签语料库,并且语料库要选取 适当。

【发明内容】

[0004]本发明所要解决的技术问题是如何高效地结合情感词典和机器学习对中文短文 本的情感进彳丁自动分类,以提尚文本自动标注训练效率和使最终分类器具有尚准确率。
[0005] 为了解决上述技术问题,本发明提供了一种基于领域的中文短文本情感分类方 法,包括:
[0006]对短文本进行数据预处理,包括句子分割、分词、停用词过滤和领域划分;
[0007]构建不同领域的领域情感词典;
[0008]利用所述领域情感词典和预处理后数据计算短文本的情感值;
[0009] 提取短文本的情感特征;
[0010] 根据所提取的情感特征采用随机森林为分类工具对语料库进行训练或对未知情 感类型的短文本进行判别。
[0011] 进一步的,所述对短文本进行数据预处理,包括句子分割、分词、停用词过滤和领 域划分,具体包括:
[0012] 利用标点符号将短文本划分为多个句子;
[0013] 采用ICTCLAS分词工具将所述多个句子切分为独立的词语;
[0014] 采用停用词表对切分的词语进行过滤;
[0015] 根据短文本及上下文环境,结合领域词典,划分出短文本所属领域。
[0016] 进一步的,所述构建不同领域的领域情感词典,具体包括:
[0017] 从现有情感词典中挑选出与领域无关的情感词,并从中删掉有歧义和不常用的词 语,组成基础情感词典;
[0018] 抽取语料库中所有的名词并按词频进行排序,并利用阈值法挑出词频较高的名词 作为评价对象;
[0019] 采用依存文法分析抽取所述评价对象和所述基础情感词典中的修饰情感词之间 的所有情感路径;
[0020] 根据所述所有情感路径,匹配与所述评价对象相符的情感路径对应的词语,在排 除基础情感词典中的词语后,将得到词性为形容词、副词和动词的词汇作为候选情感词;
[0021] 采用词语相似性判别算法对所述候选情感词进行情感极性分类后,与基础词典叠 加,构成领域情感词典。
[0022] 进一步的,利用所述领域情感词典和预处理后数据计算短文本的情感值,具体包 括:
[0023] 计算所述领域情感词典中的每个词语的TF-IDF值,其中,TF-IDF = TF*IDF,式中, TF表示词频,IDF表示逆向文件频率;
[0024] 针对短文本分词处理后得到的多个词语,计算每个词语的情感值,即根据词语的 TF-IDF值对词语赋予不同的权值;
[0025] 计算所有词语的情感值的加权和,得到短文本的情感值。
[0026] 进一步的,所述针对短文本分词处理后得到的多个词语,计算每个词语的情感值, 即根据词语的TF-IDF值对词语赋予不同的权值,具体包括:
[0027] 针对短文本分词处理后得到的多个词语,记录每个词语出现的位置和倾向 值P,其中,若词语为积极,则P初始化值为f (TF-IDF),若词语为消极,则p初始化值 为-f (TF-IDF),其中,f (TF-IDF)为词语的预设初始情感值;
[0028] 根据词语出现的位置,判断词语之间是否出现否定词,若出现,则计算否定词的个 数,当否定词的个数为奇数时,就将处于否定词后面的词语的倾向值P反转,否则倾向值P 不变,最终的倾向值P即为词语的情感值;
[0029] 根据词语的TF-IDF值对不同的词语赋予不同的权值。
[0030] 进一步的,所述根据所提取的情感特征采用随机森林为分类工具对语料库进行训 练或对未知情感类型的短文本进行判别,具体包括:
[0031 ] 利用arrf特征模板将情感特征文件格式化;
[0032] 调用weka中随机森林算法作为分类工具根据所提取语料库的情感特征进行训练 或对未知情感类型的短文本进行情感预测分类。
[0033] 实施本发明,具有如下有益效果:
[0034] 1)本发明提出的基于领域的短文本情感判别方法提高了文本数据情感分类的准 确率;
[0035] 2)所提出基于领域的情感词典得到的准确率明显高于使用基础情感词典所能达 到的准确率。
【附图说明】
[0036] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0037]图1是本发明提供的基于领域的中文短文本情感分类方法的一个实施例的流程 示意图;
[0038] 图2是图1中步骤SlOl的具体步骤的流程示意图;
[0039] 图3为本发明所提出方法中情感词典与传统的情感词典的对比实验结果图。
[0040] 图4为四个领域的测试结果示例图。
【具体实施方式】
[0041] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清晰、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0042]图1是本发明提供的基于领域的中文短文本情感分类方法的一个实施例的流程 示意图,包括如下步骤:
[0043] S101、对短文本进行数据预处理,包括句子分割、分词、停用词过滤和领域划分。
[0044] 具体的,如图2所示,步骤S101包括步骤:
[0045] S1011、利用标点符号将短文本划分为多个句子;
[0046] S1012、采用ICTCLAS分词工具将所述多个句子切分为独立的词语;
[0047] S1013、采用停用词表对切分的词语进行过滤;
[0048] S1014、根据短文本及上下文环境,结合领域词典,划分出短文本所属领域。
[0049] S102、构建不同领域的领域情感词典。
[0050] 具体的,步骤S102包括步骤:
[0051] S1021、从现有情感词典中挑选出与领域无关的情感词,并从中删掉有歧义和不常 用的词语,组成基础情感词典;
[0052] S1022、抽取语料库中所有的名词并按词频进行排序,并利用阈值法挑出词频较高 的名词作为评价对象。
[0053] S1023、采用依存文法分析抽取所述评价对象和所述基础情感词典中的修饰情感 词之间的所有情感路径;
[0054] S1024、根据所述所有情感路径,匹配与所述评价对象相符的情感路径对应的词 语,在排除基础情感词典中的词语后,将得到词性为形容词、副词和动词的词汇作为候选 情感词;
[0055] S1025、采用词语相似性判别算法对所述候选情感词进行情感极性分类后,与基础 词典叠加,构成领域情感词典。
[0056] S103、利用所
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1