基于领域的中文短文本情感分类方法

文档序号：9349955阅读：940来源：国知局

基于领域的中文短文本情感分类方法
【技术领域】
[0001] 本发明涉及机器学习技术领域，尤其涉及一种基于领域的中文短文本情感分类方法。
【背景技术】
[0002] 互联网的迅速发展使得社交网络和电商购物平台得以越来越广泛地受到用户的青睐，如脸书、推特、新浪微博、豆瓣、京东和淘宝等国内外网络平台。在这些网络平台上数据呈现爆炸式地增长，包括对商品的评价、对周围事件的看法和对生活趣事或情绪波动的记录等。其中，短文本是这些数据常用的重要形式，并且往往带有情感色彩或主观意识。对这种短文本数据中用户所表达的情感进行挖掘，有助于让不同用户对象进行更好的决择或服务，如向用户在选择时提供更加中肯的推荐，向电商在推广产品时提供更有效的服务，向政府或新闻媒体部门提供可靠的预测或推送潜在热点事件等。
[0003]文本情感分析是自然语言处理（Natural Language Processing，NLP)领域中热门的研究方向，得到了学者的广泛研究分析。所提出的技术有很多，但主要可分为2种：一种是基于情感词典的方法，另一种是基于机器学习的方法。基于情感词典的方法是以情感词 (分为积极和消极）作为情感判别的主要依据，即根据情感词来决策文本含有的情感。基于机器学习的方法是利用根据语料库训练的分类器对文本的情感进行分类。两种技术方案均有利弊：前者算法往往较为简单，算法复杂度较低，并且无需大量标签语料库；但存在情感词典易遗漏、歧义或偏激，而且对不同场景的情感词产生的情感差异常常无法感知。后者准确率往往较前者高，但训练情感特征分类器需要大量的带标签语料库，并且语料库要选取适当。

【发明内容】

[0004]本发明所要解决的技术问题是如何高效地结合情感词典和机器学习对中文短文本的情感进彳丁自动分类，以提尚文本自动标注训练效率和使最终分类器具有尚准确率。
[0005] 为了解决上述技术问题，本发明提供了一种基于领域的中文短文本情感分类方法，包括：
[0006]对短文本进行数据预处理，包括句子分割、分词、停用词过滤和领域划分；
[0007]构建不同领域的领域情感词典；
[0008]利用所述领域情感词典和预处理后数据计算短文本的情感值；
[0009] 提取短文本的情感特征；
[0010] 根据所提取的情感特征采用随机森林为分类工具对语料库进行训练或对未知情感类型的短文本进行判别。
[0011] 进一步的，所述对短文本进行数据预处理，包括句子分割、分词、停用词过滤和领域划分，具体包括：
[0012] 利用标点符号将短文本划分为多个句子；
[0013] 采用ICTCLAS分词工具将所述多个句子切分为独立的词语；
[0014] 采用停用词表对切分的词语进行过滤；
[0015] 根据短文本及上下文环境，结合领域词典，划分出短文本所属领域。
[0016] 进一步的，所述构建不同领域的领域情感词典，具体包括：
[0017] 从现有情感词典中挑选出与领域无关的情感词，并从中删掉有歧义和不常用的词语，组成基础情感词典；
[0018] 抽取语料库中所有的名词并按词频进行排序，并利用阈值法挑出词频较高的名词作为评价对象；
[0019] 采用依存文法分析抽取所述评价对象和所述基础情感词典中的修饰情感词之间的所有情感路径；
[0020] 根据所述所有情感路径，匹配与所述评价对象相符的情感路径对应的词语，在排除基础情感词典中的词语后，将得到词性为形容词、副词和动词的词汇作为候选情感词；
[0021] 采用词语相似性判别算法对所述候选情感词进行情感极性分类后，与基础词典叠加，构成领域情感词典。
[0022] 进一步的，利用所述领域情感词典和预处理后数据计算短文本的情感值，具体包括：
[0023] 计算所述领域情感词典中的每个词语的TF-IDF值，其中，TF-IDF = TF*IDF，式中， TF表示词频，IDF表示逆向文件频率；
[0024] 针对短文本分词处理后得到的多个词语，计算每个词语的情感值，即根据词语的 TF-IDF值对词语赋予不同的权值；
[0025] 计算所有词语的情感值的加权和，得到短文本的情感值。
[0026] 进一步的，所述针对短文本分词处理后得到的多个词语，计算每个词语的情感值，即根据词语的TF-IDF值对词语赋予不同的权值，具体包括：
[0027] 针对短文本分词处理后得到的多个词语，记录每个词语出现的位置和倾向值P，其中，若词语为积极，则P初始化值为f (TF-IDF)，若词语为消极，则p初始化值为-f (TF-IDF)，其中，f (TF-IDF)为词语的预设初始情感值；
[0028] 根据词语出现的位置，判断词语之间是否出现否定词，若出现，则计算否定词的个数，当否定词的个数为奇数时，就将处于否定词后面的词语的倾向值P反转，否则倾向值P 不变，最终的倾向值P即为词语的情感值；
[0029] 根据词语的TF-IDF值对不同的词语赋予不同的权值。
[0030] 进一步的，所述根据所提取的情感特征采用随机森林为分类工具对语料库进行训练或对未知情感类型的短文本进行判别，具体包括：
[0031 ] 利用arrf特征模板将情感特征文件格式化；
[0032] 调用weka中随机森林算法作为分类工具根据所提取语料库的情感特征进行训练或对未知情感类型的短文本进行情感预测分类。
[0033] 实施本发明，具有如下有益效果：
[0034] 1)本发明提出的基于领域的短文本情感判别方法提高了文本数据情感分类的准确率；
[0035] 2)所提出基于领域的情感词典得到的准确率明显高于使用基础情感词典所能达到的准确率。
【附图说明】
[0036] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0037]图1是本发明提供的基于领域的中文短文本情感分类方法的一个实施例的流程示意图；
[0038] 图2是图1中步骤SlOl的具体步骤的流程示意图；
[0039] 图3为本发明所提出方法中情感词典与传统的情感词典的对比实验结果图。
[0040] 图4为四个领域的测试结果示例图。
【具体实施方式】
[0041] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清晰、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0042]图1是本发明提供的基于领域的中文短文本情感分类方法的一个实施例的流程示意图，包括如下步骤：
[0043] S101、对短文本进行数据预处理，包括句子分割、分词、停用词过滤和领域划分。
[0044] 具体的，如图2所示，步骤S101包括步骤：
[0045] S1011、利用标点符号将短文本划分为多个句子；
[0046] S1012、采用ICTCLAS分词工具将所述多个句子切分为独立的词语；
[0047] S1013、采用停用词表对切分的词语进行过滤；
[0048] S1014、根据短文本及上下文环境，结合领域词典，划分出短文本所属领域。
[0049] S102、构建不同领域的领域情感词典。
[0050] 具体的，步骤S102包括步骤：
[0051] S1021、从现有情感词典中挑选出与领域无关的情感词，并从中删掉有歧义和不常用的词语，组成基础情感词典；
[0052] S1022、抽取语料库中所有的名词并按词频进行排序，并利用阈值法挑出词频较高的名词作为评价对象。
[0053] S1023、采用依存文法分析抽取所述评价对象和所述基础情感词典中的修饰情感词之间的所有情感路径；
[0054] S1024、根据所述所有情感路径，匹配与所述评价对象相符的情感路径对应的词语，在排除基础情感词典中的词语后，将得到词性为形容词、副词和动词的词汇作为候选情感词；
[0055] S1025、采用词语相似性判别算法对所述候选情感词进行情感极性分类后，与基础词典叠加，构成领域情感词典。
[0056] S103、利用所

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：舒磊;牛建伟;毛凯莉;傅树霞;赵晓轲;
技术所有人：广东石油化工学院;
我是此专利的发明人

上一篇：具有隐私保护功能的基于网络的信息恢复方法
上一篇：自然资源数据三维可视化方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。