网络文本的情感信息检测方法和装置的制造方法_3

文档序号：9818303阅读：来源：国知局

可得到喜欢这个词对应的特征值。
[0083]在介绍特征向量之前，我们先了解一下特征，特征是一个键值对index: value， index表示维度，即在一个维度上的值为value。每个词由一个特征值构成，或者一个特征向量构成，句子的特征向量是由句子中每个词的特征项或者特征向量组成。
[0084]本发明实施例中，预先以200维度作为词的特征向量(W〇rd2veC)训练的参数，挖掘词与词间的语义关系。特征向量(Word2vec)处理结果例如可以保存在bin文件中，使用的时候可以查询bin文件获取词的特征向量，其中，Word2vec是词向量模型训练的一种开源实现。比如在b in文件中查询"喜欢"这个词的特征向量，表3为喜欢的特征向量：

[0086] 在本发明实施例一种可选的实施方式中，步骤102具体实现时包括：
[0087] 在保存特征向量的文件中查到每个词的特征向量，每个词都是一个200维度的向量，表示所述网络文本的特征向量表达式为：
[0089] 其中，i表示网络文本中第i个词，表示网络文本中第i个词条，cU表示第i个词条在特征向量中第一维度的值，^ · cb表示第i个词条^第一维度的值。
[0090] 在本发明实施例一种可选的实施方式中，步骤102具体实现时包括：
[0091 ]在特征值表中查找词的特征值、在特征向量文件中查到词的特征向量，所述网络文本的特征向量表达式为：
[0093]其中，i表示网络文本中第i个词，^表示网络文本中第i个词条，cU表示第i个词条在特征向量中第一维度的值，ti · cU表示第i个词条ti第一维度的值，ti · IDF表示第i个词条ti的特征值，作为特征向量的权重。
[0094] 由此可以看出，每个句子的特征向量同样也是200维度，其实，句子跟词的性质是一样的，只不过句子是一个比较长的词。
[0095] 103、利用调优参数对所述网络文本的特征向量进行情感分类处理，得到所述网络文本的情感信息。
[0096] 实验中使用到两个数据语料库:基本语料库和情感语料库。基础语料库是数据支持，研究的基础。从基础语料库中发掘词的含义和特征表达。情感语料库同样是我们研究的基础，它提供了情感句和非情感句，情感句中又包含正面情感文本和负面情感文本。对基本语料库进行数据清洗后，采用Skip-Gram语言模型，利用 W〇rd2vec进行词向量训练，用以表示词在上下文中的语义，表4是本次训练的参数。从处理结果中进一步对词处理和统计，可以提取出TFIDF特征和word2vec特征向量。使用TFIDF*word2vec构造微博文本特征向量。从情感语料库中，选取情感句、非情感句作为训练语料，把生成的文本特征向量提交给1 ibsvm 进行构造情感分类器，从情感语料库选取正向情感句、负向情感句作为训练语料，把生成的文本特征向量提交给libsvm进行构造情感极性分类器。其中libsvm中有两个非常重要的参数c、g，对分类器预测结果的准确度有很重要的影响，1 ibsvm借助于python脚本进行5倍交叉验证，其原理是将数据文件平均分成η等份，其中n-i份数据作为训练数据，i份数据作为预测数据，选取一定的阈值进行交叉验证，以得到最高的准确率作为最佳c、g参数的依据。表5和表6对应是对应的交叉验证
[0097] 表4训练参数
[0102]
[0103] 本发明实施例所述的调优参数是根据召回率、准确率和/或分类整体性能值，在对大量的网络文本进行情感分类处理基础上得到的调优参数，用于表示根据所述调优参数生成的情感分类器的准确率为最优。
[0104] 在步骤102获取的网络文本的特征向量的基础上，将网络文本的特征向量提交给 libsvm构造的情感分类器进行情感分类处理，得到所述网络文本的情感信息。
[0105] 其中，LIBSVM是一个简单、易于使用和快速有效的SVM模式识别与回归的软件包， SVM(Support Vector Machine，支持向量机)是一种机器学习算法，用来处理线性可分的数据，当数据线性不可分时，SVM会将数据映射到高维空间中使其线性可分。
[0106] 情感分类器是数据挖掘中对样本(本实施例中的样本为网络文本的特征向量)进行分类的方法的统称，包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。
[0107] 其中，LIBSVM中有两个非常重要的参数c、g，对情感分类器预测结果的准确度有很重要的关系，本发明实施例在对大量的网络文本进行情感分类处理的实验基础上，使用 python脚本来得出c、g的最优值。
[0108] 在统计学中经常使用召回率、准确率和F1来评估一个分类器的性能。召回率也叫查全率，准确率也叫查准率。但是在很多情况下准确率和召回率是相互影响的，理想情况下肯定是做到两者都高，但是一般情况下准确率高、召回率就低，召回率低、准确率就高，当然如果两者都低说明分类器性能太差了。F值是综合召回率和准确率对分类器整体性能的一个评估。
[0109] 图3为本发明实施例应用的情感分类器的一种测试结果示意图，如图3所示：
[0110] A一一分类器预测正确的情感句 B一一分类器预测错误的情感句
[0112] C一一是情感句，且分类器没有预测出来 [0113] D一一不是情感句，且分类器没有预测数来
[0114]召回率R:用分类器预测正确的文本数量作为分子，测试数据中所有的情感句数量
[0115] 准确率P:用分类器预测正确的文本数量作为分子，分类器预测出来的情感句数量
[0116] F值:是一种折中的统计方法，评估分类器的整体性能
[0117] 本发明实施例中，当使用使用TFIDF*word2VeC构造网络文本的特征向量时， libsvm处理网络文本特征向量时，使用调优参数c、g调优处理，生成情感句识别分类器.
[0118] 图4为本发明实施例应用的情感识别分类器的情感识别交叉验证结果示意图，如图4所示，当c = 8、gamma = 0.03125时，结果准确率最高为88.6163%。因此，在使用情感句识另IJ分类器的时候可以设置参数c = 8，g = 0.03125。
[0119] 图5为本发明实施例应用的情感极性分类器的情感极性交叉验证结果示意图，如图5所示，当c = 2、gamma = 0.125时，结果准确率最高为92.2894%。所以在使用libsvm训练情感极性分类器的时候添加参数c = 2、g = 0.125。
[0120] 本发明实施例对获取的网络文本进行分词处理得到多个词;获取所述多个词的特征向量，得到所述网络文本的特征向量;利用调优参数对所述网络文本的特征向量进行情感分类处理，得到所述网络文本的情感信息。由于本发明实施例采用的调优参数是根据召回率、准确率和/或分类整体性能值，在对大量的网络文本进行情感分类处理基础上得到的，用于表示根据所述调优参数生成的情感分类器的准确率为最优，因此，利用调优参数对所述网络文本的特征向量进行情感分类处理，得到所述网络文本的情感信息的准确率也是最高的，因此，可以解决现有技术对网络文本信息的情感分析的准确性较差的技术问题。
[0121] 进一步地，本发明实施例对网络文本的情感分类检测和分析不需要人工分析，节省时间成本，提高了检测和分析效率；同时，本发明实施例对网络文本的情感分类检测和分析可以由单个用户自己使用，也可以由公司、企业以及政府机关部门使用，应用范围广。
[0122] 图6是本申请实施例的一种网络文本的情感信息检测装置的结构示意图，如图6所示，包括：
[0123] 分词模块61，用于对获取的网络文本进行分词处理得到多个词；
[0124] 获取特征向量模块62，用于获取所述多个词的特征向量，得到所述网络文本的特征向量；
[0125] 情感分类模块63,用于利用调优参数对所述网络文本的特征向量进行情感分类处理，得到所述网络文本的情感信息。
[0126] 可选地，本发明所述装置还包括：
[0127] 情感极性确定模块64，用于对所述获取的网络文本进行情感极性的确定；
[0128] 去噪模块65,用于若确定所述获取的网络文本的情感极性为

完整全部详细技术资料下载

当前第3页1 2 3 4