语义情感分类特征值提取方法及系统的制作方法

文档序号：6514260阅读：765来源：国知局

语义情感分类特征值提取方法及系统的制作方法
【专利摘要】本发明提供一种语义情感分类特征值提取方法，包括：通过爬取互联网用户的评价信息获取分类语料库，其中，分类语料库包括自然语言描述文本和类别信息，根据中文分词算法将自然语言描述文本的段落句子拆分为词语；根据分类语料库的类别信息，计算词语与类别信息之间的类别PMI互信息；根据类别PMI互信息与类别信息之间的线性相关的特性获得PMI斜率值，根据PMI斜率值判断词语的情感词性；根据预设的PMI斜率值的阈值，提取具有情感倾向的词语作为自然语言描述的语义情感分类特征值。利用本发明能够解决获取特征值计算复杂度高和语义情感分析的准确度不稳定的问题。
【专利说明】语义情感分类特征值提取方法及系统
【技术领域】
[0001]本发明涉及人工智能及识别【技术领域】，更为具体地，涉及一种语义情感分类特征值提取方法及系统。
【背景技术】
[0002]大数据是目前一个非常热门的讨论话题，从互联网的机器实时采集的监测数据，到互联网上用户产生的海量的内容数据，都是大数据覆盖的内容。
[0003]大数据最核心的价值是:利用数学统计、机器学习、自然语言处理等技术，从大数据中挖掘出有价值的信息知识，从而能够对事物进行预测。由于web2.0的迅猛发展，用户在互联网上产生大量的内容文本信息，例如互联网上的社会化媒体(社交网站、社区等)数据(评论、社交关系、地理位置等信息)。对文本信息进行分析挖掘都离不开自然语言处理技术，而其中文本分类问题是最为常见也是应用范围最广的，从垃圾邮件自动识别到当下热门的语义情分分析，都离不开文本分类算法。
[0004]文本分类主流的方法之一是采用机器学习技术(例如朴素贝叶斯，支持向量机等)对训练样本进行特征信息提取学习，而在这里特征值的选取尤为重要，特征值选取好坏会直接影响机器学习方法最后的准确率。
[0005]对于特征值的提取，目前主要有两种方法。例如在情感分析中，主要采用基于字典以及利用互信息迭代自动获取特征值两种方法，基于字典的方法需要大量人工整理出跟情感表达相关的词语，这种方法在应用互联网领域有很大的局限性，因为互联网领域的新词更新很快，人工很难及时更新词典。对于采用互信息迭代计算的方法，一般是人工选取一定的种子词语(数量大概为10个左右)，然后计算样本集中词语跟种子词语的互信息，并选取互信息较高的新词更新到种子词语集中，并反复迭代，直到种子词语集包含的词语数量较为稳定。
[0006]图1示出了现有获取情感词语的方法流程。如图1所示，获取情感词语的具体流程包括:人工选取种子词语，通过获取语料库中的评价信息进行中文分词，然后计算中文分词后获取的词语跟人工选取的种子词语的互信息；选取互信息较高的新词更新到种子词库中，并反复迭代，直到种子词库中包含的词语数量较为稳定为止。
[0007]上述方法虽然做到了自动获取情感词语，但是却存在以下几点问题:
[0008]I)由于需要多次迭代以及大量的比较计算(随着种子词库的增加计算成倍增加)的方式，对于处理海量的互联网数据效率很低。
[0009]2)在不同应用场景下，词语的词性会有不同的诠释，而种子词选取上往往依赖于个人经验，种子词语的质量对后续的迭代计算会产生巨大的影响，直接影响最终特征值选取的好坏。
[0010]3)通过PMI (Pointwise Mutual Information,之前的互信息)互信息来扩展种子词的方法，离不开阈值的确定，一般迭代计算方法都是采用统一的经验阈值来确定，但是由于多次迭代过程中，种子词库数量的增加，都会影响PMI值的阈值变化，造成每次迭代选取出的特征值质量不一致。
0011]因此，亟需一种能够降低计算复杂度、提高语义情感分析准确度的情感词语获取技木。

【发明内容】
[0012]鉴于上述问题，本发明的目的是提供一种语义情感分类特征值提取方法及系统，以解决获取特征值计算复杂度高和语义情感分析的准确度不稳定的问题。[0013]本发明提供一种语义情感分类特征值提取方法，包括:[0014]通过爬取互联网用户的评价信息获取分类语料库，其中，分类语料库包括自然语言描述文本和类别信息，[0015]根据中文分词算法将自然语言描述文本的段落句子拆分为词语；[0016]根据分类语料库的类别信息，计算词语与类别信息之间的类别PMI互信息；[0017]根据类别PMI互信息与类别信息之间的线性相关的特性获得PMI斜率值，并根据PMI斜率值判断词语的情感词性；[0018]根据预设的PMI斜率值的阈值提取具有情感倾向的词语作为自然语言描述文本的语义情感分类特征值。[0019]此外，优选的方案是，中文分词中采用的算法包括:最大匹配法、最大均词长法和最小方差法。[0020]此外，优选的方案是，类别PMI互信息计算公式为:[0021]
【权利要求】
1.一种语义情感分类特征值提取方法，包括: 通过爬取互联网用户的评价信息获取分类语料库，其中，所述分类语料库包括自然语言描述文本和类别信息，根据中文分词算法将所述自然语言描述文本的段落句子拆分为词语；根据所述分类语料库的类别信息，计算所述词语与所述类别信息之间的类别PMI互信息；根据所述类别PMI互信息与所述类别信息之间的线性相关的特性获得PMI斜率值，并根据所述PMI斜率值判断所述词语的情感词性；根据预设的PMI斜率值的阈值提取具有情感倾向的词语作为所述自然语言描述文本的语义情感分类特征值。
2.如权利要求1所述的语义情感分类特征值提取方法，其中，所述中文分词算法包括:最大匹配法、最大均词长法和最小方差法。
3.如权利要求1所述的语义情感分类特征值提取方法，其中，所述类别PMI互信息计算公式为:

4.如权利要求1所述的语义情感分类特征值提取方法，其中，所述类别PMI互信息与所述类别信息之间通过线性拟合方法获得PMI斜率值，拟合的方法计算出线性函数y=ax+b中的变量a和b, 其中，变量a为PMI斜率值，变量a和b可以通过以下公式获得:
5.一种语义情感分类特征值提取系统，包括: 分类语料库获取单元，用于通过爬取互联网用户的评价信息获取分类语料库，其中，所述分类语料库包括自然语言描述文本和类别信息，中文分词单元，用于根据中文分词算法将所述自然语言描述文本的段落句子拆分为词语；类别PMI互信息计算单元，用于根据所述分类语料库的类别信息，计算所述词语与所述类别信息之间的类别PMI互信息； PMI斜率值获取单元，用于根据所述类别PMI互信息与所述类别信息之间的线性相关的特性获取PMI斜率值，并根据所述PMI斜率值判断所述词语的情感词性；特征值选取单元，用于根据预设的PMI斜率值的阈值提取具有情感倾向的词语作为所述自然语言描述文本的语义情感分类特征值。
6.如权利要求5所述的语义情感分类特征值提取系统，其中，在所述中文分词单元中，所述中文分词算法包括:最大匹配法、最大均词长法和最方差法。
7.如权利要求5所述的语义情感分类特征值提取系统，其中，在所述类别PMI互信息获取単元中，所述类别PMI互信息计算公式为:
8.如权利要求5所述的语义情感分类特征值提取系统，其中，在PMI斜率值获取单元中，所述类别PMI互信息与所述类别信息之间通过线性拟合方法获得PMI斜率值，拟合的方法计算出线性函数y=ax+b中的变量a和b，其中，变量a为PMI斜率值，变量a和b可以通过以下公式获得:
【文档编号】G06F17/27GK103559174SQ201310459413
【公开日】2014年2月5日申请日期:2013年9月30日优先权日:2013年9月30日
【发明者】邹存璐, 刘长虹, 王菊, 孟令胜申请人:东软集团股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邹存璐;刘长虹;王菊;孟令胜
技术所有人：东软集团股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。