基于用户评论文本的上下文情感分类方法及分类系统的制作方法

文档序号：8473045阅读：451来源：国知局

基于用户评论文本的上下文情感分类方法及分类系统的制作方法
【技术领域】
[0001] 本发明涉及计算机应用于互联网技术领域，特别涉及一种基于用户评论文本的上下文情感分类方法及分类系统。
【背景技术】
[0002] 近些年来，在论坛、博客、电子商务、微博等新兴互联网元素的推动下，越来越多的用户习惯于在这些网络平台上发表自己的观点和表达自己的感受。但是，随之而来的一个问题就是互联网上的用户越来越多，用户评论数量也呈爆炸式增长，导致光靠人力进行分析总结变得很难。尤其是大型电商网站上的热门商品的评论往往都会有成千上万条，对于用户来说，要完全浏览这些评论是不现实的，而浏览少量信息又会得到有偏差的结论，无法获得大众对于此款产品的综合评价。更加复杂的是，这些海量评论中还会存在着许多相互矛盾的观点，在这种情况下，用户很难甄别出对自己有价值的信息。因此，让计算机来帮助用户对海量评论进行分析甄选，从中抽取出有价值的信息就变得尤为重要。
[0003] 这种新的上下文情感分类方法具有如下几个主要特点：1)时间成本低。对于产品的用户评论，用户不需要进行人工分析，便可以获知大众对该产品的褒贬倾向。2)适用范围广。该方法可以由电商网站或生产厂商使用，分析用户对于产品的总体评价，方便改进产品；也可以由用户和消费者使用，分析自己和他人的情感倾向，以作出购买决策。3)特征筛选准。然而，以往的情感分类方法很少关注对于文本中语义特征的提取，降低了分类准确度，无法很好地识别出文本中用户的情感倾向。

【发明内容】

[0004] 本发明旨在至少在一定程度上解决上述相关技术中的技术问题之一。
[0005] 为此，本发明的一个目的在于提出一种能够提高了分类准确度，更好地识别出文本中用户的情感倾向的基于用户评论文本的上下文情感分类方法。
[0006] 本发明的另一个目的在于提出一种基于用户评论文本的上下文情感分类系统。
[0007] 为达到上述目的，本发明一方面实施例提出了一种基于用户评论文本的上下文情感分类方法，包括以下步骤：从互联网上获取多条用户评论文本；对所述多条用户评论文本进行分词；对分词后的多条用户评论文本进行训练，以获取每个词的特征向量得到候选特征集；通过基于情感词典或词性的特征选择方法从所述候选特征集中根据上下文结构特征提取有效特征，以得到训练集；以及根据所述训练集训练分类模型，以通过所述分类模型对用户评论文本进行情感分类。
[0008] 根据本发明实施例提出的基于用户评论文本的上下文情感分类方法，首先通过对用户评论文本进行分词得到候选特征集，其次根据上下文结构特征从候选集中提取有效特征，从而训练分类模型，实现对用户评论文本的情感分类，通过上下文结构特征提取有效特征，实现情感分类，提高了分类准确度，更好地识别出文本中用户的情感倾向，具有时间成本低、适用范围广、特征筛选准确等优点，简单方便，更好地满足用户的使用需求。
[0009] 另外，根据本发明上述实施例的基于用户评论文本的上下文情感分类方法还可以具有如下附加的技术特征：
[0010] 进一步地，在本发明的一个实施例中，根据HowNet情感词典与IAR情感词典获取所述情感词典。
[0011] 进一步地，在本发明的一个实施例中，通过word2vec对分词后的多条用户评论文本进行训练以获得所述候选特征集。
[0012] 进一步地，在本发明的一个实施例中，所述分类模型可以为SVMperf分类模型。
[0013] 进一步地，在本发明的一个实施例中，所述上下文结构特征包括否定词特征、程度词特征和转折词特征。
[0014] 本发明另一方面实施例提出了一种基于用户评论文本的上下文情感分类系统，包括：数据获取模块，用于从互联网上获取多条用户评论文本；分词模块，用于对所述多条用户评论文本进行分词；词向量训练模块，用于对分词后的多条用户评论文本进行训练，以获取每个词的特征向量得到候选特征集；特征选择模块，用于通过基于情感词典或词性的特征选择方法从所述候选特征集中根据上下文结构特征提取有效特征，以得到训练集；以及分类模块，用于根据所述训练集训练分类模型，以通过所述分类模型对用户评论文本进行情感分类。
[0015] 根据本发明实施例提出的基于用户评论文本的上下文情感分类系统，首先通过对用户评论文本进行分词得到候选特征集，其次根据上下文结构特征从候选集中提取有效特征，从而训练分类模型，实现对用户评论文本的情感分类，通过上下文结构特征提取有效特征，实现情感分类，提高了分类准确度，更好地识别出文本中用户的情感倾向，具有时间成本低、适用范围广、特征筛选准确等优点，简单方便，更好地满足用户的使用需求。
[0016] 另外，根据本发明上述实施例的基于用户评论文本的上下文情感分类系统还可以具有如下附加的技术特征：
[0017] 进一步地，在本发明的一个实施例中，上述系统还包括：获取模块，用于根据 HowNet情感词典与IAR情感词典获取所述情感词典。
[0018] 进一步地，在本发明的一个实施例中，所述词向量训练模块通过word2vec对分词后的多条用户评论文本进行训练以获得所述候选特征集。
[0019] 进一步地，在本发明的一个实施例中，所述分类模型可以为SVMperf分类模型。
[0020] 进一步地，在本发明的一个实施例中，所述上下文结构特征包括否定词特征、程度词特征和转折词特征。
[0021] 本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
【附图说明】
[0022] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：
[0023] 图1为根据本发明实施例的基于用户评论文本的上下文情感分类方法的流程图；
[0024] 图2为根据本发明一个实施例的基于用户评论文本的上下文情感分类方法的流程图；
[0025] 图3为根据本发明一个实施例的基于用户评论文本的上下文情感分类系统的结构示意图；
[0026] 图4为根据本发明一个具体实施例的基于用户评论文本的上下文情感分类系统的结构示意图。
【具体实施方式】
[0027] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
[0028] 此外，术语"第一"、"第二"仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有"第一"、"第二"的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，"多个"的含义是两个或两个以上，除非另有明确具体的限定。
[0029] 在本发明中，除非另有明确的规定和限定，术语"安装"、"相连"、"连接"、"固定"等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
[0030] 在本发明中，除非另有明确的规定和限定，第一特征在第二特征之"上"或之"下" 可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征"之上"、"上方"和"上面"包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征"之下"、"下方"和"下面"包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度小于第二特征。
[0031] 下面参照附图描述根据本发明实施例提出的基于用户评论文本的上下文情感分类方法及分类系统，首先将参照附图描述根据本发明实施例提出的基于用户评论文本的上下文情感分类方法。参照图1所示，该方法包括以下步骤：
[0032] S101，从互联网上获取多条用户评论文本。
[0033] 在本发明的一个实施例中，参照图2所示，本发明实施例主要是从互联网上爬取大量的用户评论作为语料，以便进行情感分类工作。本发明实施例的数据主要是通过JAVA 爬虫程序从中文亚马逊网站（amazon.cn)上获取的服装产品的用户评论文本，并保存到数据库中。
[0034] S102,对多条用户评论文本进行分词。
[0035] S103,对分词后的多条用户评论文本进行训练，以获取每个词的特征向量得到候选特征集。
[0036] 进一步地，在本发明的一个实施例中，通过word2vec对分词后的多条用户评论文本进行训练以获得候选特征集。
[0037] 具体地，本发明实施例利用W〇rd2VeC工具对分词后的文本语料进行训练，得到每个词的词向量表示，作为候选特征向量。其中，获得的词向量可以很好地提取出蕴含在词之间的语义特征，为情感分类工作做好铺垫。
[0038] S104,通过基于情感词典或词性的特征选择方法从候选特征集中根据上下文结构特征提取有效特征，以得到训练集。其中，采用基于情感词典和基于词性的特征选择方法来对候选特征进行筛选，只保留对情感分类工作有价值的特征。在实际应用中，两种特征选择方法是可选的，可以灵活对比两种方法的情感分类结果。
[0039] 具体地，本发明实施例采用基于情感词典和基于词性的两种特征选择方法从候选特征集中筛选出有效特征。
[0040] 其中，基于情感词典的特征选择方法需要用到已经构建好的中文领域的情感词典来做特征的筛选。当下述的分类模型为SVMperf模型时，为了生成SVMperf模型所支持的数据格式，本发明实施例在用W〇rd2vec训练语料库获取词向量时，将-size参数设为1，即训练得到的模型文件中每个词只包含1维词向量。然后将模型文件与扩

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐华;
技术所有人：清华大学;清华大学无锡应用技术研究院;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。