训练情感分类模型和文本情感极性分析的方法及系统的制作方法

文档序号：9751333阅读：389来源：国知局

训练情感分类模型和文本情感极性分析的方法及系统的制作方法
【技术领域】
[0001] 本发明涉及数据挖掘技术领域，尤其涉及一种训练情感分类模型的方法及系统和一种文本情感极性分析的方法及系统。
【背景技术】
[0002] 情感分析，又称倾向性分析，具体是可以对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。常见的情感分析有意见抽取、意见挖掘、情感挖掘和主观分析等。
[0003] 在金融信息分析方面，长期以来，投资者广泛地认可金融市场易受恐惧和贪婪等人性驱使，但缺乏一种技术或数据来客观全面量化人们的具体情感。对社交数据进行情感分析，为一直以来被金融市场非理性举动所困扰的投资者，打开了一扇了解心灵世界的窗户，通过大众对市场信息的情感分析来预测市场趋势。
[0004] 在商品销售方面，当新商品上架一段时间后，对商品的评价针对一些属性做情感分析，或者做混合属性的情感分析，然后对这些分析结果做总结，并对有代表性的评价做情感呈现。对商家来说，可以省去大量的市场调查，也可以用来分析用户体验，用以持续改进后期的产品。对用户来说，亦可以根据已买完用户的评价来综合制定购买策略。
[0005] 在企业舆情分析方面，通过对大量的公开社交数据，分析公众对企业自身的一些相关热点的态度看法，并可以据此制定相应的公关策略。
[0006] 在现有技术中，情感分析的步骤大体上是：
[0007] 第一步，确定一个词是积极还是消极，是主观还是客观，主要依靠词典；
[0008] 第二步，识别一个句子是积极还是消极，是主观还是客观；
[0009] 第三步，从情感挖掘上升到意见挖掘。
[0010]传统情感分析通用的方法是对情感词典构建树，将要分析的内容做分词后对里面的每个词通过词典树去查找，确定要分析的内容中正面词和负面词的个数，再通过这两个数量的比较确定要分析的内容的极性，即积极或消极。这种方法只考虑用单个情感词出现的数量或频率判断情感极性，而没考虑用词之间共现的共性来做情感分析，为此人们尝试了很多情感分类模型。
[0011] 在情感分析模型中，词是以向量的形式表示，最简单的就是ο n e - h 〇 t representation，就是用一个很长的向量表示一个词，向量的长度为词典的大小，向量的分量只有一个1，其它全是〇，1的位置对应该词在词典中的索引。但是，这种词向量容易受维度灾难的困扰。而将上面的词映射到一个新的空间中，并以多维的连续实数向量进行表示，称为"Word Represention"或"Word Embedding"。经过长期的实验，人们逐渐从原始的词向量稀疏表示法过渡到现在的低维空间中的密集表示。因为用词向量稀疏表示法在解决实际问题时经常会遇到维度灾难问题，并且语义信息无法表示，无法揭示词之间的潜在联系。

【发明内容】

[0012] 针对上述情感分类模型的不足，本发明提供一种训练情感分类模型的方法及系统和一种文本情感极性分析的方法及系统，通过神经网络模型，采用低维空间表示词向量，可避免维度灾难问题，挖掘词与词之间的关联属性，提高向量语义上的准确度。
[0013] 第一方面，本发明实施例提供的一种训练情感分类模型的方法，包括：
[0014] 从语料库中采集数据，获得原始数据；
[0015] 对所述原始数据进行预处理，获得预处理数据；
[0016] 通过神经网络模型，从所述预处理数据中提取词向量；
[0017] 将所述词向量，按预设融合规则进行融合，生成句向量特征；
[0018] 根据所述句向量特征，训练情感分类模型，得到训练后的情感分类模型。
[0019] 第二方面，本发明实施例提供的一种文本情感极性分析的方法，包括：
[0020]从目标文本中提取句向量特征；
[0021]根据所述句向量特征和上述训练情感分类模型的方法得到的训练后的情感分类模型，分析所述目标文本的情感极性。
[0022]第三方面，本发明实施例提供的一种训练情感分类模型的系统，包括：
[0023]数据采集单元，用于从语料库中采集数据，获得原始数据；
[0024]原始数据预处理单元，用于对所述原始数据进行预处理，获得预处理数据；
[0025] 词向量提取单元，用于通过神经网络模型，从所述预处理数据中提取词向量；
[0026] 句向量特征生成单元，用于将所述词向量，按预设融合规则进行融合，生成句向量特征；以及
[0027] 情感分类模型训练单元，用于根据所述句向量特征，训练情感分类模型，得到训练后的情感分类模型。
[0028] 第四方面，本发明实施例提供的一种文本情感极性分析的系统，包括：
[0029] 句向量特征提取单元，用于从目标文本中提取句向量特征；以及
[0030] 情感极性分析单元，根据所述句向量特征和上述训练情感分类模型的方法得到的训练后的情感分类模型，分析所述目标文本的情感极性。
[0031 ]本发明提供的技术方案带来的有益效果：
[0032]综上所述，在本实施例中，计算机可以通过爬虫工具在语料库中采集到原始数据，对该原始数据进行预处理获得预处理数据，用神经网络模型从该预处理数据中提取词向量，再通过叠加等融合规则，将上述词向量融合生成相应的句向量特征，根据句向量特征，训练得到鲁棒性稳定的情感分类模型。该训练情感分类模型的方法，可有效地降低词向量的维度，避免维度灾难的问题，并能挖掘词与词之间的关联属性，从而提高向量语义上的准确度。
[0033]同理，通过上述方法，从目标文本中提取句向量特征，再采用上述情感分类模型，分析目标文本的文本情感极性分析的方法，可有效地降低词向量的维度，避免维度灾难的问题，并能挖掘词与词之间的关联属性，提高向量语义上的准确度。
【附图说明】
[0034] 图1A是本发明实施例一提供的训练情感分类模型的方法的流程示意图；
[0035] 图1B是本发明技术方案中提取词向量时采用的神经网络模型的示意图。
[0036] 图2是本发明实施例二提供的对原始数据进行预处理的方法流程示意图；
[0037] 图3是本发明实施例三提供的清洗原始数据的方法流程示意图；
[0038] 图4是本发明实施例四提供的文本情感极性分析的方法的流程示意图；
[0039] 图5是本发明实施例五提供的训练情感分类模型的系统的架构示意图；
[0040] 图6是本发明实施例六提供的原始数据预处理单元的架构示意图；
[0041 ]图7是本发明实施例七提供的清洗子单元的架构示意图；
[0042]图8是本发明实施例八提供的文本情感极性分析的系统的架构示意图。
【具体实施方式】
[0043]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。
[0044] 实施例一
[0045] 参见图1A，本实施例的方案可以由计算机来执行，具体可由配置在计算机中的软件程序来实施，训练情感分类模型的方法包括如下步骤：
[0046] SI 10:从语料库中采集数据，获得原始数据。
[0047] 示例性的，可以通过爬虫工具爬取语料库中的内容来获得原始分析数据，也可以通过其他数据收集方式获得原始分析数据。
[0048] 爬虫可以是一种自动获取网页内容的程序，也可以是搜索引擎的重要组成部分。搜索引擎使用爬虫寻找网络内容，网络上的HTML(Hyper Text Mark-up Language，超文本标记语言）文档使用超链接连接了起来，就像织成了一张网，爬虫程序顺着这张网爬行，每到一个网页就用抓取程序将这个网页抓下来，再将内容抽取出来，同时抽取超链接，作为进一步爬行的线索。该爬虫工具可以为开源的爬虫工具、购买的非开源的爬虫工具、单独开发或基于开源或购买的爬虫工具进行二次开发的爬虫工具。
[0049] 该语料库中的内容可以为各大网页上用户评论或留言的语句，上述原始数据即为爬虫从语料库中提取的一系列带有关键信息的语句。
[0050] S120:对原始数据进行预处理，获得预处理数据。
[0051] 示例性的，对上述原始数据中的语句做预处理，可以是将该语句划分成多个词，该预处理数据即为一系列的词。由于情感分析的目的不同，也许会导致预处理的方式和手段不同，常用的原始数据预处理方法有很多，例如:数据清理、数据集成、数据融合、数据变换和数据规约等。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张建华;刘鹏;
技术所有人：北京锐安科技有限公司;
我是此专利的发明人

上一篇：基于ct定位片的高性能椎骨检测与分割方法
上一篇：一种集成特征选择方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。