训练情感分类模型和文本情感极性分析的方法及系统的制作方法_2

文档序号：9751333阅读：来源：国知局

本实施例对预处理的【具体实施方式】不作任何限定，但本发明的实施例二提供了优选的实施方式。
[0052] S130:通过神经网络，从预处理数据中提取词向量。
[0053]示例性的，为体现本实施例提供的技术方案中词向量的优势，这里对传统情感分类模型表示词向量的局限性进行说明。
[0054] 传统的情感分类模型中，最简单的是one-hot representation模型，该模型把所有的词合在一起构成词典树，用很长的向量表不一个词，向量的长度为词典的大小，且向量的分量只有一个1，其它均为〇,其中1的位置对应该词在词典中的索引，这种词向量容易受维度灾难的困扰。例如，一个包含10个词的词典中，词需要用10维向量表示，如词典中的"开心"用向量表示:V('开心'）=[1词典中的"生气"用向量表示:V('生气'）=[0，1，0,0,0,0,0,0,0,0]等。采用这种模型表示词存在如下缺陷，当词典中的词汇量很大，比如达到上万级别的时候，需要用上万维向量来表示词，导致很容易出现维度灾难。同时，这样的表示法，难以体现各词之间的关系，比如词典中的"高兴"和"开心"具有相似性，然而通过这种模型，难以度量"高兴"和"开心"之间的相似度。
[0055] 针对上述情况，本实施例的技术方案对词向量的表示方法做了如下改进。先将上述预处理数据中的词转换成0-1的向量。如图1B的上部所示，输入特征取Wi的前c个词的0-1 向量和后c个词的0-1向量，Wi表示第i个词的0-1向量，这里不是把这2c个0-1向量拼接起来组成一个高维向量，而是把它们按位相加得到隐含层节点值W neul，新生成的特征作为神经网络模型的输入层，建模使用单隐层神经网络，隐含层选取一定数量的单元，激活函数采用 s i gmod函数。传统神经网络输出层用的是sof tmax，如图1B的下部所示，本实施例用的是霍夫曼编码树，输出词向量特征值Wsynl和对应的词向量W。以霍夫曼编码树作为上述神经网络模型的输出层，相比以前的高维one-hot representation词向量，能有效降低词向量维度，使所述神经网络模型无监督学习得到所述词对应的低维词向量。
[0056] 优选的，在本实施例中，获得的是100维的词向量，在其他实施例中也可以是20、 50、150、200维的词向量等。输入是1的前(3个和后(：个0-1向量，输出用1的0-1向量做监督，无硬性标签，能有效提取周围词和中心词的非线性关系。
[0057] 因此，本实施例用低维空间向量表示的词的方法，能把意思相近的词放在相近位置，由于词向量一般是实数向量，故通过对语料库中的大量语料进行无监督地训练，即可提取得到该词向量。该词向量可以方便做聚类，可以用欧式距离或者余弦相似度来确定两个意思相近的词。
[0058] S140:将词向量按预设融合规则进行融合，生成句向量特征。
[0059] 示例性的，可以将上述语句划分成的词对应的词向量按预设规则进行叠加，获得该语句的句向量，也可以通过其他方式进行融合，例如拼接的方式。
[0060] 例如，如一个语句3包含有11个词，则3='\￥1，'\￥2〃_^_'\￥11，其中，《4表示第；[个词。在本实施例中，每个词W i对应的词向量都用长度为1 0 0维的向量vWi表示，即
..i、1- ~ ，其中，每个维度表示该词在一个抽象维度上的值。按照叠加原理，所述语句S的句向量，
。因此，示例性的，如果所有的语句均用一个100维的句向量表示，由于维度数固定了，则完全可以避免出现维度灾难问题，同时体现出了词与词之间的关联属性。采用叠加的方法将这些词的低维空间向量融合在一起，来表示包含这些词的句子，通过一些深层次的学习法提取句子的深层特征，深层学习法相比之前的浅层学习法，识别率有一定的提尚。
[0061 ] S150:根据句向量特征，训练情感分类模型，得到训练后的情感分类模型。
[0062]示例性的，根据输入的句向量的特征，用学习模型训练一些情感分类模型，一般用浅层学习模型和深度学习模型去做训练。进一步优选的，本发明采用深度学习模型来训练，例如，卷及神经网络、决策树、线性回归等深度学习模型，通过大量的有监督训练，获得鲁棒性较好的情感分类模型。
[0063]综上所述，在本实施例中，计算机通过爬虫工具在语料库中采集到原始数据，对该原始数据进行预处理获得预处理数据，用神经网络模型从该预处理数据中提取词向量，再通过拼接的方式将上述词向量融合生成相应的句向量特征，根据上述句向量特征，用有监督的深度学习模型训练情感分类模型得到鲁棒性稳定的情感分类模型。本实施例获得的情感分类模型，可避免维度灾难的问题，挖掘词与词之间的关联属性，提高向量语义上的准确度。
[0064] 实施例二
[0065] 在本发明实施例一的基础上，本实施例进一步提供了实施例一的技术方案中的步骤S120,即对原始数据进行预处理，获得预处理数据的优选实施方式。
[0066]参考本发明实施例一，如图2所示，步骤S120,即对原始数据进行预处理，获得预处理数据可以包含：
[0067] S121:清洗原始数据，获得清洗后数据。
[0068]示例性的，将先前用爬虫工具获取的原始数据中的不可识别数据、非文字字符等剔除，获得清洗后数据，以方便后续的分词、去停用词及提取词向量操作。
[0069] S122:对清洗后数据做分词和去停用词处理，获得预处理数据。
[0070] 示例性的，可以用开源分词工具或购买的非开源分词工具，将上述清洗后数据中的语句划分为多个词，一般是用动词将句子分为名词类或形容词类的多个词，或以空格将句子划分为多个词。同时还可以根据停词表，将所述语句中的停用词过滤掉，获得上述预处理数据。
[0071] 综上所述，本实施例在实施例一的基础上，进一步提供了步骤S120的优选实施方式，通过步骤S121，可将所述原始数据中的非文字类数据清洗掉，获得清洗后数据。通过步骤S122,可将所述清洗后数据中的停用词过滤掉，获得所需的预处理数据。
[0072] 实施例三
[0073] 在实施例二的基础上，本实施例进一步提供了实施例二的技术方案中国的步骤 S121，即清洗原始数据，获得清洗后数据的优选实施方式。
[0074] 参考本发明实施例二，如图3所示，步骤S121，即清洗原始数据，获得清洗后数据可以包括：
[0075] S1211:删除原始数据中的HTML标签和URL。
[0076] 示例性的，所述原始数据中超文本标记语言（Hyper Text Mark-up Language， HTML)标签和统一资源定位符(Uniform Resource Location，URL)等，与语句本身无关，也不构成词，因此有必要通过软件将上述HTML标签和URL等删除掉，以方便后续的提取词向量操作。
[0077] S1212:当语料库中的内容为中文时，将原始数据中的繁体字转换成简体字。
[0078] 示例性的，语料库中的文字为中文时，上述原始数据中的文字为中文文字，当遇到某些中文文字为繁体字时，为了后续的处理数据进行统一处理，需要通过繁体字转换器，将繁体字转换成相应的简体字，以方便后续的提取词向量操作。
[0079] 在此需要特别说明的是，步骤S1211和步骤S1212的执行顺序可以对调，在此，对步骤SI 211和步骤SI 212的顺序不做任何限定。
[0080] 综上所述，本实施例在实施例二的基础上，进一步提供了步骤S121的优选实施方式，通过步骤S1211，可将上述原始数据中的HTML标签和URL等删除掉，获得清洗后的数据。可通过步骤S1212,可将上述原始数据中的繁体字转换成相应的简体字。
[0081]以下为本发明实施例提供的文本情感极性分析的方法的实施例。本实施例采用了上述训练情感分类模型的方法及其实施例获得的情感分类模型，对目标文本进行情感极性分析。所以，本实施例中未详尽描述的细节内容，可参考上述训练情感分类模型的方法的实施例。
[0082]实施例四
[0083]在上述实施例的基础上，参见图4,本实施例的方案可以由计算机来执行，具体可由配置在计算机中的软件程序来实施，文本情感极性分析的方法包括如下步骤：
[0084] S410:从目标文本中提取句向量特征。
[0085]示例性的，通过本发明实施例一至三中任一实施例提供的方法，从待分析的目标文本中提取句向量特征。
[0086] S420:根据句向量特征和训练情感分类模型的方法得到的训练后的情感分类模型，分析目标文本的情感极性。
[0087] 示例性的，采用本发明实施例一至三

完整全部详细技术资料下载

当前第2页1 2 3