一种基于词向量的评论分析方法及系统的制作方法_2

文档序号：8258917阅读：来源：国知局

063] 在本实施例中，每个基本分词&被表不成一个长度为200的向量，及：
[0064] Vwi= {v v2, v3, . . .，Vi, . . . ，其中每个维度表示该词在一个抽象维度上的值。
[0065] 按照本实施例的累加原理，该评论的句向量将会表示成：
[0066] Vs - ^^Vwi 1〇
[0067] 于是，评论语料库中的所有评论语句都表示成一个200维的特征向量，避免了"维度灾难"，也使词与词之间的关系在特征中得到体现。
[0068] 这样做的好处是，不管评论语句的分词有多少，句向量的维度都是恒定的。如果采用传统的方式，将语句中的基本分词用其词向量代替，如果该语句有10个基本分词，那么该语句的句向量维度将长达2000,同样存在维度灾难的风险。
[0069] 由于训练后的词向量其实是将词映射到了一个新的主题维度空间，所以将句子中的基本分词的词向量累加，能够很好地表示句子在这样的特征空间的映射情况。结果证明也是这样，不但避免了句子特征表示的向量过于稀疏，维度过多的情况，又能很好地在低维空间表示句子的特征，且不影响分类性能。
[0070] 步骤3 :设置若干评论类型，根据人工输入的标注为每条评论标注其所属的评论类型：
[0071] 我们手工对评论语句按照5个评论类型，S卩1到5(1为非常差，2差，3 -般，4还好，5很好）进行分类并标注。
[0072] 步骤4:以所述句向量为输入，每条句向量对应的评论类型为输出训练分类器：
[0073] 本实施例使用了性能很好的GBDT (Gradient Boosting Decision Tree)分类算法，在标注的句向量训练集上进行无监督学习，得到情感分类器。
[0074]GBDT是一种迭代的决策树算法，同时其训练方法是基于Boosting。它主要的思想是，每一次建立模型是在之前建立模型损失函数的梯度下降方向。在我们的训练过程中，我们对GBDT的两个参数做了优化，决策树个数nTree和每个决策树的最大深度cbpth。我们通过实际经验分析得到了 nTree如果设置为输入特征的2倍，并且cbpth在10以内，结果比较好。
[0075] 步骤5:获取一条新的评论，并将其转化为句向量：
[0076] 具体是，利用分词软件将新的评论进行分词，得到基本分词。在评论词库中查找新的评论中基本分词对应的词向量，将各个基本分词的词向量进行叠加得到句向量。
[0077] 步骤6 :将新评论对应的句向量输入到所述分类器中，得到新评论的评论类型。
[0078] 为了使评论类型更具指向性，我们可以对每个评论类型进行关键词提取。
[0079] 因此，在本发明的另一个实施例中，步骤3进一步包括：
[0080] 步骤31 :计算评论类型中每一条评论中的基本分词的关键性权重；
[0081] 步骤32 :按照关键性权重对该评论类型中全部评论的基本分词进行降序排序；
[0082] 步骤33 :选择前若干个互异的基本分词作为所述评论类型的关键词；本实施例中选取的时前5个互异的基本分词作为关键词，如类1 :闪退死机噪点抖动迟钝。
[0083] 本实施例采用的TFIDF，并结合词性，进行基本分词的关键性权重计算。
[0084] 也就是说，一个词的关键性权重，由两部分组成，即：
[0085]
[0086] 其中\,为TFIDF权重，',为词性权重，1表示第j条评论中的第i个基本分。
[0087] 这两部分具体的计算方法是：
[0088]
【主权项】
1. 一种基于词向量的评论分析方法，其特征在于，包括：步骤1;收集用户评论，形成评论语料库；步骤2 ;将评论语料库的每条评论转化为维度相同的句向量；步骤3 ;设置若干评论类型，根据人工输入的标注为每条评论标注其所属的评论类型；步骤4 所述句向量为输入，每条句向量对应的评论类型为输出训练分类器；步骤5 ;获取一条新的评论，并将其转化为句向量；步骤6 ;将新评论对应的句向量输入到所述分类器中，得到新评论的评论类型。
2. 根据权利要求1所述的一种基于词向量的评论分析方法，其特征在于，所述步骤2进一步包括：步骤21 ;将每一条评论分成若干的基本分词，对基本分词去重后得到评论词库；步骤22 ;将每个基本分词转化为一个词向量；各个基本分词对应的词向量维度相同；步骤23 ;将每条评论中的基本分词对应的词向量进行叠加，得到该评论的句向量；所述步骤5进一步包括；步骤51 ;将新的评论分成若干基本分词；步骤52 ;在评论词库中查找步骤51中各个基本分词对应的词向量；步骤53 ;将新的评论的各个基本分词对应的词向量进行叠加，得到新的评论的句向量。
3. 根据权利要求2所述的一种基于词向量的评论分析方法，其特征在于，所述步骤22 进一步包括；将基本分词作为神经网络模型的输入，使所述神经网络模型无监督学习得到该基本分词对应的词向量。
4. 根据权利要求2或3所述的一种基于词向量的评论分析方法，其特征在于，所述词向量维度为200。
5. 根据权利要求2所述的一种基于词向量的评论分析方法，其特征在于，步骤3进一步包括对每个评论类型中的评论做W下处理：步骤31 ;计算评论类型中每一条评论中的基本分词的关键性权重；步骤32 ;按照关键性权重对该评论类型中全部评论的基本分词进行降序排序；步骤33 ;选择前n个互异的基本分词作为所述评论类型的关键词；所述n取大于0且小于等于5的自然数。
6. -种基于词向量的评论分析系统，其特征在于，包括：评论收集模块，用于收集用户评论，形成评论语料库；样本句向量转化模块，用于将评论语料库的每条评论转化为维度相同的句向量；评论类型标注模块，用于设置若干评论类型，根据人工输入的标注为每条评论标注其所属的评论类型；分类器训练模块，用于W所述句向量为输入，每条句向量对应的评论类型为输出训练分类器；评论句向量转换模块，用于获取一条新的评论，并将其转化为句向量；分类器，根据新评论对应的句向量计算新评论的评论类型。
7. 根据权利要求6所述的一种基于词向量的评论分析系统，其特征在于，所述样本句向量转化模块进一步包括：样本分词模块，用于将评论语料库中的每一条评论分成若干的基本分词，对基本分词去重后得到评论词库；样本词向量转化模块，用于将每个基本分词转化为一个词向量；各个基本分词对应的词向量维度相同；样本词向量叠加模块，用于将每条评论中的基本分词对应的词向量进行叠加，得到评论语料库中各评论的句向量；所述评论句向量转换模块进一步包括：评论分词模块，用于将新的评论分成若干基本分词；评论词向量转化模块，用于在评论词库中查找新的评论中各个基本分词对应的词向量；评论词向量叠加模块，用于将新的评论的各个基本分词对应的词向量进行叠加，得到新的评论的句向量。
8. 根据权利要求7所述的一种基于词向量的评论分析系统，其特征在于，所述样本词向量转化模块进一步用于将基本分词作为神经网络模型的输入，使所述神经网络模型无监督学习得到该基本分词对应的词向量。
9. 根据权利要求7或8所述的一种基于词向量的评论分析系统，其特征在于，所述词向量维度为200。
10. 根据权利要求7所述的一种基于词向量的评论分析系统，其特征在于，评论类型标注模块进一步包括：关键性权重计算模块，用于计算评论类型中每一条评论中的基本分词的关键性权重；排序模块，用于按照关键性权重对该评论类型中全部评论的基本分词进行降序排序；关键词选择模块，用于选择前n个互异的基本分词作为所述评论类型的关键词；所述n 取大于0且小于等于5的自然数。
【专利摘要】本发明公开了一种基于词向量的评论分析方法及系统，涉及情感分析、自然语言处理等技术领域，旨在提供一种使用机器分析评论的方法及系统，借助机器做自动用户评论分析，提供工作效率。本发明技术要点：收集用户评论，形成评论语料库；将评论语料库的每条评论转化为维度相同的句向量；设置若干评论类型，根据人工输入的标注为每条评论标注其所属的评论类型；以所述句向量为输入，每条句向量对应的评论类型为输出训练分类器；获取一条新的评论，并将其转化为句向量；将新评论对应的句向量输入到所述分类器中，得到新评论的评论类型。
【IPC分类】G06F17-27, G06F17-30
【公开号】CN104573046
【申请号】CN201510027614
【发明人】廖博森
【申请人】成都品果科技有限公司
【公开日】2015年4月29日
【申请日】2015年1月20日

完整全部详细技术资料下载

当前第2页1 2