一种基于词向量的评论分析方法及系统的制作方法

文档序号:8258917阅读:421来源:国知局
一种基于词向量的评论分析方法及系统的制作方法
【技术领域】
[0001] 本发明涉及情感分析、自然语言处理等技术领域。
【背景技术】
[0002] 随着电商的不断发展,网络上用户对某产品的评论是越来越多。分析用户的评论, 能够了解用户对产的看法和建议,这样有助于产品的完善,以及服务质量的提升。但是随着 用户数的不断增加,相应的评论量也增长很大,如果还是依靠人工阅读评论,了解用户意见 的话,将极大的降低工作效率,不能及时了解用户对产品或服务的意见或建议。

【发明内容】

[0003] 针对上述情况,本发明提出了一种使用机器分析评论的方法及系统,借助机器做 自动用户评论分析,提供工作效率。
[0004] 本发明中基于词向量的评论分析方法,包括:
[0005] 步骤1 :收集用户评论,形成评论语料库;
[0006] 步骤2 :将评论语料库的每条评论转化为维度相同的句向量;
[0007] 步骤3 :设置若干评论类型,根据人工输入的标注为每条评论标注其所属的评论 类型;
[0008] 步骤4 :以所述句向量为输入,每条句向量对应的评论类型为输出训练分类器;
[0009] 步骤5 :获取一条新的评论,并将其转化为句向量;
[0010] 步骤6 :将新评论对应的句向量输入到所述分类器中,得到新评论的评论类型。
[0011] 所述步骤2进一步包括:
[0012] 步骤21 :将每一条评论分成若干的基本分词,对基本分词去重后得到评论词库;
[0013] 步骤22 :将每个基本分词转化为一个词向量;各个基本分词对应的词向量维度相 同;
[0014] 步骤23 :将每条评论中的基本分词对应的词向量进行叠加,得到该评论的句向 量。
[0015] 所述步骤5进一步包括:
[0016] 步骤51 :将新的评论分成若干基本分词;
[0017] 步骤52 :在评论词库中查找步骤51中各个基本分词对应的词向量;
[0018] 步骤53 :将新的评论的各个基本分词对应的词向量进行叠加,得到新的评论的句 向量。
[0019] 所述步骤22进一步包括:将基本分词作为神经网络模型的输入,使所述神经网络 模型无监督学习得到该基本分词对应的词向量。
[0020] 优选地,所述词向量维度为200。
[0021] 所属步骤3进一步包括对每个评论类型中的评论做以下处理:
[0022] 步骤31 :计算评论类型中每一条评论中的基本分词的关键性权重;
[0023] 步骤32:按照关键性权重对该评论类型中全部评论的基本分词进行降序排序;
[0024] 步骤33 :选择前n个互异的基本分词作为所述评论类型的关键词;所述n取大于 0且小于等于5的自然数。
[0025] 本发明还提供了一种基于词向量的评论系统,包括:
[0026] 评论收集模块,用于收集用户评论,形成评论语料库;
[0027] 样本句向量转化模块,用于将评论语料库的每条评论转化为维度相同的句向量;
[0028] 评论类型标注模块,用于设置若干评论类型,根据人工输入的标注为每条评论标 注其所属的评论类型;
[0029] 分类器训练模块,用于以所述句向量为输入,每条句向量对应的评论类型为输出 训练分类器;
[0030] 评论句向量转换模块,用于获取一条新的评论,并将其转化为句向量;
[0031] 分类器,根据新评论对应的句向量计算新评论的评论类型。
[0032] 所述样本句向量转化模块进一步包括:
[0033] 样本分词模块,用于将评论语料库中的每一条评论分成若干的基本分词,对基本 分词去重后得到评论词库;
[0034] 样本词向量转化模块,用于将每个基本分词转化为一个词向量;各个基本分词对 应的词向量维度相同;
[0035] 样本词向量叠加模块,用于将每条评论中的基本分词对应的词向量进行叠加,得 到评论语料库中各评论的句向量。
[0036] 所述评论句向量转换模块进一步包括:
[0037] 评论分词模块,用于将新的评论分成若干基本分词;
[0038] 评论词向量转化模块,用于在评论词库中查找新的评论中各个基本分词对应的词 向量;
[0039] 评论词向量叠加模块,用于将新的评论的各个基本分词对应的词向量进行叠加, 得到新的评论的句向量。
[0040] 所述样本词向量转化模块进一步用于将基本分词作为神经网络模型的输入,使所 述神经网络模型无监督学习得到该基本分词对应的词向量。
[0041] 优选地,所述词向量维度为200。
[0042] 评论类型标注模块进一步包括:
[0043] 关键性权重计算模块,用于计算评论类型中每一条评论中的基本分词的关键性权 重;
[0044] 排序模块,用于按照关键性权重对该评论类型中全部评论的基本分词进行降序排 序;
[0045] 关键词选择模块,用于选择前n个互异的基本分词作为所述评论类型的关键词; 所述n取大于0且小于等于5的自然数。
[0046] 综上所述,由于采用了上述技术方案,本发明的有益效果是:
[0047] 本发明实现了评论分析的自动化、机器化,大大提高了工作效率。
[0048] 本发明采用神经网络模型计算基本分词的向量,这样表示的词向量不能能够准确 表示其对应的基本分词,还能体现词与词之间的关联关系,智能程度较高。
[0049] 本发明采用词向量的叠加方式的到句向量,避免了句向量维度增加,由于训练后 的词向量其实是将词映射到了一个新的主题维度空间,所以将词向量进行叠加还能很好的 表示句子在这样的特征空间的映射情况。这样做,不但避免了句子特征表示的向量过于稀 疏,维度过多的情况,又能很好的在低维度空间表示句子特征,且不影响分类性能。
【具体实施方式】
[0050] 本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥 的特征和/或步骤以外,均可以以任何方式组合。
[0051] 本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的 替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子 而已。
[0052] 本发明一个具体实施例包括以下步骤:
[0053] 步骤1 :整理用户评论,形成评论语料库。具体的可以使用网络爬虫从各大网页上 搜集用户的评论语句形成评论语料库。网络爬虫是一种自动获取网页内容的程序,是搜索 引擎的重要组成部分。搜集的评论语句越多,我们得到的评论语料库就越完备。
[0054] 步骤2 :将评论语料库的每条评论转化为维度相同的句向量:进一步包括使用分 词(动词,将句子进行分段)软件将评论语句分为基本分词(名词),将评论语料库中的每 个评论分词后,将得到的全部基本分词去重复后得到评论词库。在将评论词库中的每个基 本分词转化为词向量。
[0055] 本实施例使用深度学习技术训练词向量模型:
[0056] 为了突出本发明中词向量的优势,这里先阐述传统的词包模型的局限性。
[0057] 传统的词包模型是将每个词表不成一个特征向量中的一个特征。假如有一个词 典,词典中包含10个词,其中的词需要用10维向量表示,如词典中的"good"能够用词包 模型表示:v (' good')= [0,1,0, 0, 0, 0, 0, 0, 0, 0],词典中的"bad"能够用词包模型表示为 v (' bad')= [0, 0, 1,0, 0, 0, 0, 0, 0, 0]等。
[0058] 采用这种词包模型表示词存在这样的局限,当词典中的词量很大,比如达到千万 数量级别的时候,就需要千万维向量进行表示,出现维度灾难,因此需要做特征选择或者特 征提取。同时,这样的表示,很难发现词与词之间的关系,比如'fantastic'和'good'具有 相似性,然而通过词包模型,很难度量它们之间的相似度。
[0059] 基于上述两个原因促成我们对词向量的表示做了改进。我们使用了神经网络模 型,将评论词库的全部基本分词作为训练样本,输入到神经网络模型中,使神经网络模型无 监督学习得到了 200维的词向量特征。在其他实施例中,词向量维度也可以为50、100、150 等。
[0060] 将评论语料库中的一条评论中的所有基本分词对应的词向量叠加后,得到该评论 的句向量。
[0061] 假设一个评论语句S,其中Wi表示该评论经过分词后的第i个基本分词,于是有:
[0062] S=Wp w2, . . . Wi, . . . wn,其中n表示句子的词语数目。
[0
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1