网购评论的分析处理方法与流程

文档序号:12008092阅读:225来源:国知局
本发明涉及网络技术领域,具体地说,是涉及一种网购评论的分析处理方法。

背景技术:
随着信息技术的进一步发展,互联网已经成为当今社会人们获取信息的重要渠道。互联网快捷、方便的特性,以及强大的交互能力,为人们交流思想、阐明观点、发表意见提供了新的平台。由于受到互联网迅猛发展的影响,一个崭新的领域应运而生----电子商务。电子商务是在全球各地广泛的商业贸易活动中,在互联网开放的网络环境下,基于浏览器或服务器应用方式,买卖双方不谋面地进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付以及各种商务活动、交易活动、金融活动和相关的综合服务活动的一种新型的商业运营模式。正因为电子商务是不谋面的商贸活动,所交易的商品并不能直观地展现在购买者面前,只能以文字描述或图片的形式展现,所以当人们通过网络购物后,会对所购买的商品做出评价,从而反映出商品的质量好坏、商品特征或实用性等信息,这样的评价对其他的购买者有着重要的参考作用。在现有技术中,为了方便购物者获得商品的客观的评价信息,往往采用特定的评论分析方法,但是,当前的评论分析方法只是仅仅针对评论的自然语言本身进行处理。举例来说,某些商品的评论并不能突出地反应该商品的特性信息,如“暂时还没有发现任何缺点”,这样的评论不能明显的看出商品的好坏、实用性等信息,所以,单从评论的自然语言本身进行分析处理,并不能筛选出对用户最有参考价值的商品评论观点。因此,如何筛选出对用户最有参考价值的商品评论观点,便成为亟待解决的技术问题。

技术实现要素:
本发明所要解决的技术问题是提供一种网购评论的分析处理方法,以解决现有技术中评论分析方法对评论的自然语言本身进行分析处理,无法达到筛选出对用户最有参考价值的商品评论观点。为解决上述技术问题,本发明提供了一种网购评论的分析处理方法,其特征在于,包括:从某商品的网购评论中提取出的观点词和特征词,将所述观点词和特征词组成特征观点对;根据提取出的所述观点词确定所述观点词的情感倾向;根据所述情感倾向和所述特征观点对,计算出每个特征在该商品上的情感分布函数v,以及每个特征在该商品所属小类上的情感分布函数vC;根据v和vC的偏差得到该商品上不同特征词的分数,将分数值最高和/或最低的多个特征词作为该商品的优缺点评论。优选地,其中,所述从某商品的网购评论中提取出的观点词和特征词,进一步为:对某商品的网购评论中以形容词为主出现的词汇的比例和频率进行统计,将统计值最高的一个或多个词汇作为观点词,以及通过设置的条件从某商品的网购评论中选取出以名词为主的词汇进行统计,将统计值最高的一个或多个词汇作为特征词。优选地,其中,所述通过设置的条件从某商品的网购评论中选取出以名词为主的词汇进行统计,将统计值最高的一个或多个词汇作为特征词,进一步为:从某商品的网购评论中的选取出名词或词组为主的词汇,计算每个词汇在该商品所在小类的支持度值,以及该小类所属大类的支持度值;通过设置的条件将符合条件的名词或词组为主的词汇作为特征词。优选地,其中,所述通过设置的条件将符合条件的名词或词组为主的词汇作为特征词,进一步包括:通过设置的最低小类的支持度的阈值、最低大类的支持度的阈值、以及停用词表,判断选取出的名词或词组为主的词汇在该商品所在小类的支持度值是否大于最低小类的支持度的阈值,或者,判断选取出的名词或词组为主的词汇在该商品所在小类所属大类的支持度值是否大于最低大类的支持度的阈值,当上述条件之一满足时,判断该名词或词组为主的词汇是否出现在所述停用词表中,如没有出现,则将该名词或词组为主的词汇作为特征词。优选地,其中,所述根据提取出的所述观点词确定所述观点词的情感倾向,进一步为:根据设置所述观点词的情感倾向向量,对提取出的所述观点词确定其情感倾向值,如该观点词的情感倾向值高于设置的判断方向值,且通过否定词表中的否定词并没有出现在该观点词前/后时,则该观点词的情感倾向为正向;如低于设置的的判断方向值,或通过否定词表中的否定词判断出在该观点词前/后出现时,则该观点词的情感倾向为负向。优选地,其中,所述根据v和vC的偏差得到该商品上不同特征词的分数,进一步为:根据v和vC的偏差通过1-cos(v,vC)的方式得到该商品上不同特征词的分数。优选地,其中,进一步为:根据v和vC的偏差通过(1-cos(v,vC))*log2(pos+neu+neg+1)的方式得到该商品上不同特征词的分数。与现有技术相比,本发明所述的一种网购评论的分析处理方法,达到了如下效果:1)本发明采用评论的平均值偏差理论,实现有效筛选出对用户最有参考价值的商品评论观点。2)本发明可直接筛选出用户最关心的商品有别于其他同类商品的卖点(优点)和缺点,极大增加了参考信息的价值。附图说明此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1为本发明实施例所述的一种网购评论的分析处理方法的流程示意框图。具体实施方式如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明本发明的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。以下结合附图对本发明作进一步详细说明,但不作为对本发明的限定。如图1所示,是本发明实施例所述的一种网购评论的分析处理方法流程,包括:步骤101,从某商品的网购评论中提取出的观点词和特征词,将所述观点词和特征词组成特征观点对;步骤102,根据提取出的所述观点词确定所述观点词的情感倾向;步骤103,根据所述情感倾向和所述特征观点对,计算出每个特征在该商品上的情感分布函数v(v=<pos,neu,neg>;其中pos、neu、neg、分别表示该特征在好评、中评、差评中被提及次数的期望值),以及每个特征在该商品所属小类上的情感分布函数vC(vC=<posC,neuC,negC>);步骤104,根据v和vC的偏差(本发明实际上采用的是平均值偏差理论来操作)得到该商品上不同特征词的分数(该特征词的分数也就是属性分数,后续不再赘述),将分数值最高和/或最低的多个特征词作为该商品的优缺点评论。其中,进一步地,对于步骤101来说,其中从某商品的网购评论中提取出的观点词和特征词,这一过程具体为:对某商品的网购评论中以形容词为主出现的词汇的比例和频率进行统计,将统计值最高的一个或多个词汇作为观点词,以及通过设置的条件从某商品的网购评论中选取出以名词为主的词汇进行统计,将统计值最高的一个或多个词汇作为特征词。其中,对某商品的网购评论中以形容词为主出现的词汇的比例和频率进行统计,将统计值最高的一个或多个词汇作为观点词。这一过程中对以形容词为主出现的词汇的比例和频率进行统计,在本实施例中主要是统计正面评论中出现的比例和频率,通过设定的规则(所谓设定的规则主要是通过一些筛选工具筛选出表达意义明确的词汇作为后续用到的观点词)判断出以形容词为主出现的词汇,将统计值最高的一个或多个词汇作为观点词。其中,通过设置的条件从某商品的网购评论中选取出以名词为主的词汇进行统计,将统计值最高的一个或多个词汇作为特征词。这一过程中在本实施例中具体为:1)从某商品的网购评论中的选取出名词或词组为主的词汇,计算每个词汇在该商品所在小类的支持度值(即有百分之多少的评论提到了这个词),以及该小类所属大类的支持度值;2)通过设置的条件(即最低小类的支持度的阈值、最低大类的支持度的阈值、以及停用词表)将符合条件的名词或词组为主的词汇作为特征词;(即通过设置的最低小类的支持度的阈值、最低大类的支持度的阈值、以及停用词表,判断选取出的名词或词组为主的词汇在该商品所在小类的支持度值是否大于最低小类的支持度的阈值,或者,判断选取出的名词或词组为主的词汇在该商品所在小类所属大类的支持度值是否大于最低大类的支持度的阈值,当上述条件之一满足时,判断该名词或词组为主的词汇是否出现在所述停用词表中,如没有出现,则将该名词或词组为主的词汇作为特征词)。这里所述的停用词表,为全局手工维护的一个停用词表。这个停用词表虽然是人工维护的,本实施例主要是挑出现频率高的词不能体现特征的词或词组作为停用词放入停用词表,其实量并不大(目前本实施例只有100多个,本领域技术人员经过统计在全部网购商品上,停用词不会超过500个左右)。对于上述“选取出的名词或词组为主的词汇在该商品所在小类的支持度值是否大于最低小类的支持度的阈值,或者,选取出的名词或词组为主的词汇在该商品所在小类所属大类的支持度值是否大于最低大类的支持度的阈值”之所以采用或的条件,是为了每个小类既可以稳定地从大类中继承一些常用属性,又可以具有一些自己具有的特殊属性。进一步地,对于步骤101来说,其中,将所述观点词和特征词组成特征观点对;这一过程具体为:根据所述特征词所在位置,查找其之后或之前的词或词组中是否提及所述观点词,如提及则将所述观点词与所述特征词合并后组成特征观点对。进一步地,对于步骤102,根据提取出的所述观点词确定所述观点词的情感倾向;这一过程具体为:1)设置所述观点词的情感倾向向量(A)为A=<#pos,#neu,#neg>/<#pos+#neu+#neg>,其中,#pos代表好评数量,#neu代表中评数量,#neg代表差评数量;2)根据设置的所述观点词的情感倾向向量,对提取出的所述观点词确定其情感倾向值,如该观点词的情感倾向值高于设置的判断方向值,且通过否定词表中的否定词并没有出现在该观点词前/后时,则该观点词的情感倾向为正向;如低于设置的的判断方向值,或通过否定词表中的否定词判断出在该观点词前/后出现时,则该观点词的情感倾向为负向;(本实施例中0.5以上是正向,以下是负向。但实际当中,由于数据中负向评论质量比较差(许多评论例如都是:“暂时还没有发现任何缺点”),因此这个阈值(设置的判断方向值)要偏高一点,一般来说0.7以上是正向,以下是负向)。其中,所述否定词表中的否定词的初始设置,一般是通过先把所有观点词的前一个词都收集出来,作为候选否定词。对于每个候选否定词,计算其平均否定强度,并按这个值排序。从平均否定强度比较高的否定词中挑出作为否定词表的否定词。进一步地,对于步骤104来说,根据v和vC的偏差可以通过1-cos(v,vC)的方式得到该商品上不同特征词的分数,由于光用这个计算会导致结果倾向于选出现次数少的属性。当然为了更准确的得到该商品上不同特征词的分数,一般采用(1-cos(v,vC))*log2(pos+neu+neg+1),这里主要是希望选出现次数比较多的属性(热门属性)。本发明实施例通过上述方法,可以直接从海量的商品评论中,轻松的摘取出任何一个商品的最突出的优点和缺点评论(例如:5个优点和3个缺点),从而获得该商品的一个概观认识,给网购用户提供有价值的参考信息。与现有技术相比,本发明所述的一种网购评论的分析处理方法,达到了如下效果:1)本发明采用评论的平均值偏差理论,实现有效筛选出对用户最有参考价值的商品评论观点。2)本发明可直接筛选出用户最关心的商品有别于其他同类商品的卖点(优点)和缺点,极大增加了参考信息的价值。上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1