一种基于用户观点和情感分值的产品特征分析方法与流程

文档序号:19376544发布日期:2019-12-10 23:55阅读:449来源:国知局
一种基于用户观点和情感分值的产品特征分析方法与流程

本发明涉及电子商务相关技术领域,具体为一种基于用户观点和情感分值的产品特征分析方法。



背景技术:

近年来随着互联网的不断发展,电子商务平台运用在服装、美妆、书籍、食品农副产品等各个方面。其中消费之后的用户评论,消费者对产品的最真实反应,有助于商家进一步的了解产品销售的真实情况以及在消费群体中的受欢迎程度。但是,电商平台中的用户评论数量巨大,且评论内容具有随意性,如何对用户评论进行有效地挖掘,提取关于产品的特征信息,从而为商家提供更加真实的产品消费特征信息是研究的重点。

cn106355455a公开了一种从网购用户评论中抽取产品特征信息的方法,通过对用户评论进行组块分析,抽取名词性信息,搜索频繁项并过滤非产品特征。该方法仅限于提取产品名词性信息,忽略了修饰词以及情感词汇的作用,不能准确表达出产品的特征。cn106384245a公开了一种通过词性分析从多个用户对产品的评论中提取产品特征进行识别,以确定积极情绪和消极情绪,以此确定产品特征对应的满意程度。该方法分析方法较为单一,仅从用户评论的情绪出发,生成对应的满意度,分析结果不够全面。

本发明提出一种基于用户观点和情感分值增强型的产品特征分析方法,同时考虑用户观点以及情感趋向,对用户观点词进行提取汇聚,并通过tf-idf算法进行观点评价,提取情感词以及情感修饰词进行情感评价,最后将两者结合,可以更精准的分析出产品特征



技术实现要素:

本发明的目的在于提供一种基于用户观点和情感分值的产品特征分析方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于用户观点和情感分值的产品特征分析方法,该种基于用户观点和情感分值的产品特征分析方法包括以下基本步骤:

步骤一:录入app内用户评论数据,并提取出用户评论中的文本评论;

步骤二:根据产品的类别对所有的用户评论进行归类;

步骤三:分别为各产品类别下的用户评论提取观点,进行观点评价;

步骤四:分别为各产品类别下的用户评论进行情感分析,进行情感评价;

步骤五:对各产品类别下的观点评价和情感评价进行综合,得出产品特征评价;

步骤六:将得到的产品特征评价返回商家,进行保存。

优选的,所述步骤一中,在提取用户评论中的文本评论后,进行数据的预处理,过滤掉文本长度较短以及评论中存在大量重复字符的评论。

优选的,所述步骤三中,为各产品类别下的用户评论提取观点,进行观点评价,包括以下步骤:

s1.1对于各产品类别下的所有用户评论,使用lda模型提取出文本评论的观点属性面,挖掘观点的属性词。

s1.2使用word2vec模型对前一步提取到的属性词进行汇聚,语义相似的词汇聚成一个属性面。并将所有属性面分为正极性,中性,负极性三种层次,其中正极性包含用户对产品有着支持、喜欢等态度的属性面,中性包含一般、不支持不反对、可有可无等态度的属性面,负极性包含不喜欢、讨厌等态度的属性面。

s1.3对三个层次属性面的属性词应用tf-idf算法,计算观点词词频和逆向文件频率的乘积,同时对三个层次属性面中属性词的词频逆向文件频率的乘积赋予不同的权值,正极性权值为1,中性权值为0.5,负极性权值为-1。其中词频可以用tf来表示,其中m(x)代表属性词x出现的次数,m表示评论中总的词汇数。逆向文件频率用idf来表示,

n为总评论数,n(x)为包含属性词x的评论数。

s1.4对产品i评论下属性词的tf-idf结果进行相加,得出产品i的观点评价:

其中gi表示产品i的观点评价,ω(x)表示属性词x所属属性面的权值,表示属性词x的tf-idf乘积,i1,i2,i3分别代表正极性,中性,负极性三个层次的属性面。

优选的,所述步骤三中,为各产品类别下的用户评论进行情感分析,进行情感评价,包括以下步骤:

s2.1对于各产品类别下的所有用户评论,逐条进行分词处理,解析成单词的序列<ω1,ω2,...,ωm>,其中ω为单词,m为每条评论中中包含的单词总数。

s2.2通过情感词典列表,对单词序列中所含情感词进行打分,所述情感词典列表包含积极情感词典列表,消极情感词典列表。若单词在积极情感词典列表中出现,则赋值为1;若单词在消极情感词典列表中出现,则赋值为-1;否则赋值为0。

s2.3在进行上一步情感词打分的过程中,同时抽取情感修饰词进行打分,情感修饰词即情感词附近的形容词或副词。在进行情感词评分的同时,记录下情感词前两个词是否出现情感修饰词,若存在,则通过对比情感词典列表,再上一步结果的基础上乘以相应的权重,由此得到该条评论的情感分值。此时,情感词典列表应当还包括情感修饰词典列表,情感修饰词典列表将情感修饰词分为5个情感强度1,2,3,4,5,其中1-5的权重分别代表由弱到强的情感。评论l的情感评分可表示为:

其中m代表单词序列的长度,即所含单词的个数;s(w)是情感词w的评分,又可表示为:

s(w)=ewfw

其中ew为情感修饰词的权重,取值可为1,2,3,4,5;fw为情感词性的得分,取值可为-1,0,1。

s2.4对产品i下的所有用户评论进行情感分值的累加,计算得出产品i的情感分值qi:

其中n为产品i下用户评论的条数,sl为第l条评论的情感得分。

优选的,所述步骤五中,对各产品类别下的观点评价和情感评价进行综合,计算产品特征评价,包括以下步骤:

s3.1分别为用户观点评价和情感评价各赋予权值α,β,综合计算得出产品i的特征评价ri,具体可表示为:

ri=αgi+βqi

s3.2为产品特征评价设定一个阈值范围[a,b],a,b∈r,当产品的特征评价ri大于a时,表示产品“深受用户喜爱”,当产品特征评价在阈值范围内时,表示产品“用户感受一般”,当产品的特征评价ri小于b时,表示产品“不受用户欢迎”。

与现有技术相比,本发明的有益效果是:

1、精细化的产品特征分析方案,便于商家进一步了解用户的消费情况以及产品的市场情况,便于商家制定合适的市场战略。

2、通过对产品的分析,可以了解到产品的不足与优势,了解消费者的真实想法,有利于商家推出更迎合市场的产品。

附图说明

图1为该产品特征分析方法的总体流程示意图;

图2为对评论内容进行观点评价的示意图;

图3为对评论内容进行情感分析的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-2,本发明提供一种技术方案:一种基于用户观点和情感分值的产品特征分析方法,该种基于用户观点和情感分值的产品特征分析方法包括以下基本步骤:

如图1所示,通过采集电商平台内的用户评论数据,提取其中的文本评论,同时进行数据的预处理,过滤掉文本长度较短以及评论中存在大量重复字符的评论,并将文本评论按照产品类别进行分类,然后分别对文本评论进行用户观点评价以及情感评价,最后将观点评价和情感评价相结合,计算出产品特征评价,返回商家进行保存。

如图2所示,文本评论的观点评价包括以下步骤:

s1.1对于各产品类别下的所有用户评论,使用lda模型提取出文本评论的观点属性面,挖掘观点的属性词。

s1.2使用word2vec模型对前一步提取到的属性词进行汇聚,语义相似的词汇聚成一个属性面。并将所有属性面分为正极性,中性,负极性三种层次,其中正极性包含用户对产品有着支持、喜欢等态度的属性面,中性包含一般、不支持不反对、可有可无等态度的属性面,负极性包含不喜欢、讨厌等态度的属性面。

s1.3对三个层次属性面的属性词应用tf-idf算法,计算观点词词频和逆向文件频率的乘积,同时对三个层次属性面中属性词的词频逆向文件频率的乘积赋予不同的权值,正极性权值为1,中性权值为0.5,负极性权值为-1。其中词频可以用tf来表示,其中m(x)代表属性词x出现的次数,m表示评论中总的词汇数。逆向文件频率用idf来表示,

n为总评论数,n(x)为包含属性词x的评论数。

s1.4对产品i评论下属性词的tf-idf结果进行相加,得出产品i的观点评价:

其中gi表示产品i的观点评价,ω(x)表示属性词x所属属性面的权值,表示属性词x的tf-idf乘积,i1,i2,i3分别代表正极性,中性,负极性三个层次的属性面。

如图3所示,文本评论的情感评价包括以下步骤:

s2.1对于各产品类别下的所有用户评论,逐条进行分词处理,解析成单词的序列<ω1,ω2,...,ωm>,其中ω为单词,m为每条评论中中包含的单词总数。

s2.2通过情感词典列表,对单词序列中所含情感词进行打分,所述情感词典列表包含积极情感词典列表,消极情感词典列表。若单词在积极情感词典列表中出现,则赋值为1;若单词在消极情感词典列表中出现,则赋值为-1;否则赋值为0。

s2.3在进行上一步情感词打分的过程中,同时抽取情感修饰词进行打分,情感修饰词即情感词附近的形容词或副词。在进行情感词评分的同时,记录下情感词前两个词是否出现情感修饰词,若存在,则通过对比情感词典列表,再上一步结果的基础上乘以相应的权重,由此得到该条评论的情感分值。此时,情感词典列表应当还包括情感修饰词典列表,情感修饰词典列表将情感修饰词分为5个情感强度1,2,3,4,5,其中1-5的权重分别代表由弱到强的情感。评论l的情感评分可表示为:

其中m代表单词序列的长度,即所含单词的个数;s(w)是情感词

w的评分,又可表示为:

s(w)=ewfw

其中ew为情感修饰词的权重,取值可为1,2,3,4,5;fw为情感词性的得分,取值可为-1,0,1。

s2.4对产品i下的所有用户评论进行情感分值的累加,计算得出产品i的情感分值qi:

其中n为产品i下用户评论的条数,sl为第l条评论的情感得分。

最后,对各产品类别下的观点评价和情感评价进行综合,计算产品特征评价,包括以下步骤:

s3.1分别为用户观点评价和情感评价各赋予权值α,β,综合计算得出产品i的特征评价ri,具体可表示为:

ri=αgi+βqi

s3.2为产品特征评价设定一个阈值范围[a,b],a,b∈r,当产品的特征评价ri大于a时,表示产品“深受用户喜爱”,当产品特征评价在阈值范围内时,表示产品“用户感受一般”,当产品的特征评价ri小于b时,表示产品“不受用户欢迎”。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1