1.一种基于用户观点和情感分值的产品特征分析方法,其特征在于:该种基于用户观点和情感分值的产品特征分析方法包括以下基本步骤:
步骤一:录入app内用户评论数据,并提取出用户评论中的文本评论;
步骤二:根据产品的类别对所有的用户评论进行归类;
步骤三:分别为各产品类别下的用户评论提取观点,进行观点评价;
步骤四:分别为各产品类别下的用户评论进行情感分析,进行情感评价;
步骤五:对各产品类别下的观点评价和情感评价进行综合,得出产品特征评价;
步骤六:将得到的产品特征评价返回商家,进行保存。
2.根据权利要求1所述的一种基于用户观点和情感分值的产品特征分析方法,其特征在于:所述步骤一中,在提取用户评论中的文本评论后,进行数据的预处理,过滤掉文本长度较短以及评论中存在大量重复字符的评论。
3.根据权利要求1所述的一种基于用户观点和情感分值的产品特征分析方法,其特征在于:所述步骤三中,为各产品类别下的用户评论提取观点,进行观点评价,包括以下步骤:
s1.1对于各产品类别下的所有用户评论,使用lda模型提取出文本评论的观点属性面,挖掘观点的属性词。
s1.2使用word2vec模型对前一步提取到的属性词进行汇聚,语义相似的词汇聚成一个属性面。并将所有属性面分为正极性,中性,负极性三种层次,其中正极性包含用户对产品有着支持、喜欢等态度的属性面,中性包含一般、不支持不反对、可有可无等态度的属性面,负极性包含不喜欢、讨厌等态度的属性面。
s1.3对三个层次属性面的属性词应用tf-idf算法,计算观点词词频和逆向文件频率的乘积,同时对三个层次属性面中属性词的词频逆向文件频率的乘积赋予不同的权值,正极性权值为1,中性权值为0.5,负极性权值为-1。其中词频可以用tf来表示,
s1.4对产品i评论下属性词的tf-idf结果进行相加,得出产品i的观点评价:
其中gi表示产品i的观点评价,ω(x)表示属性词x所属属性面的权值,
4.根据权利要求1所述的一种基于用户观点和情感分值的产品特征分析方法,其特征在于:所述步骤三中,为各产品类别下的用户评论进行情感分析,进行情感评价,包括以下步骤:
s2.1对于各产品类别下的所有用户评论,逐条进行分词处理,解析成单词的序列<ω1,ω2,...,ωm>,其中ω为单词,m为每条评论中中包含的单词总数。
s2.2通过情感词典列表,对单词序列中所含情感词进行打分,所述情感词典列表包含积极情感词典列表,消极情感词典列表。若单词在积极情感词典列表中出现,则赋值为1;若单词在消极情感词典列表中出现,则赋值为一1;否则赋值为0。
s2.3在进行上一步情感词打分的过程中,同时抽取情感修饰词进行打分,情感修饰词即情感词附近的形容词或副词。在进行情感词评分的同时,记录下情感词前两个词是否出现情感修饰词,若存在,则通过对比情感词典列表,再上一步结果的基础上乘以相应的权重,由此得到该条评论的情感分值。此时,情感词典列表应当还包括情感修饰词典列表,情感修饰词典列表将情感修饰词分为5个情感强度1,2,3,4,5,其中1-5的权重分别代表由弱到强的情感。评论l的情感评分可表示为:
其中m代表单词序列的长度,即所含单词的个数;s(w)是情感词w的评分,又可表示为:
s(w)=ewfw
其中ew为情感修饰词的权重,取值可为1,2,3,4,5;fw为情感词性的得分,取值可为-1,0,1。
s2.4对产品i下的所有用户评论进行情感分值的累加,计算得出产品i的情感分值qi:
其中n为产品i下用户评论的条数,sl为第l条评论的情感得分。
5.根据权利要求1所述的一种基于用户观点和情感分值的产品特征分析方法,其特征在于:所述步骤五中,对各产品类别下的观点评价和情感评价进行综合,计算产品特征评价,包括以下步骤:
s3.1分别为用户观点评价和情感评价各赋予权值α,β,综合计算得出产品i的特征评价ri,具体可表示为:
ri=αgi+βqi
s3.2为产品特征评价设定一个阈值范围[a,b],a,b∈r,当产品的特征评价ri大于a时,表示产品“深受用户喜爱”,当产品特征评价在阈值范围内时,表示产品“用户感受一般”,当产品的特征评价ri小于b时,表示产品“不受用户欢迎”。