一种基于实体情感识别的电商评论意见抽取方法与流程

文档序号:26007556发布日期:2021-07-23 21:26阅读:180来源:国知局
一种基于实体情感识别的电商评论意见抽取方法与流程

本发明涉及到电商评论意见抽取技术领域,尤其涉及一种基于实体情感识别的电商评论意见抽取方法。



背景技术:

随着互联网技术的日渐成熟以及智能手机的普及,出现了越来越多的电子商务平台,比如网购平台、外卖平台等,给消费者提供了很大的便利。消费者通过这些平台进行网购等操作时,往往习惯通过其他用户对于商品的评论判断商品的品质,进而决定是否进行购买,同时,对于商家和电商平台,可以通过用户的评论判断用户的喜好,进而改进产品或调整广告推送策略,从而达到提升用户体验和提高销售额的目的。用户的评论内容往往以文本为主,因此如何自动化的从大量文本中抽取用户意见就是当前亟待解决的关键问题。

然而在传统的意见抽取方法中,会通过构建情感词典的方法来判断观点词的情感倾向,这种方法忽略了词语的上下文联系,且使用场景局限大,对于词典外的词无法进行情感判断;其次,电商场景的用户评论往往复杂度较高,其中可能包含多种产品,产品的不同方面等,现有的意见抽取方法无法指向性得抽取用户感兴趣的实体和方面,而是笼统的抽取文本的观点词及情感倾向;再者,现有的意见抽取方法是对单条文本进行意见抽取,无法对同一商品的不同评论的意见进行总结。



技术实现要素:

本发明的目的就在于为了解决上述问题而提供一种基于实体情感识别的电商评论意见抽取方法。

本发明通过以下技术方案来实现上述目的:

一种基于实体情感识别的电商评论意见抽取方法,该抽取方法主要包括主要包括评论获取、模型训练/预测、意见抽取三个模块:

1)评论获取

评论获取模块包括领域定义、爬取文本评论和数据处理三个步骤。领域定义是指文本评论是来自于哪个领域,按照领域的不同,实体和方面的定义也会不同;本方案以美妆领域为研究对象,按照专家意见将方面定义为“包装”、“价格”、“味道”、“服务”、“成分”、“品牌”、“效果”、“真伪”8项,而实体主要为美妆类产品名称。

领域定义完成后,便可从对应的电商平台使用脚本爬取用户评论。

数据处理的主要目的是将文本评论处理成模型可以接受的格式,包括数据清洗、人工标注两部分,数据清洗包括去重、清理缺失值、去除文本中的诸如表情图等非法字符;人工标注是针对训练数据的步骤,主要是标注出评论中的实体以及实体的情感,便于模型开展训练;实体的情感标注包括正面、负面、中性三类。标注举例如下表所示:

2)模型训练/预测

模型训练/预测模块包括命名实体识别和实体情感识别两个步骤。

命名实体识别采用bert+crf模型。

接着将实体识别的结果输入实体情感识别模型,模型采用经过预训练的bert模型,通过训练数据对模型进行微调;bert的[cls]位置的输出为整个句子的向量表示hcls,维度为[n,d],n表示batchsize,即文本个数,d表示最后一个隐藏层的大小,实体的向量表示为he,维度为[n,d],它由组成实体的各个词的向量的平均得到,上下文的向量表示为hc,维度为[n,d],由组成上下文的各个词的向量的平均得到,上下文通常取实体左右各n个词,n的大小可动态调整。公式如下:

实体向量表示:

上下文向量表示:

其中实体的开始位置的向量为hi,结束位置的向量为hj,上下文的开始位置的向量为hk,结束位置的向量为hn。

之后将句子的向量,实体的向量和上下文的向量分别通过三个不同的全连接层,激活函数为tanh函数,得到h′cls、h′e和h′c,公式如下:

h′cls=w0(tanh(hcls))+b0

h′e=w1(tanh(he))+b1

h′c=w2(tanh(hc))+b2

其中w代表全连接层的参数矩阵,维度为[d,d],b为偏置参数,维度为[d,1]。

接着将h′cls、h′e和h′c三个向量拼接在一起,再通过一个全连接层,公式如下:

h=w3(concat(h′cls,h′e,h′c))+b3

其中w3的维度为[l,3d],l表示情感类别数量。h的维度是[n,l]。将全连接层的输出h经过softmax函数转换为概率大小,即为预测结果。

p=softmax(h)

对预测结果和真实标签计算交叉熵损失函数,将损失值使用梯度下降法进行反向传播,直至损失函数收敛,即可保存模型。预测过程和训练过程的区别在于输入数据为单纯的文本,不需要人工标注,加载保存好的模型进行预测,即可得到每条文本中每个美妆产品实体针对每个方面的情感倾向。

3)意见抽取

模型预测模块得到的实体情感信息需要进行进一步的总结归纳为用户意见,主要内容是通过投票法确定每个实体的最终情感倾向。因为同一商品的不同评论中,同一实体可能多次出现,而它们的情感预测结果可能不一致,这主要是因为两个原因,一是不同用户对同一实体的评价不一致,二是因为模型预测的误差,因此需要使用投票法对同一实体的情感进行概括总结。

假设有三条针对同一款口红商品的评论,评论a为“这款口红的包装很漂亮,但价格略高”,其中实体“口红”在“包装”方面的情感为正面,在“价格”方面的情感为负面;评论b为“这款口红质地细腻,但有一点贵”,其中实体“口红”在“效果”方面的情感为正面,在“价格”方面的情感为负面;评论c为“这款口红外观好看,价格不算贵,但是涂起来显老”,其中实体“口红”在“包装”方面的情感为正面,在“效果”方面的情感为“负面”,在“价格”方面的情感为“正面”,那么投票结果如下表所示:

具体投票时,针对同一实体的同一个方面的情感标签进行投票,假如出现两类或三类情感的投票数目相同,则投票结果默认为中性。投票结果展示了用户对于商品的具体意见,对于用户购买和商家销售都具有指导意义。

进一步的,在评论获取时所用到的技术包含语义分析、自然语言处理技术、网络爬虫技术以及大数据处理技术。

进一步的,在模型训练/预测时命名实体识别采用bert+crf模型,目的是从文本中识别出实体的位置,也就是美妆类的产品名称的位置。

进一步的,在意见抽取时针对某个领域的数据训练得到的模型可以快速移植到相似领域使用,无需重复标注数据和重复训练;比如使用某个美妆app的评论数据训练得到的模型,可以对某个网购平台下的美妆产品评论进行意见抽取,这极大扩展了模型的使用场景。

本发明的有益效果在于:

1、本发明针对电商平台评论的复杂性,构造了细粒度的用户意见抽取系统,将意见抽取的粒度细分到实体针对不同方面,使得抽取意见更加的全面真实;

2、本发明在情感预测中,舍弃传统构建情感词典的方法,而是采用bert模型,并且在训练过程中加入实体的方面信息以及实体的上下文信息,更符合文本的规律,预测更准确;

3、本发明使用投票法对同一商品的不同评论中的实体情感信息进一步总结归纳,以表格形式直观的展示出用户的意见,极大的提高了评论意见的处理效率。

附图说明

图1为本发明所述的一种基于实体情感识别的电商评论意见抽取方法的整体方案示意图。

具体实施方式

一种基于实体情感识别的电商评论意见抽取方法,该抽取方法主要包括主要包括评论获取、模型训练/预测、意见抽取三个模块:

1)评论获取

评论获取模块包括领域定义、爬取文本评论和数据处理三个步骤。领域定义是指文本评论是来自于哪个领域,按照领域的不同,实体和方面的定义也会不同;本方案以美妆领域为研究对象,按照专家意见将方面定义为“包装”、“价格”、“味道”、“服务”、“成分”、“品牌”、“效果”、“真伪”8项,而实体主要为美妆类产品名称。

领域定义完成后,便可从对应的电商平台使用脚本爬取用户评论。

数据处理的主要目的是将文本评论处理成模型可以接受的格式,包括数据清洗、人工标注两部分,数据清洗包括去重、清理缺失值、去除文本中的诸如表情图等非法字符;人工标注是针对训练数据的步骤,主要是标注出评论中的实体以及实体的情感,便于模型开展训练;实体的情感标注包括正面、负面、中性三类。标注举例如下表所示:

2)模型训练/预测

模型训练/预测模块包括命名实体识别和实体情感识别两个步骤。

命名实体识别采用bert+crf模型。

接着将实体识别的结果输入实体情感识别模型,模型采用经过预训练的bert模型,通过训练数据对模型进行微调;bert的[cls]位置的输出为整个句子的向量表示hcls,维度为[n,d],n表示batchsize,即文本个数,d表示最后一个隐藏层的大小,实体的向量表示为he,维度为[n,d],它由组成实体的各个词的向量的平均得到,上下文的向量表示为hc,维度为[n,d],由组成上下文的各个词的向量的平均得到,上下文通常取实体左右各n个词,n的大小可动态调整。公式如下:

实体向量表示:

上下文向量表示:

其中实体的开始位置的向量为hi,结束位置的向量为hj,上下文的开始位置的向量为hk,结束位置的向量为hm。

之后将句子的向量,实体的向量和上下文的向量分别通过三个不同的全连接层,激活函数为tanh函数,得到h′cls、h′e和h′c,公式如下:

h′cls=w0(tanh(hcb))+b0

h′e=w1(tanh(he))+b1

h′c=w2(tanh(hc))+b2

其中w代表全连接层的参数矩阵,维度为[d,d],b为偏置参数,维度为[d,1]。

接着将h′cls、h′e和h′c三个向量拼接在一起,再通过一个全连接层,公式如下:

h=w3(concat(h′cls,h′e,h′c))+b3

其中w3的维度为[l,3d],l表示情感类别数量。h的维度是[n,l]。将全连接层的输出h经过softmax函数转换为概率大小,即为预测结果。

p=softmax(h)

对预测结果和真实标签计算交叉熵损失函数,将损失值使用梯度下降法进行反向传播,直至损失函数收敛,即可保存模型。预测过程和训练过程的区别在于输入数据为单纯的文本,不需要人工标注,加载保存好的模型进行预测,即可得到每条文本中每个美妆产品实体针对每个方面的情感倾向。

3)意见抽取

模型预测模块得到的实体情感信息需要进行进一步的总结归纳为用户意见,主要内容是通过投票法确定每个实体的最终情感倾向。因为同一商品的不同评论中,同一实体可能多次出现,而它们的情感预测结果可能不一致,这主要是因为两个原因,一是不同用户对同一实体的评价不一致,二是因为模型预测的误差,因此需要使用投票法对同一实体的情感进行概括总结。

假设有三条针对同一款口红商品的评论,评论a为“这款口红的包装很漂亮,但价格略高”,其中实体“口红”在“包装”方面的情感为正面,在“价格”方面的情感为负面;评论b为“这款口红质地细腻,但有一点贵”,其中实体“口红”在“效果”方面的情感为正面,在“价格”方面的情感为负面;评论c为“这款口红外观好看,价格不算贵,但是涂起来显老”,其中实体“口红”在“包装”方面的情感为正面,在“效果”方面的情感为“负面”,在“价格”方面的情感为“正面”,那么投票结果如下表所示:

具体投票时,针对同一实体的同一个方面的情感标签进行投票,假如出现两类或三类情感的投票数目相同,则投票结果默认为中性。投票结果展示了用户对于商品的具体意见,对于用户购买和商家销售都具有指导意义。

优选的,在评论获取时所用到的技术包含语义分析、自然语言处理技术、网络爬虫技术以及大数据处理技术。

优选的,在模型训练/预测时命名实体识别采用bert+crf模型,目的是从文本中识别出实体的位置,也就是美妆类的产品名称的位置。

优选的,在意见抽取时针对某个领域的数据训练得到的模型可以快速移植到相似领域使用,无需重复标注数据和重复训练;比如使用某个美妆app的评论数据训练得到的模型,可以对某个网购平台下的美妆产品评论进行意见抽取,这极大扩展了模型的使用场景。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1