一种基于实体情感识别的电商评论意见抽取方法与流程

文档序号:26007556发布日期:2021-07-23 21:26阅读:来源:国知局

技术特征:

1.一种基于实体情感识别的电商评论意见抽取方法,其特征在于:该抽取方法主要包括主要包括评论获取、模型训练/预测、意见抽取三个模块:

1)评论获取

评论获取模块包括领域定义、爬取文本评论和数据处理三个步骤。领域定义是指文本评论是来自于哪个领域,按照领域的不同,实体和方面的定义也会不同;本方案以美妆领域为研究对象,按照专家意见将方面定义为“包装”、“价格”、“味道”、“服务”、“成分”、“品牌”、“效果”、“真伪”8项,而实体主要为美妆类产品名称。

领域定义完成后,便可从对应的电商平台使用脚本爬取用户评论。

数据处理的主要目的是将文本评论处理成模型可以接受的格式,包括数据清洗、人工标注两部分,数据清洗包括去重、清理缺失值、去除文本中的诸如表情图等非法字符;人工标注是针对训练数据的步骤,主要是标注出评论中的实体以及实体的情感,便于模型开展训练;实体的情感标注包括正面、负面、中性三类。

2)模型训练/预测

模型训练/预测模块包括命名实体识别和实体情感识别两个步骤。

命名实体识别采用bert+crf模型。

接着将实体识别的结果输入实体情感识别模型,模型采用经过预训练的bert模型,通过训练数据对模型进行微调;bert的[cls]位置的输出为整个句子的向量表示hcls,维度为[n,d],n表示batchsize,即文本个数,d表示最后一个隐藏层的大小,实体的向量表示为he,维度为[n,d],它由组成实体的各个词的向量的平均得到,上下文的向量表示为hc,维度为[n,d],由组成上下文的各个词的向量的平均得到,上下文通常取实体左右各n个词,n的大小可动态调整。公式如下:

实体向量表示:

上下文向量表示:

其中实体的开始位置的向量为hi,结束位置的向量为hj,上下文的开始位置的向量为hk,结束位置的向量为hm。

之后将句子的向量,实体的向量和上下文的向量分别通过三个不同的全连接层,激活函数为tanh函数,得到h′cls、h′e和h′c,公式如下:

h′cls=w0(tanh(hcls))+b0

h′e=w1(tanh(he))+b1

h′c=w2(tanh(hc))+b2

其中w代表全连接层的参数矩阵,维度为[d,d],b为偏置参数,维度为[d,1]。

接着将h′cls、h′e和h′c三个向量拼接在一起,再通过一个全连接层,公式如下:

h=w3(concat(h′cls,h′e,h′c))+b3

其中w3的维度为[l,3d],l表示情感类别数量。h的维度是[n,l]。将全连接层的输出h经过softmax函数转换为概率大小,即为预测结果。

p=softmax(h)

对预测结果和真实标签计算交叉熵损失函数,将损失值使用梯度下降法进行反向传播,直至损失函数收敛,即可保存模型。预测过程和训练过程的区别在于输入数据为单纯的文本,不需要人工标注,加载保存好的模型进行预测,即可得到每条文本中每个美妆产品实体针对每个方面的情感倾向。

3)意见抽取

模型预测模块得到的实体情感信息需要进行进一步的总结归纳为用户意见,主要内容是通过投票法确定每个实体的最终情感倾向。因为同一商品的不同评论中,同一实体可能多次出现,而它们的情感预测结果可能不一致,这主要是因为两个原因,一是不同用户对同一实体的评价不一致,二是因为模型预测的误差,因此需要使用投票法对同一实体的情感进行概括总结。

假设有三条针对同一款口红商品的评论,评论a为“这款口红的包装很漂亮,但价格略高”,其中实体“口红”在“包装”方面的情感为正面,在“价格”方面的情感为负面;评论b为“这款口红质地细腻,但有一点贵”,其中实体“口红”在“效果”方面的情感为正面,在“价格”方面的情感为负面;评论c为“这款口红外观好看,价格不算贵,但是涂起来显老”,其中实体“口红”在“包装”方面的情感为正面,在“效果”方面的情感为“负面”,在“价格”方面的情感为“正面”,具体投票时,针对同一实体的同一个方面的情感标签进行投票,假如出现两类或三类情感的投票数目相同,则投票结果默认为中性。投票结果展示了用户对于商品的具体意见,对于用户购买和商家销售都具有指导意义。

2.根据权利要求1所述的一种基于实体情感识别的电商评论意见抽取方法,其特征在于:在评论获取时所用到的技术包含语义分析、自然语言处理技术、网络爬虫技术以及大数据处理技术。

3.根据权利要求1所述的一种基于实体情感识别的电商评论意见抽取方法,其特征在于:在模型训练/预测时命名实体识别采用bert+crf模型,目的是从文本中识别出实体的位置,也就是美妆类的产品名称的位置。

4.根据权利要求1所述的一种基于实体情感识别的电商评论意见抽取方法,其特征在于:在意见抽取时针对某个领域的数据训练得到的模型可以快速移植到相似领域使用,无需重复标注数据和重复训练;比如使用某个美妆app的评论数据训练得到的模型,可以对某个网购平台下的美妆产品评论进行意见抽取,这极大扩展了模型的使用场景。


技术总结
本发明公开了一种基于实体情感识别的电商评论意见抽取方法,该抽取方法主要包括主要包括评论获取、模型训练/预测、意见抽取三个模块。有益效果在于:本发明针对电商平台评论的复杂性,构造了细粒度的用户意见抽取系统,将意见抽取的粒度细分到实体针对不同方面,使得抽取意见更加的全面真实;本发明在情感预测中,舍弃传统构建情感词典的方法,而是采用BERT模型,并且在训练过程中加入实体的方面信息以及实体的上下文信息,更符合文本的规律,预测更准确;本发明使用投票法对同一商品的不同评论中的实体情感信息进一步总结归纳,以表格形式直观的展示出用户的意见,极大的提高了评论意见的处理效率。

技术研发人员:颜丙聪;卫海天;闫峰
受保护的技术使用者:北京明略昭辉科技有限公司
技术研发日:2021.01.21
技术公布日:2021.07.23
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1