一种融合BERT-WWM与多特征的影评情感分析方法

文档序号:35994457发布日期:2023-11-16 05:01阅读:75来源:国知局
一种融合BERT-WWM与多特征的影评情感分析方法

本发明属于自然语言处理,具体涉及一种融合bert-wwm与多特征的影评情感分析方法。


背景技术:

1、随着社交媒体、在线评论平台和数字化娱乐的兴起,影评逐渐成为了人们交流观点、分享体验的重要途径。然而,影评的数量庞大和多样化,使得手动筛选和理解这些评论变得愈发困难,这也催生了影评情感分析的研究。

2、影评情感分析是一种利用自然语言处理和机器学习技术,以自动化的方式评估影评文本中的情感色彩的方法。这种技术的出现,不仅可以帮助影评平台更好地理解用户的喜好和观点,还能够为电影制片方提供有价值的市场反馈,从而更好地满足观众的需求。背后的思想是通过自动分析和分类影评中的情感,可以更加客观地了解观众的态度,为电影产业的发展提供指导。

3、传统情感分析采用构建情感词典的方法,其中包含一系列积极、消极和中性的词汇,然后通过计算文本中这些词汇的出现频率来确定情感。这种方法这考虑静态词汇不结合上下文,因此效果有限。之后出现机器学习的方法,将文本转换为特征向量,然后训练模型来预测情感,此方法依赖人工构建特征,泛化性不足。而后深度学习的出现,情感分析技术取得了新的突破。神经网络如卷积神经网络(cnn)、长短时记忆网络(lstm)和门控循环单元(gru),以及预训练语言模型,如bert、gpt和roberta,进一步提升了情感分析的性能。如今,采用多模型融合的方法成为研究情感分析的新范式。


技术实现思路

1、本发明的目的在于提供一种融合bert-wwm与多特征的影评情感分析方法,以解决上述背景技术中提出的问题。

2、为实现上述目的,本发明提供如下技术方案:一种融合bert-wwm与多特征的影评情感分析方法,包括以下步骤:

3、步骤一、影评数据获取与数据预处理;

4、步骤二、将文本映射为词向量;

5、步骤三、将词向量输入至双通道网络中,其一通道提取局部特征,其二通道提取全局特征;

6、步骤四、使用注意力机制优化局部、全局特征的权重,增强重要信息,抑制非重要信息;

7、步骤五、融合优化后的特征向量并输入到一个全连接层,使用softmax函数输出预测结果。

8、作为一种优选的实施方式,所述步骤一中利用python爬虫框架对影评网站、影视网站、论坛爬取文本数据并存储,对于原数据进行预处理,包括清洗数据、平衡数据、数据标注与数据划分。

9、作为一种优选的实施方式,所述步骤二中:采用全词掩码预训练模型bert-wwm将文本转化为词向量。

10、作为一种优选的实施方式,所述步骤三中:对于局部特征提取,利用textcnn模型通过卷积核对词向量序列计算,可得出当前卷积核对应的局部特征向量,计算输出所有大小不同的卷积核对应的局部特征向量;

11、利用bilstm模型捕捉序列的正向和反向依赖关系,从而能够提取全局特征,计算单个词向量的正向状态与反向状态,并拼接得到词向量对应的全局特征向量,计算输出所有的全局特征向量。

12、作为一种优选的实施方式,所述步骤四中:使用注意力机制优化局部、全局特征的权重。注意力机制可以用来增强重要信息的表达权重,从而更好地理解文本中的关键信息。分别对每一个局部特征向量和全局特征向量使用注意力机制,计算其对应的注意力权重分值,表示该向量的重要程度。之后将权重与对应特征向量加权求和得出融合注意力机制的局部特征向量和全局特征向量。

13、作为一种优选的实施方式,所述步骤五中:将优化后的局部特征向量和全局特征向量融合为一个强语义特征向量,并将该特征向量输入全连接层,使用softmax函数得到预测概率分值,取概率值最大的为预测结果。

14、与现有技术相比,本发明的有益效果是:

15、本发明使用bert-wwm模型将文本向量化,该模型更加适配与中文文本,更好地处理中文分词问题,从而捕捉词级别的语义和上下文信息,提升模型在中文任务上的性能,采用双通道提取双特征,textcnn通过卷积操作捕捉不同长度的文本局部特征,bilstm通过双向捕捉长距离依赖关系获取全局特征,局部特征有助于捕捉情感表达的细节,而全局特征有助于更好地理解整个文本的情感趋势和情感转变,并引入注意力机制,调整关键词权重,提高了情感分类的准确率。



技术特征:

1.一种融合bert-wwm与多特征的影评情感分析方法,包括以下步骤:

2.根据权利要求1所述的一种融合bert-wwm与多特征的影评情感分析方法,其特征在于:所述步骤一中利用python爬虫框架对影评网站、影视网站、论坛爬取文本数据并存储,对于原数据进行预处理,包括清洗数据、平衡数据、数据标注与数据划分。

3.根据权利要求1所述的一种融合bert-wwm与多特征的影评情感分析方法,其特征在于:所述步骤二中:采用全词掩码预训练模型bert-wwm将文本转化为词向量。

4.根据权利要求1所述的一种融合bert-wwm与多特征的影评情感分析方法,其特征在于:所述步骤三中:对于局部特征提取,利用textcnn模型通过卷积核对词向量序列计算,可得出当前卷积核对应的局部特征向量,计算输出所有大小不同的卷积核对应的局部特征向量;

5.根据权利要求1所述的一种融合bert-wwm与多特征的影评情感分析方法,其特征在于:所述步骤四中:使用注意力机制优化局部、全局特征的权重,注意力机制可以用来增强重要信息的表达权重,从而更好地理解文本中的关键信息,分别对每一个局部特征向量和全局特征向量使用注意力机制,计算其对应的注意力权重分值,表示该向量的重要程度,之后将权重与对应特征向量加权求和得出融合注意力机制的局部特征向量和全局特征向量。

6.根据权利要求1所述的一种融合bert-wwm与多特征的影评情感分析方法,其特征在于:所述步骤五中:将优化后的局部特征向量和全局特征向量融合为一个强语义的特征向量,并将该特征向量输入至全连接层,使用softmax函数得到预测概率分值,取概率值最大的为预测结果。


技术总结
本发明公开了一种融合BERT‑WWM与多特征的影评情感分析方法,属于自然语言处理技术领域,包括以下步骤:首先,从影视网站、论坛等利用爬虫框架获取数据,并对其进行预处理,之后,使用BERT‑WWM模型将文本编码为词向量,输出至双通道网络模型以提取特征,其中TextCNN提取局部特征,BiLSTM提取全局特征,然后利用注意力机制予以特征不同权重以优化语义表达,最后将局部与全局特征向量融合输入到全连接层计算,再使用Softmax分类输出结果;本发明通过对文本多特征提取并使用注意力机制结合语义分配权重,使得影评文本的情感分析更加准确。

技术研发人员:王旭,王卫民
受保护的技术使用者:江苏科技大学
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1