基于关键句子的Bert情感分析方法及装置

文档序号:34240990发布日期:2023-05-25 00:47阅读:30来源:国知局
基于关键句子的Bert情感分析方法及装置

本发明涉及人工智能,尤其涉及一种基于关键句子的bert情感分析方法及装置。


背景技术:

1、对于新闻类的数据进行情感分析中,一般基于对新闻类数据进行抽取后输入bert模型,确定新闻类数据的情感倾向类型。

2、现有的新闻类情感分析中,仅将新闻类数据进行直接截取并将截取得到的片段输入模型进行预测、将新闻类数据中的摘要进行匹配模型训练及预测或者基于新闻类数据进行片段级递归后进行模型预测,只截取了新闻数据的少量数据,截取的数据量不足,导致预测的准确度不高。


技术实现思路

1、本发明提供一种基于关键句子的bert情感分析方法及装置,用以解决现有技术对新闻类数据进行截取,输入模型进行预测的过程,截取的数据量不足,导致预测的准确度不高的技术问题。

2、本发明提供一种基于关键句子的bert情感分析方法,包括:

3、对新闻数据的标题数据进行数据增广处理,得到所述标题数据的多个同义数据;

4、从所述新闻数据的内容数据中,获取与所述同义数据的相似度大于预设相似度阈值的关键句子数据;

5、将得到的多个关键句子数据进行拼接,并将拼接后的句子数据输入bert模型,确定所述新闻数据的情感倾向类型,所述bert模型是基于新闻数据样本及其对应的情感倾向类型标签训练得到的。

6、根据本发明提供的一种基于关键句子的bert情感分析方法,从所述新闻数据的内容数据中,获取与所述同义数据的相似度大于预设相似度阈值的关键句子数据,包括:

7、遍历所述内容数据中的句子数据,分别确定各同义数据与所述句子数据的相似度,并将所述相似度大于预设相似度阈值的句子数据作为所述内容数据的关键句子数据。

8、根据本发明提供的一种基于关键句子的bert情感分析方法,确定各同义数据与所述句子数据的相似度,包括:

9、基于同义数据与句子数据中的共有词汇的数量、所述同义数据中所有词汇数量以及所述句子数据中所有词汇数量,确定同义数据与句子数据的相似度计算公式;

10、基于所述相似度计算公式,确定各同义数据与所述句子数据的相似度。

11、根据本发明提供的一种基于关键句子的bert情感分析方法,相似度计算公式为:

12、

13、其中,w为同义数据与句子数据的相似度,x为同义数据与句子数据中的共有词汇的数量,y为同义数据中所有词汇数量,z为句子数据中所有词汇数量。

14、根据本发明提供的一种基于关键句子的bert情感分析方法,数据增广处理包括:同义词替换处理、随机插入处理、随机交换处理以及随机删除处理中的至少一项。

15、根据本发明提供的一种基于关键句子的bert情感分析方法,将拼接后的句子数据输入bert模型之前,还包括:

16、在所述拼接后的句子数据的长度大于预设长度的情况下,对所述拼接后的句子数据进行截取,确定拼接后的句子数据的长度小于等于所述预设长度。

17、本发明还提供一种基于关键句子的bert情感分析装置,包括:

18、增广处理模块,用于对新闻数据的标题数据进行数据增广处理,得到所述标题数据的多个同义数据;

19、筛选模块,用于从所述新闻数据的内容数据中,获取与所述同义数据的相似度大于预设相似度阈值的关键句子数据;

20、模型处理模块,用于将得到的多个关键句子数据进行拼接,并将拼接后的句子数据输入bert模型,确定所述新闻数据的情感倾向类型,所述bert模型是基于新闻数据样本及其对应的情感倾向类型标签训练得到的。

21、本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述基于关键句子的bert情感分析方法。

22、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种基于关键句子的bert情感分析方法。

23、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于关键句子的bert情感分析方法。

24、本发明提供的基于关键句子的bert情感分析方法及装置,通过对新闻数据的标题数据进行数据增广处理,得到标题数据的多个同义数据。从新闻数据的内容数据中提取与多个同义数据相关度高的句子作为后续bert模型的输入,实现了从新闻数据的内容数据中获取更多能反映新闻主题数据对新闻数据的情感倾向进行预测,提升了针对新闻数据的情感倾向预测的准确性。



技术特征:

1.一种基于关键句子的bert情感分析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于关键句子的bert情感分析方法,其特征在于,所述从所述新闻数据的内容数据中,获取与所述同义数据的相似度大于预设相似度阈值的关键句子数据,包括:

3.根据权利要求2所述的基于关键句子的bert情感分析方法,其特征在于,所述确定各同义数据与所述句子数据的相似度,包括:

4.根据权利要求3所述的基于关键句子的bert情感分析方法,其特征在于,所述相似度计算公式为:

5.根据权利要求1所述的基于关键句子的bert情感分析方法,其特征在于,所述数据增广处理包括:同义词替换处理、随机插入处理、随机交换处理以及随机删除处理中的至少一项。

6.根据权利要求1所述的基于关键句子的bert情感分析方法,其特征在于,所述将拼接后的句子数据输入bert模型之前,还包括:

7.一种基于关键句子的bert情感分析装置,其特征在于,包括:

8.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述基于关键句子的bert情感分析方法。

9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于关键句子的bert情感分析方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于关键句子的bert情感分析方法。


技术总结
本发明提供一种基于关键句子的Bert情感分析方法及装置,其中方法包括:对新闻数据的标题数据进行数据增广处理,得到多个同义数据;从新闻数据的内容数据中,获取与同义数据的关键句子数据;将得到的多个关键句子数据进行拼接,并将拼接后的句子数据输入Bert模型,确定新闻数据的情感倾向类型。本发明提供的基于关键句子的Bert情感分析方法及装置,通过对新闻数据的标题数据进行数据增广处理,得到标题数据的多个同义数据。从新闻数据的内容数据中提取与同义数据相关度高的句子作为Bert模型的输入,实现了从内容数据中获取更多能反映新闻主题数据,对新闻数据的情感倾向进行预测,提升了针对新闻数据的情感倾向预测的准确性。

技术研发人员:孙哲南,张堃博,张大朋,赵晓玲,陈丹丹,弓峤
受保护的技术使用者:中国科学院自动化研究所
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1