基于情感的新闻事件分类方法、装置、设备及存储介质与流程

文档序号:34860127发布日期:2023-07-23 06:26阅读:48来源:国知局
基于情感的新闻事件分类方法、装置、设备及存储介质与流程

本技术涉及文本分析,尤其涉及一种基于情感的新闻事件分类方法、装置、设备及存储介质。


背景技术:

1、目前,金融行业通过使用神经网络模型对日常财经新闻进行情感和事件分析,以获得对于现在及未来的资产价格走势进行分析和预测的信息。

2、为了提高情感和事件分析效率,一般只对财经新闻的标题进行情感分析和事件分析确定该财经新闻是否有价值。但由于财经新闻为了吸引读者注意力,在标题的准确信息中加入了错误的情感和事件信息,导致神经网络模型对于情感和事件的分类产生错误,由此,如何提高财经新闻情感分类和事件分类的准确性称为亟待解决的问题。


技术实现思路

1、本技术实施例的主要目的在于提出一种基于情感的新闻事件分类方法、装置、设备及存储介质,旨在提高财经新闻情感分类和事件分类的准确性。

2、为实现上述目的,本技术实施例的第一方面提出了一种基于情感的新闻事件分类方法,所述方法包括:

3、获取财经新闻语料,所述财经新闻语料包括标题数据和正文数据;

4、将所述标题数据输入预训练的编码模型中进行编码,得到标题特征表示序列;

5、将所述标题特征表示序列输入预训练的语料分类模型,获得第一事件分类概率序列和第一情感分类概率序列,所述第一事件分类概率序列包括所述财经新闻语料对应各个预设事件类型的事件分类概率,所述第一情感分类概率序列包括所述财经新闻语料对应各个预设情感类型的情感分类概率;

6、当所述第一事件分类概率序列中的最大概率小于第一预设阈值或者所述第一情感分类概率序列中的最大概率小于第二预设阈值,将所述正文数据输入预训练的编码模型中进行编码,得到正文特征表示序列;

7、将所述标题特征表示序列输入所述语料分类模型,获得第二事件分类概率序列和第二情感分类概率序列,所述第二事件分类概率序列包括所述财经新闻语料对应各个预设事件类型的事件分类概率,所述第二情感分类概率序列包括所述财经新闻语料对应各个预设情感类型的情感分类概率;

8、根据所述第二事件分类概率序列中的最大概率确定所述财经新闻语料的事件标签,以及根据所述第二情感分类概率序列中的最大概率确定所述财经新闻语料的情感标签。

9、在本技术一些可能的实施例,在获得所述第一事件分类概率序列和所述第一情感分类概率序列之后,所述方法还包括:

10、当所述第一事件分类概率序列中的最大概率大于等于第一预设阈值、且所述第一情感分类概率序列中的最大概率大于等于第二预设阈值,根据所述第一事件分类概率序列中的最大概率确定所述财经新闻语料的事件标签,以及根据所述第一情感分类概率序列中的最大概率确定所述财经新闻语料的情感标签。

11、在本技术一些可能的实施例,在确定所述财经新闻语料的所述事件标签和所述情感标签之后,所述方法还包括:

12、将所述财经新闻语料保存至与所述事件标签对应的事件集中;

13、从所述事件集中抽取所述财经新闻语料组成推荐集;

14、将所述推荐集中的所述财经新闻语料发送给目标对象的终端。

15、在本技术一些可能的实施例,所述从所述事件集中抽取所述财经新闻语料组成推荐集,包括:

16、获取预设时间段中,所述事件集中各个所述情感标签对应的事件数量比例;

17、根据各个所述情感标签对应的事件数量比例,从所述事件集中抽取与所述预设时间段对应的所述财经新闻语料组成推荐集。

18、在本技术一些可能的实施例,在将所述推荐集中的所述财经新闻语料发送给目标对象的终端之后,所述方法还包括:

19、接收所述目标对象的终端发送的反馈信息,所述反馈信息包括针对所述推荐集中的所述财经新闻语料的事件分类错误信息或者情感分类错误信息;

20、根据针对所述推荐集中的所述财经新闻语料的事件分类错误信息或者情感分类错误信息,构建所述财经新闻语料的事件分类标注标签和情感分类标注标签;

21、将所述财经新闻语料以及所述财经新闻语料对应的事件分类标注标签和情感分类标注标签加入更新训练集;

22、根据所述更新训练集对所述语料分类模型进行更新训练。

23、在本技术一些可能的实施例,在获取财经新闻语料之前,所述方法还包括:

24、根据预设数据来源采集所述财经新闻语料;

25、对采集到的财经新闻语料进行分段,得到多个分段;

26、对所述财经新闻语料进行预处理,所述预处理包括:针对所述财经新闻语料每个分段,当所述分段不包含预设的金融领域词汇集中的任意一个词汇,将所述分段删除。

27、在本技术一些可能的实施例,所述编码模型包括分词模块和自回归编码模块,所述编码模型的训练过程包括:

28、获取训练集,所述训练集包括多个财经新闻类的训练语料;

29、根据预设金融领域词汇集对所述训练语料进行切分以及排序,得到训练分词序列;

30、根据所述训练分词序列对所述训练语料进行掩码处理后输入所述分词模块中,得到训练数值化向量序列;

31、将所述训练数值化向量序列输入所述自回归编码模块中,得到预测分词序列;

32、根据所述训练分词序列和所述预测分词序列确定损失函数值;

33、根据所述损失函数值调整所述编码模型的模型参数。

34、为实现上述目的,本技术实施例的第二方面提出了一种基于情感的新闻事件分类装置,所述装置包括:

35、获取模块,用于获取财经新闻语料,所述财经新闻语料包括标题数据和正文数据;

36、第一编码模块,用于将所述标题数据输入预训练的编码模型中进行编码,得到标题特征表示序列;

37、第一事件分类模块,用于将所述标题特征表示序列输入预训练的语料分类模型,获得第一事件分类概率序列和第一情感分类概率序列,所述第一事件分类概率序列包括所述财经新闻语料对应各个预设事件类型的事件分类概率,所述第一情感分类概率序列包括所述财经新闻语料对应各个预设情感类型的情感分类概率;

38、第二编码模块,用于当所述第一事件分类概率序列中的最大概率小于第一预设阈值或者所述第一情感分类概率序列中的最大概率小于第二预设阈值,将所述正文数据输入预训练的编码模型中进行编码,得到正文特征表示序列;

39、第二事件分类模块,用于将所述标题特征表示序列输入预训练的语料分类模型,获得第二事件分类概率序列和第二情感分类概率序列,所述第二事件分类概率序列包括所述财经新闻语料对应各个预设事件类型的事件分类概率,所述第二情感分类概率序列包括所述财经新闻语料对应各个预设情感类型的情感分类概率;

40、确定模块,用于根据所述第二事件分类概率序列中的最大概率确定所述财经新闻语料的事件标签,以及根据所述第二情感分类概率序列中的最大概率确定所述财经新闻语料的情感标签。

41、为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

42、为实现上述目的,本技术实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。

43、本技术提出的一种基于情感的新闻事件分类方法、装置、设备及存储介质,其通过在编码模型中对获取的财经新闻语料中的标题数据进行编码得到标题特征表示序列,在语料分类模型中根据标题特征表示序列分别进行事件和情感分类,当得到的最大分类概率中至少一个小于对应的阈值,则将正文数据输入语料分类模型中,对正文数据分别进行事件分类和情感分类,确认财经新闻语料对应的情感标签和事件标签。通过设置标题分类的概率阈值判断标题分类结果是否可靠,当标题分类结果表示不可靠时将使用正文分类结果作为补强,提高根据财经新闻语料分类结果的可靠性,提高获取有用财经信息的效率;并且通过设置阈值而构建得到的两级分类步骤,在提高分类结果的可靠性的同时也提高了分类的效率,减少分析资源的消耗。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1