一种解决特征中和效应的多模态虚假新闻检测方法及装置

文档序号:35283450发布日期:2023-09-01 03:56阅读:33来源:国知局
一种解决特征中和效应的多模态虚假新闻检测方法及装置

本发明涉及信息,尤其涉及一种解决特征中和效应的多模态虚假新闻检测方法及装置。


背景技术:

1、现有的虚假新闻的检测方法大多使用新闻文本内容进行检测,利用先进的人工智能技术从训练数据中学习内容模式和传播模式。而社交平台上的新闻大多不只包含文本内容,而是存在文本、图片、视频等多模态内容。人工智能领域也开始逐渐关注于多模态的虚假新闻检测任务,对不同模态的内容分别编码并映射到相同的特征空间,再使用特定的融合模块将多个模态的特征进行融合,最终进行分类。

2、最新的多模态虚假新闻检测模型为cafe[chen y,li d,zhang p,et al.cross-modal ambiguity learning for multimodal fake news detection[c]//proceedingsof the acm web conference 2022.2022:2897-2905],它分别使用预训练的resnet网络结构和bert模型对图像和文本进行特征抽取,使用多层神经网络将二者的特征映射到同一空间并拼接后进行最终的真实性分类。这个模型的新颖性在于建模模态之间的不一致性来帮助上述的特征拼接操作。具体地,它使用变分编码器将每个模态的特征映射为一个高斯分布,再使用kullback-leibler散度计算分布之间的距离,以此建模出他们的不一致性。

3、将多模态新闻的特征进行融合是多模态虚假新闻检测方法的关键步骤,而现存的检测方法仅考虑单模态的特征拼接,从而导致了中和效应的问题。具体而言,中和效应是由不同模态之间的真实性的矛盾而产生的。即每个模态(如图像和文本)的真实性总是有真有假,而实际情况中,如果一条多模态的新闻中存在一个模态为假的情况,那这条新闻的真实性一定为假。正是因为这一现象,当出现一条新闻,它的两个模态一真一假时,通过像其他方法一样简单的特征拼接方法就会造成两个模态真实性的中和,从而造成错误的预测。如图1所示,为中和效应的形式描述。


技术实现思路

1、针对上述问题,本发明的目的在于提供一种解决特征中和效应的多模态虚假新闻检测方法及装置,以解决现有技术中存在的多模态特征融合导致的中和效应问题。

2、为解决上述技术问题,本发明提供如下技术方案:

3、一方面,提供了一种解决特征中和效应的多模态虚假新闻检测方法,包括以下步骤:

4、s1,对于多模态虚假新闻检测任务,给定训练数据集;所述训练数据集包括多组图像模态和文本模态的内容;

5、s2,使用深度学习模型对图像模态和文本模态的内容进行特征提取,并映射到同一特征空间,得到每组中图像模态和文本模态的深层特征,形成特征对;

6、s3,获取两个模态对应的单模态真实性预测结果;

7、s4,对于每个特征对,结合单模态真实性预测结果,将特征对融合为一个多模态特征;

8、s5,对多模态特征的真实性进行预测。

9、优选地,所述步骤s1中,训练数据集为其中为图像模态和文本模态的内容,yi∈{0,1}为新闻对应的真实性标签,0表示虚假,1表示真实。

10、优选地,所述步骤s2中,对于每张图片深层特征为对于每个文本深层特征为形成特征对为

11、其中和分别表示基于深度学习模型的图像编码器和文本编码器及其对齐操作。

12、优选地,所述步骤s3中,将单模态真实性分类的问题转化为pu学习问题;当一条新闻为真时,它的两个单模态真实性一定都为真,基于这个事实,将初始的训练数据集转化为积极的单模态数据集和无标注的单模态数据集其中m表示训练数据集中真实性标签为真的样本数;

13、在这两个数据集的基础上,将单模态真实性分类问题转化为pu学习问题,变分pu学习方法从数据集中随机地采样一个批次其中由积极子集和无标注子集该部分的深度学习目标函数为:

14、

15、其中表示基于前向传播网络的单模态真实性分类操作,用于预测zi和zt单模态的真实性,即真实或虚假;log(·)表示以自然常数e为底的对数;

16、由于zi和zt来自于不同的模态数据,为了确保使用同一套框架进行计算,基于对比学习技术提出模态对齐的目标函数:

17、

18、其中τ为温度系数,cos(·,·)为余弦相似度,exp(·)表示以自然常数e为底的指数;结合以上两个公式,单模态真实性分类器的训练目标函数如下:

19、

20、其中γ为权衡系数,至此,获得两个模态对应的单模态真实性预测结果和

21、优选地,所述步骤s4中,将单模态真实性预测结果和与单模态特征进行整合,得到多模态特征表示多模态特征融合操作。

22、优选地,所述步骤s5中,构建多模态真实性分类器来预测多模态特征的真实性表示多模态真实性分类操作;多模态真实性分类器的监督学习目标函数为:

23、

24、lce(·,·)表示标准的交叉熵损失函数;结合监督学习目标函数和最终的目标函数为:

25、

26、其中λ为权衡超参数。

27、另一方面,提供了一种解决特征中和效应的多模态虚假新闻检测装置,包括:

28、训练数据集设定模块,对于多模态虚假新闻检测任务,给定训练数据集;所述训练数据集包括多组图像模态和文本模态的内容;

29、单模态特征抽取模块,使用深度学习模型对图像模态和文本模态的内容进行特征提取,并映射到同一特征空间,得到每组中图像模态和文本模态的深层特征,形成特征对;

30、单模态真实性分类器,获取两个模态对应的单模态真实性预测结果;

31、多模态特征融合模块,对于每个特征对,结合单模态真实性预测结果,将特征对融合为一个多模态特征;

32、多模态真实性分类器,对多模态特征的真实性进行预测。

33、另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述多模态虚假新闻检测方法。

34、另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述多模态虚假新闻检测方法。

35、与现有技术相比,本发明提供的技术方案具有以下有益效果:

36、本发明针对现有的多模态虚假新闻检测方法中存在的中和效应问题,提出了一种新的多模态虚假新闻检测方法,通过设计单模态真实性分类器,并将其转化为pu学习问题进行训练,使用辅助的单模态真实性预测来完成多模态特征融合,从而解决中和效应问题,提高虚假新闻识别检测的准确率。



技术特征:

1.一种解决特征中和效应的多模态虚假新闻检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的多模态虚假新闻检测方法,其特征在于,所述步骤s1中,训练数据集为其中为图像模态和文本模态的内容,yi∈{0,1}为新闻对应的真实性标签,0表示虚假,1表示真实。

3.根据权利要求2所述的多模态虚假新闻检测方法,其特征在于,所述步骤s2中,对于每张图片深层特征为对于每个文本深层特征为形成特征对为

4.根据权利要求3所述的多模态虚假新闻检测方法,其特征在于,所述步骤s3中,将单模态真实性分类的问题转化为pu学习问题;当一条新闻为真时,它的两个单模态真实性一定都为真,基于这个事实,将初始的训练数据集转化为积极的单模态数据集和无标注的单模态数据集其中m表示训练数据集中真实性标签为真的样本数;

5.根据权利要求4所述的多模态虚假新闻检测方法,其特征在于,所述步骤s4中,将单模态真实性预测结果和与单模态特征进行整合,得到多模态特征fwm(·)表示多模态特征融合操作。

6.根据权利要求5所述的多模态虚假新闻检测方法,其特征在于,所述步骤s5中,构建多模态真实性分类器来预测多模态特征的真实性fwc(·)表示多模态真实性分类操作;多模态真实性分类器的监督学习目标函数为:

7.一种解决特征中和效应的多模态虚假新闻检测装置,其特征在于,包括:

8.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1-6任一项所述的多模态虚假新闻检测方法。

9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1-6中任一项所述的多模态虚假新闻检测方法。


技术总结
本发明提供一种解决特征中和效应的多模态虚假新闻检测方法及装置,所述方法包括:对于多模态虚假新闻检测任务,给定训练数据集;所述训练数据集包括多组图像模态和文本模态的内容;使用深度学习模型对图像模态和文本模态的内容进行特征提取,并映射到同一特征空间,得到每组中图像模态和文本模态的深层特征,形成特征对;获取两个模态对应的单模态真实性预测结果;对于每个特征对,结合单模态真实性预测结果,将特征对融合为一个多模态特征;对多模态特征的真实性进行预测。本发明能够解决多模态特征融合导致的中和效应问题,提高虚假新闻检测的准确率。

技术研发人员:李熙铭,王兵,李长春
受保护的技术使用者:吉林大学
技术研发日:
技术公布日:2024/1/14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1