本发明涉及信息检测,尤其涉及基于多任务学习的虚假新闻检测方法。
背景技术:
1、随着新闻内容不再只是使用纯文本,而是越来越多的应用文本和视觉结合的内容,增加了新闻内容虚假性的辨识难度。且虚假新闻不仅会误导人们的思想,而且会对社会产生严重的影响。因此,虚假新闻检测成为一个热门的研究方向。
2、现有技术例如:
3、cn202211137170.5公开了一种多模态虚假新闻检测方法及系统,所述方法包括:s1、对待检测新闻进行图文匹配检测,得到待检测新闻的图文匹配概率;s2、对待检测新闻进行分类预测,得到待检测新闻的初始分类概率;s3、利用图文匹配概率调整初始分类概率,得到待检测新闻的最终分类概率。
4、可知,同时现阶段模型虽然模型可以从多个模态中提取特征并进行融合,但并不能够验证这些多模态特征是否真正有效,也无法学习到跨模态的关联信息。
技术实现思路
1、为解决上述问题,本发明提供一种基于多任务学习的虚假新闻检测方法,结合视觉特征和文本特征以及两者之间的相似性进行虚假新闻检测,充分地从不同模态中抽取涵盖各自领域的有效特征,且能够有效提取和充分融合文本信息和图像信息,来检测新闻的真实性,对现阶段的社会具有重大意义。
2、为实现上述目的,本发明提供了基于多任务学习的虚假新闻检测方法,包括以下步骤:
3、s1、收集现有的新闻数据,得到原始数据集;
4、s2、预处理:
5、s21、原始数据集的张量转换;
6、s22、将原始数据集中图片和文本内容的一一对应;
7、s23、构建新的字典;
8、s24、对文本内容进行分词,将句子分成多个词块,并生成词表;
9、s3、将原始数据按照真实性分别放入真实新闻图片文件夹和虚假新闻图片文件夹中,且真实新闻图片文件夹和虚假新闻图片文件夹内均包括训练集和测试集;
10、s4、构建虚假新闻检测模型;
11、s5、向虚假新闻检测模型中输入训练集进行模型训练,直至准确率达到设定标准;
12、s6、向训练完毕的虚假新闻检测模型中输入测试集进行测试。
13、优选的,步骤s1中所述的原始数据集来源于微博或者推特,来源于微博的原始数据集包括图片、与图片对应的图片名称、文本内容和微博id,其中,文本内容格式为txt,图片格式为jpg和停用词表;
14、来源于推特的原始数据集包括图片文件夹images_train、images_validation、images_test以及文本文件train_posts.txt、validation_posts.txt、test_posts.txt。
15、优选的,在步骤s21中,将原始数据集中的图片由jpg格式转换为tensor张量。
16、优选的,步骤s22具体包括以下步骤:
17、s221、设定字典名为image_dict,图片名称为键,图片张量为值;
18、s222、读取文本内容、停用词表,生成索引文本名、图片名、标签;
19、s223、对文本内容清洗、分词,生成索引cleaned_post;
20、s224、利用步骤s222和步骤s223生成的索引和文本内容数据生成一个数据框,且数据框为[文本名,图片名,cleaned_post,标签];
21、s225、利用图片名作为关键值到image_dict中查找对应的图片,并取出其键和值赋给新列表。
22、优选的,步骤s23具体包括以下步骤:
23、将dataframe值取出赋给新列表,所有新列表合并生成一个字典,其格式为{清洗文本,图片,标签,文本名,图片名}。
24、优选的,在步骤s24中,来源于微博的原始数据集包括以下步骤:
25、对词表长度进行统计和排序,并对词表对齐,而后将词表与设定的最大词表长度对比,大于最大词表长度,则对该词表进行截断,使其等于最大词表长度;若小于最大词表长度,则进行0填充,使其等于最大词表长度;
26、来源于推特的原始数据集利用bert-base-uncased模型对文本内容进行分词。
27、优选的,在步骤s3中,使用数据包来对数据进行管理,数据装载器加载数据规范化格式,设定批量大小为32。
28、优选的,步骤s4所述的虚假新闻检测模型包括:
29、编码器,用于将新闻数据的文本信息和视觉信息,分别通过文本编码器和视觉编码器进行编码并融合为潜在向量;
30、解码器,用于从编码器生成的潜在向量重构出视觉特征和文本特征;
31、事件区分器,用于提取不同领域新闻数据的通用特征;
32、虚假新闻检测器:用于学习新闻数据的共享表示,以预测新闻的真实性。
33、优选的,步骤s5具体包括以下步骤:
34、s51、特征提取:
35、对于文本内容特征,采用预先训练bert预训练模型,提取维度为768维度的文本特征向量,再提取出倒数4层的隐藏层特征进行拼接,并将文本最终向量tf维度大小设置为32;
36、对于图片内容特征,采用预先训练的resnet-50网络进行特征提取,并设置最终图像向量vs的特征维度设置为32;
37、s52、利用编码器和解码器组成的变分自编码器重构多模态特征,挖掘模态之间的关联信息;
38、其中,模态间信息融合模块中的信息经过相互融合后的特征tv维度和自信息注意力模块中图片特征与文本特征经过自我加强后的特征vs和ts的维度均设置为32;且在整个网络的训练中,优化器设置为adam,批处理大小设置为32,迭代周期epoch设置为100,并设置early stoping,学习率设置学习率预热,丢弃率设置为0.2。
39、优选的,步骤s6具体包括以下步骤:
40、通过数据装载器将测试集送入虚假新闻检测模型,计算分别得到f1值,精确率、召回率、准确率和混淆矩阵,根据计算结果预测新闻的真实性并输出预测结果。
41、本发明具有以下有益效果:
42、1、本发明利用双分支对抗网络的特征提取的方法,提取了不同模态(文本特征和图像特征)的特征,并利用模态间信息融合和模态内信息增强的方法获得了有效的特征表示。
43、2、本发明采用一种变分自编码器来重构多模态特征,寻找跨模态信息之间的相关性,并验证了该模型提取的多模态特征的有效性,提高模型的检测能力。
44、3、本发明采用多任务学习和权重分配策略,可以帮助模型更好地利用不同任务之间的相关性和不同任务之间的差异性,从而提高模型的泛化能力和迁移能力。
45、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
1.基于多任务学习的虚假新闻检测方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于多任务学习的虚假新闻检测方法,其特征在于:步骤s1中所述的原始数据集来源于微博或者推特,来源于微博的原始数据集包括图片、与图片对应的图片名称、文本内容和微博id,其中,文本内容格式为txt,图片格式为jpg和停用词表;
3.根据权利要求2所述的基于多任务学习的虚假新闻检测方法,其特征在于:在步骤s21中,将原始数据集中的图片由jpg格式转换为tensor张量。
4.根据权利要求3所述的基于多任务学习的虚假新闻检测方法,其特征在于:步骤s22具体包括以下步骤:
5.根据权利要求4所述的基于多任务学习的虚假新闻检测方法,其特征在于:步骤s23具体包括以下步骤:
6.根据权利要求5所述的基于多任务学习的虚假新闻检测方法,其特征在于:在步骤s24中,来源于微博的原始数据集包括以下步骤:
7.根据权利要求1所述的基于多任务学习的虚假新闻检测方法,其特征在于:在步骤s3中,使用数据包来对数据进行管理,数据装载器加载数据规范化格式,设定批量大小为32。
8.根据权利要求1所述的基于多任务学习的虚假新闻检测方法,其特征在于:步骤s4所述的虚假新闻检测模型包括:
9.根据权利要求1所述的基于多任务学习的虚假新闻检测方法,其特征在于:步骤s5具体包括以下步骤:
10.根据权利要求1所述的基于多任务学习的虚假新闻检测方法,其特征在于:步骤s6具体包括以下步骤: