一种基于新闻传播过程的虚假新闻检测方法及相关装置

文档序号:36360894发布日期:2023-12-14 05:11阅读:72来源:国知局
一种基于新闻传播过程的虚假新闻检测方法及相关装置

本发明涉及社交网络分析领域,具体涉及一种基于新闻传播过程的虚假新闻检测方法及相关装置。


背景技术:

1、随着社交媒体的发展,人们更倾向于使用社交媒体平台获取新闻信息,不同于传统媒体,社交媒体平台有着简便、快捷的特点。虚假的新闻往往包含错误的内容并且会引发动荡。鉴于虚假新闻对社会的负面影响,愈发需要能够有效检测虚假新闻的工具。

2、关于虚假信息检测的研究工作可以分为两类:基于新闻内容与基于新闻传播网络的模型。基于新闻内容的模型认为虚假新闻与真实新闻内容的遣词造句、情感倾向或新闻配图存在明显不同,故采用自然语言处理或计算机视觉相关算法进行虚假信息检测。然而,随着技术的发展,虚假新闻制造者往往会将虚假新闻包装成真实新闻,如模仿真实新闻用词、添加编造的新闻来源、附加真实新闻图片等方法规避检测。基于新闻传播网络的模型将新闻与新闻相关的各种新闻媒介建模为传播网络,并利用相关图神经网络进行虚假新闻检测。这些方法也忽略了新闻传播过程中的时序特征。针对以上问题,本发明提出了一种基于新闻传播过程的虚假信息检测方法。对现存的虚假信息检测方法,申请人经过查新,检索到2篇和本发明密切相关的专利,分别为:

3、1.基于语义的真假性特征的多模态虚假新闻检测方法及装置,专利号:cn202211596243.7;

4、2.基于异质图卷积网络的虚假新闻识别方法,专利号:cn 202210911726.5

5、专利1提出一种基于语义的真假性特征的多模态虚假新闻检测方法及装置,该方法步骤包括:获取目标任务数据集中新闻的文本模态数据和对应的图像模态数据;对模态数据进行特征提取,得到单模态特征;对单模态特征分别进行聚类,得到语义伪标签;分别提取单模态特征的语义特征后进行学习,得到学习好的语义特征;提取单模态特征的真假特征;根据语义特征以及真假特征得到基于语义的真假性特征;融合文本模态、图像模态中基于语义的真假性特征得到新闻的多模态特征;训练虚假新闻检测网络;将所有新闻根据语义伪标签划分为多个簇,每一个簇使用对应的分类器实现簇内新闻的真假分类。

6、专利2提出一种基于异质图卷积网络的虚假新闻识别方法,包括以下步骤:1)新闻数据获取及异质新闻传播图构建;2)新闻文本特征提取:使用自然语言处理方法提取对文本的上下文交互信息;3)异质图卷积网络模型设计:①设计拓扑平滑机制为每一个节点得到一个拓扑位置权重;②设计层次图注意力机制学习不同类型节点的结构特征;4)特征融合与分类:首先将获取到的文本特征与获得的结构特征相结合,其次通过交叉熵损失函数进行训练最终得到的节点权重与节点特征向量进行虚假新闻分类。

7、专利1为基于新闻内容的检测模型,无法检测内容被伪装成真实新闻的虚假新闻;专利2为基于新闻传播网络的检测模型,但是未对时间信息进行建模且忽略了虚假信息制造者制造“回音室”的可能性。两种方法均存在一定不足。


技术实现思路

1、本发明的目的在于提供一种基于新闻传播过程的虚假新闻检测方法及相关装置,以解决上述问题。

2、为实现上述目的,本发明采用以下技术方案:

3、第一方面,本发明提供一种基于新闻传播过程的虚假新闻检测方法,包括:

4、通过新闻相关媒介以及媒介之间的信息传递关系构建动态异质网络模型,得到节点初始表征;

5、根据节点初始表征,使用时间编码与图神经网络分别提取新闻传播过程中的时空信息,得到各个传播表征;

6、根据传播表征采用transformer架构对新闻各个传播的重要程度进行建模,并且得到最终新闻表征;

7、得到新闻表征后,通过线性变换和softmax算子计算得到真假新闻的概率模型,并采用带正则项的交叉熵损失函数优化概率模型,通过概率模型预测概率,检测新闻的真假。

8、可选的,通过新闻相关媒介以及媒介之间的信息传递关系构建动态异质网络模型,得到节点初始表征:

9、将新闻来源、新闻、用户及用户评论媒介作为网络的异质性节点v∈v,将各个媒介间的消息传递方式作为网络中的异质性边(u,v)=e∈e,同时,利用时间映射函数t体现动态性,利用预训练语言模型采用层级编码模式编码节点语义信息;利用特征工程技术编码节点属性信息,将两者的表征进行拼接得到初始节点表征。

10、可选的,媒介被划分为新闻来源、新闻、用户以及用户评论四种,记作rv;以各媒介之间的信息传递方式作为动态异质网络中的异质性关系(u,v)=e∈e,其中,关系被划分为新闻来源“发布”新闻、用户评论“评论”新闻、用户“发表”用户评论、用户评论“回复”用户评论、用户评论“转发”用户评论五种,记作re;以v→rv,ψ:e→re分别表示节点和关系的类型映射函数;以t:表示节点的时间映射函数以体现动态性;形式化地,将新闻传播过程建模为:

11、

12、此外,各新闻媒介存在语义信息与属性信息,采用如下编码方式得到动态异质网络中的节点初始表征;

13、利用预训练语言模型采用层级编码模式编码新闻来源主页简介、新闻标题、新闻内容、用户简介、用户评论内容等语义信息;具体而言,针对文本a,采用分词器将其分割为句子式中ai代表第i句,q代表句子总数,利用预训练模型lm(·)对各句子进行编码,即,

14、

15、式中,ai,j表示第i句中通过分词器得到的第j项词组,qi表示该句子中的词组数量;随后,采用平均池化分别得到句子层级与文本层级的表示,并将其投影至隐空间中,即,

16、

17、

18、式中表示句子层级的表示,表示文本层级的表示,wa与ba为模型可学习的模型参数;利用z-score归一化与one-hot编码分别编码媒介属性信息,包括用户属性信息与用户评论属性信息,并将其投影至隐空间中,将媒介两方面信息拼接得到媒介初始表征。

19、可选的,使用时间编码与图神经网络分别提取新闻传播过程中的时空信息,得到各个传播表征:

20、将新闻本身建模为第1次传播,新闻的k阶邻居建模为第k+1次传播;同时,新闻随着媒介传播过程中存在时空信息,利用时间编码器建模时间信息并利用图神经网络提取空间信息;首先,对不同关系采用参数不同的编码器tψ(u,v)(·)编码时间差并附加于目标节点得到表征rv,同时,新闻u的初始表征ru即该新闻第1次传播的表征;其次,采用消息传递机制的图神经网络聚合传播过程中的空间信息,并以第l层的图神经网络输出作为第l+1次传播的表征。

21、可选的,基于时空表征的新闻传播特征提取过程中,采用时间编码器提取动态异质网络中关系e=(u,v)附加于v的时序信息,保留新闻信息在不同媒介间传播的时间间隔信息;针对不同类型关系采用不同时序编码参数,即

22、

23、式中表示节点初始表示,mean(·)为平均池化函数,tψ(u,v)(·)为针对关系ψ(u,v)的时间编码器,形式化地,针对特定关系的编码器t(·)而言:

24、t(δt)=wt·base(δt)+bt

25、式中wt和bt为模型可学习参数,base(δt)表示由δt产生的维度可控的时间向量,其中第i维通过下式得到:

26、

27、式中τ为可控的平滑参数;

28、采用图神经网络以聚合异质动态网络的异质空间信息,将第l层图神经网络的输出作为第l+1次传播的表征,形式化地,采用如下基于消息传递机制的图神经网络:

29、

30、

31、式中aggr(·)表示消息聚合函数,update(·)表示消息更新函数,nr(u)表示节点u通过关系r连接的所有邻居,表示节点u经过l层神经网络的表征,对于新闻节点而言,也是l+1次传播的表征,模型共采用l层图神经网络;表示附加了时间信息的初始节点表征。

32、可选的,根据传播表征采用transformer架构对新闻各个传播的重要程度进行建模,并且得到最终新闻表征:

33、针对每个新闻节点u得到的各个传播过程表征通过transformer架构建模各个传播过程的重要性,并得到最终新闻表征;针对新闻u而言,构造可学习的表征hcls,通过transformer架构后,其能够聚合各个传播表征的信息,以得到最终新闻表征;采用多头attention机制使各个传播表征交互,形式化地,

34、qc,i=wc,q·xi+bc,q

35、kc,i=wc,k·xi+bc,k

36、vc,i=wc,v·xi+bc,v

37、式中,xi表示第i项输入数据q,k及v分别代表了attention机制中的query、key以及value,w和b均为模型可学习参数;随后,根据以下公式计算attention权重:

38、

39、式中αc,ij表示第c项分类头下xi和xj之间的权重,<q,k>表示算子d为可控隐藏维数;随后根据attention权重聚合各个传播的表征,即

40、

41、式中c为可控的attention头数;注意到,z0为最终该新闻表示zu,并且可以通过下式得到各个传播表征的重要程度:

42、

43、可选的,通过模型得到新闻表征后,通过线性变换和softmax算子计算模型预测概率,并采用带正则项的交叉熵损失函数优化模型参数:

44、模型包括了将新闻传播过程建模成异质动态网络,通过预训练语言模型与特征工程方法得到新闻传播初始表征的过程;通过时间编码与图神经网络聚合动态异质网络的时空信息以得到各个传播表征的过程;通过transformer架构聚合新闻表征,计算各个传播重要性的过程;通过有监督方法优化模型参数以提升模型检测假新闻能力;

45、采用线性变换将新闻表示zu投影至分类敏感空间并使用softmax算子得到预测概率,即

46、

47、式中w和b为模型可学习参数,σ(·)表示非线性的激活函数,表示为真假新闻的概率;并采用如下交叉熵损失函数优化模型参数:

48、

49、式中θ表示模型所有可学习参数集合,yu表示该新闻为真假的真实概率,λ表示可控的正则项权重超参数。

50、第二方面,本发明提供一种基于新闻传播过程的虚假新闻检测系统,包括:

51、动态异质网络构建模块,用于通过新闻相关媒介以及媒介之间的信息传递关系构建动态异质网络模型,得到节点初始表征;

52、传播表征获取模块,用于根据节点初始表征,使用时间编码与图神经网络分别提取新闻传播过程中的时空信息,得到各个传播表征;

53、新闻表征获取模块,用于根据传播表征采用transformer架构对新闻各个传播的重要程度进行建模,并且得到最终新闻表征;

54、优化模块,用于通过模型得到新闻表征后,通过线性变换和softmax算子计算模型预测概率,并采用带正则项的交叉熵损失函数优化模型参数。

55、第三方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现一种基于新闻传播过程的虚假新闻检测方法的步骤。

56、第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现一种基于新闻传播过程的虚假新闻检测方法的步骤。

57、与现有技术相比,本发明有以下技术效果:

58、本发明使用新闻相关媒介建模动态异质网络,利用时间编码与图神经网络提取动态异质网络时空信息,得到新闻传播过程中各个传播的表征,利用transformer架构建模各个传播的重要性,并且得到最终新闻表征,并以此实现虚假新闻检测任务,提出的虚假信息检测模型能够建模新闻传播的过程,并且计算各个传播的重要程度,解决了“回音室”等难点,增强了虚假新闻检测的鲁棒性,同时能够生成高质量的新闻表示,使得本发明与其它虚假新闻检测相比,具有明显的优势。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1