一种基于粗细粒度数据增强的虚假新闻识别方法与装置

文档序号:37158535发布日期:2024-02-26 17:24阅读:14来源:国知局
一种基于粗细粒度数据增强的虚假新闻识别方法与装置

本发明涉及新闻可信度认证研究范畴,具体来说,涉及一种基于粗细粒度数据增强的虚假新闻识别方法及装置。


背景技术:

1、近年来社交媒体凭借互动便捷性、传播性、准入门槛低等优势,已成为重要的新闻信息平台。然而,社交么媒体平台也伴随着误导性信息和不准确报道的蔓延。据研究数据显示,超过70%的网民在某种程度上曾受到过虚假新闻的影响,其中近30%的人表示曾因虚假信息改变了自己的观点或行为。虚假新闻不仅误导公众、扰乱社会秩序,还会影响投资决策和公共舆论。因此,如何设计一种高性能的虚假新闻检测方法已成为自媒体时代亟须解决的问题。

2、目前前沿的虚假新闻检测方法侧重于新闻特征的多尺度挖掘,基于多尺度特征学习实现新闻真实性的判别。以挖掘多尺度特征为目标,yang wu使用bert模型提取新闻语义特征,xueyao zhang提取新闻情感与新闻评论情感协助新闻真实性的判断,yongchun zhu提取词语、情感、风格三种视图的交互特征并证明了方案的先进性,qiang sheng引入新闻环境指导新闻多视图特征的学习。

3、尽管这些方法在虚假新闻检测领域的任务上取得了显著的进展,但很少有针对虚假新闻数据分布的研究。事实上,虚假新闻数据集的分布不平衡仍限制了虚假新闻检测的效果。根据洞见研报的调查报告,针对一定时间段内的新闻内容分析显示,虚假新闻仅占整体新闻内容不到10%。由于虚假新闻数据稀缺,模型难以充分学习和识别虚假新闻的特征,检测模型会倾向于较多出现的类别,即真实新闻,这导致对虚假新闻的识别能力不足。


技术实现思路

1、本发明要解决的技术问题是:针对上述存在的问题,提出一种基于粗细粒度数据增强的虚假新闻识别方法。

2、本发明所采用的技术方案是:一种基于新闻环境信息建模的虚假新闻检测方法,其特征在于:获取待测新闻,爬虫爬取待测新闻的相关权威新闻;划分待测新闻语句,根据待测新闻真实性获得粗粒度数据增强的虚假新闻数据集;通过对待测真实新闻使用深度学习模型生成实体,经实体采样,获取待测新闻的细粒度数据增强的新闻数据集;通过对待测新闻相关的权威新闻学习,构建待测新闻环境空间;使用专家网络获取待测新闻的多视图特征,根据交叉注意力机制挖掘潜在的多视图交互特征;由新闻环境空间引导,对多视图交互特征重构与拼接,基于拼接的多视图交互特征判断新闻真实性。

3、本发明所述的虚假新闻检测方法,其中爬虫爬取待测新闻的相关权威新闻的具体步骤包括:使用lda主题模型抽取待测新闻的主题,以抽取到的主题为检索词,基于scrapy爬虫框架实现权威媒体目标页面解析、新闻内容获取。

4、本发明所述的虚假新闻检测方法,其中划分待测新闻语句,使用unilm根据待测新闻真实性获得粗粒度数据增强的虚假新闻数据集具体步骤包括:针对真实新闻,使用大语言模型剔除待测新闻中的无用信息,提取待测新闻的摘要,获得信息密度更高的待测新闻;提取待测新闻语句中与新闻摘要d相似度最高的语句hi,设计unilm模型损失机制训练得到粗粒度数据增强的待测新闻的负样本;损失函数为其中,s′与s″分别为经unilm模型输出后核采样和集束采样得到的语句,t为待测新闻语句长度,relh(a,b)为语句b和语句a的关联度。

5、本发明所述的虚假新闻检测方法,其中通过对待测真实新闻使用大语言模型生成实体,经实体采样,获取待测新闻的细粒度数据增强的新闻数据集,具体步骤包括:使用大语言模型抽取待测真实新闻中的实体e={e0,e1…eh-1,eh},结合待测真实新闻,提取唯一核心实体ei,,h为待测新闻包含实体的数量,设计unilm模型损失机制训练得到细粒度数据增强的待测新闻负样本,计算损失为其中,e′与e″分别为经unilm模型输出后核采样和集束采样生成的实体,rele(a,b)为实体b与实体a的关联度。

6、本发明所述的虚假新闻检测方法,其中通过对待测新闻相关的权威新闻学习,构建待测新闻空间具体步骤包括:对待测新闻发布前n天的权威新闻编码得到新闻的语义表示,基于新闻的真实性、所属领域和发布时间对新闻特征划分,得到宏观新闻集合、虚假新闻集合、真实新闻集合、领域新闻集合和时序新闻集合;对对五种新闻集合m主题感知,基于待测新闻与五种新闻集合上主题的相似度构建新闻空间;具体包括:r=∑i∈mvs·wi,其中,m={macro,real,fake,domain,temporal},vs为对待测新闻的语义特征,权重相似度ti为新闻空间特征集合i中与待测新闻语义特征vs相似度最高的主题特征。

7、本发明所述的虚假新闻检测方法,其中使用专家网络获取待测新闻的多视图特征,根据交叉注意力机制挖掘潜在的多视图交互特征具体步骤为:使用多层感知机mlp专家网络提取待测新闻的情感特征,使用textcnn专家网络提取待测新闻的语义特征,使用textrnn专家网络提取待测新闻的风格特征;得到三种视图特征后,基于交叉注意力机制,得到待测新闻的最终情感特征ve、风格特征vm和语义特征vs。

8、本发明所述的虚假新闻检测方法,其中由新闻环境空间引导,对多视图交互特征重构与拼接,基于拼接的多视图交互特征判断新闻真实性具体步骤包括:对多视图交互特征重构与拼接为其中,ve,vm和vs分别为交互情感特征、交互风格特征和交互语义特征,使用多层感知机mlp获取交互特征参数;使用具有softmax激活的全连接层将拼接的多视图交互特征投影到目标空间并获得概率分布ppred,以交叉熵误差l衡量预测概率ppred和真实标签y之间的损失,l=-∑[ylogppred+(1-y)log(1-ppred)]。

9、一种可读的存储介质,包括指令存储介质和数据存储介质,存储能被处理器执行的计算机指令和数据,其特征在于:存储任意一项虚假新闻检测方法的指令和数据。

10、一种数据处理器,具有中央处理器和可读存储介质,其特征在于:本计算机设备处理器读取数据存储介质中的数据并执行指令存储介质中的执行指令,实现基于粗细粒度数据增强的虚假新闻识别。

11、本发明基于粗细粒度数据增强的虚假新闻识别方法,通过对真实新闻语句与实体粗细粒度替换与学习产生虚假新闻,扩充虚假新闻数据,平衡真假新闻的数据分布,提升模型对虚假新闻的识别能力。



技术特征:

1.一种基于粗细粒度数据增强的虚假新闻识别方法,其特征在于:

2.根据权利要求1所述的基于粗细粒度数据增强的虚假新闻识别方法,其特征在于所述s1中基于待测新闻的主题爬取相关权威新闻;包括:

3.根据权利要求1所述的基于粗细粒度数据增强的虚假新闻识别方法,其特征在于所述s2划分待测新闻语句,根据待测新闻真实性获得粗粒度数据增强的虚假新闻数据集;包括:

4.根据权利要求3所述的基于粗细粒度数据增强的虚假新闻识别方法,其特征在于所述s3中通过对待测真实新闻使用深度学习模型生成实体,经实体采样,获取待测新闻的细粒度数据增强的新闻数据集;包括:

5.根据权利要求1所述的基于粗细粒度数据增强的虚假新闻识别方法,其特征在于所述s4中针对待测新闻相关的权威新闻,获取待测新闻环境空间;包括:

6.根据权利要求1所述的基于粗细粒度数据增强的虚假新闻识别方法,其特征在于所述s5中使用专家网络获取待测新闻的多视图特征;包括:

7.根据权利要求1所述的基于粗细粒度数据增强的虚假新闻识别方法,其特征在于所述s6中由新闻环境空间引导,对多视图交互特征重构与拼接,基于拼接的多视图交互特征判断新闻真实性;包括:

8.一种可读的存储介质,包括指令存储介质和数据存储介质,存储能被处理器执行的计算机指令和数据,其特征在于:存储权利要求1-7任意一项所述的虚假新闻检测方法的指令和数据。

9.一种数据处理器,具有中央处理器和权利要求8所述的可读存储介质;其特征在于:本数据处理器读取数据并执行可读存储介质中的执行指令,实现基于粗细粒度数据增强的虚假新闻识别。


技术总结
本发明涉及一种基于粗细粒度数据增强的虚假新闻识别方法与装置,其特征在于:获取待测新闻,爬虫实时爬取待测新闻的相关权威新闻;划分新闻语句,根据待测新闻真实性获得粗粒度数据增强的虚假新闻数据集;通过深度学习模型对待测新闻实体替换,获取真实新闻的细粒度新闻数据集;通过对待测新闻相关的权威新闻学习,构建待测新闻空间;使用专家网络获取待测新闻的多视图特征,根据交叉注意力机制挖掘潜在的多视图交互特征;由新闻环境空间引导,对多视图交互特征重构与拼接,基于拼接的多视图交互特征判断新闻真实性。本发明还提出一种计算机可读存储介质和包括该计算机可读存储介质的一种数据处理器。

技术研发人员:张明利,张卫山,刘宇儒
受保护的技术使用者:中国石油大学(华东)
技术研发日:
技术公布日:2024/2/25
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1