一种面向新闻篇章的弱监督虚假文本片段过滤方法

文档序号:37595046发布日期:2024-04-18 12:31阅读:4来源:国知局
一种面向新闻篇章的弱监督虚假文本片段过滤方法

本发明属于信息处理,具体是一种面向新闻篇章的弱监督虚假文本片段过滤方法。


背景技术:

1、随着互联网的发展,网络信息传播已经成为人们获取新闻和信息的重要渠道,由于信息传播的便捷性,虚假新闻的传播也越发快速且广泛,人们对虚假新闻进行辨别需要消耗大量时间和精力,虚假新闻对社会带来了巨大的危害,因此自动对虚假新闻进行区分检测是十分有必要的。

2、例如中国专利公告号为cn110210016b的专利公开了基于风格引导的双线性神经网络虚假新闻检测方法及系统,该方案通过虚假新闻共性的语言风格来引导深度学习模型的学习过程,提升了模型的识别准确度与泛化性能。由于每个类型的新闻文本存在一定的差异性,导致文本特征的获取量加大,提高了工作量和计算时间。因此例如中国专利公告号为cn111831790b的专利公开了一种基于低门限集成与文本内容匹配的虚假新闻识别方法,该方案通过文本之间的共性关系对虚假新闻进行识别,从而提高了虚假新闻的识别效率。

3、但是,新闻在传播过程中,编者出于曝光因素的考虑,往往会采用夸大的方式进行描述,导致实际文本与标题出现偏差,新闻的实际文本内容为真实内容,但对用户具有一定的欺骗性,影响用户阅读体验,若不加以限制,会导致后续的新闻朝虚假新闻发展。


技术实现思路

1、本发明的目的是提供一种面向新闻篇章的弱监督虚假文本片段过滤方法,将用户阅读新闻篇章后的评论内容联系起来,以此判断该新闻篇章的虚假性,以提高网络信息传播过程中新闻篇章的真实性。

2、为了实现上述目的,本发明的技术方案如下:

3、一种面向新闻篇章的弱监督虚假文本片段过滤方法,包括以下步骤:步骤一、获取待识别的新闻篇章,将待识别的新闻篇章输入第一特征向量提取模型中,得到包含第一特征向量的文本片段,并基于前后顺序将文本片段进行排序,文本片段对应的序号为a1、a2、a3、...、an;

4、步骤二、将各文本片段输入第二特征向量提取模型中,得到包含第二特征向量的比对文本,基于第二特征向量对比对文本进行关联度分析,得到该第二特征向量对应的关联分词,并将关联分词按文本片段的序号进行排序,得到第一训练集,第一训练集中的关联分词对应的序号顺序为b1、b2、b3、...、bn;

5、步骤三、获取该待识别的新闻篇章的评论,再将评论输入第二特征向量提取模型中,得到评论中包含第二特征向量的训练文本,基于第二特征向量对训练文本进行关联度分析,得到该训练文本中第二特征向量的总关联分词和相似关联分词;

6、并计算相似关联分词与总关联分词的次数,得到相似关联分词与总关联分词之间的比例c,并将比例c与设定的比对比例进行对比,若比例c大于比对比例,则将该相似关联分词与比对文本中的关联分词进行对比,若一致,则获取该关联分词对应的比对文本,进入步骤四,若不一致,则将该比对文本情绪倾向输出为虚假文本并屏蔽该比对文本;若比例小于比对比例,则终止;

7、步骤四、基于相似关联分词输入情绪向量提取模型中,得到评论情绪倾向,基于步骤三中的比对文本,得到该比对文本在第一训练集中对应的bn,以及第一训练集中该bn的前后顺序的bn-1和bn+1,并将bn、bn-1和bn+1分别输入情绪向量提取模型中,得到比对文本情绪倾向,并将评论情绪倾向与比对文本情绪倾向进行一致性对比,若一致,则将该比对文本情绪倾向输出为虚假文本并屏蔽该比对文本,若不一致,则终止。

8、采用上述方案后实现了以下有益效果:

9、通过将待识别的新闻篇章进行拆分成若干包含第一特征向量的文本片段,减少后续的处理量,并能根据文本片段的序号排序,便于步骤四中的比对文本情绪倾向的获取。

10、再将读者评论的训练文本与新闻篇章的比对文本一致性判断,从而判断读者是否对该新闻篇章是否赞同,并将读者关注片段进行进一步情绪判断,以此确定该待识别的新闻篇章在引导读者的情绪倾向,从而将用户阅读新闻篇章后的评论内容联系起来,以此判断该新闻篇章的虚假性,以提高网络信息传播过程中的真实性。

11、进一步,在步骤三中,该待识别的新闻篇章没有评论时,基于当前新闻篇章的题目获取其他可信任新闻篇章,重复步骤一至步骤二的步骤,得到可信任新闻篇章的可信任比对文本,将比对文本和可信任比对文本情绪倾向中第二特征向量对应的关联分词进行一致性对比,若一致,则将该比对文本进行显示,若不一致,则将该比对文本输出为虚假文本并屏蔽该比对文本。

12、有益效果:通过将可信任新闻篇章作为参考依据,便于对没有评论的待识别的新闻篇章进行比对文本判断虚假性。

13、进一步,在步骤一至步骤四中,当比对文本被屏蔽时,基于当前新闻篇章的题目获取其他可信任新闻篇章,基于可信任新闻篇章的可信任比对文本情绪倾向与该比对文本情绪倾向进行相似性对比,若相似,则该比对文本进行修改,若不相似,则屏蔽该比对文本。

14、有益效果:因某些新闻篇章会引起与情绪向量一致的错误判断,但这些新闻篇章为真实文本,通过与可信任新闻篇章进行对比,避免因错误判断导致新闻篇章被屏蔽。

15、进一步,在步骤一至步骤四中,其中,第一特征向量和第二特征向量采用人工录入或深度学习的方式获取,情绪向量包括愤怒或恐惧情绪分词。

16、有益效果:第一特征向量和第二特征向量通过人工录入或深度学习的方式进行添加,使第一特征向量和第二特征向量具有代表意义,便于得到含有第一特征向量或第二特征向量的文本片段进行对比;愤怒或恐惧情绪分词是人情绪波动最大的情绪,当读者评论出现愤怒或恐惧情绪分词时,表明该新闻篇章在引导读者的情绪。

17、进一步,在步骤一至步骤四中,还会计算虚假文本对应的文本片段的数量,并计算虚假文本对应的文本片段数量与文本片段的总数量之间的比例d,并将比例d与设定的标准比例进行对比,若比例d大于标准比例,则将该待识别的新闻篇章进行屏蔽,若比例d小于标准比例,则终止。

18、有益效果:根据虚假文本对应的文本片段数量与文本片段的总数量之间的比例d与标椎比例进行对比,判断该待识别的新闻篇章中包含虚假文本的比例,便于对整篇新闻篇章进行屏蔽处理。

19、进一步,在步骤四中,当评论情绪倾向与比对文本情绪倾向一致时,还会基于当前新闻篇章的题目获取其他可信任新闻篇章,重复步骤四的步骤,得到可信任新闻篇章对应的可信任比对文本情绪倾向,并将该比对文本情绪倾向与可信任比对文本情绪倾向进行一致性对比,若一致,则将该比对文本情绪倾向进行显示,若不一致,则将该比对文本情绪倾向输出为虚假文本并屏蔽该比对文本。

20、有益效果:通过该比对文本情绪倾向与可信任比对文本情绪倾向进行一致性对比,能对因错误识别的比对文本进行再次区分,以提高对比对文本的虚假性或真实性的区分。

21、进一步,其中,第一特征向量、第二特征向量和情绪向量的建立以待识别的新闻篇章对应的同类型的可信任新闻篇章作为参照。

22、有益效果:以同类型的可信任新闻篇章作为参考,使得到的第一特征向量、第二特征向量和情绪向量具有参考意义,以提高获取的文本片段、比对片段和情绪倾向的准确性。

23、进一步,其中,比对比例与标准比例的建立以待识别的新闻篇章对应的同类型的可信任新闻篇章作为参照。

24、有益效果:以同类型的可信任新闻篇章作为参考,使得到的比对比例与标准比例具有参考意义,便于对比对文本进行判断。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1