一种基于孪生网络的知识感知虚假新闻检测方法

文档序号：35778220发布日期：2023-10-21 13:06阅读：51来源：国知局

本发明属于人工智能领域，具体涉及社交网络数据，对社交媒体中出现的新闻，提出了一种基于孪生网络的知识感知虚假新闻检测方法。

背景技术：

1、当前的信息化时代，互联网实现跨越式发展。社交媒体凭借信息丰富、信息分享方便、传播快速且广泛等特点，使其成为大多数人获取和交流信息的平台。随着时代的发展，公众获取新闻的渠道也发生了变化。在前互联网时代，主要通过官方媒体获取新闻。在目前所处的移动互联网时代，专业媒体、自媒体、微信、微博、抖音、今日头条等都成为新闻发布和传播的平台。

2、随着网络媒体数量的增加，网络新闻用户规模也呈现逐年递增的趋势。由于社交网络使用方便，用户数量逐年增长，越来越多的用户在网络上发布和传播新闻，使得社交媒体上的虚假新闻数量飞速增长。虚假新闻通过扭曲真实事实或根据个人意愿随意编造产生,由于编写者往往会紧贴当下的热点事件，所以虚假新闻能够激发用户共情，更容易被用户转发和分享。虚假新闻具有传播速度快、传播影响强的特点，它的广泛传播会给社会和民众造成极大的负面影响，如影响媒体的权威性和公信力，破坏健康的网络舆论环境，损坏相关组织或个人的利益等。因此，进行社交媒体虚假新闻检测是一个亟需研究的问题。

3、虚假新闻检测目前的方法主要包括手工构建特征并输入到分类器模型中进行分类预测，以及使用各种深度神经网络自动提取新闻中的特征并完成新闻分类。由于新闻蕴含丰富的信息，仅通过新闻文本难以判定新闻的真假，越来越多的研究者开始关注新闻文本特征之外的信息，如用户的基本信息、社交网络特征等，希望能够更加充分的利用各类特征，从而在实际应用中进一步提高虚假新闻检测的准确性。

4、尽管已有的虚假新闻检测方法取得了比较好的检测效果，但它们往往忽略了人们在判断新闻真假时通常会用的外部知识。虚假新闻检测是一项复杂并且很具有挑战性的任务，由于新闻本身具有的及时性、蕴含信息丰富等特点，使得仅根据新闻本身很难对新闻内容进行较好的理解。为解决上述问题，在虚假新闻检测中引入外部知识十分必要。此外，考虑到同类别的新闻之间存在相似性特征，不同类新闻之间存在差异性特征，且每条新闻对应的知识在一定程度上反应新闻的真假性。因此，本发明提出一个两阶段的基于孪生网络的知识感知虚假新闻检测方法，利用构建的孪生网络捕捉相同类别的新闻或实体知识之间存在的相似性特征以及不同类别的新闻或实体知识之间存在的差异性特征，并将这些特征与新闻相融合，辅助进行虚假新闻检测。

5、综上所述，基于孪生网络的知识感知虚假新闻检测是一项创新的研究问题，具有重要的研究意义和应用价值。

技术实现思路

1、本发明的目的是解决现有的虚假新闻检测方法中对新闻文本理解不充分的问题。为捕捉并融合同类别的新闻之间存在相似性特征，不同类新闻之间存在的差异性特征，以及每条新闻对应的知识在一定程度上反应新闻的真假性特征，创新性的提出了一种基于孪生网络的知识感知虚假新闻检测方法。本方法以深度神经网络为框架，捕捉同类别新闻或实体之间存在相似性特征，不同类别或实体之间存在差异性特征，这些特征反映同类新闻之间的共性以及不同类新闻之间的差异性，并通过有效的方式将新闻或实体之间的相似性特征以及差异性特征融合到新闻文本，对新闻文本的真实性进行分类。

2、本发明的技术方案

3、基于孪生网络的知识感知虚假新闻检测方法，该方法的详细内容如下：

4、第1、数据集获取；

5、本发明中使用的数据集均为英文数据集，新闻内容来自twitter平台。通过对爬取的新闻数据进行观察，发现数据中包含一些符号组合，特殊字符，重复新闻等问题。针对这些问题，本发明分别设计不同的过滤规则，使用正则表达式等方式对新闻数据进行清洗和过滤。

6、完成数据清洗工作后，对新闻文本进行过滤停用词处理。停用词是指新闻文本中出现频率较高但其本身并不具备丰富含义的词。停用词主要为语言中包含的功能词，与其他词相比没有实际的含义，如句子中的“the”、“on”、“which”等词。适当的去掉停用词，可以提升关键词出现的频率，使得句子中的关键词更为突出。

7、对社交媒体上的新闻进行处理后，抽取出新闻源文本s和真实性标签y作为新闻样本，构造新闻数据集。

8、第2、根据新闻文本，通过实体链接识别出新闻中的实体提及并链接到知识图谱中对应实体，并抽取实体作为外部知识；

9、根据实体链接工具tagme识别出新闻中的实体提及并链接到知识图谱中的对应实体；如新闻中的实体提及“oxxx”与知识图谱中的实体“barack oxxx”相对应。通过实体链接后，可以获得新闻文本对应的实体序列e＝{e1,e2,…,en}。

10、定义1：实体链接，定义如下：

11、将文本中所提及的实体链接到知识库中相应实体的过程。实体链接的输入通常包括实体的指代(提及)和上下文，以及待链接的知识库；实体链接的输出是实体提及所对应的知识库中的实体。

12、定义2：知识图谱，定义如下：

13、知识图谱是一种以实体为节点，以关系为边的有向图，边可以描述两个实体之间的关系。知识图谱以三元组的形式存储。

14、第3、构造新闻样本对和实体样本对；

15、样本对的形式为三元组(x1,x2,c)组成，其中x1和x2是一对样本，c∈{0,1}表示x1和x2是相似的(c＝1)还是不同的(c＝0)。本方法中采用样本组合的方式构造样本对，对于新闻样本对的构造，将同类别的两条新闻构造成相似新闻样本对，用(si,s j,c＝1)表示，即两条新闻均为真新闻或均为假新闻。不同类别的两条新闻构造成不相似新闻样本对，用(sm,sn,c＝0)表示，即两条新闻一条为真新闻，一条为假新闻。对于实体对的构造，选用同类别新闻对应的实体序列构造为相似实体对，用(ei,ej,c＝1)表示，即两个实体序列样本均来自真新闻或均来自假新闻对应的实体序列。选用不同类别对应的实体序列构造为不相似实体对，用(sm,sn,c＝0)，即两个实体序列一个来自真新闻对应的实体序列，另一个来自假新闻对应的实体序列。

16、在进行样本对构造时，当新闻中的真新闻数量为a，假新闻数量为b时，通过样本组合的方式构造样本对，可以得到相似样本对的数量为不相似样本对的数量为可以看到，当数据集样本数量较多时，构造的样本对数量十分庞大，此时，用所有样本对训练神经网络是不可行的。因此，对于规模较大的数据集，本方法选取数据集中的部分样本进行样本对构造。

17、第4、构建新闻孪生网络，进行新闻样本对相似性判断任务；

18、孪生网络由两个神经网络分支组成，输入是一个样本对，输出是样本对是否相似。本方法中采用transformer编码器作为新闻孪生网络中的基础网络，原因是transformer能够很好的学习句子中的长距离依赖关系，并且具有较强的特征提取能力。新闻孪生网络的输入为新闻样本对，通过孪生网络中的两个分支分别对样本对中的两个新闻样本进行编码。网络中的两个分支共享网络参数w，使得模型需要学习的参数更少，并确保语义空间中成对表示的一致性，因此，孪生网络需要的训练数据相对较少，也不太容易产生过拟合现象。新闻样本对中的新闻si和sj经过孪生网络进行编码后，获得输出表示osi和osj，然后将两个输出表示融合并输入到softmax层预测样本对是否相似。在训练过程中使用交叉熵分类损失将网络预测结果与该样本对的标签进行比较：

19、ca＝softmax([osi,osj]ws+bs)

20、

21、其中，n为新闻样本对的数量，pa为新闻孪生网络对新闻样本对a的预测输出，ca为该样本对的真实类别，θ1表示网络中的参数。

22、第5、构建实体孪生网络，进行实体样本对相似性判断任务；

23、实体孪生网络与新闻孪生网络相似，均采用transformer编码器作为两个分支的基本网络。网络中的参数w由两个分支共享，每个实体样本对中的实体序列ei和ej输入到实体孪生网络进行编码后，获得输出表示oei和oej，然后将两个输出表示融合并输入到softmax层预测样本对是否相似。训练过程中的目标是最小化交叉熵损失函数：

24、pa＝softmax([oei,oej]we+be)

25、

26、其中，n为新闻样本对的数量，pa为实体孪生网络对实体样本对a的预测输出，ca为该样本对的真实类别，θ2表示网络中的参数。

27、第6、构建虚假新闻检测模型；

28、第6.1编码新闻表示；

29、采用transformer编码器作为编码新闻文本的核心模块，给定一条长度为n的新闻文本s＝{w1,w2,…,wn}，每个单词wi被映射到一个连续的词嵌入w'i，可以获得新闻的嵌入s'＝{w'1,w'2,…,w'n}。此外，为了保留新闻文本中的词序，加入位置编码：

30、ut＝w′t+post,

31、其中post为新闻中第t个词的位置编码，将u＝u0,…,un作为transformer编码器底部的输入编码，通常来说，编码器是由多个相同层的构成，每个层由多头自注意力机制、残差连接、正则化层和全连接前馈网络组成：

32、

33、

34、

35、

36、在一层的编码器中，输入编码u首先经过多头自注意力机制子层，输出表示被输入到前馈神经网络子层中，每个子层后应用残差连接和正则化层，最后，transformer编码器的输出p作为新闻的表示。

37、第6.2通过训练好的新闻孪生网络分支编码新闻，获取新闻孪生表示；

38、为了获得相同类别新闻之间的相似特征以及不同类别新闻之间的差异性特征，使用训练好的新闻孪生网络的一个分支对新闻进行编码，并将输出的ps作为新闻孪生表示。

39、第6.3通过训练好的实体孪生网络分支编码实体，获取实体孪生表示；

40、引入新闻对应的外部知识可以提供更多的补充信息，减少新闻中实体提及引起的歧义。然而，新闻中只有部分单词或短语在知识图谱中有对应的实体，使得获得的实体序列相对比较稀疏。为了从相对稀疏的实体序列中学习更多特征，以及学习同一类别新闻对应实体之间的共同特征和不同类别新闻对应实体的差异特征，使用训练好的实体孪生网络的分支对新闻对应的实体序列进行编码，并将输出qs作为实体孪生表示。

41、第7、融合新闻表示、新闻孪生表示和实体孪生表示，通过深度神经分类器进行分类。

42、通过将新闻编码p、新闻孪生表示ps和实体孪生表示qs三者进行连接操作后，获得新闻的最终表示形式。之后，将新闻的最终表示送入全连接层进行处理，然后使用softmax函数预测目标新闻标签上p的分布：

43、p＝softmax(wo[p,ps,qs]+bo)

44、其中，[,]是数据拼接操作，wo和bo是第二阶段虚假新闻检测模型的参数。

45、算法中选用的损失函数为交叉熵损失函数：

46、

47、其中，d表示整个训练语料库，yi表示新闻i的真实标签，pi(yi)表示预测值为真实标签的概率，θ表示模型的参数。整个模型的训练使用adam优化器优化模型参数，使交叉熵损失函数达到最小值。

48、本发明的优点和积极效果是：

49、本发明开创性地提出了一种基于孪生网络的知识感知虚假新闻检测方法，提出利用知识图谱中的实体信息作为外部知识，并设计新闻孪生网络和实体孪生网络，来获得新闻之间以及实体之间存在的共性特征和差异性特征，从而更合理有效的将这些特征融合到新闻文本表示中。本发明有效地建模新闻文本和外部知识，并且能够捕捉并融合新闻之间以及知识之间存在的反映新闻类别信息的特征，从而在很大程度上提高了虚假新闻检测任务的准确性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈晨顿雅倩袁晓洁
技术所有人：南开大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。