基于风格引导的双线性神经网络虚假新闻检测方法及系统与流程

文档序号：18620500发布日期：2019-09-06 22:26阅读：217来源：国知局

本发明涉及大数据挖掘中新闻检测领域，并特别涉及一种基于风格引导的双线性神经网络虚假新闻检测方法及系统。

背景技术：

社交媒体的快速发展已经改变了人们的日常生活，用户可以方便自由的从社交媒体上发布与获取信息。然而，社交媒体的蓬勃发展也为虚假新闻的滋生与传播提供了沃土。据统计，仅在2016年美国总统大选期间就有529件有关总统候选人的虚假新闻产生，被传播高达三千七百万次。虚假新闻已经严重污染了网络社交环境，影响了用户的日常生活，因此亟需对网络社交媒体上的虚假新闻进行自动化检测。

在现有研究中，研究者通常关注在新闻内容及相应的社交关系上。martin等人利用诸如引用词个数、新闻中url个数等领域相关信息来进行虚假新闻检测，jin等人通过检测发现新闻相关评论下的不同观点间是否有冲突来判定新闻的真实性。castillo等人从新闻内容、用户主页和新闻传播网络等方面提取了大量的手工特征来刻画虚假新闻，取得了较为不错的结果。与传统手工刻画虚假新闻的特征不同，基于深度学习的方法无需再进行复杂的特征工程。ma等人将虚假新闻的社交属性看作变长的时间序列，并使用循环神经网络(rnn)来处理，其识别准确度较传统方法有了较大提升。guo等人认为虚假新闻事件、相关新闻及其评论之间存在着层次关系，并提出了层次注意力模型来处理这种层次关系，实验表明，该方法在识别虚假新闻上具有较为突出的能力。

发明人在进行虚假新闻检测研究时发现，现有方法往往过于依赖于新闻本身，而缺乏对虚假新闻这一类新闻共性的分析，导致现有方法在新产生的新闻上的识别准确度难以达到预期水平。

技术实现要素：

针对以上问题，本发明提出了一种利用风格引导的深度学习虚假新闻检测算法。该方法通过显式的使用虚假新闻共有的风格特征来对深度学习模型的学习过程进行引导，保证模型可以获取到虚假新闻整体的共性特征，提升了模型在新产生新闻上的检测效果。其中“显式的”的反义对应于“隐式的”，“隐式的”是指模型当中包含这些信息，但是这些信息在外界并不能观察到；“显式的”的含义是被特别的使用、突出该信息来对模型进行引导。

针对现有技术的不足，本发明提出一种基于风格引导的双线性神经网络虚假新闻检测方法，其中包括：

步骤1、获取待网络虚假新闻检测的新闻文本，通过神经网络量化该新闻文本的语言风格特征，得到该新闻文本的风格向量，将该新闻文本输入文本特征提取器，得到该新闻文本的文本向量；

步骤2、将该风格向量和该文本向量输入双线性神经网络，该双线性神经网络包括双线性函数，用于建模该风格向量和该文本向量之间的相关性，以得到该新闻文本的的风格-文本特征矩阵，使用该风格-文本特征矩阵中最大分数向量组成引导向量，并将该引导向量输入至全连接层，判定该新闻文本的虚假新闻标签。

所述的基于风格引导的双线性神经网络虚假新闻检测方法，其中该步骤1包括：

步骤11、将该新闻文本转化为词汇向量拼接而成的向量矩阵x1:n＝x1⊕x2⊕…⊕xn，其中⊕表示拼接操作，xi表示该新闻文本中第i个词所对应的词汇向量，x1:n表示长度为n的该向量矩阵；

步骤12、该文本特征提取器为长短期记忆网络，该向量矩阵输入至该长短期记忆网络，得到该向量矩阵中每一个词汇向量的隐状态ht＝h(ht-1,xt)，t小于等于n，ht为第t个词汇向量的隐状态；

步骤13、通过注意力机制来为每一个隐状态分配权重ui＝tanh(wwhi+bw)，其中w*表示权重矩阵，bw表示偏置，αi为经过归一化后第i个隐状态的权重；

步骤14、通过加权求和该权重αi和该隐状态ht，得到该文本向量ft为该文本向量。

所述的基于风格引导的双线性神经网络虚假新闻检测方法，其中得到该风格-文本特征矩阵的方法如下：

fs为该风格向量，ft为该文本向量，b为该双线性函数，为fb该风格-文本特征矩阵。

所述的任意一种基于风格引导的双线性神经网络虚假新闻检测方法，其中该文本特征提取器为长短期记忆网络或双向长短期记忆网络。

所述的基于风格引导的双线性神经网络虚假新闻检测方法，其中步骤2包括：使用最大池化函数筛选出该风格-文本特征矩阵中最大分数向量组成引导向量。

本发明还提出了一种基于风格引导的双线性神经网络虚假新闻检测系统，其中包括：

模块1、获取待网络虚假新闻检测的新闻文本，通过神经网络量化该新闻文本的语言风格特征，得到该新闻文本的风格向量，将该新闻文本输入文本特征提取器，得到该新闻文本的文本向量；

模块2、将该风格向量和该文本向量输入双线性神经网络，该双线性神经网络包括双线性函数，用于建模该风格向量和该文本向量之间的相关性，以得到该新闻文本的的风格-文本特征矩阵，使用该风格-文本特征矩阵中最大分数向量组成引导向量，并将该引导向量输入至全连接层，判定该新闻文本的虚假新闻标签。

所述的基于风格引导的双线性神经网络虚假新闻检测系统，其中该模块1包括：

模块11、将该新闻文本转化为词汇向量拼接而成的向量矩阵x1:n＝x1⊕x2⊕…⊕xn，其中⊕表示拼接操作，xi表示该新闻文本中第i个词所对应的词汇向量，x1:n表示长度为n的该向量矩阵；

模块12、该文本特征提取器为长短期记忆网络，该向量矩阵输入至该长短期记忆网络，得到该向量矩阵中每一个词汇向量的隐状态ht＝h(ht-1,xt)，t小于等于n，ht为第t个词汇向量的隐状态；

模块13、通过注意力机制来为每一个隐状态分配权重ui＝tanh(wwhi+bw)，其中w*表示权重矩阵，bw表示偏置，αi为经过归一化后第i个隐状态的权重；

模块14、通过加权求和该权重αi和该隐状态ht，得到该文本向量ft为该文本向量。

所述的基于风格引导的双线性神经网络虚假新闻检测系统，其中得到该风格-文本特征矩阵的系统如下：

fs为该风格向量，ft为该文本向量，b为该双线性函数，为fb该风格-文本特征矩阵。

所述的任意一种基于风格引导的双线性神经网络虚假新闻检测系统，其中该文本特征提取器为长短期记忆网络或双向长短期记忆网络。

所述的基于风格引导的双线性神经网络虚假新闻检测系统，其中模块2包括：使用最大池化函数筛选出该风格-文本特征矩阵中最大分数向量组成引导向量。

由以上方案可知，本发明的优点在于：

由于利用语言风格特征引导神经网络学习方法的提出，本发明与现有技术相比，在新生新闻事件上具有更高的识别准确度。以往的不加干预的、单纯使用复杂的深度学习模型自主学习虚假新闻的特征的方法往往学习到的是事件相关的特征，这些特征难以迁移利用到新生事件中去，导致模型在新生事件上的泛化性能较差。不同于此，本发明显式的利用依据专家知识获取虚假新闻中共性的语言风格特征来引导深度学习模型的学习过程，使深度学习模型聚焦在虚假新闻的共性特征上，使得模型所获取的特征在新生事件上也具有很好的迁移性，大大提升了模型的识别准确度与泛化性能。

附图说明

图1为知识引导的学习框架图；

图2为基于风格引导的双线性神经网络算法流程图。

具体实施方式

本发明的目的是提供一种知识引导的虚假新闻检测方法，主要解决的问题为如何利用虚假新闻共性的语言风格特征引导模型获取更具泛化性的特征，以提高模型在新产生新闻上的检测效果。

本发明关键点包括：

1、语言风格量化：语言风格指语言的表达形式，主要表现在词汇、语法、修辞手段等分布差异上，语言风格关注于事件如何被表达而非事件内容本身。但语言风格是一个抽象概念，需根据具体需求对其进行量化；

2、文本特征抽取：文本特征是模型判定新闻是否为虚假新闻的重要依据。在本发明中，使用具有注意力机制的双向长短记忆网络(lstmwithattentionmechanism)抽取文本特征，将所提取特征的向量作为新闻文本的特征表达；

3、知识引导的学习框架：利用语言风格信息来合理引导深度学习模型的学习过程。将利用专家知识所提取的语言风格特征合理化的引入到深度学习模型的学习过程中去，使模型的学习过程可控，使得模型关注于虚假新闻的共性特征而非特定单一新闻事件的特征，保证了模型在新生新闻事件上的泛化性。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

一、语言风格量化。

语言风格是描述语言表达形式的抽象概念，通常语言风格与词汇、语法及修辞手法密切相关。但具体的用数学形式描述语言风格需要将这一抽象的概念量化，才能将其使用到模型当中。本发明定义了八大类共54个特征来描述语言风格，具体定义如下表1所示，其中x^b表示二元(0/1)特征，xⁿ表示数值型特征。

表1：

将量化后的语言风格表示为一串向量，例如利用表1，将一段文本内容量化成一串如[0,1,1,0.9,0]这样的数字向量，然后将此向量与全连接层连接，得到风格向量以使语言风格信息表达更丰富，并借此对虚假新闻检测深度模型进行引导学习。

二、文本特征抽取：

文本是模型判定新闻是否为虚假新闻的重要依据，模型无法直接处理自然语言，因此，需要将其转化为向量矩阵后才能处理。在本发明中使用word2vec方法在训练集语料中训练语料中每个词汇的特征表达，并将新闻句子表示为词汇向量拼接而成的矩阵，表示形式如下：

x1:n＝x1⊕x2⊕…⊕xn

其中⊕表示特征的拼接操作，xi表示该新闻文本中第i个词所对应的特征向量(词汇向量)，x1:n表示拼接后的句子特征向量，长度为n。

在本发明中使用双向的长短期记忆网络(lstm)作为文本的特征提取器，lstm广泛的被使用在处理变长序列的任务中，并在机器翻译、语音识别、问答系统等应用中取得了令人瞩目的表现。lstm在每个时刻使用词xi和上一时刻的隐状态ht-1作为输入，并输出当前隐状态ht，形式化表达为：

ht＝h(ht-1,xt)

其中表示激活函数。双向长短期记忆网络(bilstm)解决了lstm只能从前文中获取信息的不足，通过对输入同时进行正向和反向输入(正向使用一遍lstm同时反向使用一遍lstm)，bilstm可以获取当前词汇前后文的信息，使得句子表达更加丰富。众所周知，一个句子当中并非所有词都同等重要，其中往往包含一些词比其他的词汇具有更丰富的信息。因此，对所有词使用相同的权重同等对待是不太恰当的，在本发明中引入注意力机制(attentionmechanism)来为不同的词学习不同的权重，权重越大表明该词在句子中越重要，引入了注意力机制后的句子表达如下：

ui＝tanh(wwhi+bw

其中w*表示权重矩阵，是通过神经网络学习得到的，最开始权重矩阵是随机初始化的，通过不断地学习，会得到合理的权重矩阵。bw表示偏置，αi为使用softmax函数归一化之后的权重，ft表示为所有时刻bilstm输出的隐向量的加权和。至此便获取到了文本向量最终的向量表达，并将利用此来进行虚假新闻判断。

三、知识引导的学习框架：

如图1所示，知识引导框架以风格向量与文本向量为输入，利用双线性函数获取风格-文本特征矩阵，其数学表达如下：

fs为该风格向量，ft为该文本向量，b为该双线性函数，为fb该风格-文本特征矩阵。

双线性函数被提出用来建模双因子变量，如“风格”和“内容”等，并取到了优异的效果。双线性函数可以很好地建模两个变量之间的相关性，并可以捕获变量之间的相互作用关系。使用双线性函数处理语言风格向量与文本特征向量可以很好的捕获风格与文本之间的相互响应关系，它可以建模出在文本向量每个维度上对风格特征的响应，即各维度包含多少程度的风格信息。这一操作相当于利用专家知识在为深度学习模型抽取出的特征向量进行打分，具有明显风格特征的部分给予高的分数，无明显风格特征部分将给予低的分数。然后，使用最大池化函数(max-pooling)筛选出风格-文本特征矩阵中具有最大分数的向量组成引导向量(guidedfeature)，该向量表示筛选出文本当中最具风格特征信息的部分。与单纯的利用深度学习框架自动的获取文本特征不同，该引导向量是添加了专家知识的，是利用知识人为的对学习过程进行了干预与指导的，也就是说，在特征选择部分，既包含机器知识：深度学习模型自动获取的文本特征，又包含专家知识：专家教给模型哪些特征是真正重要的。本发明将此引导向量与全连接层连接来进行虚假新闻检测，在本发明中，0代表非虚假新闻，1代表虚假新闻。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

本发明还提出了一种基于风格引导的双线性神经网络虚假新闻检测系统，其中包括：

所述的基于风格引导的双线性神经网络虚假新闻检测系统，其中该模块1包括：

模块13、通过注意力机制来为每一个隐状态分配权重ui＝tanh(wwhi+bw)，其中w*表示权重矩阵，bw表示偏置，αi为经过归一化后第i个隐状态的权重；

模块14、通过加权求和该权重αi和该隐状态ht，得到该文本向量ft为该文本向量。

所述的基于风格引导的双线性神经网络虚假新闻检测系统，其中得到该风格-文本特征矩阵的系统如下：

fs为该风格向量，ft为该文本向量，b为该双线性函数，为fb该风格-文本特征矩阵。

所述的任意一种基于风格引导的双线性神经网络虚假新闻检测系统，其中该文本特征提取器为长短期记忆网络或双向长短期记忆网络。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹娟;王佳臣;谢添;李锦涛;郭俊波
技术所有人：中国科学院计算技术研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。