一种虚假新闻检测方法、装置、计算机设备和存储介质

文档序号：26050657发布日期：2021-07-27 15:25阅读：来源：国知局

技术特征：

1.一种虚假新闻检测方法，其特征在于，所述方法包括：

获取新闻内容，将所述新闻内容输入到虚假新闻检测模型中，所述虚假新闻检测模型包括：词嵌入生成部分、基于注意力加权的双向gru网络、基于注意力加权的cnn网络，以及全连接层；

通过词嵌入生成部分，将所述新闻内容预处理后得到的文本序列转换为新闻内容低维矢量；

将所述新闻内容低维矢量输入到所述基于注意力加权的双向gru网络，通过双向gru网络得到全局信息矩阵，通过注意力机制计算所述全局信息矩阵中每个项的权重，得到隐状态加权和信息；

将所述隐状态加权和信息输入到所述基于注意力加权的cnn网络，通过所述cnn网络中不同粒度的滤波器对所述隐状态加权和信息进行滤波得到新闻内容特征映射图，通过注意力机制计算所述新闻内容特征映射图中每个项的权重，得到新闻内容特征加权和信息；

获取辅助信息，将所述辅助信息预处理后得到的文本序列转换为辅助信息低维矢量，将所述辅助信息低维矢量输入到所述基于注意力加权的cnn网络，通过所述cnn网络中不同粒度的滤波器对所述辅助信息低维矢量进行滤波得到辅助信息特征映射图，通过注意力机制计算所述辅助信息特征映射图中每个项的权重，得到辅助信息特征加权和信息；

将所述新闻内容特征加权和信息和所述辅助信息特征加权和信息进行融合，得到融合特征矩阵，将所述融合特征矩阵输入到所述全连接层进行检测，通过激活函数得到所述新闻内容的预测虚假度；

根据预先构建的损失函数和所述预测虚假度，对所述虚假新闻检测模型进行训练，得到训练好的虚假新闻检测模型，通过训练好的虚假新闻检测模型进行虚假新闻的多类检测。

2.根据权利要求1所述的方法，其特征在于，所述通过词嵌入生成部分，将所述新闻内容预处理后得到的文本序列转换为新闻内容低维矢量包括：

通过词嵌入生成部分的glove算法或word2vec算法，将所述新闻内容预处理后得到的文本序列转换为新闻内容低维矢量。

3.根据权利要求1所述的方法，其特征在于，将所述新闻内容低维矢量输入到所述基于注意力加权的双向gru网络，通过双向gru网络得到全局信息矩阵，通过注意力机制计算所述全局信息矩阵中每个项的权重，得到隐状态加权和信息包括：

将所述新闻内容低维矢量输入到所述基于注意力加权的双向gru网络；

通过双向gru网络获得所述新闻内容低维矢量序列的前字特征和后字特征；所述前字特征由前向gru计算得到，所述后字特征由后项gru计算得到；

所述前字特征为：

其中，ht-1表示t-1时刻的隐状态；vt表示t时刻时间步骤；表示所述前字特征；表示gru针对前字进行处理；

所述后字特征为：

其中，表示所述后字特征；表示gru针对后字进行处理；

将所述前字特征和所述后字特征并串联，得到当前时刻的隐状态为：

其中，ht表示当前t时刻的隐状态；

根据所有时间步骤的所述隐状态，得到全局信息矩阵；

通过注意力机制计算所述全局信息矩阵中每个项的权重，得到隐状态加权和信息。

4.根据权利要求3所述的方法，其特征在于，通过注意力机制计算所述全局信息矩阵中每个项的权重，得到隐状态加权和信息包括：

通过机器学习算法得到所述全局信息矩阵中每个隐状态的权重为：

其中，ut表示注意力得分，通过神经网络训练得到，计算公式为ut＝tanh(wtht+bt)，wt表示隐状态ht对应的权重，bt表示偏置项；

计算所述隐状态和所述隐状态的权重的加权和，得到隐状态注意力向量为：

其中，为所述隐状态注意力向量，l表示所述新闻内容的总字数；

将所述隐状态注意力向量作为所述隐状态加权和信息。

5.根据权利要求4所述的方法，其特征在于，将所述隐状态加权和信息输入到所述基于注意力加权的cnn网络，通过所述cnn网络中不同粒度的滤波器对所述隐状态加权和信息进行滤波得到新闻内容特征映射图，通过注意力机制计算所述新闻内容特征映射图中每个项的权重，得到新闻内容特征加权和信息包括：

将所述隐状态加权和信息输入到所述基于注意力加权的cnn网络，通过所述cnn网络中不同粒度的滤波器对所述隐状态加权和信息进行滤波得到新闻内容特征映射图；所述新闻内容特征映射图中的项为：

yi＝relu(wm·xi:i+m-1+bm)

其中，yi表示所述新闻内容特征映射图中的项；xi:i+m-1表示所述隐状态加权和信息对应的矩阵x第i行到第i+m-1行的子矩阵，m表示所述子矩阵的行数；wm表示与xi:i+m-1对应的权重矩阵，bm表示偏置项；relu表示relu激活函数；

通过注意力机制计算所述新闻内容特征映射图中每个项的权重，得到新闻内容注意力向量为：

其中，为所述新闻内容注意力向量，α′i表示yi对应的权重，且∑α′i＝1；

将所述新闻内容注意力向量作为新闻内容特征加权和信息。

6.根据权利要求5所述的方法，其特征在于，获取辅助信息，将所述辅助信息预处理后得到的文本序列转换为辅助信息低维矢量，将所述辅助信息低维矢量输入到所述基于注意力加权的cnn网络，通过所述cnn网络中不同粒度的滤波器对所述辅助信息低维矢量进行滤波得到辅助信息特征映射图，通过注意力机制计算所述辅助信息特征映射图中每个项的权重，得到辅助信息特征加权和信息包括：

获取辅助信息；

将所述辅助信息预处理后得到的文本序列转换为辅助信息低维矢量对应的矩阵v；

将所述辅助信息低维矢量输入到所述基于注意力加权的cnn网络，通过所述cnn网络中不同粒度的滤波器对所述辅助信息低维矢量进行滤波，得到辅助信息特征映射图；所述辅助信息特征映射图中的项为：

zj＝relu(wn·xj:j+n-1+bn)

其中，zj表示所述辅助信息特征映射图中的项；xj:j+n-1表示所述隐状态加权和信息对应的矩阵v第j行到第j+n-1行的子矩阵，n表示所述子矩阵的行数；wn表示与xj:j+n-1对应的权重矩阵，bn表示偏置项；

通过注意力机制计算所述辅助信息特征映射图中每个项的权重，得到辅助信息注意力向量为：

其中，为所述辅助信息注意力向量，α″j表示zj对应的权重，且∑α″j＝1；

将所述辅助信息注意力向量作为辅助信息特征加权和信息。

7.根据权利要求1所述的方法，其特征在于，将所述新闻内容特征加权和信息和所述辅助信息特征加权和信息进行融合，得到融合特征矩阵，将所述融合特征矩阵输入到所述全连接层进行检测，通过激活函数得到所述新闻内容的预测虚假度，还包括：

将所述新闻内容特征加权和信息和所述辅助信息特征加权和信息进行融合，得到融合特征矩阵为：

其中，u表示所述融合特征矩阵；y表示所述新闻内容特征加权和信息；z表示所述辅助信息特征加权和信息；

将所述融合特征矩阵输入到所述全连接层进行检测，利用全连通层得到特征序列为：

rk＝relu(wkuk+bk)

其中，rk表示所述特征序列；wk为softmax权值矩阵，bk表示偏置项；

根据所述特征序列通过softmax函数得到所述新闻内容的预测虚假度为：

ck＝softmax(rk)

其中，ck表示所述预测虚假度。

8.一种虚假新闻检测装置，其特征在于，所述装置包括：

新闻内容获取模块，用于获取新闻内容，将所述新闻内容输入到虚假新闻检测模型中，所述虚假新闻检测模型包括：词嵌入生成部分、基于注意力加权的双向gru网络、基于注意力加权的cnn网络，以及全连接层；

新闻内容低维矢量获取模块，用于通过词嵌入生成部分，将所述新闻内容预处理后得到的文本序列转换为新闻内容低维矢量；

隐状态加权和信息获取模块，用于将所述新闻内容低维矢量输入到所述基于注意力加权的双向gru网络，通过双向gru网络得到全局信息矩阵，通过注意力机制计算所述全局信息矩阵中每个项的权重，得到隐状态加权和信息；

新闻内容特征映射图获取模块，用于将所述隐状态加权和信息输入到所述基于注意力加权的cnn网络，通过所述cnn网络中不同粒度的滤波器对所述隐状态加权和信息进行滤波，得到新闻内容特征映射图；

辅助信息特征映射图获取模块，用于获取辅助信息，将所述辅助信息预处理后得到的文本序列转换为辅助信息低维矢量，将所述辅助信息低维矢量输入到所述基于注意力加权的cnn网络，通过所述cnn网络中不同粒度的滤波器对所述辅助信息低维矢量进行滤波，得到辅助信息特征映射图；

预测虚假度获取模块，用于通过注意力机制计算所述新闻内容特征映射图和所述辅助信息低维矢量特征映射图中每个项的权重，得到注意加权特征图，将所述注意加权特征图输入到所述全连接层，通过激活函数得到所述新闻内容的预测虚假度；

训练和使用模块，用于根据预先构建的损失函数和所述预测虚假度，对所述虚假新闻检测模型进行训练，得到训练好的虚假新闻检测模型，通过训练好的虚假新闻检测模型进行虚假新闻的多类检测。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本申请涉及一种虚假新闻检测方法、装置、计算机设备和存储介质。所述方法包括：将新闻内容低维矢量输入到基于注意力加权的双向GRU网络，通过注意力机制得到隐状态加权和信息；将隐状态加权和信息输入到基于注意力加权的CNN网络，得到新闻内容特征加权和信息；将辅助信息低维矢量输入到基于注意力加权的CNN网络，得到辅助信息特征加权和信息；将新闻内容特征加权和信息和辅助信息特征加权和信息融合后输入到全连接层，得到新闻的预测虚假度。本发明的模型结合了双向GRU和CNN，通过将文本和元数据相结合来提取全局和局部特征，同时多部分部署注意机制，突出关键特征，提高了虚假新闻辨别能力。

技术研发人员：胡艳丽;童谭骞;谭立君;左浩;李川
受保护的技术使用者：中国人民解放军国防科技大学
技术研发日：2021.05.28
技术公布日：2021.07.27

完整全部详细技术资料下载

当前第2页1 2