基于外部存储的不实信息检测方法、系统及装置

文档序号:36475667发布日期:2023-12-22 06:21阅读:81来源:国知局
基于外部存储的不实信息检测方法

本发明涉及不实信息检测领域,尤其是涉及一种基于外部存储的不实信息检测方法、系统及装置。


背景技术:

1、随着互联网技术的发展,社交媒体成为人们获取信息、传播信息和互动交流的主要平台。不实信息检测涉及到自然语言处理和机器学习技术,自动识别和验证社交媒体中的不实信息的技术,不实信息检测通常被视为一种文本分类任务。

2、不实信息检测可以使用传统的机器学习方法,通过获取关于不实信息手工制作的特征来构造经典机器学习分类器,如决策树、随机森林等。但是这种方法的局限性在于难以得到数据中的高维特征,并且还需要选择适配于当前任务的机器学习分类器。因此,深度神经网络(deep neural network,dnn)在不实信息检测领域得到广泛的应用。基于深度学习的研究方法包括使用自然语言处理中的预训练语言模型来处理评论或转发的文本,使用图神经网络得到不实信息的传播结构,建模源帖与评论之间的关系;还有使用多模态技术,通过获取不实信息相关的文本以及图像,整合不同模态的特征。这些不同的研究领域都有相应的方法来处理不实信息检测问题。

3、随着自然语言处理技术的发展,预训练语言模型逐渐成为不实信息检测的关键技术。预训练语言模型能够自动学习海量文本的语言知识和规律,并通过微调的方式适应不实信息检测任务。通过在大规模数据上预训练的语言模型,可以提取文本的上下文信息和语义信息,辅助不实信息检测任务中的情感分析、命名实体识别和语言风格分析等。另外,通过预训练语言模型的微调,可以提高不实信息检测模型的准确性和泛化能力。例如,bert等预训练语言模型,已经被广泛应用于不实信息检测领域。其中,bert通过maskedlanguage model和next sentence prediction的预训练任务,可以学习文本的上下文信息和语言关系,提高了在不实信息检测中的效果。预训练语言模型不仅为不实信息检测提供了更加丰富的语言表征,同时也为机器学习和深度学习模型的应用提供了新的思路和方法。

4、研究发现,不实信息有一些共同的特征,例如情感倾向、可信度、语言风格等。同时,不实信息的传播也具有一些规律,例如传播速度、传播路径、传播方式等。这些特征和规律为不实信息检测提供了基础和依据。自然语言处理技术可以有效地挖掘和利用不实信息中的这些特征和规律。同时,随着不实信息检测技术的发展,越来越多的数据集和算法被提出和应用于不实信息检测中,例如pheme数据集、bert模型等。这些数据集和算法的不断积累,也为不实信息检测提供了更加丰富和可靠的资源和方法。

5、总之,不实信息检测需要利用多种技术和方法,包括自然语言处理、机器学习和深度学习等。这些技术和方法的结合和应用,可以有效地识别和验证社交媒体中的不实信息。

6、现有技术缺点:

7、仅通过时间或者情感极性对评论排序,没有考虑评论的文本内容中多种不同维度的特征,不能得到质量更高的数据集;

8、源帖与对应评论形成的事件和事件之间,在语言风格、评论长度等多个角度有相似性,没有考虑利用这种更高维的原型特征。


技术实现思路

1、本发明的目的在于提供一种基于外部存储的不实信息检测方法、系统及装置,旨在解决不实信息检测。

2、本发明提供一种基于外部存储的不实信息检测系统,包括:

3、重排序模块,用于提取源帖和评论的特征,根据特征对评论进行重排序,删掉序号为某个值到最后序号的评论得到排名前面的评论;

4、外部存储模块,用于调整预训练语言模型的参数,使得预训练语言模型适应排名前面的评论的不实信息检测任务,更新外部存储,读取外部存储得到最终的特征表示;

5、不实信息检测模块,用于获取最终的特征表示,将所述最终的获取特征表示输入分类神经网络得到最终不实信息或非不实信息的类别预测。

6、本发明还提供一种基于外部存储的不实信息检测方法,包括:

7、通过重排序模块提取源帖和评论的特征,根据特征对评论进行重排序,删掉序号为某个值到最后序号的评论得到排名前面的评论;

8、通过外部存储模块调整预训练语言模型的参数,使得预训练语言模型适应排名前面的评论的不实信息检测任务,更新外部存储,读取外部存储得到最终的特征表示;

9、通过不实信息检测模块获取最终的特征表示,将所述最终的获取特征表示输入分类神经网络得到最终不实信息或非不实信息的类别预测。

10、本发明实施例还提供一种基于外部存储的不实信息检测装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述方法的步骤。

11、本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述方法的步骤。

12、采用本发明实施例,可以考虑多个维度的特征实现不实信息检测。

13、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。



技术特征:

1.一种基于外部存储的不实信息检测系统,其特征在于,包括:

2.根据权利要求1所述的系统,其特征在于,所述重排序模块具体用于:每个样本的格式为源帖和对应的评论,对每个样本做特征工程得到多种特征,其中多种特征包括:评论的文本长度特征、评论与源帖的语义相似度特征和评论对应的情感极性特征,训练梯度提升树模型,将文本长度特征、评论与源帖的语义相似度特征和评论对应的情感极性特征输入梯度提升树模型得到重排序后的评论。

3.根据权利要求2所述的系统,其特征在于,所述外部存储模块具体用于:基于网络文本和网络文本对应的不实信息和非不实信息的标签,通过监督学习的方式微调预训练语言模型,使得预训练语言模型适应不实信息检测任务,外部存储初始化为k个原型,每一条样本通过预训练语言模型得到对应的向量表示,将对应的向量与外部存储中的原型特征交互,得到不同的原型特征,将不同得原型特征和微调后的预训练语言模型得到的特征拼接,拼接后得到最终的特征表示。

4.根据权利要求3所述的系统,其特征在于,所述不实信息检测模块具体用于:用于获取最终的特征表示,将所述最终的获取特征表示输入分类神经网络得到最终不实信息或非不实信息的类别概率,所述分类神经网络包括一个全连接层和激活函数。

5.一种基于外部存储的不实信息检测方法,其特征在于,包括:

6.根据权利要求5所述的方法,其特征在于,所述通过重排序模块提取源帖和评论的特征,根据特征对评论进行重排序,删掉序号为某个值到最后序号的评论得到排名前面的评论具体包括:每个样本的格式为源帖和对应的评论,对每个样本做特征工程得到多种特征,其中多种特征包括:评论的文本长度特征、评论与源帖的语义相似度特征和评论对应的情感极性特征,训练梯度提升树模型,将文本长度特征、评论与源帖的语义相似度特征和评论对应的情感极性特征输入梯度提升树模型得到重排序后的评论。

7.根据权利要求6所述的方法,其特征在于,所述通过外部存储模块调整预训练语言模型的参数,使得预训练语言模型适应排名前面的评论的不实信息检测任务,更新外部存储,读取外部存储得到最终的特征表示具体包括:基于网络文本和网络文本对应的不实信息和非不实信息的标签,通过监督学习的方式微调预训练语言模型,使得预训练语言模型适应不实信息检测任务,外部存储初始化为k个原型,每一条样本通过预训练语言模型得到对应的向量表示,将对应的向量与外部存储中的原型特征交互,得到不同的原型特征,将不同得原型特征和微调后的预训练语言模型得到的特征拼接,拼接后得到最终的特征表示。

8.根据权利要求7所述的方法,其特征在于,所述通过不实信息检测模块获取最终的特征表示,将所述最终的获取特征表示输入分类神经网络得到最终不实信息或非不实信息的类别预测具体包括:用于获取最终的特征表示,将所述最终的获取特征表示输入分类神经网络得到最终不实信息或非不实信息的类别概率,所述分类神经网络包括一个全连接层和激活函数。

9.一种基于外部存储的不实信息检测装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求5至8中任一项所述的基于外部存储的不实信息检测方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求5至8中任一项所述的基于外部存储的不实信息检测方法的步骤。


技术总结
本发明公开了一种基于外部存储的不实信息检测方法、系统及装置,所述系统包括:重排序模块,用于提取源帖和评论的特征,根据特征对评论进行重排序,删掉序号为某个值到最后序号的评论得到排名前面的评论;外部存储模块,用于调整预训练语言模型的参数,使得预训练语言模型适应排名前面的评论的不实信息检测任务,更新外部存储,读取外部存储得到最终的特征表示;不实信息检测模块,用于获取最终的特征表示,将所述最终的获取特征表示输入分类神经网络得到最终不实信息或非不实信息的类别预测。本发明可以实现基于外部存储的不实信息检测方法。

技术研发人员:陈淑红,吴建明,王国军,汪晨晨,李汉俊,陈恺人
受保护的技术使用者:广州大学
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1