英文新闻媒体报道的假新闻检测方法与流程

文档序号:23153682发布日期:2020-12-04 13:49阅读:101来源:国知局

本发明主要涉及自然语言文字处理的技术领域,具体为英文新闻媒体报道的假新闻检测方法。



背景技术:

随着移动互联网的蓬勃发展,假新闻给社会带来的危害也越来越大,而在传播中,某种特定的“新闻”传播地更为成功,这类“新闻”通常拥有极端偏激的立场,运用煽动性的,情绪化的文字来误导大众。为了应对这种挑战,检测假新闻,然后采取对策,以消除谣言的两步法被广泛应用。但假新闻检测仍处于起步阶段,主要难点在于对假新闻的检测打击需要是一个近乎实时的反应,因为一旦一个假新闻开始传播,消除它的影响会变得十分艰巨。

检测新闻的文本处理技术一般分为以下三种:基于数据库检索的检测技术,基于文本背景的检测技术和基于写作风格的检测技术。

数据库检测技术:运用信息检索技术,通过对比文档中的信息和互联网上的信息的一致性来判断信息的真实性。主要的风险在于知识数据库信息的专业性和可靠性都较为不足。这种方法通常使用的算法是链接预测算法。

基于文本背景的检测技术:通过构建信息传播模型对用户群体进行划分进而对被传播的新闻进行立场和真伪分析。这种检测技术通过元信息和传播模式来识别新闻立场和真假。mocanu(2015)等人基于facebook用户群体的分析证明了倾向于相信分享阴谋论的用户群体更容易分享传播谣言这一理论。这类技术的主要问题在于缺少即时性,无法及时对假新闻进行识别,而因为新闻传播过程中具有的时效性和回火效应,这类技术对假新闻的防控往往为时过晚,无法第一时间识别辟谣。

基于写作风格的检测技术:通过对报道写作风格进行分类鉴别来对被传播的新闻进行立场和真伪分析。argamon-engelson(1998)等人首先提出了基于写作风格的文本分类,通过侧重于单个语句进行欺骗检测来评估整篇文章。这种检测方法通常使用识别归类作者的方法来检测写作风格,虽然作者很容易修改他们的写作风格,但这种混淆可能是可以被检测到的afroz(2012)。目前的检测的文本分类方法的重心主要落在讽刺类洋葱新闻的检测上。



技术实现要素:

本发明主要提供了英文新闻媒体报道的假新闻检测方法,用以解决上述背景技术中提出的技术问题。

本发明解决上述技术问题采用的技术方案为:

英文新闻媒体报道的假新闻检测方法,包括以下步骤:

步骤一、建立新闻报道数据库,读取原始数据进行数据预处理,以正则化方式对文件数据实施优化;

步骤二、提取数据库中优化后的新闻数据实施分类,将分类后的新闻数据择选出代表类型文件,通过预训练模型针对代表类型文件实施预训练任务,提取出主要特征;

步骤三、采用tfidf技术评估代表类型文件,体现出某些字词的重要程度,同时该方面字词的重要性随着它在文件中出现的次数成正比增加,但也会随着它在语料库中出现的频率成反比下降;

步骤四、代表类型文件的参数共享层的深度学习神经网络和任务参数层的事件归一判别模型进行分类,对给出的代表类型文件实施真假性和政治立场判断。

进一步的,所述数据预处理中包含拼写更正和文本删除两种策略,所述拼写更正策略具有唯一的单词来表示整个单词的功能特征,且所述文本删除策略具有删除某些文本中无意义的单词的功能特征。

进一步的,所述拼写更正策略实施时所有大写字母均转换为小写字母,且可删除所有标点符号并删除单词的后缀。

进一步的,当代表类型文件中设定有“the”或“e”时,所述文本删除策略可实施统一删除功能。

进一步的,所述预训练模型包含非上下文模型和上下文模型,所述非上下文模型具有通过深度学习方法获得的术语表示可以获取语言定律的功能特征,以及向量空间中向量之间的关系通过将单词转换为向量来表示项之间关系的功能特征,且由跳过文法模型生成的术语向量可以获得术语的语法关系和含义关系。

进一步的,当代表类型文件中设定有向量“美国”、向量“华盛顿特区”、向量“法国”、向量“巴黎”时,所述非上下文模型可将这种转换应用于获得理想的决策和预测结果,即向量“美国”,向量“华盛顿特区”≈向量“法国”,向量“巴黎”。

进一步的,所述上下文模型分为语言知识和世界知识,所述语言知识通过术语的语法关系和含义关系表示并存储在向量空间中,结合bert模型可以在识别术语含义时维持较高的精度,且所述世界知识示可存储于经过预训练的模型中。

进一步的,所述判别模型具备双向递归结构特征,通过该特征减少噪声并捕获更多信息。

与现有技术相比,本发明的有益效果为:

本发明基于写作风格的检测技术具有实时性,并在假新闻和超党派新闻的检测工作中效果良好,能够提高识别精度,加强了新闻真假性和政治立场的判断效果,同时还克服了文本背景的检测技术具有的识别所需时间过长的缺陷。

以下将结合具体的实施例对本发明进行详细的解释说明。

具体实施方式

为了便于理解本发明,下面将对本发明进行更加全面的描述,本发明可以通过不同的形式来实现,并不限于文本所描述的实施例,相反的,提供这些实施例是为了使对本发明公开的内容更加透彻全面。

需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上也可以存在居中的元件,当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件,本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常连接的含义相同,本文中在本发明的说明书中所使用的术语知识为了描述具体的实施例的目的,不是旨在于限制本发明,本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例,本发明提供了一种英文新闻媒体报道的假新闻检测方法,包括以下步骤:

步骤一、建立新闻报道数据库,读取原始数据进行数据预处理,以正则化方式对文件数据实施优化;

步骤二、提取数据库中优化后的新闻数据实施分类,将分类后的新闻数据择选出代表类型文件,通过预训练模型针对代表类型文件实施预训练任务,提取出主要特征;

步骤三、采用tfidf技术评估代表类型文件,体现出某些字词的重要程度,同时该方面字词的重要性随着它在文件中出现的次数成正比增加,但也会随着它在语料库中出现的频率成反比下降;

步骤四、代表类型文件的参数共享层的深度学习神经网络和任务参数层的事件归一判别模型进行分类,对给出的代表类型文件实施真假性和政治立场判断。

具体的,所述数据预处理中包含拼写更正和文本删除两种策略,所述拼写更正策略具有唯一的单词来表示整个单词的功能特征,且所述文本删除策略具有删除某些文本中无意义的单词的功能特征,所述拼写更正策略实施时所有大写字母均转换为小写字母,且可删除所有标点符号并删除单词的后缀,当代表类型文件中设定有“the”或“e”时,所述文本删除策略可实施统一删除功能。

具体的,所述预训练模型包含非上下文模型和上下文模型,所述非上下文模型具有通过深度学习方法获得的术语表示可以获取语言定律的功能特征,以及向量空间中向量之间的关系通过将单词转换为向量来表示项之间关系的功能特征,且由跳过文法模型生成的术语向量可以获得术语的语法关系和含义关系,当代表类型文件中设定有向量“美国”、向量“华盛顿特区”、向量“法国”、向量“巴黎”时,所述非上下文模型可将这种转换应用于获得理想的决策和预测结果,即向量“美国”,向量“华盛顿特区”≈向量“法国”,向量“巴黎”。

再具体的,所述上下文模型分为语言知识和世界知识,所述语言知识通过术语的语法关系和含义关系表示并存储在向量空间中,结合bert模型可以在识别术语含义时维持较高的精度,且所述世界知识示可存储于经过预训练的模型中。

进一步具体的,所述判别模型模型具备双向递归结构特征,通过该特征减少噪声并捕获更多信息。

根据上述实施例内容,结合日常新闻报道的实际应用,通过对新闻报道数据库内原始数据进行分类后的新闻报道进行训练后生成模型对待测的新闻报道进行立场和真假判断,可划分以下几个详细的工作内容:

一、预处理部分

1.原始数据被读取后,将被执行正则化,正则化主要体现在拼写更正和文本删除这两种策略上,使用唯一的单词来表示整个单词称为拼写更正,例如将所有大写字母转换为小写字母,删除所有标点符号并删除单词的后缀。

2.文本删除是指删除某些文本中无意义的单词,例如“the”,“a”和其他单词,这些单词不仅会干扰计算机阅读文本,还会对文本的后续操作产生不利影响。

二、预训练任务

1.根据代表类型,可以将预训练模型分为非上下文模型和上下文模型,对于非上下文模型,通过深度学习方法获得的术语表示可以获取语言定律,此外,研究人员发现向量空间中向量之间的关系可以通过将单词转换为向量来表示项之间的关系,由跳过文法模型生成的术语向量可以获得术语的语法关系和含义关系,例如向量(“美国”),向量(“华盛顿特区”)≈向量(“法国”),向量(“巴黎”),在使用小数据集进行的有监督的训练中,可以将这种转换应用于获得理想的决策和预测结果,对于上下文模型,从上下文中获得的知识主要分为两种:语言知识和世界知识;

其中对于语言知识,术语的语法关系和含义关系都可以表示并存储在向量空间中,像bert一样的模型可以在识别术语含义时维持非常高的精度;

其中对于世界知识,经过预训练的模型甚至可以存储世界知识。

综上所述,使用预训练模型可以显着增强自动检测超党派新闻的能力,提取特征。

三、构建判别模型

1.针对新闻报道文件数据来构建循环卷积神经网络判别模型(如cnn,rnn,ltsm分类器),通过使用双向递归结构来减少噪声并捕获更多信息,在最高池化层中添加了一个至关重要的组件来捕获文本。

综上所述,在读取训练数据后,对原始数据进行正则化等预处理,随后通过tfidf技术方式提取文本特征,使用判别模型建模,最后得出模型并对给出的新闻进行真假性和政治立场判断。

上述内容对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的这种非实质改进,或未经改进将本发明的构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1