一种多模融合和话题的实时社交网络谣言检测方法

文档序号:33505581发布日期:2023-03-18 00:14阅读:68来源:国知局
一种多模融合和话题的实时社交网络谣言检测方法

1.本发明涉及网络空间安全技术等领域,具体的说,是一种多模融合和话题的实时社交网络谣言检测方法。


背景技术:

2.近年来,移动互联网技术的不断更新、媒体内容向移动平台的转变,给当今人们的生活提供了更加便捷的信息交流互动方式。微博等社交媒体的普及,使用户能够跟踪事件和突发新闻,同时也使得造谣者可以低成本、大规模地制造和传播谣言。造谣者常利用社交网络发起信息运动,宣传虚假信息、有争议的内容、真假信息混合,以此来吸引人们的注意力。涉及个人的谣言,可能给个人带来不可预料的财产、名誉等损失。而涉及民生国计的谣言,极易损害社会稳定和谐秩序。
3.对于如此严峻的谣言威胁现状,虽然微博官方设有社区管理中心举报处理大厅,但这种依靠人工进行举报、追踪和检测谣言的工作,在覆盖范围和检测效率上有明显的限制:1)在检测覆盖范围上,覆盖范围小,难以匹配实际的信息发布规模,因此人工方法的谣言感知能力较弱,2)在检测效率上,谣言检测周期长,导致在谣言大规模传播前无法检测揭穿谣言,降低了谣言检测工作的意义。因此,人工谣言检测方法在微博谣言检测中具有较大的局限性。同时,在谣言自动识别技术研究方面,学者们采用定义关键词、种子用户等数据收集方法构建数据集,尝试利用神经网络从不同的数据形式中提取文本、图像、传播结构(即信息在社交网络分发的子网结构,转发结构是传播结构一部分,也就是说转发结构是传播结构的子集)和社会属性等特征,并将谣言自动识别问题归结为分类任务。得益于神经网络大的特征学习能力,这些方法在现有数据集上取得了一定效果,但也存在以下几个问题:1.在线社交平台上的大量用户每天产生充斥着噪声、冗余等内容的海量数据,其中大多数推文的生命周期都很短,它们可能还未引起大众注意便淹没在信息洪流之中。对网络上每条推文的真实性进行鉴别是一项成本密集且几乎不可能完成的任务。而现有检测方法并没有筛选输入的检测信息,导致难以应用于实时谣言检测场景中。
4.2.现有数据收集方法得到的数据具有较强的事件特定性,难以检测被定义为未知关键字的未知谣言或尚未被定义为特定关键字的潜在谣言。若直接将现有数据集训练得到的谣言检测模型运用于在线检测中,模型难以在信息传播早期检测出谣言,将导致谣言的漏检或检测滞后,造成不可挽回的损失。
5.3.社交网络平台上充斥着简短、嘈杂、非正式用语的推文文本内容,这导致了单模态的文本表示在谣言检测上的局限性。图片作为一种提供推文视觉角度的模态信息,能够增强推文的内容表示并补充文本描述做遗漏的细节。而现有结合文本和图像表示的谣言检测方法使用简单的串联操作将各个模态表示结合起来作为多模信息表示,这种简单的串联策略将处于不同嵌入空间的模态信息强行拼接在一起,无视不同的噪声结构,可能会导致提取跨模态关系的效果较差,产生糟糕的多模信息表示,在后续的分类任务导致较差的表现。
6.4.现有基于多模的谣言检测方法设定的检测条件(社交网络推文包含文本和一张图片)与社交网络推文的真实场景不一致(有的推文只有文字,有的推文包含多张图片),导致训练的模型无法有效地运用在真实的社交网络中。


技术实现要素:

7.本发明的目的在于提供一种多模融合和话题的实时社交网络谣言检测方法,将谣言检测任务分为推文追踪、潜在传播事件检测和潜在谣言真实性检验三个模块,致力于在实时场景中追踪并在谣言发展的早期揭穿谣言,减少揭穿延迟,减少影响和损失。
8.本发明通过下述技术方案实现:一种多模融合和话题的实时社交网络谣言检测方法,包括下述步骤:1)推文追踪模块通过社交媒体api获取实时发布推文,并根据潜在传播事件检测模块的指令对已有部分事件持续监测转发结构和传播相关信息并写入数据库中,对部分事件停止追踪并删除数据库中的相关信息;优选的,推文追踪模块首先通过社交媒体api逐一获取实时发布推文的文本内容、多媒体内容、转发内容与结构、发布时间、用户属性等相关信息,并将其存入数据库中;其次,对潜在传播事件检测模块判定为可能成为话题的信息,推文追踪模块对其进行持续监测转发内容与结构、转发者的用户属性;最后,对潜在传播事件检测模块判定为无法有效传播的噪音信息,推文追踪模块停止对其检测,并删除数据库中的相关信息;2)潜在传播事件检测模块负责对推文追踪模块存入数据库的推文进行潜在传播事件的挖掘工作,即潜在传播事件检测模块利用有限层次自动状态机模型将谣言的演化映射为分析和描述复杂行为的数学模型,并将推文的传播阶段映射到有限层次自动状态机中的潜在状态(潜在态)、增长状态(增长态)、开始状态(开始态)、衰退状态(衰退态)和丢弃状态(丢弃态)五个状态并定义相关状态转化机制,以在传播事件发展至爆发阶段之前,挖掘出潜在的传播事件;优选的,根据谣言的四个阶段:诞生、潜在扩散、爆炸传播和衰退灭亡,构建有限层次自动状态机模型将推文的传播阶段映射到有限层次自动状态机模型中的各个状态(潜在状态、增长状态、开始状态、衰退状态和丢弃状态),从而挖掘潜在传播事件并过滤传播范围小的推文;本发明还根据一定时间内转发造成的关注程度构建了自动状态机中各状态的转换机制,以解释推文的动态传播状态;3)谣言真实性检验模块负责对潜在传播事件检测模块挖掘出的传播事件进行谣言真实性检测,即谣言真实性检验模块利用包含两个文本和图像模态的子网络和一个融合子网络的多任务多模态谣言检测模型,通过融合不同层次的单模态表示生成更完备的联合多模态表示,可以灵活处理所有类型的推文(纯文本、纯图像、图像-文本对和文本多图像),进行谣言的真实性分类,从而实现分类为非谣言,真实谣言和虚假谣言的最终目标;三个子网络后分别添加了分类器,以实现对全类别信息的真实性检验。全局损失设置为三个分类器的损失总和,以在梯度反向传播阶段回传一些约束从而协调每种模态的表示。
9.进一步为更好地实现本发明所述的一种多模融合和话题的实时社交网络谣言检测方法,特别采用下述设置方式:所述步骤1)包括下述步骤:1.1)推文追踪模块通过社交媒体api获取实时发布推文的数据流,对推文文本内容进行分词,过滤推文文本长度过短(小于10个词)的推文,过滤非中文和英文的推文;
1.2)对过滤后的推文通过社交媒体api获取其包括多媒体内容、转发内容与结构、发布用户属性在内的相关信息(即可能包含的多媒体内容、转发内容与结构,发布用户属性等相关信息),并存入数据库中;1.3)对潜在传播事件检测模块传入的被判定为成为话题的信息,持续监测其新的转发内容与结构、转发者的用户信息,并存入数据库中;1.4)对潜在传播事件检测模块传入的被判定为无法有效传播的噪音信息推文,推文追踪模块停止对该推文传播情况的监测,并从数据库中删除该推文及其相关信息。
10.进一步为更好地实现本发明所述的一种多模融合和话题的实时社交网络谣言检测方法,特别采用下述设置方式:所述对推文文本内容进行分词时,对中文的推文文本内容使用分词工具进行分词,对英文的推文文本内容则按空格分割为n个词,过滤推文文本长度过短(n《10)的推文。
11.进一步为更好地实现本发明所述的一种多模融合和话题的实时社交网络谣言检测方法,特别采用下述设置方式:所述步骤2)包括下述步骤:2.1)基于社交网络推文的受众数目,定义推文预期影响力,并完成推文预期影响力计算;2.2)初始化设置有限层次自动状态机模型中的五个状态;2.3)采用阈值化处理方法设置开始状态的状态转换条件;2.4)采用添加一个二元嵌套状态模块计算突发值来实现处理不同扩散特征的事件方式,来设置增长状态和衰退状态的状态转换条件;2.5)从数据库提取推文及其包含转发结构和转发者的用户信息在内的传播信息传入构建的有限层次自动状态机模型中,经过步骤2.3)和步骤2.4)设置的状态转换后,得到推文的当前状态;2.6 )若步骤2.5)得到的当前状态为丢弃状态,则通知推文追踪模块停止追踪并删除数据库中的相关信息;2.7)若步骤2.5)得到的当前状态为潜在状态,则将该推文的文本内容、多媒体内容、转发内容与结构在内的相关信息传入谣言真实性检验模块中;2.8)若步骤2.5)得到的当前状态为增长状态或衰退状态,则通知推文追踪模块根据其动态时间窗口机制来持续监控传播情况;2.9 )重复步骤2.5)至步骤2.8),直到数据库中无未处理数据或程序被用户中止,挖掘出潜在的传播事件。
12.进一步为更好地实现本发明所述的一种多模融合和话题的实时社交网络谣言检测方法,特别采用下述设置方式:所述步骤2.1)具体为:将社交网络上推文的预期影响力定义为在社交网络上至少有多少人接收到该推文的信息;根据社交网络中被转发的推文会被推送给转发者的关注者这一机制,某次转发的预期影响力定义为在该转发者传播后至少会有多少人接收到被转发信息,计算为转发者的关注者数目δj;推文的预期影响力ei计算为所有转发的预期影响力之和:;
其中,l为所有转发者总数,转发序列表示为,转发推文rj的转发者的关注者数目为δj;定义在第k个时间段中,新增预期影响力为该时间段内所有转发者的关注者个数的总和,即:;其中,d为第k个时间段内转发的个数,转发序列表示为,转发推文的转发者的关注者总数为。
13.进一步为更好地实现本发明所述的一种多模融合和话题的实时社交网络谣言检测方法,特别采用下述设置方式:所述有限层次自动状态机模型设置的五个状态分别为始状态、增长状态、潜在状态、衰退状态和丢弃状态;其中,开始状态对应了谣言生命周期的诞生阶段,即被其创造者发布;丢弃状态对应谣言生命周期的灭亡阶段;潜在状态即为谣言生命周期中的潜在扩散阶段,其在进一步的传播中造成更大的影响;增长状态和衰落状态是介于潜在阶段和诞生阶段以及诞生阶段和灭亡阶段之间的两种状态,用于扩展中间传播过程。
14.进一步为更好地实现本发明所述的一种多模融合和话题的实时社交网络谣言检测方法,特别采用下述设置方式:所述步骤3)包括下述步骤:3.1)构建多任务多模态谣言检测模型中的文本子网络;所述文本子网络使用预训练bert模型获得遵循语义内容的深度双向表示,并将预训练bert模型中最后一个隐藏状态输入bi-lstm网络中,从文本序列的正向和反向中提取上下文特征,最后加入一个softmax分类器;3.2)构建多任务多模态谣言检测模型中的图像子网络;所述图像子网络使用预训练vit模型来获取不同层次的视觉特征,将图像分割成小块,利用密集层将扁平化的小块映射到固定长度为768维的嵌入表示e2,并将嵌入表示e2作为12层堆叠的transformer编码器的输入,且在最后加入一个softmax分类器;3.3)构建多任务多模态谣言检测模型中的融合子网络;所述融合子网络采用基于卷积神经网络的融合网络,以获取模态内相关性(如局部表示)并有效提取跨模态关系;融合网络包含1个融合块和12个融合层,融合来自文本子网络和图像子网络中不同层次的单模态特征,从而实现慢模态融合,其中,第i个融合层的输入是前一融合层的输出、文本子网络第i层的隐藏表示和图像子网络第i层的隐藏表示;3.4)使用公开数据集离线训练多任务多模态谣言检测模型:在数据预处理阶段,先过滤从github上收集的公开数据集中单文本推文和单图像推文(即仅含文本或图像的推文);对含多图片和多文本的推文,采用数据增强的预处理方法将其转换为文本-图像对,以保证多任务多模态谣言检测模型的训练数据集中均为文本-图像对的数据形式;在训练阶段,将全局损失计算为文本子网络,图像子网络和融合网络的交叉熵损失之和,采用adamw的梯度下降方法对网络中的所有可学习参数进行了优化;3.5)将训练完成的多任务多模态谣言检测模型运用于谣言真实性检验模块中,将
潜在的传播事件输入到谣言真实性检验模块中进行真实性检测,达到实时监测的目的;由于实时数据会出现纯文本推文和纯图像推文的情况,此时融合子网络因需要两种模态的输入,会导致无法运行,为灵活适应输入数据,对网络上所有数据都能进行真实性检验:当为纯文本推文时,采用空白图像作为其文本-图像对,输入多任务多模态谣言检测模型中测试得到三个分类器的分类结果,并采用文本推文分类器的分类结果作为多任务多模态谣言检测模型的分类最终结果;当为纯图像推文时,多任务多模态谣言检测模型采用图像分类器的分类结果作为模型最终分类结果。
15.进一步为更好地实现本发明所述的一种多模融合和话题的实时社交网络谣言检测方法,特别采用下述设置方式:所述预训练bert模型和vit模型均由一层嵌入层和12层transformer编码器堆叠构成;所述融合层包括融合模块和模态关联模块,融合模块依次设置有全连接层、卷积层和最大池化层,模态关联模块设置有归一化层、relu激活层、1x1卷积层、归一化层、relu激活层和3x3卷积层。
16.本发明与现有技术相比,具有以下优点及有益效果:针对直接对全局信息进行谣言检测困难且成本密集、模型难以运用于实时场景且检测滞后的问题,本发明将谣言检测任务分为推文追踪、潜在传播事件检测和潜在谣言真实性检验三个模块,致力于在实时场景中追踪并在谣言发展的早期揭穿谣言,减少揭穿延迟,减少影响和损失。
17.针对现有数据集获取方法的缺陷,本发明提出了一种潜在传播事件检测方法,将其检测到的传播事件作为谣言真实性检验的输入。该方法利用有限层次自动状态机模型将谣言的生命周期演化过程映射到一个分析和描述转发行为的数学模型中,在推文到达爆发传播阶段之前,挖掘早期的转发传播事件并过滤消亡的传播事件,达到有效过滤噪声数据,减少谣言检测的数据处理规模。
18.针对现有谣言检测方法简单串联文本模态和图像模态信息导致的多模信息表示不佳的问题,本发明提出一种中间融合的多任务多模态谣言检测方法,利用两个单峰文本和图像子网络和一个融合子网络,通过两个单模态子网络(文本子网络、图像子网络)分别学习单模态边缘表示,然后融合不同层次的单模态表示,生成联合表示,从而同时利用深层的模态内特征和复杂的模态间关系进行谣言检测,从而融合模型进一步提高了预测性能和泛化能力。
19.针对现有谣言检测模型无法处理社交网络上所有类型推文的问题,本发明采用一种弹性的通过多任务处理所有类型推文的谣言检测方法,并在其中一种模态缺失时仍然可以运行,从而能在实时场景中运用,扩展了应用场景。同时,为了保持图像语义的完整性和丰富的视觉表示,本发明通过数据增强的方法将具有多图像的推文转换为文本对,保持了图像语义的完整性和丰富的视觉表示,进而提升分类的效果。
附图说明
20.图1为实时社交网络谣言检测的总流程图。
21.图2为本发明所述有限层次自动状态机模型的结构图。
22.图3为多任务多模态谣言检测模型结构图。
23.图4为本发明所述融合层的结构图。
24.图5为本发明所述的融合模块的处理流程图。
25.图6为本发明所述的模态关联模块的处理流程图。
具体实施方式
26.下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
27.为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
28.实施例1:一种多模融合和话题的实时社交网络谣言检测方法,包括下述步骤:1)推文追踪模块通过社交媒体api获取实时发布推文,并根据潜在传播事件检测模块的指令对已有部分事件持续监测转发结构和传播相关信息并写入数据库中,对部分事件停止追踪并删除数据库中的相关信息;优选的,推文追踪模块首先通过社交媒体api逐一获取实时发布推文的文本内容、多媒体内容、转发内容与结构、发布时间、用户属性等相关信息,并将其存入数据库中;其次,对潜在传播事件检测模块判定为可能成为话题的信息,推文追踪模块对其进行持续监测转发内容与结构、转发者的用户属性;最后,对潜在传播事件检测模块判定为无法有效传播的噪音信息,推文追踪模块停止对其检测,并删除数据库中的相关信息;包括下述步骤:1.1)推文追踪模块通过社交媒体api获取实时发布推文的数据流,对推文文本内容进行分词,过滤推文文本长度过短(小于10个词)的推文,过滤非中文和英文的推文;即对中文的推文文本内容使用分词工具进行分词,对英文的推文文本内容则按空格分割为n个词, 过滤推文文本长度过短(n《10)的推文;1.2)对过滤后的推文通过社交媒体api获取其包括多媒体内容、转发内容与结构、发布用户属性在内的相关信息(即可能包含的多媒体内容、转发内容与结构,发布用户属性等相关信息),并存入数据库中;1.3)对潜在传播事件检测模块传入的被判定为可能成为话题的信息,持续监测其新的转发内容与结构、转发者的用户信息,并存入数据库中;1.4)对潜在传播事件检测模块传入的被判定为可能无法有效传播的噪音信息推文,推文追踪模块停止对该推文传播情况的监测,并从数据库中删除该推文及其相关信息。
29.2)潜在传播事件检测模块利用有限层次自动状态机模型将谣言的演化映射为分析和描述复杂行为的数学模型,并将推文的传播阶段映射到有限层次自动状态机中的各个状态并定义相关状态转化机制,以在传播事件发展至爆发阶段之前,挖掘出潜在的传播事件;优选的,根据谣言的四个阶段:诞生、潜在扩散、爆炸传播和衰退灭亡,构建有限层次自动状态机模型将推文的传播阶段映射到有限层次自动状态机模型中的各个状态,从而挖掘
潜在传播事件并过滤传播范围小的推文;本发明还根据一定时间内转发造成的关注程度构建了自动状态机中各状态的转换机制,以解释推文的动态传播状态;包括下述步骤:2.1)基于社交网络推文的受众数目,定义推文预期影响力,并完成推文预期影响力计算,具体为:本发明将社交网络上推文的预期影响力定义为在社交网络上至少有多少人接收到该推文的信息;根据社交网络中被转发的推文会被推送给转发者的关注者这一机制,某次转发的预期影响力定义为在该转发者传播后至少会有多少人接收到被转发信息,计算为转发者的关注者数目δj;推文的预期影响力ei计算为所有转发的预期影响力之和:;其中,l为所有转发者总数,转发序列表示为,转发推文rj的转发者的关注者数目为δj;定义在第k个时间段中,新增预期影响力为该时间段内所有转发者的关注者个数的总和,即:;其中,d为第k个时间段内转发的个数,转发序列表示为,转发推文的转发者的关注者总数为;2.2 )将有限层次自动状态机模型设置为五个状态,分别为开始状态、增长状态、潜在状态、衰退状态和丢弃状态;其中,开始状态对应了谣言生命周期的诞生阶段,即被其创造者发布;丢弃状态对应谣言生命周期的灭亡阶段;潜在状态即为谣言生命周期中的潜在扩散阶段,其可能在进一步的传播中造成更大的影响;增长状态和衰落状态是介于潜在阶段和诞生阶段以及诞生阶段和灭亡阶段之间的两种状态,用于扩展中间传播过程;2.3)采用阈值化处理方法设置开始状态的状态转换条件;2.4)采用添加一个二元嵌套状态模块计算突发值来实现处理不同扩散特征的事件方式,来设置增长状态和衰退状态的状态转换条件;2.5)从数据库提取推文及其包含转发结构和转发者的用户信息在内的传播信息传入构建的有限层次自动状态机模型中,经过步骤2.3)和步骤2.4)设置的状态转换后,得到推文的当前状态;2.6 )若步骤2.5)得到的当前状态为丢弃状态,则通知推文追踪模块停止追踪并删除数据库中的相关信息;2.7)若步骤2.5)得到的当前状态为潜在状态,则将该推文的文本内容、多媒体内容、转发内容与结构在内的相关信息传入谣言真实性检验模块中;2.8)若步骤2.5)得到的当前状态为增长状态或衰退状态,则通知推文追踪模块根据其动态时间窗口机制来持续监控传播情况;2.9 )重复步骤2.5)至步骤2.8),直到数据库中无未处理数据或程序被用户终止,挖掘出潜在的传播事件。
30.3)谣言真实性检验模块负责对潜在传播事件检测模块挖掘出的传播事件进行谣言真实性检测,即谣言真实性检验模块利用包含两个文本和图像模态的子网络和一个融合子网络的多任务多模态谣言检测模型,通过融合不同层次的单模态表示生成更完备的联合多模态表示,可以灵活处理所有类型的推文(纯文本、纯图像、图像-文本对和文本多图像),进行谣言的真实性分类,从而实现分类为非谣言,真实谣言和虚假谣言的最终目标;三个子网络后分别添加了分类器,以实现对全类别信息的真实性检验。全局损失设置为三个分类器的损失总和,以在梯度反向传播阶段回传一些约束从而协调每种模态的表示。
31.实施例2:本实施例是在上述实施例的基础上进一步优化,与前述技术方案相同之处在此不再赘述,进一步为更好地实现本发明所述的一种多模融合和话题的实时社交网络谣言检测方法,特别采用下述设置方式:所述步骤3)包括下述步骤:3.1)构建多任务多模态谣言检测模型中的文本子网络;所述文本子网络使用预训练bert模型获得遵循语义内容的深度双向表示,并将预训练bert模型中最后一个隐藏状态输入bi-lstm网络中,从文本序列的正向和反向中提取上下文特征,最后加入一个softmax分类器;其中,预训练bert模型由一层嵌入层和12层transformer编码器堆叠构成;3.2)构建多任务多模态谣言检测模型中的图像子网络;所述图像子网络使用预训练vit模型来获取不同层次的视觉特征,将图像分割成小块,利用密集层将扁平化的小块映射到固定长度为768维的嵌入表示e2,并将嵌入表示e2作为12层堆叠的transformer编码器的输入,且在最后加入一个softmax分类器;其中,预训练vit模型由一层嵌入层和12层transformer编码器堆叠构成;3.3)构建多任务多模态谣言检测模型中的融合子网络;所述融合子网络采用基于卷积神经网络的融合网络,以获取模态内相关性(如局部表示)并有效提取跨模态关系;融合网络包含1个融合块和12个融合层,融合来自文本子网络和图像子网络中不同层次的单模态特征,从而实现慢模态融合,其中,第i个融合层的输入是前一融合层的输出、文本子网络第i层的隐藏表示和图像子网络第i层的隐藏表示;所述融合层包括融合模块和模态关联模块,融合模块依次设置有全连接层、卷积层和最大池化层,模态关联模块设置有归一化层、relu激活层、1x1卷积层、归一化层、relu激活层和3x3卷积层;3.4)使用公开数据集离线训练多任务多模态谣言检测模型:在数据预处理阶段,先过滤从github上收集的公开数据集中单文本推文和单图像推文(即仅含文本或图像的推文);对含多图片和多文本的推文,采用数据增强的预处理方法将其转换为文本-图像对,以保证多任务多模态谣言检测模型的训练数据集中均为文本-图像对的数据形式;在训练阶段,将全局损失计算为文本子网络、图像子网络和融合网络的交叉熵损失之和,采用adamw的梯度下降方法对网络中的所有可学习参数进行了优化;3.5)将训练完成的多任务多模态谣言检测模型运用于谣言真实性检验模块中,将潜在的传播事件输入到谣言真实性检验模块中进行真实性检测,达到实时监测的目的;由于实时数据会出现纯文本推文和纯图像推文的情况,此时融合子网络因需要两种模态的输入,会导致无法运行,为灵活适应输入数据,对网络上所有数据都能进行真实性检验:当为纯文本推文时,采用空白图像作为其文本-图像对,输入多任务多模态谣言检测模型中测试得到三个分类器的分类结果,并采用文本推文分类器的分类结果作为多任务多模态谣言检
测模型的分类最终结果;当为纯图像推文时,多任务多模态谣言检测模型采用图像分类器的分类结果作为模型最终分类结果。
32.实施例3:本发明提出了一种多模融合和话题的实时社交网络谣言检测技术(方法),将谣言检测任务分为推文追踪、潜在传播事件检测和谣言真实性检验三个部分,分别利用推文追踪模块、潜在传播事件检测模块和谣言真实性检验模块完成。
33.其中,推文追踪部分的具体实施方法如下:s1: 通过社交媒体api获取实时发布推文的数据流,过滤非中文和英文的推文,对中文的推文文本内容使用分词工具进行分词,对英文的推文文本内容则按空格分割为n个词, 过滤推文文本长度过短(n《10)的推文;s2: 对过滤后的推文通过社交媒体api获取其可能包含的多媒体内容、转发内容与结构,发布用户属性等相关信息,并存入数据库中;s3: 对潜在传播事件检测模块传入的被判定为可能成为话题的信息进行持续监测,通过提出的动态时间窗口机制持续监测其新的转发内容与结构、转发者的用户信息,并存入数据库中。其中,动态时间窗口机制设置了不同的时间间隔来监控不同状态的推文。推文追踪模块每10分钟监测一次处于开始状态的推文,并记录最新的转发结构,增长状态下的时间间隔为60分钟,消退状态下的时间间隔为120分钟。
34.s4: 对潜在传播事件检测模块传入的被判定为可能无法有效传播的噪音信息,推文追踪模块停止对该推文传播情况的监测,并从数据库中删除该推文及其相关信息。
35.潜在传播事件检测部分的具体实施方法如下:s1:定义并计算预期影响力。本发明将转发的预期影响力定义为在转发者传播后至少会有多少人接收到被转发信息。假设在第k个时间段内有d个转发,转发序列表示为,转发推文的转发者的关注者总数为,则本发明定义在第k个时间段中,新增预期影响力为该时间段中所有转发者的关注者个数的总和,即:;s2: 设置有限层次自动状态机模型中的五个状态:开始状态、增长状态、潜在状态、衰退状态和丢弃状态。其中,开始状态对应了谣言生命周期的诞生阶段,即被其创造者发布,丢弃状态对应谣言生命周期的灭亡阶段,潜在状态即为谣言生命周期中的潜在扩散阶段,其可能在进一步的传播中造成更大的影响。而增长状态和衰落状态是介于潜在阶段和诞生阶段以及诞生阶段和灭亡阶段之间的两种状态,用于扩展中间传播过程。
36.s3: 设置开始状态的状态转换条件。本发明对开始状态的状态转换采用低成本的阈值化处理方法:若在本次检测时间窗口内,新增转发者的关注者之和大于300,则从开始状态转换到增长状态,若新增转发数小于3且新增转发者的关注者之和小于100,则从开始状态转换到衰退状态,否则保持开始状态不变;s4: 设置增长状态和衰退状态的状态转换条件。本发明对增长状态和衰退状态的状态转换采用添加一个二元嵌套状态模块计算突发值来实现。在二元嵌套状态模块中,本
发明定义两个状态:正常状态和爆发状态。序列表示在n个时间段中某一推文的转发次数序列,如xi表示在第i个时间段中该推文的转发次数,对应状态序列,当q
t
值为0时表示正常状态,为1表示爆发状态。从正常状态到爆发状态的转换代价为β(经实验设置β值为1.0),而从爆发状态到正常状态的转换代价为0,则从状态qi到状态qj的转换代价为:;状态序列q的总转换代价为每对相邻状态的转换代价之和:;将寻找该状态序列的问题转化为最小化序列总代价的问题,序列总代价为序列代价和转换代价之和:;;其中,是状态qi在第i个时间段的服从泊松分布的密度函数:;通过解决最小化序列总代价的优化问题,二元嵌套状态模块得到了确定的状态序列,本发明定义突发值bs来衡量该序列的传播突发程度,时间间隔在转发序列的突发值为正常状态和爆发状态之间的成本增量之和:;本发明采用s1步骤中定义的新增预期影响力作为权重,对突发值进行加权:;新增预期影响力作为突发值的权重,直观上表示了受某条推文影响的人数,为突发程度的测量带来了传播特性。最后,本发明根据加权的突发值设定阈值实现增长状态和衰落状态的状态转换,若加权突发值大于20,则如图2所示,向左增长一个状态,若突发值小于5,则向右下降一个状态,否则状态不变;s5:从数据库提取推文及其包含转发结构和转发者的用户信息在内的传播信息传入构建的有限层次自动状态机模型中,经过s3和s4设置的状态转换后,得到推文的当前状态;s6: 若s5步骤得到的当前状态为丢弃状态,则通知推文追踪模块停止追踪并删除
数据库中的相关信息;s7: 若s5步骤得到的当前状态为潜在状态,则将该推文的文本内容、多媒体内容、转发内容与结构等相关信息传入谣言真实性检验模块中;s8:若s5步骤得到的当前状态为增长状态或衰退状态,则通知推文追踪模块根据其动态时间窗口机制来持续监控传播情况;s9: 重复s5至s8步骤,直到数据库中无未处理数据或程序被用户中止,挖掘出潜在的传播事件。
37.谣言真实性检验部分的具体实施方法如下:s1:构建构建多任务多模态谣言检测模型中的文本子网络。在文本子网络中,本发明使用预训练bert模型来获得遵循语义内容的深度双向表示。如图3所示,预训练bert模型由一层嵌入层和12层transformer编码器堆叠构成。12层transformer编码器中每一层捕获不同层次的信息,如表层信息特征在底层网络,句法信息特征在中间层网络,语义信息特征在高层网络。本发明将嵌入层输出的文本编码e1和12层transformer编码器中产生的12个隐藏状态依次输入至融合子网络中。如图3所示,文本子网络将预训练bert模型中最后一个隐藏状态输入bi-lstm网络中,从文本序列的正向和反向中提取上下文特征,最后加入一个全连接层作为分类器计算softmax交叉熵损失loss1;s2: 构建多任务多模态谣言检测模型中的图像子网络。在图像子网络中,本发明使用预训练vit模型来获取不同层次的视觉特征。预训练vit模型将图像分割成小块,然后利用密集层将扁平化的小块映射到固定长度为768维的嵌入表示e2,从而将图像转化为和文本类似的序列结构,并将嵌入表示e2作为12层堆叠的transformer编码器的输入。同样的本发明将图像嵌入表示e2和12层transformer编码器中产生的12个隐藏状态依次输入至融合子网络中。如图3所示,图像子网络同样加入一个分类器,并计算softmax交叉熵损失loss2;s3:构建多任务多模态谣言检测模型中的融合子网络。本发明构建了一个基于卷积神经网络的融合网络,以获取模态内相关性(如局部表示)并有效提取跨模态关系。其中,融合网络包含1个融合块和12个融合层,融合来自文本子网络和图像子网络中不同层次的单模态特征,从而实现慢模态融合。如图4所示,每个融合层包含两个主要的处理模块:融合模块和模态关联模块。第i个融合层的输入是前一融合层的输出o
i-1
,文本子网络第i层的隐藏表示和图像子网络第i层的隐藏表示。如图5所示,在融合块中,文本的隐藏表示和图像的隐藏表示首先通过通道堆叠,得到192x768x2的表示结构,考虑到后续卷积操作的计算复杂度和计算内存需求,卷积层前加入一个全连接层将768维度的嵌入表示降至128维。四类不同大小的卷积核被用于输入图中捕获n-gram特征,并设置所有卷积核的宽度与单词嵌入的维数相同,高度分别为n=[2,3,4,5],每种不同大小的卷积核都有16个,以在不同的子空间中产生特征图,进而丰富特征。卷积计算公式如下:
[0038]
其中w
t
是第t个卷积核的权重,是输入图中第i行第j个数值,是第t个卷积核中的偏置项,是relu激活函数。表示n-gram特征的特征图yn由16个卷积核得出的特征在特征维度上拼接得到,如图5中右侧矩阵所示,2-gram的特征图y2尺寸为16x99, 3-gram,4-gram和5-gram的特征图尺寸均为16x100, 接着四个特征图通过一个1x3尺寸,步长为2的最大池化层,并在通道层面上拼接在一起得到局部语义信息作为模态内关联。为获取跨模态关联,本发明构建包含1x1卷积核,卷积层和3x3卷积核,卷积层的模态关联模块,沿着通道方向进一步聚合特征。在模态关联模块中,1x1卷积核,卷积层在保留特征相关信息的同时,提供了过滤池化和降维功能,以提高计算效率, 而3x3卷积核,卷积层则被用于加强模态间信息的相互作用。结合图5和图6所示,模态关联模块的输入时上层的输出o
i-1
和当前层融合模块的输出在通道维度上的拼接,经过批标准化(归一化层),relu激活层,1x1卷积层,批标准化(归一化层),relu激活层,3x3卷积层得到当前融合层的隐藏表示hi。最后,本发明在融合层添加了一种密集连接,将当前融合层的隐藏表示hi和前一融合层的输出o
i-1
在通道层面拼接起来,使得每一层以前馈方式连接到其他每一层,缓解了消失梯度的问题,改善了整个网络的信息流。即当前融合层输出oi表示为:;如图3所示,融合子网络将通过12个融合层计算出的融合表示输入到包含归一化层(披标准化)、1x1卷积层的过渡层(1x1,卷积)、激活函数(relu激活)和平均池化层来降采样特征图。最后的表示将通过mlp(多层感知器)进行谣言分类。融合网络的交叉熵损失表示为lossc。
[0039]
s4:使用公开数据集离线训练多任务多模态谣言检测模型。在数据预处理阶段,先过滤从github上收集的公开数据集中单文本推文和单图像推文(即仅含文本或图像的推文);对含多图片和多文本的推文,采用数据增强的预处理方法将其转换为文本-图像对的数据形式:通过将多个图像按横向依次添加到白色背景的图像上,且不调整图像的大小。通过这些预处理方法,能保证模型的训练数据集中均为文本-图像对的数据形式;在训练阶段,将全局损失计算为文本子网络、图像子网络和融合网络的交叉熵损失之和:;最后利用adamw的梯度下降方法对单峰子网络中的所有可学习权值和融合网络中的参数进行了优化。
[0040]
s5:多任务多模态谣言检测模型训练完毕后,模型将被安置于在图1中的谣言真实性检验模块中,对潜在传播事件检测模块挖掘到的潜在的传播事件进行真实性检验,从而达到实时监测谣言的目的。由于实时数据会出现纯文本推文和纯图像推文的情况,此时融合子网络因需要两种模态的输入,会导致无法运行。为灵活适应输入数据,对网络上所有数据都能进行真实性检验,当纯文本推文出现时,本发明采用空白图像作为其文本-图像对,输入多任务多模态谣言检测模型中测试得到三个分类器的分类结果,并采用文本推文分类
器的分类结果作为模型的分类最终结果。同理,当纯图像推文出现时,模型采用图像分类器的分类结果作为模型最终分类结果。
[0041]
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1