一种虚假消息的识别方法及其设备与流程

文档序号:15963657发布日期:2018-11-16 23:02阅读:547来源:国知局

本发明属于信息处理技术领域,尤其涉及一种虚假消息的识别方法及其设备。

背景技术

虚假消息,或称“谣言”,指没有事实存在而捏造的消息。虚假消息会错误地影响大众的观点,引导人们做出错误的选择。特别在金融投资领域,虚假消息可能会使投资者做出错误的投资选择,甚至引起投资人的恐慌,造成经济市场的投资混乱,并增加用户的经济财产损失的风险。因此,如何准确地识别出目标消息是否为虚假消息有着重要的意义。

现有的虚假消息的识别技术,需要通过对目标消息展开相关调查后才能确定该目标消息是否为虚假消息。然而上述方式需要耗费大量人力进行线程勘察,特别当目标消息的发生地有多个且与调查人员的所在地不再同一地区时,则需要耗费大量的时间成本以及人力成本,识别效率较低。



技术实现要素:

有鉴于此,本发明实施例提供了一种虚假消息的识别方法及其设备,以解决现有的虚假消息的识别方法,需要耗费大量的时间成本以及人力成本,识别效率较低的问题。

本发明实施例的第一方面提供了一种虚假消息的识别方法,包括:

获取包含目标消息的多个载体文本,以及各个所述载体文本的传播路径;所述传播路径包括传播所述载体文本的传播用户的标识;

基于所述载体文本以及所述传播用户的标识,得到各个所述载体文本的文本矩阵;

将各个所述文本矩阵导入至预设的特征向量计算模型,得到所述目标消息的文本特征向量;

根据所有所述载体文本的传播路径,生成关于所述目标消息的用户传播矩阵;所述用户传播矩阵中包含的各元素具体为每个所述传播用户传播的载体文本的个数;

将所述用户传播矩阵导入到预设的用户特征计算模型,得到所述目标消息对应的用户传播特征向量;

根据所述用户传播特征向量以及所述文本特征向量,计算所述目标消息的真伪指数;

若所述真伪指数在预设的虚假指数范围内,则识别所述目标消息为虚假消息。

本发明实施例的第二方面提供了一种虚假消息的识别设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面的各个步骤。

本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面的各个步骤。

实施本发明实施例提供的一种虚假消息的识别方法及其设备具有以下有益效果:

本发明实施例通过获取包含目标消息的所有载体文本,以及各个载体文本的传播路径,通过载体文本以及传播路径中包含的传播用户的标识,得到各个载体文本的文本矩阵,并通过多个文本矩阵得到该目标消息的文本特征向量;与此同时,通过各个载体文本的传播路径,得到用户传播矩阵,继而计算得到该目标消息的用户传播特征向量;最后,基于用户传播特征向量以及文本特征向量计算该目标消息的真伪指数,通过真伪指数识别该目标消息是否为虚假消息。与现有的虚假消息识别技术相比,本实施例无需人工调研取证,从而减少了人工成本以及调查所需的时间,而是可以通过采集传递该目标消息的载体文本的文本特征以及对传播过该目标消息的各个传播用户的用户特征进行分析,其中,通过文本特征向量可以表现出该目标消息是否具有煽动特性,通过用户特征向量可以表现出该目标消息在传播的过程中是否具有爆发传播性,通过上述两个特征向量则可得到该目标消息的虚假指数,从而识别得到该目标消息是否为虚假消息,提高了虚假消息的识别准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种虚假消息的识别方法的实现流程图;

图2是本发明第二实施例提供的一种虚假消息的识别方法s103具体实现流程图;

图3是本发明第三实施例提供的一种虚假消息的识别方法s105具体实现流程图;

图4a是本发明第四实施例提供的一种虚假消息的识别方法s106具体实现流程图;

图4b是本发明一实施例提供的一种真伪指数计算模型的计算框图;

图5是本发明第四实施例提供的一种虚假消息的识别方法s102具体实现流程图;

图6是本发明一实施例提供的一种虚假消息的识别设备的结构框图;

图7是本发明另一实施例提供的一种虚假消息的识别设备的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实施例通过获取包含目标消息的所有载体文本,以及各个载体文本的传播路径,通过载体文本以及传播路径中包含的传播用户的标识,得到各个载体文本的文本矩阵,并通过多个文本矩阵得到该目标消息的文本特征向量;与此同时,通过各个载体文本的传播路径,得到用户传播矩阵,继而计算得到该目标消息的用户传播特征向量;最后,基于用户传播特征向量以及文本特征向量计算该目标消息的真伪指数,通过真伪指数识别该目标消息是否为虚假消息,解决了现有的虚假消息的识别方法,需要耗费大量的时间成本以及人力成本,识别效率较低的问题。

在本发明实施例中,流程的执行主体为虚假消息的识别设备。该虚假消息的识别设备包括但不限于:笔记本电脑、计算机、服务器、平板电脑以及智能手机等虚假消息的识别设备。特别地,该虚假消息的识别方法可以为一网络平台的服务器,从而可以获取得到该网络平台上各个传播文本的转发量、传播速度以及传播路径等各种传播参数。图1示出了本发明第一实施例提供的虚假消息的识别方法的实现流程图,详述如下:

在s101中,获取包含目标消息的多个载体文本,以及各个所述载体文本的传播路径;所述传播路径包括传播所述载体文本的传播用户的标识。

在本实施例中,目标消息可以由用户进行设置,即当用户需要判定某一消息的真伪性时,可以把该目标消息的内容输入到本实施例提供的虚假消息的识别设备内,或者将包含该消息的文章、链接等消息载体发送给识别设备,继而识别设备从该消息载体中确定目标消息。可选地,识别设备还可以设置一个检测周期,定期检测在该识别设备所在网络平台中传播消息的真伪性。在该情况下,识别设备以预设的检测周期采集网络平台内包含的载体文本,并基于预设的目标消息提取条件,从网络平台传播的各个载体文本中提取目标消息,并执行s101的相关操作。

可选地,该预设的目标消息提取条件可以为:基于语义识别算法,从各个载体文本中提取文本关键词,并统计各个载体文本中相同文本关键词的出现次数;若某一文本关键词的出现次数大于预设的次数阈值,则确定该文本关键词所对应的消息为目标消息。

在本实施例中,消息的传播依赖各种各样的载体,例如通过文章、评论、聊天记录等文本形式进行传播,而承载目标消息的文本即为上述的载体文本。识别设备在确定了目标消息后,可以查询各个文本中是否包含目标消息,若网络平台中的某一文本包含目标消息,则识别该文本为载体文本。优选地,由于虚假消息是具有一定的时限性的,即虚假消息传播的爆发期会在一周或十几天不等的短期时间范围内,而不会存留较长的时间,例如在一年甚至更早之前已经开始传播虚假消息而不被发现。为了减少识别设备对载体文本的处理数量,设置有一有效时间范围,即获取创建时间在该有效时间范围内且包含目标消息的文本才识别为载体文本,而创建时间在有效时间范围外的文本则不予以识别,从而提高处理效率,并有效筛选出大量无效的文本。

在本实施例中,识别设备会获取载体文本的传播路径,该传播路径具体为该载体文本在网络平台中各个传播用户之间流转的路径,因此传播路径会包含传播了该载体文本的传播用户的标识。其中,该传播用户的标识可以为传播用户的用户名、用户账户或该传播用户的用户信息。优选地,在本实施例中采用传播用户的用户信息,由于同一实体用户可以在网络平台中注册多个不同的用户账户,并存在多个用户名,因此不同的用户名或用户账户可能对应的实体人是相同给的,但采用用户信息则可以避免上述情况的发生,因为用户信息,例如身份证号码等,是具有唯一性的,从而保证了相同的用户信息对应的实体人也是相同的,提高了虚假消息识别的效率。

在s102中,基于所述载体文本以及所述传播用户的标识,得到各个所述载体文本的文本矩阵。

在本实施例中,同一个传播用户可以传播关于目标消息的多个载体文本,而同一个载体文本可以由多个不同的传播用户进行传播,因此,为了准确确定目标消息的传播情况,识别设备会根据载体文本的传播路径,确定传播该载体文本的所有传播用户的用户标识,并基于该传播用户的用户标识,对每一个载体文本构建一个文本矩阵。

优选地,文本矩阵除了包含载体文本传播用户的用户标识信息外,还可以包括该载体文本的文本内容信息。在该情况下,识别设备会对该载体文本进行关键词提取操作,确定该载体文本中包含的关键词。需要说明的是,所提取得到的关键词是与目标消息相关联的关键词,识别设备在确定目标消息后,会确定与该目标消息相关联的候选关键词,并从载体文本中确定包含哪些候选关键词,基于识别得到的候选关键词确定该载体文本的内容特征参数,然后基于内容特征参数以及传播用户的标识,构建该载体文本的文本矩阵。

在s103中,将各个所述文本矩阵导入至预设的特征向量计算模型,得到所述目标消息的文本特征向量。

在本实施例中,由于虚假消息的一个重要特征是传播速度的爆发性以及广泛性,而包含虚假消息的载体文本也同样会具备上述两个特征。而各个载体文本根据对应的传播用户的标识生成的文本矩阵,可以表征出该载体文本在用户传播的角度上的相关特征,判断是否存在爆发性以及广泛性,若存在,则表示该载体文本很可能携带有虚假消息,由于一个载体文本可能包含多种不同消息,为了确定产生爆发性传播是否由目标消息造成,需要对各个载体文本的文本矩阵进行识别。因此,识别设备在生成了各个载体文本的文本矩阵后,需要将各个文本矩阵导入到预设的特征向量计算模型,确定该目标消息的文本特征向量,作为识别该目标消息真伪性的参考参数之一。

需要说明的是,由于s102、s103是用于计算目标消息的文本特征向量,而s104以及s105是用于计算目标消息的用户特征向量,即上述两大类步骤之间并不存在先后次序,终端设备可以先执行s102和s103,再执行s104和s105;或者先执行s104和s105,再执行s102和s103。优选地,若识别设备可以并发双线程计算,则可以同时执行s102以及s104的操作。

在s104中,根据所有所述载体文本的传播路径,生成关于所述目标消息的用户传播矩阵;所述用户传播矩阵中包含的各元素具体为每个所述传播用户传播的载体文本的个数。

在本实施例中,如上所述,一个传播用户可以同时传播多个包含目标消息的载体文本,因此,为了确定各个传播用户传播载体文本的数量,需要根据各个载体文本的传播路径,统计每个传播用户传播载体文本的个数,并得到该目标消息对应的用户传播矩阵。对于虚假消息,一般是由虚假消息的产生用户,即造谣者,有意识地不断散播有关虚假消息的载体文本,即对于造谣者其传播载体文件的数量会占载体文本总传播量的较大比例,而非造谣者的普通传播用户,其传播载体文本的数量有限,是一个零散的传播行为,因此通过用户传播矩阵,可以较好地体现是否有造谣者恶意散播目标消息,从而判断该目标消息是否为虚假消息。

可选地,识别设备可以创建一个传播用户网状图,并根据各个载体文本的传播路径,在该传播用户网状图上绘制各个载体文本的传播路径,若该传播路径经过网状图中的一个传播用户,则对该传播用户的传播文本个数上进行加1操作,从而对所有传播路径进行绘制之后,则可以确定各个传播用户传播的载体文本的个数,生成该用户传播矩阵。

优选地,在本实施例,在用户传播矩阵中各个传播用户在矩阵中的次序,与传播路径上的传播次序一致。即若某一传播用户为载体文件的作者,即首位传播者,则在传播用户矩阵的次序为1,以此类推。若多个用户处于同一传播次序,可以基于传播载体文本的个数,再次对相同传播次序的传播用户进行排序,还可以由相同传播次序的传播用户传播的载体文本的个数构成的数组,作为该用户传播矩阵中该次序的元素。

在s105中,将所述用户传播矩阵导入到预设的用户特征计算模型,得到所述目标消息对应的用户传播特征向量。

在本实施例中,通过用户传播矩阵可以确定该目标消息在传播用户之间的传播规律,为了提取得到关于传播用户的用户传播特征,识别设备会将目标消息的用户传播矩阵导入到用户特征计算模型,确定关于该目标消息的用户传播特征向量,通过该用户传播特征向量是否符合虚假消息的用户传播特征,因此可以作为后续计算真伪指数的参考参数之一。

在s106中,根据所述用户传播特征向量以及所述文本特征向量,计算所述目标消息的真伪指数。

在本实施例中,识别设备在确定了目标消息的用户传播特征向量以及文本特征向量后,可以计算该目标消息的真伪指数。其中,计算的具体方式可以为:将用户传播特征向量以及文本特征向量导入到预设的真伪指数计算模型,通过该真伪指数计算模型转换后,得到目标消息的真伪指数。优选地,该真伪指数计算模型可以为一神经网络。管理员通过训练消息生成对应的用户传播特征向量以及文本特征向量,导入到该计算真伪指数的神经网络内,并调整该神经网络中的各个参数,以使该神经网络的损失函数的值最小,则将调整后的神经网络作为真伪指数计算模型。具体地,该神经网络的损失函数的表达式具体为:

其中,lj是训练消息的实际真伪指数。是预设的正则项。为训练消息的用户传播特征向量以及文本特征向量导入到真伪指数计算模型后,计算得到的真伪指数。n为训练消息的总个数。

可选地,除了通过真伪指数计算模型确定该目标消息的真伪指数外,还可以将文本特征向量以及用户特征向量中包含的各个参数值与预设的虚假参数范围进行比对,统计参数值落入到虚假参数范围的参数值个数,将该参数值个数作为该目标消息的真伪指数,通过真伪指数可以表征出目标消息与虚假消息之间的相似度。

在s107中,若所述真伪指数在预设的虚假指数范围内,则识别所述目标消息为虚假消息。

在本实施例中,识别设备只有虚假指数范围,若某一目标消息计算得到的真伪指数在虚假指数范围内,则表示该目标消息在文本特征以及传播用户特征两个方面均符合虚假消息的特点,因而会识别该目标消息为虚假消息;反之,若该目标消息的真伪指数在虚假指数范围外,则表示该目标消息与虚假消息的特征不相符,识别该目标消息为真实消息。

以上可以看出,本发明实施例提供的一种虚假消息的识别方法通过获取包含目标消息的所有载体文本,以及各个载体文本的传播路径,通过载体文本以及传播路径中包含的传播用户的标识,得到各个载体文本的文本矩阵,并通过多个文本矩阵得到该目标消息的文本特征向量;与此同时,通过各个载体文本的传播路径,得到用户传播矩阵,继而计算得到该目标消息的用户传播特征向量;最后,基于用户传播特征向量以及文本特征向量计算该目标消息的真伪指数,通过真伪指数识别该目标消息是否为虚假消息。与现有的虚假消息识别技术相比,本实施例无需人工调研取证,从而减少了人工成本以及调查所需的时间,而是可以通过采集传递该目标消息的载体文本的文本特征以及对传播过该目标消息的各个传播用户的用户特征进行分析,其中,通过文本特征向量可以表现出该目标消息是否具有煽动特性,通过用户特征向量可以表现出该目标消息在传播的过程中是否具有爆发传播性,通过上述两个特征向量则可得到该目标消息的虚假指数,从而识别得到该目标消息是否为虚假消息,提高了虚假消息的识别准确率。

图2示出了本发明第二实施例提供的一种虚假消息的识别方法s103的具体实现流程图。参见图2所示,相对于图1所述实施例,本实施例提供的一种虚假消息的识别方法中s103包括s1031~s1034,具体详述如下:

在s1031中,分别获取各个所述载体文本的传播次数、内容特征参数以及传播时间参数。

在本实施例中,为了提高文本特征向量的准确性,虚假消息的识别设备除了获取各个载体文本的传播路径之外,还会获取该载体文本的传播次数、内容特征参数以及传播时间参数,对该载体文本的多个方面进行真伪属性的判别。

具体地,该传播次数除了用户转发载体文本的次数外,还包括传播用户评论载体文本的次数以及对载体文本进行点赞的次数,即对载体文本传播产生贡献的各种行为的次数。该内容特征参数具体用于表示该载体文本所需表达的内容信息,提取的方式可以如s102中所述,通过确定该载体文本包含的关键词,继而通过该提取得到的关键词确定该载体文本的内容特征参数。而传播时间参数包括但不限于以下至少一种:载体文本创建时间、平均传播间隔、总传播时长等。

在s1032中,基于所述传播时间参数对各个所述载体文本进行排序,确定各个所述载体文本的导入次序。

由于本实施例采用的多层反馈循环神经网络来确定目标消息的文本特征向量,因此需要预设确定各个载体文本导入到该多层循环神经网络的导入次序,即所在的循环层级。其中,若多层反馈循环神经网络的层级大于该载体文本的数量,则在导入操作时,减少多层循环神经网络的层数,以使与载体文本的个数相匹配。

在本实施例中,识别设备会根据传播时间参数确定各个载体文本的导入次序,其中确定导入次序的方式基于传播时间参数所包含的参数类型不同而不同。例如,若传播时间参数为载体文本的创建时间,则可以根据创建时间的先后次序确定各个载体文本的导入次序;若传播时间参数为总传播时长,则可以根据总传播时长的时间长度的大小次序,确定各个载体文本的导入次序。

在s1033中,将所述传播次数、所述内容特征参数、所述传播时间参数以及所述文本矩阵,导入到文本时序向量转换模型,得到各个所述载体文本的文本时序向量;所述文本时序向量转换模型具体为:

其中,为导入次序为t的载体文本的所述文本时序向量;η为所述传播次数;δt为所述传播时间参数;xu为所述文本矩阵;t为导入次序为t的载体文本的融合矩阵;τ为所述内容特征参数;wa以及ba为所述文本时序向量转换模型的预设调整系数。

在本实施例中,识别设备首先根据传播次数、内容特征参数、传播时间参数以及文本矩阵,构建该载体文本的文本特征矩阵,即上述的xt,构建的方式可以在文本矩阵的基础上,添加3个矩阵行,分别用于存储传播次数、内容特征参数以及传播时间参数三组特征量,即文本矩阵若为n维矩阵,则其对应的文本特征矩阵为n+3维矩阵。

由于多层循环神经网络是一个具备时序关系的神经网络,因此在导入之间需要对文本特征矩阵进行时序转换,即确定该载体文本的文本时序向量。本实施例采用tanh函数是由于该函数具有较好的非线性性,与时序特性较为匹配。因此,识别设备会将文本特征矩阵导入到tanh函数内,确定各个载体文本对应的文本时序向量。

在s1034中,基于所述导入次序,将各个所述载体文本的文本时序向量导入到多层反馈循环神经网络的各层级,得到所述目标消息的文本特征向量;所述多层反馈循环神经网络具体为:

其中,h0为预设的初始文本向量;为各个所述载体文本的文本时序向量;h1、h2…ht-1为所述多层反馈循环神经网络各层级输出的文本特征迭代中间值;ht为所述目标消息的文本特征向量;w、u、b为调整系数。

在本实施例中,识别设备将各个载体文本的文本时序向量,基于该载体文本的导入次序,依次导入到多层反馈循环神经网络中的各个层级,每一层级的输出将作为下一层级的输入,将各个载体文本的时序特性不断叠加,从而计算得到的文本特征向量是基于各个载体文本叠加影响后输出的向量,充分融合各个文本的文本特征。

在本实施例中,识别设备将最后一层循环神经网络的输出作为该目标消息的文本特征向量。需要说明的是,识别设备在提取多层循环神经网络之前,会根据目标消息的载体文本的个数调整各多层循环神经网络的层级,以使其层级与载体文本的个数相匹配。

在本发明实施例中,通过采集载体文本的多项参数值,确定各个载体文本的文本时序向量,并基于多层循环神经网络计算目标消息的文本特征向量,从而能够提高文本特征向量对于文本特性的丰富度,从而提高了虚假消息识别的准确率。

图3示出了本发明第三实施例提供的一种虚假消息的识别方法s105的具体实现流程图。参见图3所示,相对于图1所述实施例,本实施例提供的一种虚假消息的识别方法s105还包括s1051~s1055,具体详述如下:

在s1051中,对所述用户传播矩阵进行奇异值分解,得到各个所述传播用户的用户传播系数。

在本实施例中,由于用户传播矩阵是对于所有传播用户的而言的全局矩阵,若需要确定每一个传播用户的用户传播系数,则需要对用户传播矩阵进行奇异值分解,从而能够确定不同传播用户在对目标消息进行传播的贡献情况。具体地,若该用户传播矩阵为1*n的矩阵,则进行奇异分解的对角矩阵为1*1的正则矩阵,从而可以分解为n个1*1的矩阵,并识别为各个传播用户的用户传播系数。

在s1052中,将各个所述用户传播系数分别导入到传播特征向量转换模型,确定各个所述传播用户的用户特征向量;所述用户特征向量转换模型具体为:

其中,si为第i个所述传播用户的用户特征向量;yi为第i个所述传播用户的用户传播系数;为第i个所述传播用户的用户时序向量;wu、bu、以及bs为所述用户特征向量转换模型的预设系数;e为自然对数。

在本实施例中,识别设备首先将计算得到的各个传播用户的用户传播系数进行时域变换,从而得到各个传播用户的用户时序向量,即如上所述,由于tanh函数的非线性性,与时序特性具有较好的匹配度,因此在s1052中对用户传播系数进行时域转换时,同样采用tanh函数,为了适应用户特征向量的需求,会对其中的预设系数进行调整,即为wu以及bu。

在本实施例中,识别设备在确定了各个传播用户的用户时序向量后,会通过signal函数,即确定各个用户时序向量所对应的用户特征向量,其中以及bs为预先设置的参数值。

在s1053中,基于各个所述传播用户的用户特征向量,生成用户特征矩阵。

在本实施例中,识别设备在确定了各个传播用户的用户特征向量后,则可以确定每个传播用户的用户特征向量,例如通过用户特征向量识别该用户是否为造谣用户或者普通传播用户,因此通过各个用户特征向量所构成的用户特征矩阵,能够直观地确定传播目标消息的所有用户的用户性质,从而提高识别目标消息是否为虚假消息的效率。

具体地,若传播目标消息的多个传播用户的用户特性向量与造谣用户的特性向量相匹配,则可以确定该目标消息主要是有造谣者进行传播,表示该目标消息为虚假消息的可能性较高。

在s1054中,根据文本矩阵得到各个所述载体文本的掩码向量,并将所述掩码向量以及所述用户特征矩阵导入到用户传播特征值计算模型,确定各个所述载体文本的用户传播特征值;所述用户传播特征值计算模型具体为:

其中,[i]为所述用户特征矩阵;mj为第j篇所述载体文本的掩码向量;pj为第j篇所述载体文本的用户传播特征值;d([si]*j)为非空元素统计函数。

在本实施例中,由于文本矩阵是基于传播用户的标识生成的,若文本矩阵中第i个元素为非空,则表示第i个用户传播过该载体文本。因此,为了确定各个载体文本的用户传播特征值,首先需要确定哪些用户传播过该载体文件,即生成上述的掩码向量。举例性地,若某一载体文本的文本矩阵为[5,0,0,5,0,7,5,6],则表示有五个传播用户对该载体文本进行过传播操作,因此其对应的掩码向量为:[1,0,0,1,0,1,1,1],从而通过该掩码向量可以从用户特征矩阵中提取出与该载体文本关联的各个传播用户的用户特征向量,即获取得到[i]*mj。

在本实施例中,识别设备在确定了对载体文本有传播贡献的传播用户后,会计算各个用户传播向量的均值,因此通过d([si]*j)函数统计[i]*j中非空元素的个数,从而计算得到的用户传播特征值为各个用户特性向量的均值。

在s1055中,根据各个所述用户传播特征值,生成所述目标消息的用户传播特征向量。

在本实施例中,识别设备在确定了所有载体文本的用户传播特征值后,则会把所有用户传播特征值进行聚合,构成目标消息对应的用户传播特征向量。

在本发明实施例中,通过计算各个传播用户的用户特征向量,并基于该用户特征向量确定各个载体文本的平均用户特征向量,即上述的用户传播特征值,从而使得用户传播特征向量不仅具有用户特征,还包含了对于载体文本的传播特征,从而提高了虚假消息识别的准确率。

图4a示出了本发明第四实施例提供的一种虚假消息的识别方法s106的具体实现流程图。参见图4a所示,相对于图1~图3所述实施例,本实施例提供的一种虚假消息的识别方法中所述根据所述用户传播特征向量以及所述文本特征向量,计算所述目标标签的真伪指数,包括s1061~s1062,具体详述如下:

进一步地,所述根据所述用户传播特征向量以及所述文本特征向量,计算所述目标标签的真伪指数,包括:

在s1061中,将所述用户传播特征向量以及所述文本特征向量进行聚合,得到所述目标消息的真伪识别矩阵。

在本实施例中,识别设备在确定了用户传播向量以及文本特征向量后,会将上述两个向量进行聚合操作,构成包含上述两类特征的真伪识别矩阵。具体地,若用户传播向量为一n1*m1的矩阵,而文本特征向量为一n2*m2的矩阵,则聚合得到的真伪识别矩阵为(n1+n2)*max(m1,m2),其中,若聚合后的真伪识别矩阵存在空白的元素,则可用预设字符进行填充,优选地,该预设字符为0。

在s1062中,将所述真伪识别矩阵导入真伪指数计算模型,得到所述目标消息的真伪指数;所述真伪指数计算模型具体为:

其中,为所述真伪指数;[j]为所述真伪识别矩阵;以及bc为所述真伪指数计算模型的预设系数;e为自然对数。

在本实施例中,终端设备在确定了真实识别矩阵后,将该矩阵导入到指纹指数计算模型,该真伪指数计算模型具体为一signal函数,即函数其中,以及bc为所述真伪指数计算模型的预设系数,可以通过训练学习确定,还可以根据管理员的需求手动调整。

举例性地,图4b示出了本发明实施例提供的一种真伪指数计算模型的计算框图。其中,[j]文本特征向量,[j]为所述真伪识别矩阵,[j]为用户传播特征向量。

在本发明实施例中,通过将文本特征向量以及用户传播特征向量进行聚合,从而得到真伪识别矩阵,从而可以将两项参数整合为一个参数,减少计算的次数,提高了真伪指数的计算效率。

图5示出了本发明第五实施例提供的一种虚假消息的识别方法s102的具体实现流程图。参见图5所示,相对于图1所述实施例,本实施例提供的一种虚假消息的识别方法s102还包括:s1021以及s1022,具体详述如下:

进一步地,在基于各个所述聚类接口,创建聚类接口调用服务之后,还包括:

在s1021中,基于所述载体文本以及所述传播用户的标识,构建所述目标消息的全局传播矩阵[ij]n×m;其中,所述aij为第i个传播用户对于第j个载体文本的传播标记值;所述n为所述传播用户的个数;所述m为所述载体文本的个数;。

在本实施例中,识别设备在获取了各个载体文本的传播路径后,则可以确定传播该载体文本的各个传播用户,并基于各个传播用户的用户编号,生成一个数列。对于每个载体文本均采用上述方式进行传播用户的统计操作,从而可以关键到关于目标消息的全局传播矩阵。其中,该全局传播矩阵中第i行的元素集合表示第i个传播用户传播了哪些载体文本;而该全局传播矩阵中第j列的元素集合表示第j个载体文本由哪些传播用户进行传播,从而通过该全局传播矩阵,可以确定目标消息在网络平台中传播情况,通过对列进行划分可以得到各个载体文本的传播信息,而通过对行进行划分则可以得到各个传播用户的传播信息。

在本实施例中,aij为第i个传播用户对于第j个载体文本的传播标记值,具体地,若第i个传播用户传播了第j个载体文本,则该传播标记值为1;反之,若第i个传播用户没有传播了第j个载体文本,则该传播标记值为0,由此构成了以1和0组成的全局传播矩阵[ij]n×m,通过该全局传播矩阵可以查找任意传播用户对于各个载体文件的传播贡献。

在s1022中,将所述全局传播矩阵[ij]n×m中各列构成的子矩阵作为各个所述载体文本的文本矩阵。

在本实施例中,全局传播矩阵[ij]n×m中,第i列的元素构成的集合即为第i个载体文本由哪些传播用户进行传播,因此可以将全局传播矩阵[ij]n×m划分为m个子矩阵,每个子矩阵则为对应载体文本的文本矩阵。

在本发明实施例中,通过构建全局传播矩阵,能够方便确定各个载体文本以及各个传播用户的传播情况,并且基于该全局传播矩阵可以划分得到各个载体文本的文本矩阵,提高了文本矩阵的生成效率。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

图6示出了本发明一实施例提供的一种虚假消息的识别设备的结构框图,该虚假消息的识别设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。

参见图6,所述虚假消息的识别设备包括:

目标消息参数获取单元61,用于获取包含目标消息的多个载体文本,以及各个所述载体文本的传播路径;所述传播路径包括传播所述载体文本的传播用户的标识;

文本矩阵生成单元62,用于基于所述载体文本以及所述传播用户的标识,得到各个所述载体文本的文本矩阵;

文本特征向量生成单元63,用于将各个所述文本矩阵导入至预设的特征向量计算模型,得到所述目标消息的文本特征向量;

用户传播矩阵生成单元64,用于根据所有所述载体文本的传播路径,生成关于所述目标消息的用户传播矩阵;所述用户传播矩阵中包含的各元素具体为每个所述传播用户传播的载体文本的个数;

用户传播特征向量计算单元65,用于将所述用户传播矩阵导入到预设的用户特征计算模型,得到所述目标消息对应的用户传播特征向量;

真伪指数计算单元66,用于根据所述用户传播特征向量以及所述文本特征向量,计算所述目标消息的真伪指数;

虚假消息识别单元67,用于若所述真伪指数在预设的虚假指数范围内,则识别所述目标消息为虚假消息。

可选地,所述文本特征向量生成单元63包括:

文本参数获取单元,用于分别获取各个所述载体文本的传播次数、内容特征参数以及传播时间参数;

导入次序确定单元,用于基于所述传播时间参数对各个所述载体文本进行排序,确定各个所述载体文本的导入次序;

文本时序向量计算单元,用于将所述传播次数、所述内容特征参数、所述传播时间参数以及所述文本矩阵,导入到文本时序向量转换模型,得到各个所述载体文本的文本时序向量;所述文本时序向量转换模型具体为:

其中,为导入次序为t的载体文本的所述文本时序向量;η为所述传播次数;δt为所述传播时间参数;xu为所述文本矩阵;t为导入次序为t的载体文本的融合矩阵;τ为所述内容特征参数;wa以及ba为所述文本时序向量转换模型的预设调整系数;

文本特征向量计算单元,用于基于所述导入次序,将各个所述载体文本的文本时序向量导入到多层反馈循环神经网络的各层级,得到所述目标消息的文本特征向量;所述多层反馈循环神经网络具体为:

其中,h0为预设的初始文本向量;为各个所述载体文本的文本时序向量;h1、h2…ht-1为所述多层反馈循环神经网络各层级输出的文本特征迭代中间值;ht为所述目标消息的文本特征向量;w、u、b为调整系数。

可选地,用户传播特征向量计算单元65包括:

传播系数确定单元,用于对所述用户传播矩阵进行奇异值分解,得到各个所述传播用户的用户传播系数;

用户特征向量计算单元,用于将各个所述用户传播系数分别导入到传播特征向量转换模型,确定各个所述传播用户的用户特征向量;所述用户特征向量转换模型具体为:

其中,si为第i个所述传播用户的用户特征向量;yi为第i个所述传播用户的用户传播系数;为第i个所述传播用户的用户时序向量;wu、bu、以及bs为所述用户特征向量转换模型的预设系数;e为自然对数;

用户特征矩阵生成单元,用于基于各个所述传播用户的用户特征向量,生成用户特征矩阵;

用户传播特征值计算单元,用于根据文本矩阵得到各个所述载体文本的掩码向量,并将所述掩码向量以及所述用户特征矩阵导入到用户传播特征值计算模型,确定各个所述载体文本的用户传播特征值;所述用户传播特征值计算模型具体为:

其中,[i]为所述用户特征矩阵;mj为第j篇所述载体文本的掩码向量;pj为第j篇所述载体文本的用户传播特征值;d([si]*j)为非空元素统计函数;

用户传播特征向量确定单元,用于根据各个所述用户传播特征值,生成所述目标消息的用户传播特征向量。

可选地,真伪指数计算单元66包括:

真伪识别矩阵生成单元,用于将所述用户传播特征向量以及所述文本特征向量进行聚合,得到所述目标消息的真伪识别矩阵;

真伪指数计算单元,用于将所述真伪识别矩阵导入真伪指数计算模型,得到所述目标消息的真伪指数;所述真伪指数计算模型具体为:

其中,为所述真伪指数;[j]为所述真伪识别矩阵;以及bc为所述真伪指数计算模型的预设系数;e为自然对数。

可选地,文本矩阵生成单元62包括:

全局传播矩阵创建单元,用于基于所述载体文本以及所述传播用户的标识,构建所述目标消息的全局传播矩阵[ij]n×m;其中,所述aij为第i个传播用户对于第j个载体文本的传播标记值;所述n为所述传播用户的个数;所述m为所述载体文本的个数;。

文本矩阵分割单元,用于将所述全局传播矩阵[ij]n×m中各列构成的子矩阵作为各个所述载体文本的文本矩阵。

因此,本发明实施例提供的虚假消息的识别设备同样可以无需人工调研取证,从而减少了人工成本以及调查所需的时间,而是可以通过采集传递该目标消息的载体文本的文本特征以及对传播过该目标消息的各个传播用户的用户特征进行分析,其中,通过文本特征向量可以表现出该目标消息是否具有煽动特性,通过用户特征向量可以表现出该目标消息在传播的过程中是否具有爆发传播性,通过上述两个特征向量则可得到该目标消息的虚假指数,从而识别得到该目标消息是否为虚假消息,提高了虚假消息的识别准确率。

图7是本发明另一实施例提供的一种虚假消息的识别设备的示意图。如图7所示,该实施例的虚假消息的识别设备7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,例如虚假消息的识别程序。所述处理器70执行所述计算机程序72时实现上述各个虚假消息的识别方法实施例中的步骤,例如图1所示的s101至s107。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各单元的功能,例如图6所示模块61至67功能。

示例性的,所述计算机程序72可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述虚假消息的识别设备7中的执行过程。例如,所述计算机程序72可以被分割成目标消息参数获取单元、文本矩阵生成单元、文本特征向量生成单元、用户传播矩阵生成单元、用户传播特征向量计算单元、真伪指数计算单元以及虚假消息识别单元,各单元具体功能如上所述。

所述虚假消息的识别设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述虚假消息的识别设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是虚假消息的识别设备7的示例,并不构成对虚假消息的识别设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述虚假消息的识别设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述虚假消息的识别设备7的内部存储单元,例如虚假消息的识别设备7的硬盘或内存。所述存储器71也可以是所述虚假消息的识别设备7的外部存储设备,例如所述虚假消息的识别设备7上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器71还可以既包括所述虚假消息的识别设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述虚假消息的识别设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1