基于动态表达学习的不实信息检测方法和装置与流程

文档序号:12787037阅读:158来源:国知局
基于动态表达学习的不实信息检测方法和装置与流程
本发明涉及计算机模型检测
技术领域
,尤其涉及一种基于动态表达学习的不实信息检测方法和装置。
背景技术
:社交媒体的飞速发展使网络用户体验到了前所未有的便捷。社交媒体例如Facebook,Twitter和新浪微博为用户提供了可以共享信息和公开发表个人能言论的平台。但与此同时,社交平台上不实信息的传播也为用户带来了极大的困扰,也危害了社会和谐和公共安全。近年来,信息可信度检测引起了学术界和工业界极大的关注。现今方法中考虑到的信息主要包括以下几个种类:正文信息、来源可信信息、动态信息和评论信息;评价用户行为可信度因素主要包括:时间、人物、行为、方式。事实发现法是一种无监督或半监督方法,用于在冲突数据中发现事实和检测信息可信度。基于上述信息,已有方法主要关注于人工特征,但其较为繁琐并且无法得出数据的基本特征。同时,现今方法无法模拟信息传播时不同信息种类和不同可信性因素的关联性。事实发现法主要基于来源可信信息且检测到的可信度集合于各个来源。但事实发现法仅适合于在理想情况特定的主题中,例如价格预测和航班预测,并不适用于社交媒体这种复杂环境之中。近年来,很多在社交媒体能自动测量信息可信度的方法得到广泛的应用。这些方法主要基于消息级别或事件级别的正文信息和来源可信信息。还有研究综合考虑了消息级别和事件级别。针对于动态信息,一些研究定义了传播过程中的时间特征或者训练具有不同时间段特征的模型。针对于评论信息,研究采取了用户反馈或标志微博方式表明可疑信息。尽管这些方法被广泛使用,但因建立在特征工程上,就显得较为繁琐并且无法得出数据的基本特征。同时,现今方法无法模拟信息传播时不同信息种类和不同可信性因素的关联性。DBRM模型致力于根据社交媒体上用户发布和转发的内容来判断该事件是否为不实信息。模型集合用户行为因素:用户可信度、事件发生时间间隔、用户发布和转发行为和用户评论信息,可用来判断一条消息的可信度。模型引入了表征学习方法(representationlearningmethod),与传统特征工程(featureengineering)不同的是的它能够抓取在传播过程中不同方面的信息。模型学习了用户,动态时间间隔,用户行为和评论态度的隐含表示(1atentrepresentation)。基于这些隐含表示,模型可生成信息的动态行为表示并在可信度检测方面提出了创新。技术实现要素:鉴于传统基于人工特征的方法存在技术缺陷,为了更好检测信息可信度,本发明提供一种基于动态行为特征表示的检测方法和装置。根据本发明一方面,提供了一种基于动态表达学习的不实信息检测方法,包括以下步骤:获取待检测信息;利用预先建立的检测模型对所述待检测信息进行检测;输出检测结果;其中,检测模型如下建立:步骤S1,首先建模联合表示用户信息和该用户行为信息的某一事件的动态行为表达式;用户信息包含用户的特征和用户可信度,行为信息包含行为类型;步骤S2,一个事件由不同信息组成,结合步骤S1中的所述动态行为表达式,最终得出事件可信度检测表达式;步骤S3,运用时间特征矩阵来取得在信息传播过程中用户动态行为特征连步骤S4,生成用户特征表达;步骤S5,利用配对学习法估算检测模型参数。根据本发明第二方面,提供了一种基于动态表达学习的不实信息检测装置,包括:获取模块,被配置为获取待检测信息;检测模块,被配置为利用预先建立的检测模型对所述待检测信息进行检测;输出模块,被配置为输出检测结果;其中,检测模型如下建立:首先建模联合表示用户信息和该用户行为信息的某一事件的动态行为表达式;用户信息包含用户的特征和用户可信度,行为信息包含行为类型;一个事件由不同信息组成,结合步骤S1中的所述动态行为表达式,最终得出事件可信度检测表达式;运用时间特征矩阵来取得在信息传播过程中用户动态行为特征连生成用户特征表达;利用配对学习法估算检测模型参数。本发明所采用的检测模型概括了表征信息关键特性的多种特征,即用户信息、行为信息、时间信息和评论信息,并且建模了这些特征间的高阶交互表达。这样建模的微博或者事件的表达能够学习到更加完整,充分,真实的向量表示,更能够适用于复杂多变的社交网络场合。检测模型揭示了信息数量随时间的幂律分布规律,并且依据此规律采用log2将连续时间段分割成不同的时间间隔,不仅保证每一个时间间隔内有相同数目的信息数目,而且能够从整体上保证所有事件共有一个相似的时间尺度。模型能够更加容易地学会这些事件的表达,而且能够充分挖掘出信息分布的时间规律。本发明涉及基于动态表达学习的不实信息检测发法任务,特别针对信息数量大,时间跨度长,语义场景复杂,用户行为变化等真实复杂的社交网络场合。学习用户的动态行为表达来获得更准确的预测效果。附图说明图1是本发明中基于动态表达学习的不实信息检测方法的流程图;图2是本发明中动态行为表达模型DBRM的表达学习过程的示意图;图3(a)和图3(b)是不同的对比方法对于谣言(a)和真实信息(b)的精确度-召回率曲线。具体实施方式以下结合附图详细说明本发明技术方案中所涉及的各个细节问题。应当指出的是,所描述的实施例仅旨在便于理解,对本发明不起任何限定作用。如图1所示,本发明提供了一种基于动态表达学习的不实信息检测方法,包括以下步骤:获取待检测信息;利用预先建立的检测模型对所述待检测信息进行检测;输出检测结果;其中,检测模型如下建立:步骤S1,首先建模联合表示用户信息和该用户行为信息的某一事件的动态行为表达式;用户信息包含用户的特征和用户可信度,行为信息包含行为类型;步骤S2,一个事件由不同信息组成,结合步骤S1中的所述动态行为表达式,最终得出事件可信度检测表达式;步骤S3,运用时间特征矩阵来取得在信息传播过程中用户动态行为特征连步骤S4,生成用户特征表达;步骤S5,利用配对学习法估算检测模型参数。本发明提出的动态行为表达模型(DynamicBehavioralRepresentationModel,简称DBRM),用在社交媒体场景下的不实信息检测。模型可以学习动态行为表达,通过学习隐含表示可以建立含有用户可信度、动态属性、行为特征和评价观点的模型。上述方面信息的集合将生成用户行为表示,这些用户动态行为表示的集合生成描述一个事件在社交媒体上传播信息的可信度表示。在模型中,每个用户都用对应的向量表示,其中时间间隔、用户行为和用户评论分别用矩阵表示。模型更引入了成对学习方法以便于最大化准确信息与不实信息的可信度差异。DBRM模型建立:1)每一个用户由带有自身特征(如性别,关注和被关注的人数)的向量表示来表明用户信息可信度;2)模型结合了从不实信息开始传播到发微博时间间隔的矩阵表示,以便于抓取用户行为的动态特征。用隐含操作矩阵表示用户行为(如发布和转发)可以表明不同行为特征和用户评论是否为质疑态度;3)基于2)的表达式的乘积生成了在传播过程中信息的表达;4)在结合3)中所有动态行为表达模型之后,我们可得出事件的可信度表达式;5)我们运用了成对学习方法来最大化准确信息与不实信息的差异以此来检测社交媒体上信息的可信度。在新浪微博数据集实验上,获得比其他现有模型的预测要更准确的效果。为了更好地理解DBRM模型在不实信息检测中作用,以及验证本发明的实施效果,接下来以实验为例进行说明,本示例采用新浪微博数据库。实验数据集分为60%训练集,30%测试集和10%验证集。实验包含四个评价指标:准确率,精确度,召回率和F1值。研究对象分别为不实信息和真实信息时分别计算了精确度和召回率来显示模型检测两种信息的能力。四种评价指标的值越大,模型的性能就越强。在微博数据集上具体实验步骤如下:步骤S1,首先建模传统用户信息和行为信息。传统用户信息包括用户的特征和用户可信度,用户的特征例如包括用户性别、微博关注人数和被关注的人数;用户可信度的数值越大,用户越可信;行为信息包括行为类型,例如微博为原发还是转发,相对于转发,原发行为更具有原创性,对于可信度检测也更重要。具有很高的可信度的微博往往都是有高可信度用户原发,而一些不实信息往往由低可信度用户原发,高可信度用户转发。对于第i个事件ei的涉及的第j条微博可以联合表示出用户和其行为的表达式代表第i个事件中的第j条微博中的用户的向量表示。Rd表示d维实数空间。是用户行为的隐含矩阵表示,其中的各个元素在训练的过程中不断学习更新,d代表矩阵维度。这些表达可以得出用户在特定行为下的特征。除此之外,用户的评论也对信息可信度检测起着至关重要的作用。用户可以根据生活常识与经验对信息做出评价。根据下述表达式,不实信息往往收到更多的质疑评论。结合微博的所有评论可以得出:其中是评论的矩阵表达,表达式中加入了作者评论态度。相应地,自谣言开始传播到发特定微博的时间间隔和用户行为的联合可以更好的检测可信度。将事件ei从开始到相应微博开始传播的时间间隔加入表达式中,可以得到微博的动态行为表达:其中是时间间隔的矩阵表达。可用来表示四种不同因素对微博的联合影响。步骤S2,一个事件由不同微博组成,结合S1中的微博动态行为表达式,才能最终得出事件可信度检测表达式。设事件ei包含个微博,所有微博构成集合根据平均值计算,得出事件ei的表达式为:预测事件ei是否为不实信息,可采用表达式:其中W∈Rd是预测函数的线性权重。其中表示事件ei的可信度,的值越大,事件ei的可信度越高。步骤S3,在模型中,我们运用时间特征矩阵来取得在信息传播过程中用户动态行为特征。为了降低因为在连续时间段内学习不同矩阵而导致的数据稀疏的问题,我们将连续时间段分割成不同的时间间隔。根据动态行为的幂律分布图,将时间等间隔分割并不合理。本模型根据log2(以2为底的对数)来划分时间间隔,只学习矩阵上边界和下边界相对应的时间间隔。对于在一个时间间隔的某一个时刻,他们的转移矩阵可以非线性插值法计算得出。对于某一时刻t的时间特征矩阵Tt,其中和分别代表的上边界和下边界。步骤S4,用户表示生成。对于模型中的用户表示,我们可以通过学习不同潜在向量表达来取得用户的特征和可信度。平均每个用户只有两种行为,我们无法学习每个用户的潜在表达。但是我们可以学习用户的特征表达。用户的特征例如可以包括性别、微博关注人数、微博被关注人数、微博数量以及用户是否被认证等信息。对于用户u,特征向量Fu,∈Rf,其中,和有两位信息,(即两位信息中的第1位为1)表示性别为男,表示性别为女;表示用户已被认证,表示用户未被认证。用户的关注人数,被关注人数和微博数量不容易得到每个数值的表达,我们将人数和微博数量等数值根据log10分布分割成离散的时间区间。如果用户u有vu个关注者,我们可以得出相对应的特征,其中,和分别代表了的上边界和下边界,i表示区间的边界。同理和表达式可以用上述方法构建出。基于特征向量Fu,我们可以得出用户表达式Uu=SFu,其中S∈Rd×f是特征表达隐含矩阵,在训练过程中不断学习。步骤S5,配对学习法用来估算模型参数。考虑到不实信息不容易收集到来训练模型,我们用成对学习法来扩大训练集。假设,准确信息的可信度高于不实信息,我们用如下式子最大化二者的差别:其中分别表示真实信息en和不实信息er的可信度,g(x)是非线性方程,g(x)=1/(1+e-x)。结合负数对数似然函数,我们可以写出目标函数:其中E表示所有事件的集合,len,ler分别表示真实信息和不实信息的标签,Θ={U,B,C,T,W}代表所有被计算的参数,λ是控制正则化大小的参数。可以得出J关于W,和的倒数如下:其中,计算出事件的倒数相对应参数的梯度可表示为:进而推出,所有梯度计算出之后,我们可以运用随机梯度下降计算出模型参数。重复以上过程直到模型收敛。如图3(a)和图3(b)分别表示各种方法在谣言数据集和非谣言数据集上面的PR曲线;下表1为数据集的统计信息;表1元素事件谣言真实信息微博原发微博转发微博用户数量93650043663036398429532236321246下表2为本模型与当下最先进的模型的实验对比结果:表2以上所述的具体实施示例,对本发明的目的、技术方案和效果进行了进一步详细说明。所应理解的是,以上所述仅为本发明的具体示例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1