一种面向大数据的可信度量方法与流程

文档序号:13766982阅读:227来源:国知局
本发明涉及一种基于分层模型的大数据可信性度量方法,属于数据处理
技术领域

背景技术
:近年来,随着物联网、云计算等技术的迅猛发展,“人-机-物”三元世界高度融合,并且造成数据规模的爆炸式增长和数据模式的高度复杂化,促使当前的信息社会步入大数据(BigData)时代。大数据的产生,为信息科学及控制与决策领域提供了丰富的数据源基础,但数据的真实性在信息融合、智能决策等方面具有重要的作用。目前,针对数据的可信度量与信任管理,已有一些研究方法和经典处理,主要分为两大类,一类是客观信任分析,这类信任分析是基于证据的,严格的定义信任关系,能够精确地描述、验证。另一类是主观信任分析,这类信任分析是基于信念的,具有模糊性、不确定性,无法精确地描述、验证。具体包括基于证据和概率统计理论、基于模糊集合理论、基于信息熵的理论及基于多属性决策理论等算法。虽然这些算法对于普通数据的可信度量做出了一定的贡献,但是其可信计算模型一般只考虑一部分决策属性,并不全面。在计算综合信任度时只考虑直接信任与间接信任的简单的加权平均,而忽略了环境上下文影响,导致模型不能很好地刻画信任关系的复杂性和不确定性。在基于概率统计建模过程中,由于建模前做了一部分假设,带有较大的主观性,致使预测结果的准确性和可信决策的科学性受到影响。一部分模型虽然考虑了实体之间的动态交互性和随机性,但并没有考虑时效性及恶意推荐所带来的影响,而且缺少灵活性,一旦权值确定,系统很难动态地去调整它,致使预测模型缺少自适应性。而在大数据时代,数据具有典型的“4V”特征(即海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value))和典型“HDC”属性(即数据的异构性(Heterogeneous)、动态的数据体系(Dynamic)、数据的复杂性(Complexity)),这就决定了大数据具有多源分布性、异构性、时空关联性、社会性及高噪声等特点。因此传统的数据可信分析方法无法满足大数据的可信度量需求,有必要研究新形势下大数据的可信度量与评估方法,以有效降低风险,提高数据的可信性,满足人们对大数据可信性的迫切需求。技术实现要素:本发明的目的在于针对现有技术之弊端,提供一种面向大数据的可信度量方法,以便对数据的可信性进行准确分析,满足人们对大数据可信性的迫切需求。本发明所述问题是以下述技术方案解决的:一种面向大数据的可信度量方法,所述方法通过计算数据源之间的可信度、数据源的可信度、数据的可信度,动态地构建含有时间因子和惩罚因子权重参数的层次化的大数据可信性分析网络,最后利用所构建的可信性分析网络计算出数据的可信度,所述方法包括以下步骤:a.利用Hadoop技术对采集到的数据进行预处理,提取关键属性;b.计算数据源之间的本地可信度,动态构建由数据源构成的可信网络:本地可信度的计算公式为:其中,ΔContext(A,B,t)=Context(A,B,t)-Context(A,B,t-1),ΔLocalTrustA(B,t)=LocalTrustA(B,t)-LocalTrustA(B,t-1),式中,LocalTrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的本地可信度;ΔLocalTrustA(B,t)表示在t时刻时,数据源A对目的数据源B本地可信度是否发生了变化;Random()为随机数;μL(t)为t时刻本地可信度的时间衰减系数;Δt是指两次计算时间的差值;t0是指当前计算的起始时间;t为当前时刻;Context(A,B,t)表示在t时刻时,数据源A对数据源B的上下文交互条件;ΔContext(A,B,t)表示在t时刻时,数据源A和数据源B之间是否有新增的上下文直接交互;DirTrust(A,B,Context(A,B,t),t)表示在t时刻时,数据源A对数据源B在上下文交互条件Context(A,B,t)下的可信值;Accept(A,B,t)表示在t时刻时,数据源A对数据源B的相似程度的认可度;Data(A)为数据源A提供的所有数据集合;dataa表示数据集合中的任何一条数据;Sim(dataa,datab)是指数据dataa与datab的相似程度;Data(A)∩Data(B)是指数据源A所提供的数据集合与数据源B所提供的数据集合有相同的主题的数据的个数;λL(t)表示在t时刻,本模型对本地可信度的惩罚系数:α2+β2=1;c.计算数据源之间的全局可信度:GlobalTrustA(B,t)=Trust(B,t)式中,GlobalTrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的全局可信度;Trust(B,t)表示在t时刻时,对数据B的可信度;d.计算数据源之间的可信度:TrustA(B,t)=α1·LocalTrustA(B,t)+β1·GlobalTrustA(B,t),式中,TrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的综合可信度;α1+β1=1;e.计算数据源的可信度:ΔTrust(A,t)=Trust(A,t)-Trust(A,t-1)式中,λS(t)表示在t时刻,本模型对数据源的可信度的惩罚系数;Trust(A,t)表示在t时刻,数据源A的可信度;ΔTrust(A,t)表示在t时刻时,对于数据源A的信任值在t与t-1时刻的差值;Trust(dataa,t)表示在t时刻时,对数据dataa的信任度;Sum(Data(A))表示求数据源A提供数据的总数量;γn表示在可信网络中,以所求信任值的数据源为圆心,每一层对目标数据源(圆心数据源)信任权重;Recommendn(A,t)表示在t时刻时,每层数据源对目标数据源(圆心数据源)A的推荐可信度;f.计算直接可信度:在t时刻时,数据源A对所提供的数据data的直接可信度值DirTrust(A,data,t)的计算公式为:DirTrust(A,data,t)=Trust(A,t);g.计算间接可信度:在t时刻时,数据源A对数据data的间接可信度InDirTrust(A,data,t)的计算公式为:式中,Neighborn(A)为与A相邻的可信度高的n个数据源;Trust(A,X,t)表示在t时刻时,数据源A对所提供的数据X的真实的可信度;Trust(X,data,t)表示在t时刻时,数据源X对所提供的数据data的真实的可信度;h.计算数据源对数据的可信度:在t时刻时,数据源A对数据data的可信度Trust(A,data,t)的计算公式为:Trust(A,data,t)=α4·DirTrust(A,data,t)+β4·InDirTrust(A,data,t),其中,α4+β4=1;i.计算数据的可信度:在t时刻时,数据data的可信度Trust(data,t)的计算公式为:j.步骤a~i反复迭代计算,某一时刻数据的可信度状态采用数据快照的方式查看。上述面向大数据的可信度量方法,在t时刻时,每层数据源对目标数据源(圆心数据源)A的推荐可信度Recommendn(A,t)为n×1维向量,其第i个元素的值为第i层所有数据源对目标数据源(圆心数据源)A的推荐可信度期望值,每个向量元素为所对应层次的推荐可信度期望值;第i层的某个数据源对目标数据源(圆心数据源)A的推荐可信度Recommend(Xi,A,t)的计算公式为:,其中,Xi表示第i层数据源X;Neighbormax(Xi->A)表示朝向A的方向上,第i-1层上与Xi相邻的可信度最大的数据源;第i层的所有数据源对目标数据源(圆心数据源)A的推荐可信度期望值Recommend(A,t)(i)为:其中,Circlei(A)表示在可信网络中,以A为圆心的第i层上的所有数据源,Sum(Circlei(A))表示第i层上的所有数据源的数量。本发明在传统数据可信分析理论的基础上,通过增加时间因子与惩罚因子等权重参数,构建了层次化的动态大数据可信分析网络模型,将大数据的可信性分析问题归结为数据源、数据源之间及数据传播网络路径的组合问题,仿真实验证明,数据源提供的数据量越多,该模型越能对数据的可信性进行准确分析,很好地满足了大数据的可信需求。附图说明下面结合附图对本发明作进一步详述。图1为数据源间、数据、数据源的可信度模型关联关系;图2为数据源间、数据源及数据的可信度定义关联关系;图3为本发明整个处理的程序流程图;图4为某顾客的可信值随时间变化趋势;图5为某时刻可信网络部分拓扑图,其中(a)为分层数据源可信网络拓扑示意图;(b)为多层的数据源可信传递模拟示意图。文中各符号清单为:LocalTrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的本地可信度;ΔLocalTrustA(B,t)表示在t时刻时,数据源A对目的数据源B本地可信度是否发生了变化;Random()为随机数;μL(t)表示在t时刻时,本地可信度的时间衰减系数;μS(t)表示在t时刻时,数据源可信度的时间衰减系数;Δt是指两次计算时间的差值;t0是指当前计算的起始时间;t为当前时刻;Context(A,B,t)表示在t时刻时,数据源A对数据源B的上下文交互条件;ΔContext(A,B,t)表示在t时刻时,数据源A和数据源B之间是否有新增的上下文直接交互;DirTrust(A,B,Context(A,B,t),t)表示在t时刻时,数据源A对数据源B在上下文交互条件Context(A,B,t)下的可信值;Accept(A,B,t)表示在t时刻时,数据源A对数据源B的相似程度的认可度;Data(A)为数据源A提供的所有数据集合;dataa表示数据集合中的任何一条数据;Sim(dataa,datab)是指数据dataa与datab的相似程度;Data(A)∩Data(B)是指数据源A所提供的数据集合与数据源B所提供的数据集合有相同的主题的数据的个数;λL(t)表示在t时刻时,本模型对本地可信度的惩罚系数;λS(t)表示在t时刻时,本模型对数据源可信度的惩罚系数;η表示数据或行为的相似度阀值,Δt表示两次计算时间的差值;α1表示本地信任度权重系数、β1表示全局信任度权重系数;α2表示本地信任度直接可信度权重系数、β2表示本地信任度相似程度的认可度权重系数;α3表示历史数据的可信度期望值权重系数、β3表示推荐可信度权重系数;α4表示直接可信度权重系数,β4表示间接可信度权重系数;其中,α+β=1。GlobalTrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的全局可信度;TrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的综合可信度;TrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的综合可信度;Trust(A,t)表示在t时刻,数据源A的可信度;ΔTrust(A,t)表示在t时刻时,对于数据源A的信任值在t与t-1时刻的差值;Trust(dataa,t)表示在t时刻时,对数据dataa的信任度;Sum(Data(A))表示求数据源A提供数据的总数量;γn表示在可信网络中,以所求信任值的数据源为圆心,每一层对目标数据源(圆心数据源)信任权重;Recommendn(A,t)表示在t时刻时,每层数据源对目标数据源(圆心数据源)A的推荐可信度;DirTrust(A,data,t)表示在t时刻时,数据源A对所提供的数据data的直接可信度值;InDirTrust(A,data,t)表示在t时刻时,数据源A对数据data的间接可信度;Neighborn(A)为与A相邻的可信度高的n个数据源;Trust(A,X,t)表示在t时刻时,数据源A对所提供的数据X的真实的可信度;Trust(X,data,t)表示在t时刻时,数据源X对所提供的数据data的真实的可信度;Trust(A,data,t)表示在t时刻时,数据源A对数据data的可信度;Trust(data,t)表示数据data的可信度;Recommend(Xi,A,t)表示第i层的某个数据源对目标数据源(圆心数据源)A的推荐可信度;Xi表示第i层数据源X;Neighbormax(Xi->A)表示朝向A的方向上,第i-1层上与Xi相邻的可信度最大的数据源;Recommend(A,t)(i)表示第i层的所有数据源对目标数据源(圆心数据源)A的推荐可信度期望值;Circlei(A)表示在可信网络中,以A为圆心的第i层上的所有数据源,Sum(Circlei(A))表示第i层上的所有数据源的数量。具体实施方式在传统数据可信分析理论的基础上,本发明通过增加时间因子与惩罚因子等权重参数,构建了层次化的动态大数据可信分析网络模型,该模型将大数据的可信性分析问题归结为数据源、数据源之间及数据传播网络路径的组合问题,即通过计算数据源之间的可信度、数据源的可信度、数据的可信度,动态地构建大数据的可信性分析网络,最后通过所构建的可信性分析网络计算出数据的可信度。本发明的可信分析网络模型主要分三部分:数据源之间的可信度量模型、数据源可信度量模型、数据可信度量模型。数据源之间的可信度受数据源的可信度制约,数据源的可信度受数据可信度和数据源之间的可信度双重制约,数据的可信度受数据源可信度和数据源之间的可信度的双重制约,它们之间相互关联、相互制约,构成一个整体。三个模型之间的关联关系如图1所示。由定义1-9(见文后)可得数据源间、数据源及数据的可信度定义之间关联关系,如图2所示。本发明构建了层次化的可信网络结构。在初始时刻,该分析网络由分散的数据源或专家经验预先得到的数据源构成,且网络拓扑结构是动态变化的;然后,通过计算数据源之间的关联可信度,构建了该模型的可信性分析网络;最后,基于该可信性网络分析模型,进行大数据的可信性度量,具体过程如下文所述。步骤1:对于采集到的数据利用Hadoop技术进行预处理,提取关键属性。步骤2:计算数据源之间的本地可信度,动态构建由数据源构成的可信网络。当t=0时,可信度的初始值一般是随机数或者0;当任意t时刻时,若数据源之间没有上下文交互,就对其t-1时刻的可信度值进行时间惩罚,以作为t时刻的本地可信度值,若存在上下文交互时,t时刻的可信度就由数据源之间直接进行上下文交互的可信度与两个数据源之间的相似度组合而成,但当计算的t时刻的可信度值小于t-1时刻的可信度值时,就需要对其加以系数惩罚。当计算的本地可信度超过预先规定的阀值η时,它们之间就会建立了一条有向链路,这样就能逐渐地构建可信网络。计算本地可信度的方法如公式(1)所示:说明:a)初始值为一个随机数或0,表示数据源A对数据源B有一些信任或没有信任。b)μL(t)表示在t时刻时,本地可信度的时间衰减系数。当数据源A对数据源B在t时刻与t-1时刻时,若本地可信度值相同,则就对它加以时间衰减惩罚。其中,其中Δt是指两次计算时间的差值,t0是指当前计算的起始时间,t为当前时刻。c)ΔContext(A,B,t)表示在t时刻时,数据源A和数据源B之间是否有新增的上下文直接交互。ΔContext(A,B,t)=Context(A,B,t)-Context(A,B,t-1)。d)DirTrust(A,B,Context(A,B,t),t)表示在t时刻时,数据源A对数据源B在上下文交互条件Context(A,B,t)下的可信值。e)Accept(A,B,t)表示在t时刻时,数据源A对数据源B的相似程度的认可度。其中,Data(A)为数据源A提供的所有数据集合,dataa表示数据集合中的任何一条数据,Sim(dataa,datab)是指数据dataa与datab的相似程度。Data(A)∩Data(B)是指数据源A所提供的数据集合与数据源B所提供的数据集合有相同的主题的数据的个数。f)λL(t)表示在t时刻时,本模型对本地可信度的惩罚系数。其中,ΔLocalTrustA(B,t)表示在t时刻时,数据源A对目的数据源B本地可信度是否发生了变化。ΔLocalTrustA(B,t)=LocalTrustA(B,t)-LocalTrustA(B,t-1)。g)α2+β2=1;步骤3:计算数据源之间的全局可信度。这里的可信度值是目标数据源的可信度,所以全局可信度受数据源可信度的限制。计算方法如公式(2)所示:GlobalTrustA(B,t)=Trust(B,t)(2)步骤4:计算数据源之间的可信度。它是由数据源之间的本地可信度与全局可信度组合而成。数据源之间的可信度的计算公式,即数据源A对数据源B的可信度计算方法,如公式(3)所示:TrustA(B,t)=α1·LocalTrustA(B,t)+β1·GlobalTrustA(B,t)(3)其中,α1+β1=1。步骤5:计算数据源的可信度。当t=0时,可信度的初始值一般是随机数或者0;当t时刻时,若数据源的信任值在t与t-1时刻的差值是等于0,就对其t-1时刻的可信度值进行时间惩罚,以作为t时刻的数据源可信度值,若数据源的信任值在t与t-1时刻的差值是大于或小于0,数据源的可信度为数据源提供的所有历史数据的可信度期望值与整个可信网络中各层对数据源的推荐可信度的综合可信度,但当计算的t时刻的可信度值小于t-1时刻的可信度值时,就需要对其加以系数惩罚。数据源的可信度计算公式,即对数据源A的可信度的计算方法,如公式(4)所示说明:a)初始值为一个随机数或0,表示数据源A有一些信任或没有信任。b)μS(t)表示在t时刻时,时间衰减系数。当对于数据源A在t时刻与t-1时刻时,如果可信度相同,则就对它加以时间衰减惩罚;取值范围为c)λS(t)表示在t时刻时,本模型对数据源的可信度的惩罚系数。式中,ΔTrust(A,t)表示在t时刻时,对于数据源A的信任值在t与t-1时刻的差值。ΔTrust(A,t)=Trust(A,t)-Trust(A,t-1)。d)Trust(dataa,t)表示在t时刻时,对数据dataa的信任度。e)Sum(Data(A))表示求数据源A提供数据的总数量。f)γn表示在可信网络中,以所求信任值的数据源为圆心,每一层对目标数据源(圆心数据源)信任权重。它是一个1*n维向量,第一个元素的值为第一层对圆心数据源的信任权重,以此类推,每个向量元素为所对应层次的信任权重,且权重值是个常数,根据专家设定,由内向外逐层递减,取值范围[0,1]之间。g)Recommendn(A,t)表示在t时刻时,每层数据源对目标数据源(圆心数据源)A的推荐可信度,其中它是一个n×1维向量,第一个元素的值为第一层所有数据源对目标数据源(圆心数据源)A的推荐可信度期望值,以此类推,每个向量元素为所对应层次的推荐可信度期望值。一般层数是根据精确度和需求设置的,层数越大,计算量越大,相应的得到的数据就越准确。i.第i层的某个数据源对目标数据源(圆心数据源)A的推荐可信度计算公式,如公式(5)所示:其中,Xi表示第i层数据源X,Neighbormax(Xi->A)表示朝向A的方向上,第i-1层上与Xi相邻的可信度最大的数据源。ii.第i层的所有数据源对目标数据源(圆心数据源)A的推荐可信度期望值为其中,Circlei(A)表示在可信网络中,以A为圆心的第i层上的所有数据源,Sum(Circlei(A))表示第i层上的所有数据源的数量。步骤6:计算直接可信度。数据源对所提供的数据的直接可信度值就是数据源在整个可信网络中自身的可信度值,如公式(6)所示:DirTrust(A,data,t)=Trust(A,t)(6)步骤7:计算间接可信度。数据源A对数据data的间接可信度计算,如公式(7)所示:其中,Neighborn(A)与A相邻的可信度高的n个数据源。步骤8:计算数据源对数据的可信度。数据源A对数据data的可信度计算,如公式(8)所示:Trust(A,data,t)=α4·DirTrust(A,data,t)+β4·InDirTrust(A,data,t)(8)其中,α4+β4=1。步骤9:计算数据的可信度。计算方法是求所有的直接提供这条数据的数据源或有直接关系的数据源在历史记录中都提供不可靠数据的对立事件的概率,即对数据data的可信度计算,如公式(9)所示:本发明步骤1-9是在不断反复迭代计算的,如果需要查看某一时刻数据的可信度状态,可以采用数据快照的方式查看。整个处理的程序流程图如图3所示。本发明选取的对象是社交网络中的大数据。通过网络爬虫技术对当前的电子商务平台商业网站的商品信息进行采集,特别是对商品信息的评价信息的采集,并对部分样品数据进行了人为标注。数据集包括八大类商品,不同品牌的商品数据,从中,随机抽取商品数量79723件,数据涉及的用户数量可达30多万人,评价信息多达上千万条。其中本处理应用于用户评价参数的可信度分析。本试验中,一个主题(theme)是指某一件商品,实体(entity)是指顾客,数据(data)是指用户对某件商品做出评价的信息。然后将所采集的数据分成两部分,其中一部分是作为前期的可信网络建立,对网络进行样品反复训练,同时调整更新参数的值以适应环境的变化,另一部分数据则是验证本模型的稳定性、准确性的。各参数的设置情况如下表。表1大数据可信评估中默认值参数列表按本发明的处理过程,将上面采集到的数据导入模型中进行验证。在验证过程中,预先设定一名顾客的数据,利用公式(4)、公式(5)、公式(9)计算这名顾客的可信值,观察其可信度值随时间变化情况,如图4所示:从图4中可以看这位顾客在T0-T30,顾客的可信度呈现一种上升趋势,其中在T12-T18时间段内,顾客的可信度呈缓慢下降趋势,这主要是由于没有新的行为,其可信度要施加时间惩罚,在T31时,由于顾客做出了一种不可信的行为,本系统对其施加了惩罚,导致其可信度下降到0.1以下,在T32以后,由于顾客的行为正常,恢复原先上升的趋势,但趋势比较缓慢。在某一时刻,分层数据源组成的可信网络部分拓扑示意图以及多层数据源对某条数据的可信传递模拟示意图如下图5所示:其中,按步骤2,利用公式(1)计算数据源间的本地可信度时,可构建数据源间可信网络,如图5(a)所示给出部分分层数据源网络拓扑图,如图5(b)所示则是给出针对某条数据的可信网络示意图,从中我们可以得出,任何一条数据不仅与其提供者有直接联系,而且也有很多与之有直接或间接联系的数据源包围,形成了一个小型可信网络,这样就能大大提高对一条数据可信性评价的准确性。为便于理解,下面给出本文所提方法的相关定义:数据源:是指在大数据环境下,数据的提供者。数据:是指由多个属性特征构成,符号记作:data={d1,d2,d3,…,dn},其中,di是指数据的第i个属性。可信网络:是指由数据源实体以及它们之间的有向链路组成的网络。以下给出本发明中使用的几个定义:定义1本地可信度(LocalTrust):当数据源之间有直接的上下文交互时,或者两个数据源之间所提供的数据或行为的相似度超过一定的阀值时,称此时的数据源之间具有本地可信度。它是由数据源之间直接进行上下文交互的可信度与两个数据源之间的相似度(相似度也可以指相互的认可度)组合而成。符号记作:LocalTrustA(B,t),表示在t时刻时,本地数据源A对目的数据源B的本地可信度。定义2全局可信度(GlobalTrust):它是指目的数据源在整个可信网络中的可信度,即数据源的可信度。符号记作:GlobalTrustA(B,t),表示在t时刻时,本地数据源A对目的数据源B的全局可信度。定义3数据源间的可信度:由数据源之间的本地可信度与全局可信度组合而成。其符号记作:TrustA(B,t),表示在t时刻时,本地数据源A对目的数据源B的综合可信度。定义4数据源的可信度:它是指数据源提供的所有历史数据的可信度期望值与整个可信网络中各层对数据源的推荐可信度的综合可信度。符号记作:Trust(A,t),表示在t时刻,数据源A的可信度。定义5推荐可信度:它是指本数据源通过最佳路径到目的数据源,对目的数据源的可信度。符号记作:Recommend(A,B,t),表示在t时刻时,数据源A对数据源B以最佳路径得到推荐可信度。定义6某数据源所提供数据的直接可信度:是指数据源在整个可信网络中的自身可信度,符号记作:DirTrust(A,data,t),表示在t时刻时,数据源A对所提供的数据data的真实可信度。定义7某数据源所提供数据的间接可信度:一般选出有限的n个邻接可信度高的数据源组合成这条数据的真实推荐可信度,符号记作:InDirTrust(A,data,t),表示在t时刻,与数据源A邻接的数据源对这条数据的真实推荐可信度。定义8数据源所提供的某条数据的真实可信度:是指由数据源对所有提供数据的直接可信度与间接可信度的综合得到的。符号记作:Trust(A,data,t),表示在t时刻时,数据源A对所提供的数据data的真实的可信度。定义9数据的可信度:它是指对于这条数据,所有的直接提供这条数据的数据源或有直接关系的数据源在历史记录中都提供不可靠数据的对立事件的概率。符号记作:Trust(data,t),表示在t时刻时,对数据data的可信度。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1