一种面向应用的隐私保护分级方法及装置与流程

文档序号:18901375发布日期:2019-10-18 21:59阅读:172来源:国知局
一种面向应用的隐私保护分级方法及装置与流程
本发明涉及信息安全
技术领域
,尤其涉及一种面向应用的隐私保护分级方法及装置。
背景技术
:随着数据的交叉与融合,多方数据共享以进行数据挖掘与行为分析具有巨大的应用价值。但是,在不同应用场景下多源融合数据的隐私保护具有个性化隐私需求:对于不同的数据提供者,数据敏感属性的界定不同,存在个性化的隐私保护需求;对于不同的数据使用者,重点关注的数据属性不同,存在差异化的数据效用需求。针对不同应用场景下高维敏感数据发布的隐私保护问题,大部分传统发布方法通常会对整个数据集进行统一的数据处理,没有考虑数据集中不同属性的敏感度不同。实际上,有些数据属性不敏感,而有些数据的敏感程度却相对比较高。为满足高敏感属性的隐私保护需求而对整个数据集进行统一处理,不可避免会大大损失发布数据应有的可用性。技术实现要素:本发明实施例提供一种面向应用的隐私保护分级方法及装置,用以解决现有的不同应用场景下多维数据的隐私保护具有个性化需求的问题。第一方面,本发明实施例提供一种面向应用的隐私保护分级方法,包括:基于不同应用场景下差异化的隐私保护需求和数据效用需求,在多维数据中确定相应的敏感属性和重点关注属性;基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级;其中,所述各数据层次包括:数据层、属性层和数值层;基于所述多维数据中各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数的隐私保护算法,对所述多维数据进行隐私保护。第二方面,本发明实施例提供一种面向应用的隐私保护分级装置,包括:面向应用的隐私需求确定模块,用于基于不同应用场景下差异化的隐私保护需求和数据效用需求,在多维数据中确定相应的敏感属性和重点关注属性;隐私保护等级确定模块,用于基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级;其中,所述各数据层次包括:数据层、属性层和数值层;隐私保护模块,用于基于所述多维数据中各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数的隐私保护算法,对所述多维数据进行隐私保护。第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。本发明实施例提供的一种面向应用的隐私保护分级方法及装置,将多维数据分为数据层、属性层和数值层这三个数据层次,基于不同应用场景,综合考虑数据提供者的隐私保护需求和数据使用者的数据效用需求,确定多维数据的敏感属性和重点关注属性,并基于此对多维数据进行关联度分析和聚类分析,得到多维数据各数据层次的隐私保护等级,从而根据各数据层次的隐私保护等级确定隐私保护算法的参数,进而通过参数确定后的隐私保护算法对多维数据进行隐私保护。本发明实施例提供的方法,能够针对灵活多变的应用场景,快速给出兼顾数据私密性与可用性的个性化的隐私保护方案,实现数据的精准隐私保护,提高了多维数据的可用性。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种面向应用的隐私保护分级方法流程图;图2为本发明实施例提供的一种预设的隐私评估模型的隐私保护分级示意图;图3为本发明另一实施例提供的一种面向应用的隐私保护分级方法流程图;图4为本发明实施例提供的一种面向应用的隐私保护分级装置的结构示意图;图5为本发明实施例提供的一种电子设备的实体结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。图1为本发明实施例提供的一种面向应用的隐私保护分级方法流程图,该方法的执行主体为隐私保护分级装置,该装置可安装或集成在计算机或服务器上,如图1所示,该方法包括:步骤101,基于不同应用场景下差异化的隐私保护需求和数据效用需求,在多维数据中确定相应的敏感属性和重点关注属性。步骤102,基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级;其中,所述各数据层次包括:数据层、属性层和数值层。具体地,多维数据指的是具有多个属性且每一属性具有多个值的数据,例如,在车辆网领域,多维数据可以具有如下属性:车主身份、车辆轨迹、车辆位置和车辆违章,而对于车主身份这个属性,其可具有如下值:张三、李四和王五。表1为车辆网领域的多维数据的示意表,其仅为一种示例,本发明实施例对多维数据不作具体限定。表1车辆网领域的多维数据的示意表车主身份车辆轨迹车辆位置车辆违章张三………李四………王五………需要说明的是,表1中的“…”表示省略。多维数据中的敏感属性,是基于数据提供者的隐私保护需求确定的,该需求即是指数据提供者对多维数据中的某些属性进行保护的需求。多维数据中的重点关注属性,是基于数据使用者的数据效用需求确定的,该需求即是指数据使用者对多维数据中的某些属性进行使用的需求。例如,对于车辆网领域的多维数据,在共享车辆运营的应用场景中,数据提供者需要对车主身份进行保护,此时,车主身份为敏感属性;数据使用者主要关心的是车辆位置,此时,车辆位置为重点关注属性。在交通管理机构违章处理的应用场景中,数据提供者需要对车主身份进行保护,此时,车主身份仍为敏感属性;数据使用者主要关心的是车辆违章,此时,车辆违章为重点关注属性。基于多维数据中的敏感属性和重点关注属性,对多维数据进行关联度分析和聚类分析。其中,关联度分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式的分析技术。聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析技术。对多维数据进行关联度分析和聚类分析后,能够得到多维数据中各数据层次的隐私保护等级。需要说明的是,在本发明实施例中,将多维数据划分成了三个数据层次,分别为:数据层、属性层和数值层。参照表1对这三个数据层次进行说明:数据层为整张示意表,属性层为各列属性,数值层为各属性值。此时,多维数据中各数据层次的隐私保护等级包括:数据层的隐私保护等级、属性层的隐私保护等级和数值层的隐私保护等级。步骤103,基于所述多维数据中各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数的隐私保护算法,对所述多维数据进行隐私保护。具体地,得到数据层的隐私保护等级、属性层的隐私保护等级和数值层的隐私保护等级后,根据这三个数据层次的隐私保护等级,确定隐私保护算法的参数,然后通过确定参数的隐私保护算法对多维数据进行隐私保护。需要说明的是,隐私保护算法为匿名算法与基于数据失真的随机响应算法的融合算法;其中,所述匿名算法为k-匿名算法、l-多样性算法或t接近性算法。本发明实施例提供的隐私保护分级方法,将多维数据分为数据层、属性层和数值层这三个数据层次,基于不同应用场景,综合考虑数据提供者的隐私保护需求和数据使用者的数据效用需求,确定多维数据的敏感属性和重点关注属性,并基于此对多维数据进行关联度分析和聚类分析,得到多维数据各数据层次的隐私保护等级,从而根据各数据层次的隐私保护等级,确定隐私保护算法的参数,进而通过确定参数的隐私保护算法对多维数据进行隐私保护。本发明实施例提供的方法,能够针对灵活多变的应用场景,快速给出兼顾数据私密性与可用性的个性化的隐私保护方案,实现数据的精准隐私保护,提高了多维数据的可用性。基于上述任一实施例,本发明实施例对确定多维数据中各数据层次的隐私保护等级的过程进行具体说明。基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级,包括:步骤1021,在所述多维数据的所有属性中,将敏感属性和重点关注属性组成第一属性集合,并将剩余的属性组成第二属性集合。具体地,使用上述实施例中车辆网领域的多维数据并结合交通管理机构违章处理的应用场景对本发明实施例进行说明。车辆网领域的多维数据包括车主身份、车辆轨迹、车辆位置和车辆违章这四个属性,基于数据提供者的隐私保护需求可知,数据提供者需要对车主身份进行保护,此时,车主身份为敏感属性;基于数据使用者的数据效用需求可知,数据使用者主要关心的是车辆违章,此时,车辆违章为重点关注属性。此时,在上述四个属性中,将敏感属性车主身份和重点关注属性车辆违章组成第一属性集合,将剩余的车辆轨迹和车辆位置组成第二属性集合。步骤1022,计算所述第二属性集合中每一属性与所述第一属性集合中每一属性间的关联度,组成关联度集合。具体地,第一属性集合包括车主身份和车辆违章,第二属性集合包括车辆轨迹和车辆位置,此时,计算如下四个关联度:车辆轨迹与车主身份间的关联度、车辆轨迹与车辆违章间的关联度、车辆位置与车主身份间的关联度、以及车辆位置与车辆违章间的关联度。将上述四个关联度组成关联度集合。步骤1023,基于所述关联度集合,确定所述多维数据中数据层的隐私保护等级和属性层的隐私保护等级。步骤1024,对所述多维数据进行聚类分析,确定所述多维数据中数值层的隐私保护等级。具体地,聚类分析包括:k-means聚类分析、均值漂移聚类分析、dbscan聚类分析、gmm聚类分析、层次聚类分析和图团体检测聚类分析中的任意一种或多种。参照表1,对多维数据进行聚类分析指的是对数值层也即各属性值进行聚类分析,以将各属性值分为多类。并根据如下公式计算每一类中属性值的隐私保护需求pi:其中,ni为第i类中属性值的个数,n为所有属性值的个数。根据所有类中所有属性值的隐私保护需求,确定多维数据中数值层的隐私保护等级。基于上述任一实施例,本发明实施例对计算关联度的过程进行具体说明,计算所述第二属性集合中每一属性与所述第一属性集合中每一属性间的关联度,组成关联度集合,包括:步骤1031,计算所述第二属性集合中每一属性与所述第一属性集合中每一属性间的互信息值。具体地,此处举例说明车辆位置x与车辆违章π间互信息值的计算过程:首先计算各监控位置xi的边缘概率分布pr[xi]=n(xi)/n,其中,n为数据总量,n(xi)为xi出现次数;车辆违章属性包含两个属性值:违章(π=1)不违章(π=0),其边缘概率分布分别为pr[π=1]和pr[π=0]。其次,计算联合概率分布pr[xi,π=1]和pr[xi,π=0]。最后,通过如下公式,根据联合概率分布pr[xi,π=1]和pr[xi,π=0],计算车辆位置x与车辆违章π间的互信息值mi(x,π):由此,可得到车辆轨迹与车主身份间的互信息值、车辆轨迹与车辆违章间的互信息值、车辆位置与车主身份间的互信息值、以及车辆位置与车辆违章间的互信息值。步骤1032,根据所述互信息值,确定所述第二属性集合中每一属性与所述第一属性集合中每一属性间的关联度,组成关联度集合。具体地,在本发明实施例中,根据车辆轨迹与车主身份间的互信息值,可确定车辆轨迹与车主身份间的关联度;根据车辆轨迹与车辆违章间的互信息值,可确定车辆轨迹与车辆违章间的关联度;根据车辆位置与车主身份间的互信息值,可确定车辆位置与车主身份间的关联度;根据车辆位置与车辆违章间的互信息值,可确定车辆位置与车辆违章间的关联度。需要说明的是,用互信息值量化关联度,互信息值越大,关联度越大,本实施例对通过互信息值量化关联度的过程不作具体限定。基于上述任一实施例,本发明实施例对基于所述关联度集合,确定所述多维数据中数据层的隐私保护等级的过程进行说明:基于第一量化函数,根据所述关联度集合,计算所述数据层的隐私保护需求。具体地,基于如下公式,计算得到数据层的隐私保护需求rn:其中,pn(other)=f1(a,b,c,d),a为车辆轨迹与车主身份的关联度,b为车辆轨迹与车辆违章的关联度,c为车辆位置与车主身份的关联度,d为车辆位置与车辆违章的关联度,f1为第一量化函数,pn(max)为隐私保护最高等级所对应的数值。基于预设的隐私评估模型,根据所述数据层的隐私保护需求,确定数据层的隐私保护等级。具体地,图2为本发明实施例提供的一种预设的隐私评估模型的隐私保护分级示意图,如图2所示,在隐私保护需求从0变到1的过程中,隐私保护等级相应地从一级逐渐上升至六级。隐私保护需求与隐私保护等级的对应关系具体如图2所示,此处不再赘述。基于上述任一实施例,基于所述关联度集合,确定所述多维数据中属性层的隐私保护等级,包括:对于所述第二属性集合中的每一属性,基于第二量化函数,根据所述属性与所述第一属性集合中每一属性间的关联度,确定所述属性的隐私保护需求。具体地,对于第二属性集合中的车辆轨迹,车辆轨迹与车主身份的关联度为a,车辆轨迹与车辆违章的关联度为b,基于如下公式,计算车辆轨迹的隐私保护需求p:p=f2(a,b)其中,a为车辆轨迹与车主身份的关联度,b为车辆轨迹与车辆违章的关联度,f2为第二量化函数。需要说明的是,与敏感属性关联度越大的属性隐私保护需求越高,与重点关注属性关联度越大的属性隐私保护需求越低,基于第二量化函数综合考虑两方面因素,可得到属性的隐私保护需求。对于所述第一属性集合中的每一属性,基于预设的隐私保护等级规则,确定所述属性的隐私保护需求。具体地,对于第一属性集合中的敏感属性车主身份,将该属性的隐私保护需求定义为最高值,例如1,对于第一属性集合中的重点关注属性车辆违章,将该属性的隐私保护需求定义为最低值,例如0。基于所述第二属性集合中每一属性的隐私保护需求和所述第一属性集合中每一属性的隐私保护需求,确定所述属性层的隐私保护等级。具体地,基于多维数据的所有属性中各属性的隐私保护需求,确定属性层的隐私保护等级。综上所述,得到了多维数据各数据层次的隐私保护等级,基于所述多维数据中各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数的隐私保护算法,对所述多维数据进行隐私保护。基于上述任一实施例,对所述多维数据进行聚类分析,确定所述多维数据中数值层的隐私保护等级,包括:通过聚类算法对所述多维数据进行聚类分析,根据分析结果确定所述数值层的隐私保护等级;其中,所述聚类算法为k-means聚类算法、均值漂移聚类算法、dbscan聚类算法、gmm聚类算法、层次聚类算法或图团体检测聚类算法。具体地,通过上述任一聚类算法都可对多维数据的数值层进行聚类分析,得到聚类结果,也即对多维数据的各属性值进行聚类分析,以将各属性值分为多类。并根据如下公式计算每一类中属性值的隐私保护需求pi:其中,ni为第i类中属性值的个数,n为所有属性值的个数。根据所有类中所有属性值的隐私保护需求,确定多维数据中数值层的隐私保护等级。基于上述任一实施例,所述隐私保护算法为匿名算法与基于数据失真的随机响应算法的融合算法;其中,所述匿名算法为k-匿名算法、l-多样性算法或t接近性算法。作为一个优选的实施例,本发明实施例结合图3对面向应用的隐私保护分级方法进行进一步说明,图3为本发明另一实施例提供的一种面向应用的隐私保护分级方法流程图,如图3所示,该方法包括:s301,融合不同的数据提供者提供的原始数据,得到多维数据;s302,根据具体应用场景,确定多维数据中的敏感属性和重点关注属性;s303,基于多维数据中的敏感属性和重点关注属性,对多维数据进行关联度分析和聚类分析,确定多维数据中各数据层次的隐私保护等级,包括:数据层隐私保护等级、属性层隐私保护等级和数值层隐私保护等级;s304,根据数据层隐私保护等级、属性层隐私保护等级和数值层隐私保护等级,确定个性化隐私保护方案,具体为:基于各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数后的隐私保护算法,对多维数据进行隐私保护。基于上述任一实施例,图4为本发明实施例提供的一种面向应用的隐私保护分级装置的结构示意图,如图4所示,该装置包括:面向应用的隐私需求确定模块401,用于基于不同应用场景下差异化的隐私保护需求和数据效用需求,在多维数据中确定相应的敏感属性和重点关注属性;隐私保护等级确定模块402,用于基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级;其中,所述各数据层次包括:数据层、属性层和数值层;隐私保护模块403,用于基于所述多维数据中各数据层次的隐私保护等级,确定对隐私保护算法进行的参数调整,并基于确定参数调整后的隐私保护算法,对所述多维数据进行隐私保护。本发明实施例提供的装置,具体执行上述各方法实施例流程,具体请详见上述各方法实施例的内容,此处不再赘述。本发明实施例提供的装置,将多维数据分为数据层、属性层和数值层这三个数据层次,基于不同应用场景,综合考虑数据提供者的隐私保护需求和数据使用者的数据效用需求,确定多维数据的敏感属性和重点关注属性,并基于此对多维数据进行关联度分析和聚类分析,得到多维数据各数据层次的隐私保护等级,从而根据各数据层次的隐私保护等级确定隐私保护算法的参数,进而通过确定参数的隐私保护算法对多维数据进行隐私保护。本发明实施例提供的装置,能够针对灵活多变的应用场景,快速给出兼顾数据私密性与可用性的个性化的隐私保护方案,实现数据的精准隐私保护,提高了多维数据的可用性。图5为本发明实施例提供的一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(communicationsinterface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储在存储器503上并可在处理器501上运行的计算机程序,以执行上述各实施例提供的方法,例如包括:基于不同应用场景下差异化的隐私保护需求和数据效用需求,在多维数据中确定相应的敏感属性和重点关注属性;基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级;其中,所述各数据层次包括:数据层、属性层和数值层;基于所述多维数据中各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数后的隐私保护算法,对所述多维数据进行隐私保护。此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:基于不同应用场景下差异化的隐私保护需求和数据效用需求,在多维数据中确定相应的敏感属性和重点关注属性;基于多维数据中的敏感属性和重点关注属性,对所述多维数据进行关联度分析和聚类分析,确定所述多维数据中各数据层次的隐私保护等级;其中,所述各数据层次包括:数据层、属性层和数值层;基于所述多维数据中各数据层次的隐私保护等级,确定隐私保护算法的参数,并基于确定参数的隐私保护算法,对所述多维数据进行隐私保护。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1