隐私数据感知方法及装置与流程

文档序号:18268812发布日期:2019-07-27 09:26阅读:440来源:国知局
隐私数据感知方法及装置与流程

本发明涉及隐私保护领域,尤其涉及一种隐私数据感知方法及装置。



背景技术:

在云环境中,数据资源服务涉及数据拥有者,云端服务器、数据使用者之间的通信,在整个数据资源服务过程中,数据拥有者将数据信息存储在云端服务器,数据使用者再从云端服务器访问所需数据。在此过程中,存储在云端服务器中的数据资源由于不再受数据拥有者的控制,其数据隐私存在较大的安全隐患。因此,数据的隐私保护变得越来越重要。

对数据进行隐私保护的一个重要前提是能够感知出该数据中的隐私数据,经发明人研究发现,现在有的隐私数据感知方法通过数据属性的线性关系确定数据中的隐私数据,然而,通过线性关系无法确定出数据中包含的所有隐私数据,使得隐私数据感知不全面,不利于数据的隐私保护。



技术实现要素:

本发明所要解决的技术问题是提供一种隐私数据感知方法,通过相关性计算和重要度计算,获取待感知数据中包含的所有隐私属性,从而获取待感知数据中包含的所有隐私数据,实现全面感知隐私数据。

本发明还提供了一种隐私数据感知装置,用于保证上述方法在实际中的实现及应用。

一种隐私数据感知方法,包括:

获取待感知数据,并从所述待感知数据中确定第一隐私属性和多个第一属性;

从所述多个第一属性中确定第一集合和第二集合;所述第一集合中每个第一属性和所述第一隐私属性之间的相关系数大于预先设置的第一阈值;所述第二集合中的每个第一属性与所述第一隐私属性之间的相关系数不大于所述第一阈值;

计算所述第二集合中的每个所述第一属性的重要度;其中,所述第二集合中的每个所述第一属性的重要度与所述第二集合中的各个第一属性相关联;

依据所述第二集合中的每个所述第一属性的重要度,选取所述第二集合中的多个第一属性作为第三隐私属性;

将所述第一隐私属性、所述第一集合的各个第一属性和各个所述第三隐私属性确定为所述待感知数据的隐私属性集合;

依据所述隐私属性集合,确定所述待感知数据的隐私数据。

上述的方法,可选的,所述从所述待感知数据中确定第一隐私属性,包括:

获取用户指定的所述待感知数据中的一个或多个属性,并将获取到的属性确定为第一隐私属性;

从所述待感知数据中查找与预设的隐私属性相匹配的属性作为第一隐私属性。

上述的方法,可选的,若所述第一隐私属性包含一个,所述从所述多个第一属性中确定第一集合和第二集合,包括:

计算每个所述第一属性与所述第一隐私属性的相关性,获得每个所述第一属性对应的相关系数;

对每个所述第一属性,判断所述第一属性对应的相关系数是否大于预先设置的第一阈值;

若所述第一属性对应的相关系数大于预先设置的第一阈值,则将所述第一属性确定为第二隐私属性;

若所述第一属性对应的相关系数不大于预先设置的第一阈值,则将所述第一属性确定为其他属性;

依据所述第二隐私属性,构建第一集合;

依据所述其他属性,构建第二集合。

上述的方法,可选的,若所述第一隐私属性包含多个,所述从所述多个第一属性中确定第一集合和第二集合,包括:

计算每个所述第一属性与一个所述第一隐私属性的相关性,获得每个所述第一属性的相关系数;

对每个所述第一属性执行第一操作,并将当前执行第一操作的第一属性确定为目标属性;

所述第一操作包括:判断所述目标属性的相关系数是否大于预先设置的第一阈值,若所述目标属性的相关系数大于预先设置的第一阈值,则将所述目标属性确定为第二隐私属性,若所述目标属性的相关系数不大于所述第一阈值,则计算所述目标属性与另一第一隐私属性的相关性,获得所述目标属性的新的相关系数;

依据所述目标属性的新的相关系数,对所述目标属性执行所述第一操作,直至所述目标属性与每个所述第一隐私属性均进行相关性计算,若所述目标属性与最后一个所述第一隐私属性进行相关性计算,获得的相关系数不大于所述第一阈值,则将所述目标属性确定为其他属性;

依据所述第二隐私属性,构建第一集合;

依据所述其他属性,构建第二集合。

上述的方法,可选的,所述依据所述第二集合中的每个所述第一属性的重要度,选取所述第二集合中的多个第一属性作为第三隐私属性,包括:

依据所述第二集合中的每个所述第一属性的重要度,构建重要度集合;所述重要度集合中的各个重要度按照预设顺序排布;

计算所述第二集合的均方误差,将所述第二集合的均方误差与预设的第二阈值进行比较;

若所述第二集合的均方误差大于所述第二阈值,对当前的第二集合中的各个第一属性进行遍历,并对所述重要度集合中的各个重要度进行遍历,以获取所述当前的第二集合中重要度最高的第一属性,将所述重要度最高的第一属性确定为第三隐私属性,并从所述第二集合中删除与所述第三隐私属性对应的第一属性,获得新的第二集合,计算所述新的第二集合中每个所述第一属性的重要度,并依据每个所述第一属性的重要度,构建新的重要度集合,计算所述新的第二集合的均方误差并将其与所述第二阈值进行比较,直至所述新的第二集合的均方误差不大于所述第二阈值。

一种隐私数据感知装置,包括:

获取单元,用于获取待感知数据,并从所述待感知数据中确定第一隐私属性和多个第一属性;

第一确定单元,用于从所述多个第一属性中确定第一集合和第二集合;所述第一集合中每个第一属性和所述第一隐私属性之间的相关系数大于预先设置的第一阈值;所述第二集合中的每个第一属性与所述第一隐私属性之间的相关系数不大于所述第一阈值;

计算单元,用于计算所述第二集合中的每个所述第一属性的重要度;其中,所述第二集合中的每个所述第一属性的重要度与所述第二集合中的各个第一属性相关联;

选取单元,用于依据所述第二集合中的每个所述第一属性的重要度,选取所述第二集合中的多个第一属性作为第三隐私属性;

第二确定单元,用于将所述第一隐私属性、所述第一集合的各个第一属性和所述第三隐私属性确定为所述待感知数据的隐私属性集合;

第三确定单元,用于依据所述隐私属性集合,确定所述待感知数据的隐私数据。

上述的装置,可选的,所述获取单元,具体用于:

获取用户指定的所述待感知数据中的一个或多个属性,并将获取到的属性确定为第一隐私属性;

从所述待感知数据中查找与预设的隐私属性相匹配的属性作为第一隐私属性。

上述的装置,可选的,若所述第一隐私属性包含一个,所述第一确定单元,包括:

第一计算子单元,用于计算每个所述第一属性与所述第一隐私属性的相关性,获得每个所述第一属性对应的相关系数;

判断子单元,用于对每个所述第一属性,判断所述第一属性对应的相关系数是否大于预先设置的第一阈值;

第一确定子单元,用于若所述第一属性对应的相关系数大于预先设置的第一阈值,则将所述第一属性确定为第二隐私属性;

第二确定子单元,用于若所述第一属性对应的相关系数不大于预先设置的第一阈值,则将所述第一属性确定为其他属性;

第一构建子单元,用于依据所述第二隐私属性,构建第一集合;

第二构建子单元,用于依据所述其他属性,构建第二集合。

上述的装置,可选的,若所述第一隐私属性包含多个,所述第一确定单元,包括:

第二计算子单元,用于计算每个所述第一属性与一个所述第一隐私属性的相关性,获得每个所述第一属性的相关系数;

第一执行子单元,用于对每个所述第一属性执行第一操作,并将当前执行第一操作的第一属性确定为目标属性;所述第一操作包括:判断所述目标属性的相关系数是否大于预先设置的第一阈值,若所述目标属性的相关系数大于预先设置的第一阈值,则将所述目标属性确定为第二隐私属性,若所述目标属性的相关系数不大于所述第一阈值,则计算所述目标属性与另一第一隐私属性的相关性,获得所述目标属性的新的相关系数;

第三确定子单元,用于依据所述目标属性的新的相关系数,对所述目标属性执行所述第一操作,直至所述目标属性与每个所述第一隐私属性均进行相关性计算,若所述目标属性与最后一个所述第一隐私属性进行相关性计算,获得的相关系数不大于所述第一阈值,则将所述目标属性确定为其他属性;

第三构建子单元,用于依据所述第二隐私属性,构建第一集合;

第四构建子单元,用于依据所述其他属性,构建第二集合。

上述的装置,可选的,所述选取单元,包括:

第五构建子单元,用于依据所述第二集合中的每个所述第一属性的重要度,构建重要度集合;所述重要度集合中的各个重要度按照预设顺序排布;

第三计算子单元,用于计算所述第二集合的均方误差,将所述第二集合的均方误差与预设的第二阈值进行比较;

第二执行子单元,用于若所述第二集合的均方误差大于所述第二阈值,对当前的第二集合中的各个第一属性进行遍历,并对所述重要度集合中的各个重要度进行遍历,以获取所述当前的第二集合中重要度最高的第一属性,将所述重要度最高的第一属性确定为第三隐私属性,并从所述第二集合中删除与所述第三隐私属性对应的第一属性,获得新的第二集合,计算所述新的第二集合中每个所述第一属性的重要度,并依据每个所述第一属性的重要度,构建新的重要度集合,计算所述新的第二集合的均方误差并将其与所述第二阈值进行比较,直至所述新的第二集合的均方误差不大于所述第二阈值。

一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述的隐私数据感知方法。

一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行上述的隐私数据感知方法。

与现有技术相比,本发明包括以下优点:

本发明提供了一种隐私数据感知方法,包括:获取待感知数据,并从所述待感知数据中确定第一隐私属性和多个第一属性;从所述多个第一属性中确定第一集合和第二集合;所述第一集合中每个第一属性和所述第一隐私属性之间的相关系数大于预先设置的第一阈值;所述第二集合中的每个第一属性与所述第一隐私属性之间的相关系数不大于所述第一阈值;计算所述第二集合中的每个所述第一属性的重要度;其中,所述第二集合中的每个所述第一属性的重要度与所述第二集合中的各个第一属性相关联;依据所述第二集合中的每个所述第一属性的重要度,选取所述第二集合中的多个第一属性作为第三隐私属性;将所述第一隐私属性、所述第一集合的各个第一属性和各个所述第三隐私属性确定为所述待感知数据的隐私属性集合;依据所述隐私属性集合,确定所述待感知数据的隐私数据。应用本发明提供的隐私数据感知方法,通过计算待感知数据的属性的相关性和重要度,获取待感知数据中包含的所有隐私属性,从而获取待感知数据中包含的所有隐私数据,实现全面感知隐私数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种隐私数据感知方法的方法流程图;

图2为本发明提供的一种隐私数据感知方法的又一方法流程图;

图3为本发明提供的一种隐私数据感知方法的又一方法流程图;

图4为本发明提供的一种隐私数据感知方法的又一方法流程图;

图5为本发明提供的一种隐私数据感知装置的结构示意图;

图6为本发明提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明实施例提供了一种隐私数据感知方法,该方法可以应用在多种系统平台,其执行主体可以为运行在各种移动设备的处理器,所述隐私数据感知方法的流程图如图1所示,具体包括:

s101:获取待感知数据,并从所述待感知数据中确定第一隐私属性和多个第一属性;

本发明实施例提供的方法中,获取待感知的数据,待感知数据可以是结构化数据,结构化数据是指由二维表结构来实现逻辑表达的数据,待感知数据中包含多个数据属性,从待感知数据中确定第一隐私属性和多个第一属性,第一隐私属性指待感知数据中预先选取的隐私数据对应的属性,隐私数据指用户的秘密数据,即不想被他人获知的信息,例如电话号码、居住地址和财务信息等。

s102:从所述多个第一属性中确定第一集合和第二集合;

本发明实施例提供的方法中,首先获取每个第一属性与第一隐私属性之间的相关系数,并依据相关系数大于预先设置的第一预阈值的第一属性,构建第一集合,依据相关系数不大于第一阈值的第一属性,构建第二集合;第一集合中每个第一属性的与第一隐私属性之间的相关系数大于第一阈值,第二集合中每个第一属性的相关系数小于或等于第二阈值。

需要说明的是,本发明实施例提供的方法中,可以依据每个第一属性与第一隐私属性之间的相关系数,对各个第一属性按照相关系数从大到小的顺序进行排序,从已排序的各个第一属性中,从大到小依次选取预设数目的第一属性,基于选取出的第一属性,构建第一集合,并基于未被选取的第一属性,构建第二集合。

s103:计算所述第二集合中的每个所述第一属性的重要度;

本发明实施例提供的方法中,通过计算第二集合中每个第一属性的属性信息增益,获取每个第一属性的重要度,其中,每个第一属性的重要度与第二集合中所有属性相关联。

其中,每个第一属性的属性信息增益的计算公式如(1)所示:

g(d,x)=ent(d)-ent(d|x)(1)

g(d,x)表示第一属性x的信息增益熵,ent(d)表示第二集合对应的数据集d的当前熵值,ent(d|x)表示给定第一属性x的条件下,数据集d的条件熵,当前熵值计算公式如(2)所示,其中,n为当前拟合的第一属性的取值类别数,|ci|表示取值类别i的样本数量,|d|表示数据集中的第一属性的取值总数,条件熵计算公式如(3)所示,|dj|表示第一属性x的取值情况m将数据集划分为子集dj的样本数量,ent(dj)表示子集dj的熵值。

通过公式(1),可以得到每个第一属性前后的信息熵变化情况,并得出第二集合中每个第一属性的信息增益大小,从而得到第二集合中每个第一属性的重要度。

需要说明的是,信息增益越大,表明该属性的重要程度越高。

s104:依据所述第二集合中的每个所述第一属性的重要度,选取所述第二集合中的多个第一属性作为第三隐私属性;

本发明实施例提供的方法中,根据第二集合中每个第一属性的重要度,通过随机森林模型以迭代的方式进一步感知第二集合中的隐私属性,第二集合中的隐私属性为每次循环中重要度最高的第一属性,将感知到的每次循环中重要度最高的第一属性确定第三隐私属性。

需要说明的是,本发明实施例提供的方法中,随机森林是由多个决策树构成分类器,具有较高的准确率和较小的偏差。

s105:将所述第一隐私属性、所述第一集合的各个第一属性和各个所述第三隐私属性确定为所述待感知数据的隐私属性集合;

本发明实施例提供的方法中,第一隐私属性、第一集合中的各个第一属性以及各个第三隐私属性为待感知数据中包含的所有隐私属性,并基于第一隐私属性、第一集合中的各个第一属性以及各个第三隐私属性,构建隐私属性集合。

s106:依据所述隐私属性集合,确定所述待感知数据的隐私数据。

本发明实施例提供的方法中,待感知数据的隐私属性包括第一隐私属性、第一集合的各个第一属性以及各个第三隐私属性,隐私属性对应的数据为隐私数据。

本发明实施例提供的隐私数据感知方法中,获取待感知数据,待感知数据中包含多个数据属性,从待感知数据中包含的多个数据属性中确定第一隐私属性和多个第一属性,并从多个第一属性中确定第一属性与第一隐私属性之间的相关系数大于第一阈值的第一属性,并基于相关系数大于第一阈值的第一属性,构建第一集合,从多个第一属性中确定第一属性与第一隐私属性之间的相关系数不大于第一阈值的第一属性,并基于相关系数不大于第一阈值的第一属性,构建第二集合,并计算第二集合中每个第一属性的重要度,选取第二集合中的多个第一属性作为第三隐私属性,根据第一隐私属性、第一集合中的各个第一属性和各个第三隐私属性,构建待感知数据的隐私属性集合,并基于隐私属性集合,确定待感知数据中的隐私数据。应用本发明实施例提供的隐私数据感知方法,通过计算待感知数据的属性的相关性和重要度,获取待感知数据中包含的所有隐私属性,从而获取待感知数据中包含的所有隐私数据,实现全面感知隐私数据。

上述本发明实施例图1公开的步骤s101涉及到的,从待感知数据中确定第一隐私属性,包括以下步骤:

获取用户指定的所述待感知数据中的一个或多个属性,并将获取到的属性确定为第一隐私属性;

从所述待感知数据中查找与预设的隐私属性相匹配的属性作为第一隐私属性。

本发明实施例提供的方法中,第一隐私属性的设置可以是用户指定或预先设置的方式确定的,用户指定的方式是指用户根据自身的隐私偏好选择若干个数据属性作为第一隐私属性;预先设置的方式是指预先在设备中设置若干个隐私属性,从待感知数据中匹配与预先设置的隐私属性的相对应的数据属性作为第一隐私属性,其中,预先设置的隐私属性为公开的法律法规中规定的隐私类别,例如居民身份证号、手机号等。

上述本发明实施例图1公开的步骤s101涉及到的第一隐私属性,可选的,第一隐私属性包含一个,本发明实施例图1公开的步骤s102涉及到的从多个第一属性中确定第一集合和第二集合,如图2所示,包括以下步骤:

s201:获取每个第一属性的相关系数;

本发明实施例提供的方法中,计算每个第一属性与第一隐私属性的相关性,获得每个第一属性对应的相关系数;相关性计算公式如(4)所示:

cov(x,y)=e(x·y)-e(x)e(y)(5)

其中x表示第一属性,y表示第一隐私属性,r(x,y)为x与y的相关系数,v[x]表示x的方差,v[y]表示y的方差,cov(x,y)表示x与y的协方差,协方差的计算公式如(5)所示,e(x·y)表示xy的期望值,e(x)表示x的期望值,e(y)表示y的期望值。

s202:对每个第一属性,判断第一属性对应的相关系数是否大于预先设置的第一阈值;

本发明实施例提供的方法中,针对每个第一属性,判断第一属性对应的相关系数是否大于预先设置的第一阈值,若第一属性对应的相关系数大于预先设置的第一阈值,则执行步骤s203,若第一属性对应的相关系数不大于预先设置的第一阈值,则执行步骤s204。

s203:将第一属性确定为第二隐私属性;

本发明实施例提供的方法中,针对每一个第一属性,若第一属性对应的相关系数大于第一阈值,则将第一属性确定为第二隐私属性。

s204:将第一属性确定为其他属性;

本发明实施例提供的方法中,针对每一个第一属性,若第一属性对应的相关系数不大于第一阈值,则将第一属性确定为其他属性。

s205:依据第二隐私属性,构建第一集合;

本发明实施例提供的方法中,依据所有上述确定为第二隐私属性,构建第一集合,第一集合中,每一个属性对应的相关系数大于第一阈值。

s206:依据其他属性,构建第二集合。

本发明实施例提供的方法中,依据所有上述确定的其他属性,构建第二集合,第二集合中,每一属性对应的相关系数小于或等于第一阈值。

本发明实施例提供的隐私数据感知方法,对每一个第一属性,首先计算每个第一属性与第一隐私属性的相关性,获得每个第一属性的相关系数,将相关系数与第一阈值进行比较,若第一属性的相关系数大于第一阈值,则将相关系数大于第一阈值的第一属性确定为第二隐私属性,若该第一属性的相关系数不大于第一阈值,则将该第一属性确定为其他属性,并基于第二隐私属性构建第一集合,基于其他属性构建第二集合。通过相关性系数,可以直观的对比不同属性与隐私属性的相关性,从而选取相关系数满足阈值要求的属性作为隐私属性。

对上述涉及的从多个第一属性中确定第一集合和第二集合进行举例说明:

在包含用户数据的结构化数据表中,包含的数据属性有身份证、姓名、性别、生日、电话。用户指定身份证属性为第一隐私属性,那么姓名属性、性别属性、生日属性和电话属性为第一属性,将姓名属性,性别属性、生日属性和电话属性均分别与身份证属性进行相关性计算,获得姓名属性对应的相关系数,性别属性对应的相关系数,生日属性对应的相关系数,以及电话属性对应的相关系数,通过将每个属性对应的相关系数与预先设置的第一阈值进行比较,可知,生日属性对应的相关系数大于第一阈值,姓名对应的相关系数也大于第一阈值,而性别属性对应的相关系数不大于第一阈值,电话属性对应的相关系数不大于第一阈值,则将姓名属性和生日属性均确定为第二隐私属性,将性别属性和电话属性均确定为其他属性,并基于第二隐私属性,构建第一集合,基于其他属性,构建第二集合,第一集合中,包含的属性为姓名属性和生日属性,第二集合中包含的属性为性别属性和电话属性。

上述本发明实施例图1公开的步骤s101涉及到的第一隐私属性,可选的,第一隐私属性包含多个,本发明实施例图1公开的步骤s102涉及到的从多个第一属性中确定第一集合和第二集合,如图3所示,包括以下步骤:

s301:获取每个第一属性与一个第一隐私属性之间的相关系数;

本发明实施例提供的方法中,若第一隐私属性为多个,首先计算每个第一属性与一个第一隐私属性的相关性,获得每个第一属性与该第一隐私属性之间的相关系数,相关系数的计算公式如上述实施例图2公开的步骤s201所述,在此不再赘述。

s302:对每个第一属性,判断第一属性与一个第一隐私属性之间的相关系数是否大于预先设置的第一阈值;

本发明实施例提供的方法中,对每个第一属性,将第一属性与一个第一隐私属性之间的相关系数与第一阈值进行比较,将当前进行比较的第一属性作为目标属性,判断目标属性与第一隐私属性之间的相关系数是否大于预先设置的第一阈值,若目标属性与第一隐私属性之间的相关系数大于预先设置的第一阈值,则执行步骤s303,若目标属性与第一隐私属性之间的相关系数不大于预先设置的第一阈值,则执行步骤s304。

s303:将第一属性确定为第二隐私属性;

本发明实施例提供的方法中,若目标属性与第一隐私属性之间的相关系数大于预先设置的第一阈值,则将目标属性确定为第二隐私属性,即将当前的第一属性确定为第二隐私属性。

s304:判断第一属性是否与所有第一隐私属性均已进行相关性计算;

本发明实施例提供的方法中,当目标属性与第一隐私属性之间的相关系数不大于预先设置的第一阈值,即当前的第一属性与第一隐私属性之间的相关系数不大于预先设置的第一阈值,则判断是否还存在未与该第一属性进行相关性计算的第一隐私属性,若存在,执行步骤s305,若不存在,则执行s306。

s305:计算该第一属性与另一第一隐私属性之间的相关系数;

本发明实施例提供的方法中,若存在未与该第一属性进行相关性计算的第一隐私属性,则计算第一属性与另一第一隐私属性的相关性,获得该第一属性的新的相关系数,并执行s302步骤。

s306:将第一属性确定为其他属性;

s307:依据第二隐私属性,构建第一集合;

s308:依据其他属性,构建第二集合。

本发明实施例提供的隐私数据感知方法中,若第一隐私属性为多个,对每一个第一属性,首先计算第一属性与一个隐私属性的相关性,获得该第一属性的相关系数,并判断第一属性的相关系数是否大于第一阈值,如果第一属性的相关系数大于第一阈值,则将该第一属性确定为第二隐私属性,如果第一属性的相关系数不大于第一阈值,则继续计算该第一属性与另一个第一隐私属性的相关性,获得第一属性的新的相关系数,并执行上述判断的步骤,直至第一属性与所有的第一隐私属性均已进行相关性计算,若该第一属性与最后一个第一隐私属性进行相关计算,获得的相关系数不大于第一阈值,则将该第一属性确定为其他属性,并基于第二隐私属性构建第一集合,基于其他属性构建第二集合。

需要说明的是,本发明实施例提供的方法中,第一属性首先与多个第一隐私属性中的一个第一隐私属性进行相关性计算的顺序没有指定,即第一属性首先与任意一个第一属性进行相关性计算均可行。

对上述涉及的从多个第一属性中确定第一集合和第二集合进行举例说明:

在包含用户数据的结构化数据表中,包含的数据属性有身份证、姓名、性别、生日、电话、个人财产。用户指定身份证属性和个人财产属性为第一隐私属性,那么姓名属性、性别属性、生日属性和电话属性为第一属性,首先将姓名属性,性别属性、生日属性和电话属性均分别与身份证属性进行相关性计算,获得姓名属性对应的相关系数,性别属性对应的相关系数,生日属性对应的相关系数,以及电话属性对应的相关系数,通过将每个属性对应的相关系数与预先设置的第一阈值进行比较,可知,生日属性对应的相关系数大于第一阈值,姓名对应的相关系数也大于第一阈值,将生日属性和姓名属性确定为第二隐私属性,并不再对已确定为第二隐私属性的生日属性和姓名属性进行后续的相关性计算;而性别属性对应的相关系数不大于第一阈值,电话属性对应的相关系数不大于第一阈值,对相关系数不大于第一阈值的属性,即性别属性和电话属性分别与个人财产属性进行相关性计算,获得性别属性的新的相关系数,以及电话属性的新的相关系数,通过比较得出,电话属性的新的相关系数大于第一阈值,则将电话属性确定为第二隐私属性,而性别属性的新的相关系数不大于第一阈值,则将性别属性确定为其他属性,并基于第二隐私属性,构建第一集合,基于其他属性,构建第二集合,第一集合中,包含的属性为姓名属性、生日属性和电话属性,第二集合中包含的属性为性别属性。

上述本发明实施例图1公开的步骤s104涉及到的,依据第二集合中的每个第一属性的重要度,选取第二集合中的多个第一属性作为第三隐私属性,如图4所示,包括以下步骤:

s401:依据第二集合中的每个所述第一属性的重要度,构建重要度集合;

本发明实施例提供的方法中,对第一集合中的每个第一属性计算信息增益,获取每个第一属性的重要度,其中信息增益的计算公式为实施例图1公开的步骤103所述,此处不再赘述;依据每个第一属性的重要度,构建重要度集合,并对重要度集合中的每个重要度依据预设的顺序进行排序,所述预设的顺序可以是从大到小的顺序,也可以是从小到大的顺序。

需要说明的是,重要度集合中的每个重要度与第二集合中的第一属性存在对应的关系。

s402:计算第二集合的均方误差;

本发明实施例提供的方法中,对第二集合进行均方误差计算,获取当前第二集合的均方误差。

s403:判断均方误差是否大于第二阈值;

本发明实施例提供的方法中,判断均方误差是否大于预先设置的第二阈值,若均方误差大于预先设置的第二阈值,则执行步骤s404,若均方误差不大于预先设置的第二阈值,则直接结束。

需要说明的是,第二阈值为预先设定的,控制第二阈值的大小可以控制循环迭代的速度。

s404:遍历第二集合中的各个第一属性,选取重要度最高的第一属性作为第三隐私属性,并将该第一属性从第二集合中删除,获得新的第二集合;

本发明实施例提供的方法中,对第二集合中的各个第一属性进行遍历,并遍历重要度集合中的各个重要度,以获取当前第二集合中重要度最高的第一属性,将获得的重要度最高的第一属性确定为第三隐私属性,并从第二集合中删除重要度最高的第一属性,获得新的第二集合。

s405:计算新的第二集合中每个第一属性的重要度,构建新的重要度集合,并计算新的第二集合的均方误差;

本发明实施例提供的方法中,每个第一属性的重要度和第二集合中所有的属性相关联,计算新的第二集合中每一个第一属性的重要,其中新的第二集合中每个第一属性的重要度对应的数值与原先的重要度的对应的数值可以是不相等的,依据新的第二集合中的每个第一属性的重要度,构建新的重要度集合,并计算新的第二集合的均方误差,获得新的第二集合的均方误差。

s406:判断新的第二集合的均方误差是否大于第二阈值;

本发明实施例提供的方法中,判断新的第二集合的均方误差是否大于第二阈值,若新的第二集合的均方误差大于第二阈值,则执行步骤s404,若新的第二集合的均方误差不大于第二阈值,则直接结束。

本发明实施例提供的方法中,对依据每个第一属性的重要度构建重要度集合,并对集合中的重要度按照预设的顺序进行排序,并计算第二集合的均方误差,判断第二集合的均方误差是否大于第二阈值,若大于,进入循环,在循环中,对当前第二集合中的每个第一属性进行遍历,以获得当前循环中的重要度最高的第一属性,并将获得的第一属性作为第三隐私属性,从第二集合中删除重要度最高的第一属性,获得新的第二集合,并计算新的第二集合中的每个第一属性的重要,以及计算新的第二集合的均方误差,当新的第二集合的均方误差大于第二阈值时,再次执行循环中的步骤,若新的第二集合的均方误差不大于第二阈值,跳出循环。

与图1所述的方法相对应,本发明实施例还提供了一种隐私数据感知装置,用于对图1中方法的具体实现,其结构示意图如图5所示,具体包括:

获取单元501,用于获取待感知数据,并从所述待感知数据中确定第一隐私属性和多个第一属性;

第一确定单元502,用于从所述多个第一属性中确定第一集合和第二集合;所述第一集合中每个第一属性和所述第一隐私属性之间的相关系数大于预先设置的第一阈值;所述第二集合中的每个第一属性与所述第一隐私属性之间的相关系数不大于所述第一阈值;

计算单元503,用于计算所述第二集合中的每个所述第一属性的重要度;其中,所述第二集合中的每个所述第一属性的重要度与所述第二集合中的各个第一属性相关联;

选取单元504,用于依据所述第二集合中的每个所述第一属性的重要度,选取所述第二集合中的多个第一属性作为第三隐私属性;

第二确定单元505,用于将所述第一隐私属性、所述第一集合的各个第一属性和各个所述第三隐私属性确定为所述待感知数据的隐私属性集合;

第三确定单元506,用于依据所述隐私属性集合,确定所述待感知数据的隐私数据。

本发明实施例提供的隐私数据感知装置,获取待感知数据,待感知数据中包含多个数据属性,从待感知数据中包含的多个数据属性中确定第一隐私属性和多个第一属性,并从多个第一属性中确定第一属性与第一隐私属性之间的相关系数大于第一阈值的第一属性,并基于相关系数大于第一阈值的第一属性,构建第一集合,从多个第一属性中确定第一属性与第一隐私属性之间的相关系数不大于第一阈值的第一属性,并基于相关系数不大于第一阈值的第一属性,构建第二集合,并计算第二集合中每个第一属性的重要度,选取第二集合中的多个第一属性作为第三隐私属性,根据第一隐私属性、第一集合中的各个第一属性和第三隐私属性,构建待感知数据的隐私属性集合,并基于隐私属性集合,确定待感知数据中的隐私数据。应用本发明实施例提供的隐私数据感知装置,通过计算待感知数据的属性的相关性和重要度,获取待感知数据中包含的所有隐私属性,从而获取待感知数据中包含的所有隐私数据,实现全面感知隐私数据。

在本发明的一个实施例中,基于前述方案,获取单元501具体用于:

获取用户指定的所述待感知数据中的一个或多个属性,并将获取到的属性确定为第一隐私属性;

从所述待感知数据中查找与预设的隐私属性相匹配的属性作为第一隐私属性。

在本发明的一个实施例中,基于前述方案,第一确定单元502配置为:

第一计算子单元,用于计算每个所述第一属性与所述第一隐私属性的相关性,获得每个所述第一属性对应的相关系数;

判断子单元,用于对每个所述第一属性,判断所述第一属性对应的相关系数是否大于预先设置的第一阈值;

第一确定子单元,用于若所述第一属性对应的相关系数大于预先设置的第一阈值,则将所述第一属性确定为第二隐私属性;

第二确定子单元,用于若所述第一属性对应的相关系数不大于预先设置的第一阈值,则将所述第一属性确定为其他属性;

第一构建子单元,用于依据所述第二隐私属性,构建第一集合;

第二构建子单元,用于依据所述其他属性,构建第二集合。

在本发明的一个实施例中,基于前述方案,第一确定单元502配置为:

第二计算子单元,用于计算每个所述第一属性与一个所述第一隐私属性的相关性,获得每个所述第一属性的相关系数;

第一执行子单元,用于对每个所述第一属性执行第一操作,并将当前执行第一操作的第一属性确定为目标属性;所述第一操作包括:判断所述目标属性的相关系数是否大于预先设置的第一阈值,若所述目标属性的相关系数大于预先设置的第一阈值,则将所述目标属性确定为第二隐私属性,若所述目标属性的相关系数不大于所述第一阈值,则计算所述目标属性与另一第一隐私属性的相关性,获得所述目标属性的新的相关系数;

第三确定子单元,用于依据所述目标属性的新的相关系数,对所述目标属性执行所述第一操作,直至所述目标属性与每个所述第一隐私属性均进行相关性计算,若所述目标属性与最后一个所述第一隐私属性进行相关性计算,获得的相关系数不大于所述第一阈值,则将所述目标属性确定为其他属性;

第三构建子单元,用于依据所述第二隐私属性,构建第一集合;

第四构建子单元,用于依据所述其他属性,构建第二集合。

在本发明的一个实施例中,基于前述方案,选取单元504配置为:

第五构建子单元,用于依据所述第二集合中的每个所述第一属性的重要度,构建重要度集合;所述重要度集合中的各个重要度按照预设顺序排布;

第三计算子单元,用于计算所述第二集合的均方误差,将所述第二集合的均方误差与预设的第二阈值进行比较;

第二执行子单元,用于若所述第二集合的均方误差大于所述第二阈值,对当前的第二集合中的各个第一属性进行遍历,并对所述重要度集合中的各个重要度进行遍历,以获取所述当前的第二集合中重要度最高的第一属性,将所述重要度最高的第一属性确定为第三隐私属性,并从所述第二集合中删除与所述第三隐私属性对应的第一属性,获得新的第二集合,计算所述新的第二集合中每个所述第一属性的重要度,并依据每个所述第一属性的重要度,构建新的重要度集合,计算所述新的第二集合的均方误差并将其与所述第二阈值进行比较,直至所述新的第二集合的均方误差不大于所述第二阈值。

本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述隐私数据感知方法。

本发明实施例还提供了一种电子设备,其结构示意图如图6所示,具体包括存储器601,以及一个或者一个以上的指令602,其中一个或者一个以上指令602存储于存储器601中,且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602进行以下操作:

获取待感知数据,并从所述待感知数据中确定第一隐私属性和多个第一属性;

从所述多个第一属性中确定第一集合和第二集合;所述第一集合中每个第一属性和所述第一隐私属性之间的相关系数大于预先设置的第一阈值;所述第二集合中的每个第一属性与所述第一隐私属性之间的相关系数不大于所述第一阈值;

计算所述第二集合中的每个所述第一属性的重要度;其中,所述第二集合中的每个所述第一属性的重要度与所述第二集合中的各个第一属性相关联;

依据所述第二集合中的每个所述第一属性的重要度,选取所述第二集合中的多个第一属性作为第三隐私属性;

将所述第一隐私属性、所述第一集合的各个第一属性和各个所述第三隐私属性确定为所述待感知数据的隐私属性集合;

依据所述隐私属性集合,确定所述待感知数据的隐私数据。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种隐私数据感知方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1