大数据环境下保护用户隐私的数据管理方法与流程

文档序号:14098427阅读:199来源:国知局
本发明涉及数据库管理的
技术领域
:,尤其是指一种大数据环境下保护用户隐私的数据管理方法。
背景技术
::大数据是一种战略资源,在当今社会和经济发展中发挥着越来越重要的作用,优化大数据环境可以为企业等带来巨大的经济效益。随着大数据技术的发展,电力企业迫切希望利用大数据技术挖掘自身电力数据的价值,为指导业务发展提供服务和支撑。近年来,在《网络安全法》发布后,国家把公民个人隐私的保护提高到了法律的高度,公民的个人信息已构成了大数据的一个重要部分,因此对目前大数据业务的开展带来了很大的冲击。由于在大数据应用中,所有用户数据都保存在“大数据平台”中,以供分析比对。这种操作方式使得不同的数据所有者(电力企业的各业务部门)失去了对各自业务数据的“控制”能力,难以贯彻对用户隐私保护的承诺。而大数据平台也很难应对多家数据所有者的数据保护要求。为了克服上述问题,现有中国发明专利(cn106254389a)公开了一种大数据安全管理方法及系统,包括:接收用户数据以及隐私设定需求,根据用户数据的来源生成该用户数据相应的用户标识;所述用户数据包括若干个逻辑模块;根据隐私设定需求对相应的逻辑模块进行加密;接收用户端的访问请求,访问请求包括筛选条件;从所有用户数据中筛选出符合筛选条件的用户数据为目标数据;将该目标数据所对应的用户标识匿名为匿名标识;将该匿名标识和目标数据发送至用户端。上述根据用户需求对部分逻辑模块进行加密,将用户隐私数据进行隐藏,并且对发送给用户端的用户标识进行匿名,因此避免了个人信息公开流通,但是这种加密的方式往往会对数据分析造成影响,使大数据分析结果“失真”,从而影响大数据分析的效果。技术实现要素:为此,本发明所要解决的技术问题在于克服现有技术中在保护隐私数据的同时影响大数据分析效果的问题从而提供一种有效保护用户隐私数据且保证大数据分析效果的大数据环境下保护用户隐私的数据管理方法。为解决上述技术问题,本发明的一种大数据环境下保护用户隐私的数据管理方法,对涉及用户隐私的数据进行防护处理,包括如下步骤:步骤s1:明确原始数据库中需要隐藏的用户隐私数据;步骤s2:将需要隐藏的隐私数据用随机数据替换,形成一个隐私保护表,同时建立一个随机数据与隐私数据相对应的隐私对应表;步骤s3:将所述隐私保护表和所述隐私对应表组成的隐私保护数据库替代所述原始数据库,供大数据分析使用。在本发明的一个实施例中,所述隐私保护表中,将存在隐私数据的相关列的字段类型设置为varchar变长字符类型。在本发明的一个实施例中,所述隐私保护数据库中建立随机值表,且所述随机值表中存储系统随机产生的多位字符。在本发明的一个实施例中,所述多位字符的位数根据需要自行设定。在本发明的一个实施例中,所述随机值表定期更新,用新的随机值替换所述隐私保护表和所述隐私对应表中的随机标识。在本发明的一个实施例中,所述隐私数据保护库中替代隐私数据的随机值由系统按照顺序从所述随机值表中选取。在本发明的一个实施例中,所述随机值由系统按照顺序从所述随机值表中选取时,在同一数据库中的随机值表中的随机标识循环使用。在本发明的一个实施例中,所述隐私保护表允许自由访问,所述隐私对应表只允许业务部门访问。在本发明的一个实施例中,所述业务部门对数据分析员提出的查询请求采取以下三种响应方式:拒绝反馈用户隐私数据;反馈用户隐私数据;仅反馈对隐私数据的处理结果。在本发明的一个实施例中,所述数据分析人员通过所述原始数据库直接访问各个隐私保护数据库中的公开数据和所述隐私保护表,并在资源池中对数据进行处理。本发明的上述技术方案相比现有技术具有以下优点:本发明所述的大数据环境下保护用户隐私的数据管理方法,在大数据应用的背景下,利用隐私数据和随机数据与隐私数据相对应的隐私对应表保护用户隐私数据,通过保护所述隐私对应表实现对隐私数据的保护,并为业务数据的所有者保留其对数据的管理权限提供了一种有效的解决方案。在保证大数据分析效果的同时,本发明通过将原始数据库中重要用户的隐私数据转化为无意义的随机数据标识实现对用户隐私的保护,其中无意义的随机数据标识可隐藏用户隐私;通过将随机数据标识进行动态更新,防止用户隐私被通过推理的方式泄露。在原始数据库中统一保存各业务部门数据,为众多数据分析人员提供基础数据的环境下,通过所述隐私保护表和隐私对应表的设计允许数据的所有者随意指定需要保护的隐私数据。同时,还允许业务部门以表格为单位细粒度的划分隐私数据的读取权限。通过随机数据标识的设计和定期重新生成随机值表及隐私数据库的机制,防止被数据分析人员通过分析比对,猜测被随机数据替代隐私数据的风险。附图说明为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中图1是本发明大数据环境下保护用户隐私的数据管理方法流程图;图2是本发明大数据平台中隐私保护数据库的管理。具体实施方式如图1所示,本实施例提供一种大数据环境下保护用户隐私的数据管理方法,对涉及用户隐私的数据进行防护处理,包括如下步骤:步骤s1:明确原始数据库中需要隐藏的用户隐私数据;步骤s2:将需要隐藏的隐私数据用随机数据替换,形成一个隐私保护表,同时建立一个随机数据与隐私数据相对应的隐私对应表;步骤s3:将所述隐私保护表和所述隐私对应表组成的隐私保护数据库替代所述原始数据库,供大数据分析使用。本实施例所述大数据环境下保护用户隐私的数据管理方法,对涉及用户隐私的数据进行防护处理,包括如下步骤:所述步骤s1中,明确原始数据库中需要隐藏的用户隐私数据,允许数据的所有者随意指定需要保护的隐私数据;所述步骤s2中,将需要隐藏的隐私数据用随机数据替换,形成一个隐私保护表,由于用户的隐私数据转化为无意义的随机数据标识,实现了隐藏用户的隐私,同时建立一个随机数据与隐私数据相对应的隐私对应表,以方便后期查询,从而实现了对用户隐私的保护;所述步骤s3中,将所述隐私保护表和所述隐私对应表组成的隐私保护数据库替代所述原始数据库,供大数据分析使用,保证了大数据的分析操作,为原始数据提供方提供了保留了对自身重要数据的管理权,并且为保护用户隐私提供了保障。下面以原始数据库中的一个原表格table1为例详细介绍如何形成隐私保护表以及建立隐私对应表:先将原表格table1的数据复制到隐私保护表table1`中,再将需要隐藏的隐私数据用随机值进行替换(表中加粗标记部分),具体地,若原表格table1中的v21、v22、v23、v24、v32、v42、v44这七组数据需要隐藏,对应在隐私保护表中,这七组数据对应的位置分别替换为s1、s2、s3、s4、s5、s6、s7,同时新建一个随机数据标识与真实隐私数据的隐私对应表table1s,即:所述s1对应v21、所述s2对应v22、所述s3对应v23、所述s4对应v24、所述s5对应v32、所述s6对应v42、所述s7对应v44,从而方便后期查询,如下表所示:每个存在需要保护隐私数据的表格都进行上述处理,使新生成的隐私保护表table1`和所述隐私对应表table1s组成新的数据库:隐私保护数据库,并把新的隐私保护数据库提交给所述原始数据库中,以供大数据分析。在所述隐私保护数据库中所述隐私保护表table1`允许自由访问,而所述隐私对应表table1s只允许业务部门访问。当对原始数据库中进行数据分析需要使用相关数据时,则必须将访问请求提交给业务部门,由业务部门根据情况决定是否将原始数据反馈给查询者,或者只反馈比对或统计结果。在新生成所述隐私保护表table1`时,存在隐私数据的列往往需要修改字段类型,为与原始字段类型兼容,所述隐私保护表中,将存在隐私数据的相关列的字段类型设置为varchar变长字符类型(其中varchar指数据库管理系统中可以保存字母和数字的字段(或列)的数据类型)。为防止在利用随机值时出现重复,所述隐私保护数据库中建立随机值表,且所述随机值表中存储系统随机产生的多位字符。具体地,为与所述原始数据库中存储的一般数据相区分,替代隐私数据的随机标识以‘s$_’作为开头,其后的随机值默认为8位字符(取值范围:a~z、a~z、0~9),如所述随机值表中存放系统随机产生的8位字符,并通过建立主键索引的方式防止出现重复值。为防止数据分析人员通过对所述隐私保护数据库的数据进行分析比对,猜测被随机数据替代的隐私数据,所述随机值表定期更新,用新的随机值替换所述隐私保护表和所述隐私对应表中的随机标识。所述隐私数据保护库中替代隐私数据的随机值由系统按照顺序从所述随机值表中选取。具体地,所述随机值由系统按照顺序从所述随机值表中选取时,在同一数据库中的随机值表中的随机标识循环使用,但是,不允许在同一个表中循环使用随机值表中的随机值。当所示随机值表中的随机值无法满足系统使用时,所述多位字符的位数根据需要自行设定(如:16位、32位等)。在本方案中,各业务部门产生的隐私保护数据库虽然统一保存在所述原始数据库中,但管理和维护工作由各业务部门自行负责。其中各业务部门对各自的隐私保护数据库拥有完整的管理权限,允许公开哪些数据,保护那些隐私数据,在哪种情况下对哪些数据分析人员开放哪些用户隐私数据,都由各业务部门自行决定。具体的,所述隐私保护表允许自由访问,所述隐私对应表只允许业务部门访问。另外,业务部门对隐私保护数据库的授权管理可以进一步细化。如:对不同的隐私对应表指定读权限,仅允许本部门指定的管理员对所述随机值表和隐私对应表同时拥有读写权限。数据分析人员可以通过所述原始数据库直接访问各个隐私保护数据库中的公开数据和所述隐私保护表,并在资源池中对数据进行处理。如图2所示,对于多个业务部门通过各自的原始数据库直接访问所述隐私保护数据库,如业务部门1通过原始数据库1直接访问隐私保护数据库1,业务部门2通过原始数据库2直接访问隐私保护数据库2,业务部门3通过原始数据库3直接访问隐私保护数据库3,业务部门4通过原始数据库4直接访问隐私保护数据库4;而各个数据分析人员可以直接访问各个隐私保护数据库中的公开数据和所述隐私保护表,并在资源池中对数据进行处理。各业务部门对数据分析员提出的查询请求可以采取如下几种响应方式:方式一:拒绝反馈用户隐私数据。具体地,当数据分析人员未获得查询用户隐私数据的授权;或重要用户的隐私数据极其敏感,不宜向业务部之外的人员扩散时,应拒绝数据分析人员的用户隐私数据查询请求。方式二:反馈用户隐私数据。具体地,在确保相关隐私数据仅在小范围内临时使用,且不会向无关人员泄露的前提下,可以将部分用户隐私数据反馈给数据分析人员。方式三:仅反馈对隐私数据的处理结果。具体地,接受包含用户隐私数据的数据处理请求,在不泄露用户隐私数据和用户敏感属性关联关系的前提下,仅将处理结果反馈给数据分析人员。其中相关的数据处理请求包括:数据比对结果、数据统计结果、涉及用户隐私数据的跨表关联查询结果等。本实施例中,所述隐私数据可以是数据库中的一张表,可以是某个表中的一列数据,也可以是某个表中的一条记录或一条记录的某个值。显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1