一种基于深度学习的大数据隐私保护方法

文档序号:26006306发布日期:2021-07-23 21:24阅读:248来源:国知局
一种基于深度学习的大数据隐私保护方法

本发明涉及大数据领域以及计算机技术领域,公开了大数据领域一种基于深度学习的大数据隐私保护方法。



背景技术:

一方面随着科技的发展,大数据行业发展空前繁荣,但是近年来,各种信息泄露事件频繁发生,引发广泛社会关注。数据共享的时代背景下,如何在数据收集过程中加强隐私保护,防止个人信息被滥用,俨然已成为重要研究课题。,另一方面,计算机技术的发展,深度学习技术日益成为人工智能行业的主流。但深度学习技术依赖大数据集,既需要通过数据集提取特征来学习训练出高效的模型,也需要大量数据集来检验模型的效果。为了平衡大数据特征提取的有效性和个人隐私泄露之间的矛盾,我们提出了一种基于深度学习的大数据隐私保护方法投入使用,以解决上述问题。



技术实现要素:

解决的技术问题

针对现有的大数据时代用户信息泄露严重,个人隐私保护难的情况,本发明的目的在于提供一种基于深度学习的的大数据隐私保护方法,具备在保证用户个人隐私信息不被泄露的同时兼顾数据集特征提取的有效性等优点,以解决上述背景技术中提出的问题。

本发明的技术方案如下:一种基于深度学习的大数据隐私保护方法包括应对众包数据采集模块、云数据库存储模块、特征提取器模块、数据搜集器模块。

所述众包数据采集模块,通过产业众包平台、个人分包、企业分包等形式搜集企业机构或个人的原始信息数据,其中包括但不限于文本、音频、视频等形式。

所述云数据库存储模块,根据上述规则每条收集到原始大数据信息进行规则划分,其划分包括对相似信息进行格式化统一分存入相应云数据库中,使业务者能够更快地理解和处理信息。

所述特征提取器模块,利用深度学习技术训练出一个特征提取器,将得到的原始大数据输入特征提取器中,提取出任务需要的数据有效特征。

所述数据搜集器模块,根据从原始数据中提取到的特征检验其有效性,将无效特征剔除,将剩余的有效特征提取。

优选的,云数据库存储系统采用安全性高,高并发量,动态获取延时低的aws或oracle。并通过大数据的分析、统计以及常规习惯将信息进行预先处理,采用第三方工具matplotlib或finebi。

优选的,所述特征提取器模块通过引入可控参数λ来表示效用-隐私平衡因子,将特征有效性最大化和个人隐私泄露最小化两个目标结合起来,得到最终的目标函数。

优选的,所述数据搜集器模块无需传输原始数据,利用收集到的中间表征来训练深度学习dnn模型,保证无法逆向还原出准确的受保护隐私信息,这使得任何人无法从原始数据中获取用户个人隐私信息。

有益效果

与现有技术相比,本发明的有益效果是:通过上述技术方案本发明提供的一种基于深度学习的大数据隐私保护方法,学习一个特征提取器,隐藏中间表征中的隐私信息,同时最大限度地保留原始数据中嵌入的原始信息,以供数据收集器完成未知的学习任务。与现有的表示学习和对抗学习法相比在安全性和通用性上领先,达到数据特征学习效果和隐私保护两方面的相对平衡。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中需要使用的附图作简单地介绍,显而易见地,下面描述是本发明的一些附图。

图1为本发明方法流程图;

图2为本发明方法模块图;

图3为本发明算法的数学公式原理图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图2所示,本发明提供的一种基于深度学习的大数据隐私保护方法,包括众包数据采集模块、云数据库存储模块、特征提取器模块、数据搜集器模块。

所述众包数据采集模块,采集到的用户大数据主要来源于众包数据平台、个人众包以及企业及机构众包,采集到的用户数据中不可避免地包含用户个人隐私信息,在获取个人数据的过程中尽可能多地保留原始信息,不对数据进行任何处理,并制定详细的众包采集方案。

所述云数据库存储模块,将原始数据集存入分布式云数据库优先采用例如oracle或aws中以便实时动态调用数据,数据库需要建立严格的防信息泄漏机制,保证用户隐私信息在存储阶段不被攻击者获取。并通过大数据的分析、统计以及常规习惯将信息进行预先处理,采用第三方工具matplotlib或finebi。

所述特征提取器模块,目标有两个一是提取出的特征尽可能少的包含所需要保护的隐私信息,满足安全性需求;二是在目标任务未知的情况下,所提取的中间特征尽可能多的保留原有的信息。不影响数据集学习训练的效果。并且利用互信息(mutualinformation)思想,通过理论推导,将两个目标转化为最优化问题,目标一最小化提取到的特征和隐私信息的互信息也就是它们的交集尽可能小,目标二最大化原始数据和提取特征、隐私属性的联合分布之间的互信息。通过引入可控参数λ来表示效用-隐私预算,将两个目标结合起来,得到最终的目标函数。λ因子作为一个控制变量因子,范围在0到1之间,λ越大表示隐私保护程度越高,λ越小表示特征提取有效性越高,这样通过控制λ大小得到最优解实现两种的平衡。

所述数据搜集器模块,采用混合学习算法(hybridlearningmethod)汇总经特征提取器模块提取出的数据中间表征,用于后续的任何目的的深度学习任务具备通用性,同时实现无法通过算法还原用户个人隐私信息。

如图1方法流程图所示,该方法包括:s1通过众包方式采集用户数据;s2将采集的用户数据存入云数据库并进行格式统一;s3利用深度学习算法训练出一个特征提取器;s4对特征提取器设置变量因子λ并调整λ数值得到最优解;s5利用训练好的最优λ特征提取器从原始数据中提取特征;s6数据搜集器模块汇总提取后的数据中间表征。

图3为数学分析模型的原理图,该图详细展示了特征提取器的数学公式和原理,基于该原理实现特征提取器的两个目标:一、提取出的特征尽可能少包含需要保护的隐私信息,二、在目标任务未知的情况下提取的中间特征尽可能多地保留原有信息,不影响数据集学习训练效果。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。



技术特征:

1.一种基于深度学习的大数据隐私保护方法,包括众包数据采集模块、云数据库存储模块、特征提取器模块、数据搜集器模块;

所述众包数据采集模块,根据现有的用户数据搜集途径通过个人分包、公司分包、机构分包以及各类数据众包平台实现用户数据的搜集工作。

所述云数据库存储模块,用于将每条收集到大数据信息进行规则划分,其划分包括对相似信息进行格式化统一分存入相应云数据库中。

2.所述特征提取器模块运用了深度学习算法,利用互信息mutualinformation思想,目标转化为最优化问题,目标一最小化提取到的特征和隐私信息的互信息也就是它们的交集尽可能小,目标二最大化原始数据和提取特征、隐私属性的联合分布之间的互信息。

3.所述数据搜集器模块,汇总经特征提取器模块提取出的数据中间表征可用于后续的任何目的的深度学习任务,具备通用性,同时实现无法通过算法逆向还原用户个人隐私信息。

4.优选的,云数据库系统采用安全性高,高并发量,动态获取延时低的aws或oracle。

5.优选的,所述云数据库存储模块通过大数据的分析、统计以及常规习惯将信息进行预先处理,采用第三方工具matplotlib或finebi。

6.优选的,所述数据搜集器模块采用混合学习算法hybridlearningmethod。

7.优选的,所述特征提取器模块采用引入可控参数因子λ来表示效用-隐私预算,关联两个最优化目标,通过控制λ大小得到最优解实现两种目标的平衡。


技术总结
本发明公开了一种大数据领域及计算机领域基于深度学习的大数据隐私保护方法,该方法的具体步骤如下S1通过众包方式采集用户数据;S2将采集的用户数据存入云数据库并进行格式统一;S3利用深度学习算法训练出一个特征提取器;S4对特征提取器设置变量因子λ并调整λ数值得到最优解;S5利用训练好的最优λ特征提取器从原始数据中提取特征;S6数据搜集器模块汇总提取后的数据中间表征。本发明通过提出来一个可以提供隐私保护的数据特征提取器,保证从数据中提取出的特征尽可能少的包含所需要保护的隐私信息,满足隐私安全性需求;同时保证提取的中间特征尽可能多的保留有效的信息,防止大数据时代用户个人信息被滥用。

技术研发人员:江耀;刘东升
受保护的技术使用者:浙江工商大学
技术研发日:2021.05.10
技术公布日:2021.07.23
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1