一种基于MapReduce的图像小波频带特征差分隐私保护方法

文档序号:35410559发布日期:2023-09-09 21:49阅读:34来源:国知局
一种基于MapReduce的图像小波频带特征差分隐私保护方法

本发明涉及一种基于mapreduce的图像小波频带特征差分隐私保护方法,属于网络安全。


背景技术:

1、大数据时代的到来拓展了图像的应用场景,同时也引入了新的安全问题,图像的安全问题不容忽视。常见的图像保护方法有数据加密、数据扰动两种方式,传统的数据加密方法由于复杂的计算开销以及较低的数据效用,在大数据时代的应用存在诸多不便;随着深度学习模型的发展,像素化、方框模糊等传统的图像数据扰动技术已经难以保护图像隐私安全。如何防止图像中的敏感信息泄漏是当前面临的重大挑战。

2、2006年,dwork提出了差分隐私(differential privacy,dp)技术,很好地解决了传统的基于数据扰动的隐私保护模型依赖攻击者背景知识、缺少对隐私保护水平的数学证明的主要问题。差分隐私技术假设攻击者拥有最强大的背景知识,并提供了严格的隐私保护强度证明,是当前最先进的隐私保护技术之一,已经广泛用于机器学习、推荐系统等领域。

3、图像差分隐私是近几年出现的差分隐私研究领域,根据采用的图像处理技术的不同,现有研究成果主要分为基于空域处理的图像差分隐私保护方法和基于变换域处理的图像差分隐私保护方法。2018年,fan将空域像素化与差分隐私结合,提出了第一种图像差分隐私保护方法。同年,张啸剑等人提出了采用矩阵低秩分解的图像差分隐私保护方法,对矩阵特征值进行差分隐私保护。随后,基于矩阵奇异值分解、非负分解等一系列空域处理技术的图像差分隐私保护方法相继被提出。变换域处理是另一种重要的图像处理方法,代表性技术包括傅立叶变换、小波变换等。2018年,张啸剑等人采用离散傅立叶变换进行图像处理,对处理后的图像进行差分隐私保护。2020年,为了避免傅立叶变换与差分隐私技术相结合存在的引入过量噪声的不足,zhang等人采用离散余弦变换对图像进行处理,改善了隐私保护处理后的图像质量。

4、小波变换是当前应用极为广泛的一种图像处理技术,在图像压缩、图像增强、图像去噪、图像融合等诸多领域大量使用。jpeg2000是新一代图像压缩标准,采用5/3整数小波变换实现图像的无损压缩及恢复,旨在取代基于离散余弦变换的jpeg标准,目前已经大量应用在医疗图像领域。通过整数小波变换,图像被分解为低频子带以及水平、垂直、对角线三个不同方向的高频子带,其中低频子带保留了原图像的大部分信息。在复杂的图像应用场景中,往往需要将图像进行多层小波分解,并对不同层次的小波子频带采取不同的处理方法。由于各小波子频带携带的信息量不同、在各应用场景下的处理需求不同,具有不同的隐私保护需求,因而给出一种能够根据各小波子带重要性的不同,提供不同隐私保护强度的差分隐私保护方法是十分必要的。目前尚未有将小波频带特征与差分隐私相结合的相关研究。

5、大数据时代数据规模井喷式增长,数据种类日渐丰富,数据结构愈加复杂,数据所需的计算量、计算复杂度迅速增长,单个计算机的数据处理能力已经严重不足,需要寻求更为有效的数据密集型并行计算方法。mapreduce是业界和学界公认的最为有效的和最易于使用的面向海量数据的分布式并行处理技术,是hadoop大数据平台的核心组件之一,具有易于扩展、易于编写分布式计算程序、高容错等优点。基于mapreduce编写的程序能够运行在由成百上千个普通计算机组成的集群上,并以可靠的方式并行处理大规模数据集,能够大幅提升数据处理效率。

6、基于上述技术,为了保证大数据平台存储的图像数据的隐私安全,并促进大数据技术的应用,本发明创新地将大数据平台mapreduce计算框架与面向小波频带特征的图像差分隐私保护方法相结合,为图像大数据的隐私保护提供行之有效的解决方案。


技术实现思路

1、本发明的技术解决问题:针对hadoop平台上图像大数据隐私保护技术的不足,结合当前主流的图像处理技术,提供一种基于mapreduce的图像小波频带特征差分隐私保护方法,并在hadoop平台进行技术实现,解决图像大数据的隐私泄漏问题以及在大数据平台上的高效并行化实现问题。

2、本发明采取的技术方案是:一种基于mapreduce的图像小波频带特征差分隐私保护方法,它包含以下步骤:

3、步骤一:提取图像的像素数据以及本地路径、分辨率等元数据信息

4、大数据平台默认支持textfile文件,因此需要提取图像的信息并转换为文本格式。对于本地文件系统存储的待隐私保护处理的图像数据集d中的每一个图像di,读取其像素矩阵并按行展平为一维数组,对数组中的每一个像素值,使用“,”作为分隔符将其拼接为像素字符串获取图像di的在本地文件系统的绝对路径和图像的分辨率,将图像di的路径信息和分辨率信息使用“\t”作为分隔符拼接为元数据字符串将提取的图像di的元数据作为mapreduce计算的key,数据作为value,使用分隔符“\t”拼接为一个字符串,写入一个textfile文件的一行。数据集中的其他图像数据信息以同样的方式追加写入同一个textfile文件,文件的每一行表示一个图像。经此步骤,从jpeg、png等格式的图像文件中提取关键信息,作为本发明所使用的轻量级图像格式,以hadoop支持的文本形式进行存储,用于后续的计算处理。

5、步骤二:上传图像信息至hadoop文件系统hdfs

6、本地的hadoop客户端调用命令,将步骤一输出的textfile文件上传到hadoop文件系统hdfs进行存储,每一张图像可以通过元数据字段在hdfs上进行唯一标识。

7、步骤三:启动mapper程序对图像进行差分隐私保护处理

8、s3.1读取hdfs上的图像数据

9、使用默认的textinputformat输入类,读取hdfs中存储的textfile文件的一行数据,驱动程序启动mapper程序,将读入的一行数据按照预定义的分隔符“\t”进行切割,得到待处理图像的元数据和像素字符串将像素字符串重新展开为像素矩阵组成键值对

10、s3.2对图像进行多级小波分解

11、mapper程序调用5/3整数小波变换工具类,对图像的像素矩阵进行多级小波分解,获得原图像在不同尺度、不同方向的小波子频带。一般情况下进行2~4级小波分解,即可满足常见应用场景的图像处理需求,本发明采用3级小波分解进行示例说明。

12、s3.3为各小波子频带分配隐私预算

13、此步骤为本发明的核心创新点,给定每张图像总的差分隐私预算ε,对每个小波子频带j的隐私预算εj,采用分配方法εj=ωpεp+ωuεu。其中εp为考虑小波频带隐私保护需求而分配的隐私预算份额(后续统一简称“隐私保护预算”),εu为考虑数据效用而分配的隐私预算份额(后续统一简称“数据效用预算”),并且εp≤ε,εu≤ε。ωp、ωu分别为εp、εu的权重且满足ωp+ωu=1。

14、关于数据效用预算εu的分配,从数据效用的角度,数据的使用者通常希望隐私保护后的数据拥有尽可能高的数据效用,因此数据拥有者在分配εu时总是在总的隐私预算ε允许的范围内分配尽可能大的数值,即εu=ε。关于隐私保护预算εp的分配,不同的小波子频带的重要性有所不同,重要的子带应当拥有更高的隐私保护需求,因此在εp允许的范围内,为重要性最低的小波频带hh1分配最多的隐私预算为避免造成隐私预算的浪费可令另外,以最重要的低频小波子带ll3的能量占全部子频带总能量sum=∑jenergyj的比例作为衡量标准,量化其分配的隐私预算其中为低频子带ll3的能量。其余所有小波子带的重要性介于ll3与hh1之间,采用等差数列的方式在区间中分别为其余各小波子带分配预算值εp。

15、s3.4设置添加随机扰动

16、采用差分隐私laplace机制,分别为各个小波子频带的每个频带系数添加噪声,该噪声服从参数为δfj/εj的laplace分布。其中,δfj为小波子带j的系数矩阵的最大列范数,即f为查询小波子带的矩阵列范数的函数,j′是依照差分隐私定义的小波子带j的兄弟数据集,εj为按照s3.3中规则为小波子频带j分配的隐私预算。

17、s3.5恢复隐私保护后的原分辨率的图像

18、对于经差分隐私扰动后的各个小波子频带进行逆5/3整数小波变换处理,最终恢复原尺寸的图像矩阵并按行展平为一维数组,将数组中的每个像素用“,”进行拼接得到像素字符串与元数据一起写入mapreduce任务上下文。

19、步骤四:启动reducer程序汇集隐私保护后的图像数据

20、驱动程序启动reducer,拉取各个map任务写入程序上下文的隐私保护处理后的图像信息和reducer对拉取的数据进行汇集,并对按照字典序进行归并排序,得到新的有序的键值对并重新写入mapreduce任务上下文等待输出。

21、步骤五:输出差分隐私保护的图像数据

22、自定义imagetextoutputformat输出类,继承fileoutputformat类并重写其中的recordwriter和write方法,读取reducer写入mapreduce任务上下文的隐私保护后的图像键值对按照步骤一中key+“\t”+value的数据结构组成最终的图像文本重新写回hdfs进行永久存储。

23、本发明与现有技术相比的优点在于:

24、(1)本发明提出的图像小波频带特征的差分隐私保护方法能够在一定程度上衡量图像经小波分解后,不同尺度的小波频带系数存在的不同的隐私保护需求,能够为各子频带依据其隐私保护需求提供不同强度的差分隐私保护。

25、(2)本发明将差分隐私技术与图像处理技术相结合,基于hadoop平台的mapreduce并行计算框架进行操作,可以在图像大数据场景下应用,使提出的隐私保护方法在可用性与性能上得到了改善。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1