基于卷积神经网络生成的针对LSB隐写的检测方法与流程

文档序号:20277803发布日期:2020-04-07 14:45阅读:269来源:国知局
基于卷积神经网络生成的针对LSB隐写的检测方法与流程

本发明涉及音频隐写检测技术,该技术涉及当下流行的基于神经网络的深度学习算法,具体涉及基于卷积神经网络生成的针对lsb(最低有效位)隐写的检测方法。



背景技术:

随着计算机技术和网络技术的发展,越来越多的数字化多媒体内容信息纷纷以各种形式在网络上快速的交流和传播。在开放的网络环境下,如何对数字化多媒体内容进行有效的管理和保护,成为亟待解决的问题。由于传统的加密手段在对数字内容管理和保护上存在着一定的缺陷。为此,人们开始寻找新的解决方法作为对传统密码系统的补充。能够解决信息安全问题的信息隐藏成为信息安全领域的一大研究热点。未雨绸缪,尽早研究和完善信息隐藏检测技术同样非常必要。

在音频文件传输的过程中,通过音频信息隐藏技术,在人的听觉系统辨别不出来存在音质问题的情况下,进行隐蔽通信,传递秘密信息。信息隐藏分析技术是信息隐藏技术的对抗技术,对可疑的音频载体信息,如何有效判断其中是否存在隐藏信息。判断出隐秘载体存在隐藏信息之后,如何将其中隐藏的信息内容破解分析出来,即使无法破解出隐秘载体中隐藏的信息,对隐秘载体进行攻击,破坏秘密信息,使得隐秘载体就算顺利到达接收者的手上,也无法正确提取出其中的秘密信息。

信息隐藏技术隐藏的是秘密信息的可见性,一旦被判定存在信息隐藏,信息隐藏过程已经失败。因此,在信息隐藏分析各类研究中,研究最多的是信息隐藏检测技术。

当前信息隐藏检测技术,根据不同的标准可划分为多个类别:根据检测维度可分为基于感官的检测,基于统计分布的检测和基于特征变化的检测;另外,根据已知信息又可分为已知载体的检测、已知隐藏算法的检测和盲检测。

隐藏检测研究现时主要采用统计分析方法,但近年来出现的抗统计信息隐藏旨在嵌入秘密消息的同时保持载体的统计特征不变,这给采用统计分析方法的隐藏检测带来了新的挑战。随着更复杂信息隐藏技术的而出现,基于特征变化的检测方法成为当前主流的信息隐藏检测技术。

然而现有的隐写分析方法大多数依赖于手工提取特征,这意味着这些方法必须仔细分析目标隐写技术的隐藏特性,并设计用于隐写分析的特殊特征。与传统方法不同,深度学习通过特征学习和层次特征提取,可以有效的替代手工特征。



技术实现要素:

为克服现有技术的不足,本发明旨在提出一种新型的基于卷积神经网络的音频隐写分析算法,用来检测时域内lsb音频隐写。该方法明显提高基于手工特征提取的传统隐写分析算法的识别准确度。为此,本发明采取的技术方案是,基于卷积神经网络生成的针对lsb隐写的检测方法,卷积神经网络中使用一个固定卷积层,进行隐藏残留循迹,从而得到音频片段的残差;然后,应用七组层将输入数据降维成维度为512的特征向量;最后,利用全连通层和最大池化层作为分类器输出分类概率。

为减少过拟合的危险、提高模型的鲁棒性,在层组中进行如下修改:使用1×1卷积层来减少参数个数,对不同组执行不同类型的子采样,省略前两组的激活函数。

卷积神经网络中,具有固定内核的卷积层(-1,2,-1)放在网络的开始,然后是7组卷积层组合,第一组到第七组是一个接一个的堆叠,每组依次由1×5卷积层、1×1卷积层和子采样层组成;其中,1×5卷积层既不改变信道数量,也不改变输入数据的空间大小,而1×1卷积层使信道和子采样层将输入数据的空间大小减少一半;经过层组处理后,原始数据大小16000最终转换为512-d特性,然后,将该特性输入一个完全连接的层和一个最大概率优化softmax函数层,这两层就像一个分类器,产生两个分类概率,即判断是否被隐藏。

选择双曲正切tanh函数作为激活函数。

本发明的特点及有益效果是:

现有的隐写分析方法大多依赖于手工特征,这意味着这些方法必须仔细分析目标隐写术的隐藏特性,仔细设计隐写分析的特殊特征。与目前大多数基于cnn(卷积神经网络)的试图捕捉媒体内容的方法不同,本发明精心设计了网络层来抑制音频内容,并自适应地捕捉基于lsb的隐写术引入的微小修改。

在该网络中,本发明创新性使用一个固定卷积层,进行隐藏残留循迹,从而得到音频片段的残差。然后,应用七组层将输入数据降维成维度为512的特征向量。最后,利用全连通层和最大池化层作为分类器输出分类概率。为了减少过度拟合的危险,提高模型的鲁棒性,我们在层组中引入了一些修改。例如,使用1×1卷积层来减少参数数量,在不同的组中执行不同类型的子采样,省略前两组的激活函数。结果表明,所提出的网络性能优于现有的基于手工特征的隐写分析方法,并取得显著的改进。

附图说明:

图1为经典cnn架构图。

图2为本发明构建的cnn架构。框内的参数表示内核大小和通道数量。比如“1*1,8”表示卷积层的内核为1*1和含有8个通道。mp:maxpool,最大池化层;avgpoolglobal,全局平均池化层。

图3为经典构建的卷积模块示意图。

图4为含有1*1卷积层的卷积模块示意图。

具体实施方式

信息隐藏分析技术的提高有利于防止信息隐藏的非法应用,可以起到防止机密资料流失、揭示非法信息、打击恐怖主义、预防灾难发生的作用,从而保证国家的安全和社会的稳定。

实现本发明目的的技术解决方案为:设计一种新型的cnn(卷积神经网络)来检测时域内lsb音频隐写。虽然这种音频隐写技术在时域上存在一定的局限性,但就我们目前所知,现有隐写分析方法的检测精度还远远不能令人满意。由于lsb隐写术引入的修改较少,数据隐藏后的原始内容会得到很好的保存。因此,那些试图捕获媒体内容的典型网络架构不适合这个隐写分析问题。在该网络中,我们首先得到一个固定卷积层的音频片段的残差。然后,应用七组层将输入数据降维成维度为512的特征向量。最后,利用全连通层和软最大层作为分类器输出类概率。以减少过拟合的危险为了提高模型的鲁棒性,我们在层组中引入了一些修改。例如,使用1×1卷积层来减少参数个数,对不同组执行不同类型的子采样,省略前两组的激活函数……

首先介绍cnn的总体架构,然后在接下来详细分析架构的不同组件。

总体架构

经典的cnn架构如图1所示。而本发明所提出的cnn结构如图2所示。具有固定内核的卷积层(-1,2,-1)放在网络的开始,然后是7组卷积层组合(第一组到第七组是一个接一个的堆叠。每组依次由1×5卷积层、1×1卷积层和子采样层组成。其中,1×5卷积层既不改变信道数量,也不改变输入数据的空间大小,而1×1卷积层使信道和子采样层将输入数据的空间大小减少了一半。经过层组处理后,原始数据大小16000最终转换为维度为512的特征向量。然后,将该特性输入一个完全连接的层和一个softmax(最大概率优化)函数。这两层就像一个分类器,产生两个分类概率(即判断是否被隐藏)。

固定卷积层

cnn是一种广泛应用于图像和音频分类的框架。cnn已经取得了巨大的成功,因为它能够学习代表原始图像/音频潜在属性的进行鉴别特征的内容。然而,隐写分析不同于传统的图像和音频分类任务。在隐写分析中,执行成功分类的关键是捕获由隐写术引入的微小差异,而不是对音频具体内容进行建模。由于隐写术引入的信号比图像/音频内容弱得多,因此将cnn直接应用于图像/音频数据可能会有较大的误差。受具体内容的负面影响,从而导致训练模型局部极小值较差。为了解决这一问题,以往的一些图像隐写分析工作通常首先采用高通滤波输入图像,然后将滤波后的图像(图像残差)输入cnn体系结构。在本文中,我们尝试以类似的方式减弱音频内容的影响,即使用一个内核为(-1,2,-1)的卷积层将输入的音频数据转换为残差。内核作为一种一维高通滤波,抑制输入数据的内容,从而防止模型学习内容特征,从而放大差异,使识别效果更加有效和强大。与cnn中参数可训练的公共层不同,该层的参数是固定的,因此称之为固定卷积层。

1×1卷积层

通常cnn的构建组件由卷积层、激活函数和子采样层组成,如图3所示。这里我们使用的卷积层的大小为1×5,tanh(双曲正切)激活函数和最大池化层。为了在子采样后保留足够的特征信息,子采样层前的卷积层需要增加通道的数量(通常是通道数量的两倍)。因此,这一层趋于引入很多参数,特别是当内核大小较大时的情况。图3作为一个例子,假设1×5卷积层的输入通道层是n和输出通道2n,引入参数的数量是:1*5*n*n+2n=10*n2+2*n,假如n=100,参数的数量将是100200个。由于引入过多的参数会导致过拟合的危险,需要一种降低参数的方法。为此,在经典的cnn构建块中采用了1×1卷积层。具体来说,增加1×1卷积层来增加通道数量,同时保持1×5卷积层的输出通道数量与其输入通道数量相同,如图4所示。通过这种方式,给出了参数的总数如下:1*5*n*n+n+1*1*n*n+2*n=7*n2+3*n,通过与上式比较,可以发现参数的个数大约减少了3*n2-n。当n=100时,参数的数量大约会减少29900个,大约为经典cnn块参数的30%。由于参数的减少,可以在一定程度上防止过拟合,从而提高检测性能。

子采样层

为了减小之前特征分布的空间大小,提高鲁棒性,在cnn中,在一个或多个卷积层之后插入一个子采样层是非常常见的。子抽样通常由池化层来执行,如最大池化层或平均池化层,而最大池化层是最流行的选择。在该网络中,通过多次试验结果对比,发现与最大池化层相比,步幅为2的卷积层更适合于低层特征的提取。因此,前两组的卷积集合使用的是步幅为2的卷积层,而在更深的集合组中选择最大池化层。在最后一组中,采用了一种称为全局平均池的平均池化层,它使用的内核大小等于featuremap(特征映射)的大小,从而总结了之前所有层学习到的特征分布。平均池化层大小为1×250,步幅为250。

激活函数

在提出的网络中,本算法选择了tanh(双曲正切)函数作为激活函数,而不是常用的relu(修正线性单元)函数。原因是tanh的饱和区域限制了数据值的范围,不会使概率分布过于分散,因此可以提高我们模型的性能和鲁棒性。

下面详细介绍训练步骤:

步骤一:通过公共数据集获取正常音频数据,并对正常音频进行备份,对备份的数据通过lsb音频隐写算法进行音频隐写,通过合理的切分,生成训练集和测试集,从而为后续实验做好准备。具体步骤如下:

从公共数据集中随机选择了未压缩的语音片段,并对原始音频片段进行了等时切分,一共切成40000段小片段。每个音频剪辑的持续时间为1秒(对音频剪切末尾不足1秒的舍弃),采样速率设为16khz。

然后使用lsb音频隐写算法来匹配获取嵌入率为0.50bps(bitepersecond,比特每秒)的的隐写音频等时长片段。这样总共可以得到40000对正常音频和隐写音频。其中一半用于训练,其余的用于测试。在训练阶段,拿出4000对用于训练后的验证,其余16000对用于训练神经网络。所有的实验通过随机分割训练重复30次,并分别测试数据。训练过程种,本发明未使用常用的sgd(随机梯度下降法),而是使用adam(adaptivemomentestimation,适应性矩估计)算法,原因是使用该算法来训练我们的模型可以使模型收敛更快,性能更好。另外,模型的学习率固定在0.0001。训练的网络大约会迭代50000次,每次迭代中有64个小批音频片段(32个1秒的正常音频片段和32个相对应的1秒的隐写音频片段)用作输入。在训练开始时,训练参数初始化为:标准差为0.1的零均值截断高斯分布产生的随机数。

步骤二:构建卷积神经网络。图1为经典的cnn架构。众所周知,cnn是一类包含卷积计算且具有深度结构的前馈神经网络,卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。所以已经成为众多科学领域的研究热点之一,特别是在模式分类领域,同样在语音研究领域,由于该网络避免了对音频的复杂前期预处理,可以直接输入原始音频,因而在语音方面的研究中得到了广泛的应用。图2为本发明创建的新颖的cnn架构,基于经典的训练模型,本发明创新性的提出适用于语音隐写分析的改造架构,特别是基于lsb音频隐写算法实现的语音隐写的识别效果更佳。

隐写术是一种将秘密信息隐藏在数字封面(如图像、音频和视频)中的艺术。相反,隐写分析的目的是揭露隐藏的秘密信息。由于在隐写过程中为防止隐写被识别,所以隐写的具体内容非常少。所以在隐写分析中,能否成功实现分类的关键是捕获到由隐写术引入的为正常音频造成的微小差别,而不是对音频整体内容构建模型,由于隐写术嵌入的隐写是比音频具体内容弱得多,若直接将卷积神经网络应用到音频数据中,将会严重受到具体内容特征的负面影响,从而导致训练模型折射的关于隐写前后造成的局部差异的局部极小值很小。主要原因是整体特征过于突出而淹没微小差异带来的局部特征变化。为了解决这一问题,本发明借鉴基于图像隐写分析的方法,即通常首先对输入的图像应用高通滤波,然后再将滤波后的图像残差作为模型的输入。而本发明在音频输入模型进行训练之前,首先使用一个卷积层,它的核是(-1,2,-1),该参数是固定的目的将输入的音频数据转换为残差,将隐写造成的差异进行放大。从而减弱音频具体内容的影响。该内核充当一维高通滤波,抑制输入数据的内容,从而可以防止该模型学习内容的特点,而是放大特征差异,从而为后续训练提供更为有利的特征提取起点,从而使模型识别效果更加有效和强大。不像cnn的普通层谁的参数是可训练的,这一层的参数是固定的,不需要通过网络模型的训练。音频数据通过固定卷积层后会生成采样频率为16000的音频残差数据。

典型的卷积网络,由卷积层、池化层、全连接层组成。其中卷积层与池化层配合,组成多个卷积组,逐层提取特征,最终通过若干个全连接层完成分类。卷积层完成的操作,可以认为是逐层特征提取和抽象,而池化层,主要是为了降低数据维度。综合起来说,cnn通过卷积来模拟特征区分,并且通过卷积的权值共享及池化,来降低网络参数的数量级,最后通过传统神经网络完成分类等任务。本发明使用了7个卷积组:

第一层使用了三个不同内核尺寸、不同通道数量和不同步长的卷积层,分别是:内核为1x5、通道为1的卷积层,内核为1x1、通道为8的卷积层,内核为1x3、8个通道、步长为2的卷积层。

第二层同样使用了三个不同内核尺寸、不同通道数量和不同步长的卷积层,分别是:内核为1x5、通道为8的卷积层,内核为1x1、通道为16的卷积层,内核为1x3、16个通道、步长为2的卷积层。

通过上述两个卷积组的处理,数据由原来的16000的采样频率,降为采样频率为4000,通道数量为16的中间数据。为了保留足够的特征信息,子采样层前的卷积层需要增加通道的数量(通常是通道数量的两倍)。因此,这一层趋于引入很多参数,特别是当内核大小较大时的情况。为了减少参数的数量,防止过拟合。在接下来的四层卷积组中,我们增加了1x1的卷积层,增加该卷积层的原因参见技术方案的详细说明。总之,通过在卷积组中增加1x1的卷积层,会大约减少经典cnn卷积组参数的30%。通过参数的减少,可以在一定程度上防止过拟合,从而提高检测性能。另外为使模型有更好的表现,我们还在中间层增加了激活函数。选择的激活函数为tanh(双曲正切)函数,而不是常用的relu(修正线性单元)函数。原因是tanh的饱和区域限制了数据值的范围,使概率分布较为集中,方便分类结果的辨识,提高我们模型的性能和鲁棒性。同时为了减小每组卷积组数据处理之后特征分布的空间大小,提高鲁棒性,在cnn中,往往会在每个卷积组之后插入一个池化层。如最大池化层或平均池化层,而最大池化层是最流行的选择。

在第四层中,我们首先使用了内核尺寸为1x5、通道数量为16的卷积层,并将输出结果作为激活函数tanh的输入值,经过激活函数处理后,我们将数据输入内核为1x1、通道为32的卷积层,接着又将输出结果作为激活函数tanh的输入值进行计算,此时的输出结果作为输入值放入池化层进行进一步降维处理。该池化层的内核大小为1x3,步幅为2的最大池化层。在该网络中,通过多次试验结果对比,步幅为2的卷积层更适合于低层特征的提取。

类似于第四层,接下来的第五层、第六层和第七层使用了相同的结构。具体的每组卷积组的内核大小、使用的激活函数以及池化层的相关参数参考图1。需要强调的是在最后一组中,本发明采用了一种称为全局平均池的平均池化层,它使用的内核大小为1x250,一次性将上一阶获取的数据的维度降为1,从而总结了之前所有层学习到的特征分布。

接下来将数据输入到分类器中,首先是一个全连接层,处理之后的结果输入到softmax(最大概率优化)函数,从而将输入映射为0-1之间的实数,归一化保证和为1。最后以概率的方式输出识别结果。

步骤三:测试集输入训练好的网络模型进行训练,将训练好的模型使用测试集进行测试,并将测试结果与传统方法的效果进行对比。

本发明精心设计了新型的cnn架构实现了一种用于分析音频隐写的识别方法。该方法相对于传统手工提取特征的方法,实现各类特征提取的自动化。亦不同于大多数现有的基于cnn的方法,试图提取音频具体内容的特征,本发明通过仔细设计网络层来抑制音频内容的影响,实现了自适应地捕获引入的小修改。此外,使用的是混合的卷积层和最大池化层等不同的池化方法实现良好的抽象性,防止过拟合。结果表明,该方法达到了良好音频隐写分析效果,可有效的替代传统识别方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1