一种端对端音频隐写方法及系统

文档序号:39886292发布日期:2024-11-05 16:43阅读:200来源:国知局

本发明涉及信息安全,更具体地,涉及一种端对端音频隐写方法及系统。


背景技术:

1、随着多媒体技术的普及与应用以及社交网络的飞速发展。人们利用手机、电脑等多媒体设备交流变得越来越普及。人们通过社交媒体每天在社交网络上传播大量视频、音频、图像、文字等信息,这些信息有的会包含一些个人隐私问题,如家庭住址、个人身份证号等。通过多媒体设备在社交网络上公开传输信息有信息泄露的风险。特别是关于一些个人隐私问题和一些重要信息在网络上进行传播时可能会被不法分子窃取利用造成财产损失。通信安全保障主要分为加密和信息隐藏:加密主要对秘密音频本身进行操作,但经过特殊处理后的明文更加容易受到第三方的怀疑。而信息隐藏则隐藏秘密数据的存在性,使秘密数据在不引起第三方的怀疑下进行隐蔽通信。因此,信息隐藏这种具有伪装特性的通信安全保障被越来越多的使用。隐写术是在尽可能不破坏载体本身各种性质的情况下,在多媒体载体中嵌入秘密音频的技术。隐写术最重要的特点是不可检测性,其目的是使通信双方能够进行隐蔽通信,而不被其他用户察觉通信痕迹。音频隐写是隐写术中的一个重要分支,由于一段音频可以包含大量信息,因此在其中隐藏秘密音频时难以被察觉,是一个理想的秘密音频载体。通过网络传输的音频信息成为了实施隐蔽通信的新型重要载体,适应网络信道的音频隐写术有望成为开放网络环境下可靠、隐蔽传递信息的一种重要方式。

2、目前,已经提出了一些音频隐写方法。例如典型的最低有效位替换方法,把离散小波变换和快速傅里叶变换结合应用于隐藏秘密音频在语音中。最近深度学习在计算机视觉和语音处理领域的飞速发展,在数字图像隐写领域已经取得了一些相关成果。其中用生成对抗网络来生成具有更好嵌入特性的载体图像,利用可逆神经网络实现端对端的信息隐写来达到更好的隐写效果。利用可逆神经网络可逆块的可逆过程实现了良好的秘密音频隐藏效果,并且在抵御隐写分析攻击方面也有出色的效果。受此启发,我们尝试把可逆网络和对抗训练结合用在音频隐写方面实现端对端音频隐写。传统机器学习方法,往往不能直接利用原始数据,而需要提前对原始数据进行一定的处理,比如降维、特征提取等方法。我们提出的端对端的音频隐写方法,模型可以直接利用输入数据而不需要其他处理。我们的模型能够自动从原始数据中学习到有用的特征表示,减少人为干预和预处理的需求。据我们所知目前端对端音频隐写方向的研究应用还属于开拓阶段。

3、kuznetsov等研究了在音频中使用直接扩频技术隐藏信息的方法,探索了5种不同的产生扩频序列的方式对音频隐写的影响(kuznetsov,a.,onikiychuk,a.,peshkova,o.,gancarczyk,t.,warwas,k.,&ziubina,r.(2022).direct spread spectrum technologyfor data hiding in audio.sensors,22(9),3115.)

4、yang等人提出了一个基于生成性对抗网络的框架来实现音频隐写在时间域中的最优嵌入(yang,j.,zheng,h.,kang,x.,&shi,y.q.(2020,may).approaching optimalembedding in audio steganography with gan.in icassp 2020-2020ieeeinternational conference on acoustics,speech and signal processing(icassp)(pp.2827-2831).ieee.)

5、nassrullah等提出基于lsb的高效音频隐写方法,通过利用载体在隐藏容量和失真率之间进行平衡来提高隐写性能(nassrullah,h.a.,flayyih,w.n.,&nasrullah,m.a.(2020).enhancement of lsb audio steganography based on carrier and messagecharacteristics.j.inf.hiding multim.signal process.,11(3),126-137.)

6、chen等人提出了一种利用可逆网络生成音频水印的技术(chen,g.,wu,y.,liu,s.,liu,t.,du,x.,&wei,f.(2023).wavmark:watermarking for audiogeneration.arxivpreprint arxiv:2308.12770.)


技术实现思路

1、鉴于上述问题,本发明的目的是提供一种端对端音频隐写方法及系统。

2、本发明第一方面提供了一种端对端音频隐写方法,所述方法包括:

3、采用单通道音频作为载体,利用短时傅里叶变换将载体音频的一维波向量转换为频域;

4、利用短时傅里叶变换将秘密音频的一维波向量转换为频域;

5、把转换为频域后的秘密音频和转换为频域后的载体音频输入到可逆神经网络中,利用可逆神经网络将秘密音频嵌入到载体音频中,获得隐写音频;

6、对隐写音频进行模拟攻击,然后评估载体音频与隐写音频之间的差异,并提供关于可逆神经网络性能的反馈,

7、根据关于可逆神经网络性能的反馈,调整可逆神经网络,以提高生成器生成的音频的准确性,使其接近于来自原始类的数据;

8、利用调整后的神经网络提取被模拟攻击后的隐写音频,并输出经过隐写后的秘密音频和载体音频。

9、优选地,利用短时傅里叶变换将载体音频的一维波向量转换为频域的公式为:

10、xspecov=γstft(xcov)

11、其中,xspecov载体音频的频域,xcov为载体音频的一维波向量,γstft()为短时傅里叶变换公式。

12、优选地,利用短时傅里叶变换将秘密音频的一维波向量转换为频域的公式为:

13、xspesec=γstft(xsec)

14、其中,xspesec为秘密音频的频域,xsec为秘密音频的一维波向量。

15、优选地,所述把秘密音频嵌入到载体音频中去,其嵌入过程的公式为:

16、

17、其中,表示隐藏后的载体音频,表示隐藏后的秘密音频,表示的是hadamard乘积运算,φ(.)、ρ(.)、η(.)表示任意的函数,本技术采用5层denseblock来表示这三个函。

18、优选地,所述反向提取秘密音频的过程中采取的操作标准化公式为:

19、

20、其中,zi表示提取后的载体音频,表示提取后的秘密音频,表示矩阵除法运算。

21、本发明第二方面提供了一种端对端音频隐写系统,所述系统包括:stft变换器、若干个inn可逆模块、istft变换器、模拟攻击模块、鉴别器;

22、所述inn可逆模块包括信息隐藏可逆块和信息提取可逆块;

23、所述stft变换器将载体音频的一维波向量转换为频域,秘密音频的一维波向量转换为频域;

24、所述信息隐藏可逆块用来生成隐写音频,在将秘密音频嵌入载体音频中,并获取损失和隐写音频系数;

25、信息提取可逆块用来提取隐写音频的秘密信息,利用嵌入过程中嵌入的辅助信息,逆转修改过程,恢复秘密信息的原始数据;

26、所述istft变换器用来将隐写音频系数进行逆短时傅里叶变换,得到隐写音频;

27、所述模拟攻击模块用来实现对隐写音频进行模拟攻击;

28、所述鉴别器用来评估载体音频与隐写音频之间的差异,并提供关于信息提取可逆块性能的反馈,进一步信息提取可逆块生成的实例接近于来自原始类的秘密数据;

29、所述stft变换器还用来将被攻击的隐写音频进行短时傅里叶变换;

30、所述信息提取可逆块根据经短时傅里叶变换后的隐写音频信息结合辅助信息,对隐写音频进行反向提取,并将提取后的音频利用istft变换器进行逆短时傅里叶变换,获得经过隐写后的载体音频和秘密音频。

31、优选地,所述信息隐藏可逆块在将秘密音频嵌入载体音频的过程中,对秘密音频中的原始数据进行修改,且该修改通过信息提取可逆块可以实现可逆。

32、优选地,所述信息提取可逆块和信息隐藏可逆块互为可逆。

33、优选地,所述鉴别器由依次相连的6组组成,从组1到组5,每个组由卷积层、bn层和leakyrelu激活函数组成;第6组包含一个全局平均池和一个线性层,用于输出分类概率。

34、优选地,所述鉴别器的卷积层的卷积核大小=3,步幅=2,填充=1。

35、与现有技术相比,本发明技术方案的有益效果是:本发明提供了一种端对端音频隐写方法及系统。本发明采用了可逆神经网络,可逆网络具有从输入到输出的双向映射能力,这种映射是双射的,意味着每个输入都唯一对应一个输出,并且每个输出也唯一对应一个输入。可逆网络的编码和解码使用相同的参数,可以保留更多输入的细节。此外本发明在可逆神经网络的整体架构中加入了鉴别器模块和攻击模块,鉴别器的主要作用是来判断生成的音频和原始的载体音频的直接相似度,根据两者直接的差异来调整生成器的生成效果,根据对抗学习的原理不断过更新生成器,生成更加接近原声效果的音频。本发明还在攻击模块模仿普通攻击的特性,模型自适应的学习对各种攻击的鲁棒性。端对端音频隐写不需要对输入数据做预处理,可以直接把数据输入模型得到输出结果。提高音频隐写的效率。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1