技术简介:
本专利针对现有音频水印技术在翻录、加噪等失真下鲁棒性差的问题,提出基于深度学习的嵌入提取方法。通过编码器将水印嵌入音频低频段,引入模拟环境混响、带通滤波等失真层进行对抗训练,结合逆离散小波变换重构音频,显著提升水印在多种失真场景下的提取准确率(达99%以上),实现高保真度与强鲁棒性的版权保护。
关键词:深度学习音频水印,鲁棒性提升
1.本发明涉及数字水印技术领域,尤其涉及一种基于深度学习的音频水印嵌入提取的方法。
背景技术:2.数字水印技术作为一种追踪泄漏源和版权保护的有效方法,多年来已经得到了广泛的研究。音频水印应该满足的两个最重要的属性是保真度和鲁棒性,保真度确保带水印音频的正常使用,鲁棒性保证即使音频遭受失真(mpeg编码、噪声添加、音频重新录制等),仍然可以无损地提取嵌入的水印。大多数传统的音频水印方法都关注电子信道中数字失真的鲁棒性,因为大多数音频复制发生在数字信道。然而随着录音设备的小型化,音频翻录(audio re-recording,ar)已成为一种更方便、更有效的复制音频的方式,当以音频作为信息传输的载体时,对于很多重要的机密音频信息(诉讼录音、取证音频)和有偿音频盗版(网络课堂音频、电影盗版),由于翻录可以有效地保留音频内容并显著破坏嵌入的水印信号,利用翻录的手段,攻击者可以轻松、隐蔽地实施音频内容信息窃取,且难以留下证据,如图1所示为现有技术中翻录操作对泄露信息的示意图,因此对于音频水印而言,如何在复杂场景下保持鲁棒性是最大的挑战之一,确保对翻录的鲁棒性成为现阶段音频水印的当务之急。
3.目前,音频水印研究领域仍以传统的数学算法为主,试图寻找失真前后不变的特征来进行水印嵌入,大多数使用的特征都在变换域中,例如采用离散余弦变换 (dct)、离散小波变换 (dwt) 和快速傅里叶变换(fft)等音频频域转换方法获取音频的变换域特征。然而由于翻录过程本身的复杂性,定量和精细地分析失真并在这个过程中找到稳健不变的特征是一项非常难以实现的任务,因此现有技术的算法都不能很好地抵抗翻录失真。
技术实现要素:4.本发明的目的是提供一种基于深度学习的音频水印嵌入提取的方法,该方法能将水印嵌入目标音频之后,在目标音频遭受加噪、滤波、压缩、重采样、重量化、翻录等失真后仍可以提取其中的水印信息,从而实现音频泄密溯源、版权保护的目的。
5.本发明的目的是通过以下技术方案实现的:一种基于深度学习的音频水印嵌入提取的方法,所述方法包括:步骤1、利用编码器将水印信息嵌入载体音频之中,得到含有水印的音频;步骤2、在将含有水印的音频输入解码器之前,在编码器和解码器之间插入一个失真层,用于增强音频翻录过程的鲁棒性;步骤3、将遭受失真层之后的含有水印的音频输入解码器,由解码器提取其中的水印信息。
6.由上述本发明提供的技术方案可以看出,上述方法能将水印嵌入目标音频之后,在目标音频遭受加噪、滤波、压缩、重采样、重量化、翻录等失真后仍可以提取其中的水印信
息,从而实现音频泄密溯源、版权保护的目的。
附图说明
7.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
8.图1为现有技术中翻录操作对泄露信息的示意图。
9.图2为本发明实施例提供的基于深度学习的音频水印嵌入提取的方法流程示意图。
具体实施方式
10.下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,这并不构成对本发明的限制。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
11.下面将结合附图对本发明实施例作进一步地详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
12.如图2所示为本发明实施例提供的基于深度学习的音频水印嵌入提取的方法流程示意图,所述方法包括:步骤1、利用编码器将水印信息嵌入载体音频之中,得到含有水印的音频;在该步骤中,在步骤1中,用来表示长度为的单声道原始载体音频;首先通过可微分的离散小波变换(discrete wavelet transform, dwt)将原始载体音频转移到频域,获得相应的近似系数和细节系数,即:其中近似系数和细节系数的长度为原始载体音频的一半,即;受传统音频水印的启发,将水印信息嵌入到原始载体音频的低频中,即利用近似系数作为水印信息的载体,同时保留细节系数,用于后续的音频重构;编码器用于将水印信息嵌入到中,如图2所示,编码器en生成残差r并将其进一步标记到上,从而生成含水印的近似系数,即:其中是强度因子,默认设置为1;en(.)表示编码器处理。
13.另外,为了满足保真度要求,使含水印的近似系数尽量与原始的保持一致,在编码器的训练中引入了一个基本损失,采用均方误差作为,即:其中i表示索引编号;表示第i个近似系数;表示第i个含水印的近似系数;为了进一步提高保真度并最小化和之间的域差距,引入了一个额外的鉴别器d,用于与编码器形成对抗训练,对抗损失用于使编码器更好地嵌入水印信息,使鉴别器无法区分和,从而最小化和之间的域差距,即:;其中,d(.)表示鉴别器处理。
14.步骤2、在将含有水印的音频输入解码器之前,在编码器和解码器之间插入一个失真层,用于增强音频翻录过程的鲁棒性;在该步骤中,使失真层可微是必不可少的,这可以防止端到端学习过程中的梯度中断,然而翻录过程是一个复杂的非微分过程,故设定所插入的失真层为差分音频重新录制操作dar,包括环境混响、带通滤波和高斯噪声;具体实现中,为了实现对翻录的鲁棒性,首先从声音在空气中传播的影响以及麦克风和扬声器的处理来分析翻录过程;根据分析,本实例通过几个微分操作(环境混响、带通滤波和高斯噪声)对翻录失真进行精细建模,并将这些操作作为失真层与所提出的框架配合使用;由于dar是在时域上运行的处理过程,因此不能直接应用于含水印的近似系数,故采用逆dwt,即idwt(inverse discrete wavelet transform)将含水印的近似系数以及相应的细节系数变换回含水印的音频,即:其中,所述环境混响具体为:脉冲响应是环境在收到简短输入信号时的反应,它描述了环境的声学特性,尤其是空间混响行为,脉冲响应通过卷积再现环境中的混响,从不同的麦克风、房间环境和扬声器收集不同的基础脉冲响应以形成集合,给定目标音频,从集合中随机选择一个基础脉冲响应,并通过集合对目标音频进行卷积操作,以模拟环境混响er(.),即:所述带通滤波具体为:
由于人类听觉的频带有限,因此广泛使用的正常频率范围是500hz至2000 hz,基于此,常用的扬声器不会播放频段过高或过低的音频,同时麦克风还会对播放的音频进行处理,通常是将正常范围之外的频段截断,以降低噪音,也就是一个基本的去噪处理,因此,为了模拟由扬声器和麦克风的固有特性引起的失真,对含水印的音频应用频带通滤波操作,给定目标音频,按如下方式执行:其中和分别代表低通滤波和高通滤波;和表示和对应的阈值;所述高斯噪声具体为:除了上述两个分量之外,还通过引入高斯噪声来模拟翻录过程中由不确定因素引起的随机噪声,高斯噪声是一种加性噪声,广泛用于当前的自动语音识别方案,以增强对随机环境噪声的鲁棒性,具体是通过直接叠加高斯噪声在目标音频上实现添加高斯噪声操作,即:其中,表示高斯噪声;表示均值为0,方差为的高斯分布。
15.步骤3、将遭受失真层之后的含有水印的音频输入解码器,由解码器提取其中的水印信息。
16.在该步骤中,失真层dar的处理过程如下:对于含水印的音频,最终获得遭受失真层dar处理之后的含有水印的音频,即:利用离散小波变换dwt获取该对应的近似系数和细节系数,并将近似系数输入解码器de,由解码器de提取其中的水印,即:即:其中,de (.)表示解码器处理。
17.具体实现中,进一步引入水印损失,即水印信息和解码器提取的水印之间的均方误差损失mse (mean square error),即:
当采用二进制水印而不是,这更有利于模型进行水印嵌入和提取,在这种情况下,对于含水印的音频,解码器提取的水印的分布应尽可能接近-1 和 1;对于无水印的音频,解码器提取的水印分布应接近0,这有助于基于mse的约束工作。
18.值得注意是,本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
19.为了说明本发明实施例所述方案的效果,下面通过实验进行详细说明:1)保真度测试首先将本技术所述方法的保真度与现有基线方法进行比较,如表1所示,本方法实现了25.86 的snr,优于现有的基线方法。
20.表1 与基线方法的定量比较指标本方法基线1基线2snr(db)25.8625.8124.94acc(%)99.1877.0956.02)对音频翻录的鲁棒性测试在这个实验中比较了音频重新录制的鲁棒性,并在表2中提供了定量结果,在相当的保真度下,本方法大大优于基线方法(分别超过 20% 和 40%)。除了默认距离(5cm)外,进一步在不同的条件下与基线的方法进行了对照比较。如表2所示,本技术实施例所述方法在很远的距离范围内表现更好,随着距离的增加,对翻录的鲁棒性会相应降低,但仍然可以接受(均在 90% 以上)。
21.表2 不同距离下翻录的鲁棒性比较距离(cm)52050100本方法99.1898.5593.4092.68基线177.0982.6474.7666.023)对其他常见失真的鲁棒性测试为了更全面地比较鲁棒性,进一步在数字传输过程中的其他常见失真下进行评估,即不同信噪比(20 db、30 db、40 db、50 db)下的高斯噪声、mp3 压缩(64 kbps、128 kbps)、带通(1 khz 高通、4 khz)、重新采样、裁剪、幅度修改、重新量化和中值滤波。如表3所示,本技术所采用的方法在所有类型的失真下都很稳健。
22.表3 对其他常见失真的鲁棒性,默认/增强版的 acc
以上实验结果表明:本发明实施例所述方法可以自动实现音频水印的嵌入和各种失真下的鲁棒提取,比起现有方法能达到更高的提取准确率。
23.综上所述,本发明实施例所述方法在音频中嵌入水印信息之后,在常见的音频处理失真场景、水印攻击场景以及翻录(audio re-recording,ar)失真下均能够对水印实现鲁棒提取,从而实现泄密溯源、版权保护的目的。
24.另外,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
25.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范
围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。