对称三进制串表示的语音感知哈希序列构造和认证方法

文档序号：2827714阅读：491来源：国知局

对称三进制串表示的语音感知哈希序列构造和认证方法
【专利摘要】对称三进制串表示的语音感知哈希序列构造和认证方法，首先对预处理和强度-响度转换（ILT）后的语音信号进行全局离散小波变换（DWT）；然后对DWT后的语音信号的低频部分进行不重叠分块，计算块的短时对数能量获得信号频域特征；最后结合语音信号时域谱通量特征（SFF），生成最终的三进制感知哈希序列，通过哈希匹配实现了对音频内容的快速认证。本发明提出的感知哈希摘要的对称三进制串表示优于二进制形式，对常见的语音内容保持操作在保证鲁棒性和区分性折中的同时，算法的时间复杂度低、效率高、摘要性强，并能实现精确的篡改检测与定位，可用于带宽资源受限的移动语音通信终端的实时认证。
【专利说明】对称三进制串表示的语音感知哈希序列构造和认证方法

【技术领域】
[0001]本发明属于多媒体信息安全领域，具体涉及一种对称三进制串表示的语音感知哈希序列构造和认证方法。本发明采用对称三进制串来构造感知哈希序列，可有效应用于实现移动语音通信通话过程中的内容认证、说话人认证和检索，并能实现小范围篡改检测和定位。

【背景技术】
[0002]随着信息技术和互联网技术的迅速发展，语音数字作品得以无限记录、传播和保存，在远程通信系统中发挥了重要的作用。但是人们可借助多媒体软件(如Cool Edit)对数字制品进行编辑和修改，再加上无线以及网络等通信信道的开放性，也为篡改、窃听等非法攻击提供了可乘之机。语音多媒体信息中往往含有一些敏感内容和重要信息，比如军事指令、商业机密和保密信息等。为了保证音频多媒体信息的可靠通信和内容安全，有必要对语音内容的真实性和完整性进行验证。
[0003]语音感知哈希(Perceptual Hashing)认证通过验证多媒体信息的内容完整性及真实性来保护多媒体信息，具有内容保持操作的鲁棒性，严格的区分性和安全性，能较好地实现对语音、宽带音频等信号的内容完整性认证。
[0004]目前，语音感知内容认证的研究已取得不少研究成果，其特征值提取和处理的方法有很多。比较典型的特征有对数倒谱系数(见文献“Gzer H, Sankur B, Memon N, etal.Perceptual aud1 hashing funct1ns[J].EURASIP Journal on Applied SignalProcessing, 2005:12，1780-1793”)、线性谱频率(见文献“Nouri M, Farhangian N,Zeinolabedini Z, et al.Conceptual authenticat1n speech hashing base uponhypotrochoid graph[C].Telecommunicat1ns (1ST), 2012 Sixth Internat1nalSymposium on.1EEE, 2012: 1136-1141”)、梅尔频率倒谱系数(见文献“Panag1tou V,Mitianoudis N.PCA summarizat1n for aud1 song identificat1n using GaussianMixture models[C].Digital Signal Processing (DSP), 2013 18th Internat1nalConference on.1EEE, 2013: 1-6”)、线性预测系数(见文献“Lotia P, Khan D M R.Significance of Complementary Spectral Features for Speaker Recognit1n[J].1JRCCT, 2013, 2(8): 579-588”)等，提取方法有希尔伯特变换(见文献“ Huan Zhao,He Liu, Kai Zhao, Yong Yang.Robust Speech Feature Extract1n Using theHilbert Transform Spectrum Estimat1n Method.1nternat1nal Journal ofDigital Content Technology and its Applicat1ns.2011，5 (12):85_95”)、时空调制(见文献“ Xugang Lu, Shigeki Matsuda, Masashi Unok1.Temporal modulat1nnormalizat1n for robust speech feature extract1n and recognit1n[J],Multimedia Tools and Applicat1ns, 2011, I (52): 187-199”)等。焦玉华等(见文献“Jiao Y, Ji L, Niu X.Robust speech hashing for content authenticat1n[J].Signal Processing Letters, IEEE, 2009, 16(9): 818-821 ”)对语音进行处理获得线谱对参数，应用离散余弦变换(DCT)对参数矩阵去相关来提取最终的感知特征参数，该算法有好的区分性和安全性，但摘要性不强。Chen等(见文献“Chen N, Xiao H D, Zhu J,et al.Robust aud1 hashing scheme based on cochleagram and cross recurrenceanalysis [J].Electronics Letters, 2013, 49 (I): 7-8”)在计算机视觉技术的基础上，对语音进行耳蜗图(Cochleagram)和交叉递归分析，快速提取感知哈希摘要，算法有较高的识别性能，但不适用于实时认证。黄弈博等(见文献“Huang Y, Zhang Q, Yuan Z.Perceptual Speech Hashing Authenticat1n Algorithm Based on Linear Predict1nAnalysis[J].TELKOMNIKA Indonesian Journal of Electrical Engineering, 2014,12(4):3214-3223.，，)改进了线性预测分析的语音感知哈希认证算法，简称E+LPC方法，该算法认证效率高，但鲁棒性较弱。上述所有语音感知哈希认证算法的感知哈希值都是以二进制形式表示，但感知哈希值二进制序列非“O”即“1”，对内容保持操作会产生高概率的突变，BER稳定性不足。尤其对单个语音，错误拒绝和接受概率高。
[0005]小波变换是一种时、频分析方法，具有多分辨分析的特点，其时间一频率窗口不是固定不变的，克服了快速傅里叶变换和短时傅里叶变换的缺点，适合于非平稳信号(语音信号)的分析，具有准确表征语音信号的局部细节的能力。

【发明内容】

[0006]本发明的目的是提供一种对称三进制串表示的语音感知哈希序列构造和认证方法，解决了语音感知哈希认证算法小范围篡改定位的问题，克服了二进制哈希序列的弱点，有效提高认证算法的效率。
[0007]本发明是对称三进制串表示的语音感知哈希序列构造和认证方法，其步骤为:
(1)预处理:音频信号S进行预加重处理，获得信号Sh；
(2)频域对数短时能量特征提取:
(2a)信号Sh经过响度-强度转换，获得转换后信号L，其中语音信号响度L与信号强度I的关系为:

【权利要求】
1.对称三进制串表示的语音感知哈希序列构造和认证方法，其步骤为: (1)对音频信号S进行预加重处理； (2)对预加重后的信号进行响度-强度转换(ILT)； (3)对ILT转换的信号进行离散小波变换，提取小波分解低频系数； (4)对小波分解低频系数进行不重叠分块，块长为M，块数为Ntl,获得矩阵T； (5)计算矩阵T行对数短时能量，获得对数短时能量特征参数向量H1； (6)对预加重后信号进行带通滤波； (7)对带通滤波后的信号提取时域谱通量特征(SFF)，获得特征参数向量H2； (8)对H1,H2分别进行感知哈希对称三进制串构造,生成感知哈希序列php ph2,构造方法为:
其中，i表示当前特征向量，H(j)为特征参数向量H的第j个值；
(9)生成最终的语音信号感知哈希序列ph,ph=[phi ;ph2]； (10)哈希匹配:按上述步骤分别获得原始语音信号和待测语音信号的感知哈希序列ph、ph’，计算两者的比特误码率，与预先设置的匹配阈值(Threshold)相比较，两段感知内容相同音频信号的BER值小于匹配阈值，认证通过，相反，感知不同语音的BER应大于匹配阈值，则认证不通过。
2.根据权利要求1所述的对称三进制串表示的语音感知哈希序列构造和认证方法，其特征在于频域对数短时能量特征提取的步骤为: (1)音频信号S进行预加重处理，获得信号Sh； (2)信号Sh经过响度-强度转换，获得转换后信号L，其中语音信号响度L与强度I的关系为: L= Ia (3)对信号L进行离散小波变换，提取小波分解低频系数Lh； (4)对小波分解低频系数Lh进行不重叠分块，块长为M，块数为Ntl，获得矩阵T； (5)计算矩阵T行对数短时能量，获得对数短时能量特征参数向量H1={g(k) I k=l,2，...，NcJ，其中对数短时能量可由下式计算出:
3.根据权利要求1所述的对称三进制串表示的语音感知哈希序列构造和认证方法，其特征在于时域谱通量特征(SFF)提取的步骤为: (1)音频信号S进行预加重处理，获得信号Sh； (2)信号Sh通过上下限截止频率分别为3400Hz和60Hz的带通滤波器进行滤波，获得滤波后信号B； (3)对信号B进行分帧，帧数为N，计算帧信号的频谱流量，获得SFF特征参数向量H2 ={ SFF (k) I k=l, 2，…，N0 }。
4.根据权利要求1所述的对称三进制串表示的语音感知哈希序列构造和认证方法，其特征在于感知哈希特征序列构造的步骤为: (1)对H1,H2分别进行感知哈希对称三进制串构造,生成感知哈希序列ph” ph2,构造方法为:
其中，i表示当前特征向量，H(j)为特征参数向量H的第j个值； (2)语音信号感知哈希序列为ph,Ph=Eph1 ; ph2]。
5.根据权利要求1所述的对称三进制串表示的语音感知哈希序列构造和认证方法，其特征在于哈希匹配的步骤为: (1)计算原始音频信号的哈希序列，作为哈希序列模板，记做Ph； (2)计算待测音频信号的哈希序列，记做ph’； (3)计算ph和ph’的哈希数学距离D(:，:)；
(4)对哈希数学距离进行归一化，获得比特误码率BER；
(5)设置BER匹配阈值τ； (6)如果BER小于匹配阈值τ，则原始音频信号与待测音频信号感知内容相同，认证通过，否则不通过。
6.根据权利要求1所述的对称三进制串表示的语音感知哈希序列构造和认证方法，其特征在于小范围篡改检测与定位的方法步骤为: (1)计算原始音频信号特征序列H1,H2分别对应的哈希序列，记做php ph2; (2)计算待测音频信号特征序列H、分别对应的哈希序列，记做ph’pph^; (3)计算ph和ph'的失真距DD；
(4)对失真距离DD分块，块长度为Nd，块移为Md，块数为C； (5)计算块总失真距TDD；
其中，c为当前块； (6)求取TDD的最大值Zmax，统计TDD的O元素数目，记做Ztl,并统计TDD中元素小于2Zmax/3的数目，记做Z1 ； (7)计算待测语音信号的篡改度TMF;
(8)设置篡改度的匹配阈值Tτ，如果测得待测音频信号的篡改度大于阈值T τ，则待测语音信号受到了篡改，否则待测语音信号未受篡改； (9)根据上述步骤确定语音信号篡改与否； (10)对篡改语音信号分析失真距DD，如果DD(i) > 2，则第i块受到了篡改，否则未受篡改，从而对语音信号进行基于块的篡改定位，块数#越大，篡改定位越精确。
【文档编号】G10L19/06GK104134443SQ201410401657
【公开日】2014年11月5日申请日期:2014年8月14日优先权日:2014年8月14日
【发明者】张秋余, 省鹏飞, 彭铎, 黄羿博, 杨仲平, 余爽, 任占伟申请人:兰州理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张秋余;省鹏飞;彭铎;黄羿博;杨仲平;余爽;任占伟
技术所有人：兰州理工大学
我是此专利的发明人

上一篇：基于语义细胞的语音情感识别方法
上一篇：基于说话人模型对齐的非对称语音库条件下的语音转换方法