一种基于共振峰频率的数字语音感知哈希方法与流程

文档序号：13672146阅读：340来源：国知局

技术领域本发明涉及一种新颖的针对大数据应用背景下如何提高海量语音信号处理效率的语音感知哈希方案。

背景技术：
随着“互联网+”时代的到来，移动互联网，云计算，大数据和人工智能飞速发展，人们迫切希望能够直接通过语音与计算机进行交互，这使得语音的大规模存储和处理成为研究热点。感知哈希作为多媒体内容识别、检索、认证等信息服务的技术支撑，将面临如何降低计算复杂度和计算效率两大难题。目前的感知哈希算法主要关注特征提取方法和哈希构造方法的性能好坏，没有考虑在大数据背景下将感知哈希应用于实际中的效率和复杂度。同时语音和音频之间存在很大差异，针对音频的感知哈希方法并不完全适用于语音，所以需要专门针对语音信号的特征设计适用于语音的感知哈希算法。现有的语音感知哈希算法大多是单独针对时域或频域的特性，选取某种鲁棒性强，区分性好的特征生成感知哈希，常见的主要是基于频域特征构造感知哈希序列，例如梅尔倒谱系数，离散余弦变换，小波变换等。文献“Robustaudiohashingbasedondiscrete-wavelettransformandnon-negativematrixfactorisation”(ChenN,WanW,XiaoH，IETCommun.2010,23(9)：1722-1731)提出了基于离散小波变换(DWT)和非负矩阵分解(NMF)的音频鲁棒哈希算法。文献“音频感知哈希算法研究”(焦玉华.哈尔滨工业大学博士学位论文.2009)给出了感知哈希各项性质的数学推导和定义，并提出了用熵率来评价算法区分性和压缩性的联合性能。现有的感知哈希算法虽然性能不断提升，但并没有从大数据应用背景的角度考虑，算法复杂度和实际应用效率之间无法达到平衡。综上所述，目前的感知哈希算法主要关注特征提取方法和哈希构造方法的性能好坏，没有考虑在大数据背景下将感知哈希应用于实际中的效率和复杂度。同时语音和音频之间存在很大差异，针对音频的感知哈希方法并不完全适用于语音，所以需要专门针对语音信号的特征设计适用于语音的感知哈希算法。针对上述问题提出一种基于共振峰频率和时域能量差的语音感知哈希方案。

技术实现要素：
本发明的目的是针对上述问题提出一种基于共振峰频率和时域能量差的语音感知哈希方案使之克服现有技术的以上不足。其具体手段如下：一种基于共振峰频率的数字语音感知哈希算法，应用于大数据背景下的语音检索，分别提取能反映说话人音色特征的共振峰频率作为语音段的粗略特征和鲁棒性较强的时域能量差作为语音段的细节特征；将粗略特征和细节特征分别量化为感知哈希，匹配过程通过粗略特征的匹配初步确定目标语音所在的范围，筛选出与目标语音具有相似音色的语音段，然后对筛选出的相似语音片段进行细节特征匹配，最后获得精确匹配结果；包含如下主要步骤：(1)基于共振峰频率的粗糙感知哈希生成：对语音进行频域分析，利用共振峰能够表征说话人音色特征这一特性，选取语音的共振峰频率作为粗略特征，采用不重叠分帧方法，提取每帧的前k个共振峰，这k个共振峰值分别与对应共振峰频率的中值进行比较，大于等于中值则当前帧的感知哈希值为1，小于中值则为0，将提取的感知哈希值按分帧的顺序排列，量化为反映语音粗略特征的粗糙感知哈希序列H1；(2)细节感知哈希序列的获得：细节感知哈希生成过程采用重叠分帧，计算每帧时域短时能量，相邻帧的短时能量差作为语音的细节特征，并量化为反映语音细节特征的细节感知哈希序列H2；(3)粗糙感知哈希与细节感知哈希结合：每帧的粗糙感知哈希H1置于细节感知哈希H2的前面，H1与H2顺序拼接起来作为当前帧最终的感知哈希序列H。这样，本发明将构造感知哈希的方法分为三部分，第一部分针对语音信号的特点，利用共振峰能表征说话人音色特征这一特性，提取语音段的共振峰频率作为语音信号的粗略特征参数，将其量化为语音的粗糙感知哈希序列。第二部分则选取能表征语音信号细节特征的时域能量差作为细节特征参数，时域能量差的计算复杂度相对较低并且具有较强的鲁棒性，同样将时域能量差量化为语音的细节感知哈希序列。第三部分将粗糙感知哈希和细节感知哈希结合使用，匹配过程首先对语音的粗糙感知哈希进行匹配，筛选出与目标语音具有相似音色的语音片段，然后对筛选出的具有相似音色的语音进行细节感知哈希匹配，最后获得精确匹配结果。这样做提高了匹配效率，省去匹配剩余不相似语音的计算量。实验结果表明，本发明有较强的鲁棒性和较好的区分性，实验语音样本越多，匹配效率提高更为明显，进一步展开的具体步骤如下：(1)粗糙感知哈希生成过程：对语音信号进行不重叠分帧，帧长约等于一个元音或一个字词的发音时间。提取每帧的前k个共振峰，这k个共振峰值分别与对应共振峰频率的中值进行比较，若大于等于中值，则当前帧的感知哈希值为1，若小于中值，则当前感知哈希值为0，将提取的感知哈希值按分帧的顺序排列，量化为反映语音粗略特征的粗糙感知哈希序列H1；(2)细节感知哈希生成过程：对语音信号进行重叠分帧，帧移为帧长的2/3长度。对于分帧后的语音，以帧为单位计算每帧时域短时能量作为语音的细节特征，相邻帧的短时能量进行比较，从第二帧开始，将每帧的时域能量值与前一帧的时域能量值进行比较，若大于前一帧表示当前帧提取的时域感知哈希值为1，否则表示0。这样，除第一帧外，每帧都提取了1bit感知哈希值，将所有提取的细节感知哈希值按分帧的顺序结合起来就形成了细节感知哈希序列H2。(3)因为粗略特征提取过程采用不重叠分帧，细节特征提取过程采用重叠分帧，所以对于同一段语音，粗糙感知哈希序列比细节感知哈希序列的长度短很多，至少是细节感知哈希序列长度的一半。将每帧的粗糙感知哈希H1置于细节感知哈希H2的前面，H1与H2顺序拼接起来作为当前帧最终的感知哈希H。检索匹配时就可以利用少量比特的粗糙感知哈希H1进行初步筛选，再利用细节感知哈希H2对筛选出的候选语音段进行精确匹配，省去不必要的计算量，大大提高匹配效率。本发明从感知哈希技术应用于海量信息处理的角度出发，如感知哈希在语音检索中的应用，让计算机能像人耳一样，拥有“听音识人”的功能，初步筛选出与目标语音具有相似音色的语音段，然后只针对筛选出的这些少量语音段进行精确匹配，从而大大减少不必要的计算量，提高检索效率。因此本发明与其他算法感知哈希序列长度相同时，匹配速度至少提高一倍。实验结果表明，感知哈希的区分性和鲁棒性均非常出色，说明本发明在实际应用中将更有意义。附录说明图1为整体的算法框图。图2为基于共振峰频率生成粗糙感知哈希框图。图3为基于时域能量差生成细节感知哈希框图。图4为粗糙感知哈希与细节感知哈希结合框图。图5为本发明实验测试区分性的比特误码率统计直方图。图6为本发明实验的比特误码率与正态分布对比结果。图7为本发明在不同阈值下的错误接受率FAR值。图8为对常规语音信号处理的鲁棒性测试列表。具体实施方式以下结合附录和实施例对本发明的技术方案作进一步描述。本发明对语音信号分别进行粗略特征和细节特征提取。提取粗略特征时，对语音进行频域分析，选取语音的共振峰频率作为特征，采用不重叠分帧方法，提取每帧的前k个共振峰，分别与对应共振峰频率的中值进行比较，量化为反映语音粗略特征的粗糙感知哈希序列；本发明采用线性预测编码(LPC)算法提取语音的共振峰频率，之所以选取LPC算法是因为LPC在语音信号分析和语音信号编码应用中是最有效的方式之一，它提供了一组简洁的语音信号模型参数精确表征语音信号的幅度谱，所需的计算量相对较小，适合应用于大规模语音数据处理中。提取细节特征时，采用重叠分帧，使分帧后的语音信号更接近于平稳信号，计算每帧时域短时能量作为语音的细节特征，相邻帧的短时能量进行做差比较，得到反映语音细节特征的细节感知哈希序列。最后，将生成的两组感知哈希结合起来，作为最终的感知哈希值。过程框图如图1所示。1、粗糙感知哈希生成过程：(1)对语音信号进行不重叠分帧，加汉明窗，语音帧的长度为d1，每帧的长度等于一个元音或一个字词的发音时间；(2)计算各帧语音信号的p阶线性预测系数，记为：{ak；k＝1,2,...,p

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王宏霞;任刘姣;
技术所有人：西南交通大学;
我是此专利的发明人