一种基于时间反转的声掩蔽信号产生方法

文档序号：2824031阅读：596来源：国知局

专利名称：一种基于时间反转的声掩蔽信号产生方法
技术领域：
本发明涉及声掩蔽信号的产生方法，特别涉及一种基于时间反转的声掩蔽信号产生方法。
背景技术：
研究表明，语音是房间内对人干扰最大的声音信号，语音信号的言语可懂度会降低工作效率。在某些场合，由于言语可懂度过高，个人通话隐私得不到保障，急需一种能够降低言语可懂度和保护个人通话隐私的方法。声掩蔽是指将一种自然或者人工合成的声音加入到环境中，通过听觉掩蔽来覆盖目标声源声音，达到降低目标声源信号可懂度的方法。目前，基于声掩蔽信号的声学掩蔽技术被认为是改善开放式办公室声学环境的必要措施之一。现有的声掩蔽信号产生方法，它们的掩蔽信号源一般是噪声信号，比如白噪声、粉红噪声、空调噪声以及人工产生的各种噪声，但是噪声信号由于与目标声源信号没有相关性，掩蔽效率很低，这就需要使得接收点处的噪声能量远大于目标声源信号能量，才能把目标声源的言语可懂度降低。问题是，过强的噪声能量会增加声音的烦恼度，使人无法忍受。如果声掩蔽信号由目标声源信号处理产生，两者具有相关性，可以提高掩蔽效率。因此，需要寻找一种更为有效的声掩蔽信号，该信号由目标声源信号处理得到，在掩蔽效率方面优于噪声掩蔽信号。

发明内容
本发明的目的在于，本发明提出一种基于时间反转的声掩蔽信号产生方法，来使声掩蔽信号由目标声源信号处理产生，两者具有相关性，可以提高掩蔽效率。为达到上述目的，本发明提供一种基于时间反转的声掩蔽信号产生方法，该方法根据目标声源信号得到相应的声掩蔽信号，该声掩蔽信号具有和目标声源信号相似的长时幅度谱，并且言语可懂度很低；该方法具体步骤包括步骤1)使用传声器或传声器阵列拾取目标声源信号，通过预处理得到干净的目标声源信号；步骤2)根据所述的步骤1)得到的目标声源信号按特定时间窗长度进行分帧，按照式(1)对每一帧信号进行时域的时间反转后得到目标声源的声掩蔽信号；y(t) = x(-t)(1)其中，X(t)表示一帧信号，y(t)表示该帧的输出信号。所述的步骤1)中的预处理包括语音增强、降噪、声源定位和声音特征识别。所述的步骤2)中按特定时间窗长度进行分帧时帧长度为150ms 500ms。所述的步骤2)还包括对时间反转每帧信号加入时间窗函数平滑。所述的时间窗函数边缘衰减快且端点处为0。本发明的优点在于，本发明的时间反转声掩蔽信号与目标声源信号具有类似的长时幅度谱，在能量掩蔽上占优势，且时间反转声掩蔽信号完全不可懂或者部分可懂，不会成为新的干扰声源。时间反转声掩蔽信号的掩蔽性能远高于噪声掩蔽信号，在相同的目标声源信号对声掩蔽信号的能量比情况下，可以大大降低言语可懂度，保护通话隐私。另外，时间反转声掩蔽信号产生方法，信号处理过程简单，适合实时处理。

图1是本发明的一种基于时间反转的声掩蔽信号产生方法流程图；图2是本发明的目标声源信号经过预处理进行分帧后的波形图；图3是基于图2中的波形进行时间反转后的波形图；图4是基于图3中的波形加入Tukey窗函数平滑后的声掩蔽信号波形图；图5是图2中的目标声源信号与图4中的声掩蔽信号叠加得到的掩蔽波形图。
具体实施例方式下面结合附图和实施例对本发明进行进一步说明。该声掩蔽信号具有和目标声源信号相似的长时幅度谱，并且言语可懂度很低。本发明方法产生的声掩蔽信号在掩蔽效率方面，远优于现有的噪声掩蔽信号，表现在相同的目标声源信号和声掩蔽信号能量比TMRCTarget-to-Masker ratio)情况下，使目标声源信号的言语可懂度更低，有效的保护通话隐私。本发明的一种基于时间反转的声掩蔽信号产生方法流程图，如图1所示。本发明的技术方案包括如下步骤步骤1)单个传声器、多个传声器或者传声器阵列拾取目标声源信号，进行预处理，预处理过程包括语音增强、降噪等。步骤2、对预处理后的干净目标声源信号按特定时间窗长度进行分帧，每一帧信号进行时域的时间反转，对时间反转后的每一帧信号加入时间窗函数，平滑前后帧之间得到目标声源的声掩蔽信号。声掩蔽信号通过扬声器系统进行重放，对目标声源信号产生掩蔽作用，降低目标声源信号的言语可懂度，保护目标声源的通话隐私以下对本发明的每个步骤结合图2、图3、图4和图5作进一步的详细说明所述步骤1中，具体实现如下拾取目标声源信号，通过单个传声器、多个传声器或者传声器阵列实现，由于背景噪声的存在以及目标声源和传声器位置的差异，拾取的信号可能包含噪声以及其他信号，通过预处理得到干净的目标声源信号，预处理的过程可以包括语音增强、降噪、声源定位、声源特征识别等。所述步骤2中，具体实现如下本发明的目标声源信号经过预处理进行分帧后的波形图，如图2所示，预处理后的信号按特定的时间窗长度进行分帧，帧的推荐范围为150ms到500ms之间，图中举例为 200ms。然后如图3所示，对分帧后的信号进行时间反转处理，每一帧信号在时域上反转，得到反转后的信号。此时，该信号在帧与帧连接处不连续，通过窗函数进行平滑，平滑后信号如图4所示。时间反转信号，随着帧长变化，言语可懂度会发生变化，具体表现在帧长小于 50ms，时间反转信号几乎是完全可懂的，随着帧长增加，言语可懂度下降，帧长为130ms时，大概是50%可懂，直到帧长接近200ms，完全不可懂。此发明中希望设计与目标声源信号长时幅度谱相似，但是完全不可懂或者部分可懂的掩蔽信号，所以帧长推荐为150ms以上，如果帧长过短，声掩蔽信号本身就是可懂的，无法进行掩蔽。理论上帧长大于200ms以上，时间反转信号完全不可懂，但是考虑应用中实时处理的要求，帧长范围推荐在500ms以下。时间反转后的信号如图3，帧与帧之间是不连续的，不连续可能会产生噪声，增加时间反转掩蔽信号的烦恼度，这里使用时间窗函数进行平滑。对于窗函数的选择，要求窗函数边缘处衰减快以及端点处为0，尽可能保留时间反转声掩蔽信号的大部分波形信息，图4 为经过窗函数平滑后帧端点值为0的信号波形图。图例中目标声源的声掩蔽信号如图4所示，通过扬声器系统进行重放，扬声器系统可以是单个扬声器、多个扬声器或者扬声器阵列，根据不同的系统空间设计结构以及所希望达到的掩蔽效果，调整扬声器的输入信号幅度，实现对目标声源信号的言语可懂度控制。一般情况下，在接收点处目标声源信号对时间反转声掩蔽信号的能量比在_5dB到OdB 之间，言语可懂度有一定程度的下降，如果希望更低的言语可懂度，可以适当提高时间反转声掩蔽信号的能量。本发明具体实施例如下本实施例信号处理过程在MATLAB软件里进行仿真，处理结果通过听觉主观实验评定言语可懂度。假设已经得到干净的目标声源信号，如图2所示，然后对图2中信号进行200ms为一帧的分帧处理，如图2所示虚线为分帧边界，接着对每帧信号进行时间反转处理，如图3所示，此时，帧与帧之间是不连续的，为了消除不连续，加入Tukey窗函数平滑，窗函数MATLAB表达式为“tukeyWin(L，0. 2) ”，其中L为帧内采样点数，最后得到该目标声源信号的时间反转声掩蔽信号，如图4所示。调节目标声源信号图2和声掩蔽信号图4的能量比，叠加后得到输出测试信号如图5所示，其中，图5为能量比为OdB时的结果。测试图5输出的言语可懂度错误率，同时使用噪声信号作为参考，实验结果如表1所示，表明时间反转声掩蔽信号在相同的能量比条件下，相比噪声掩蔽信号，具有更好的降低言语可懂度能力，比如能量比为-IOdB时，时间反转声掩蔽信号掩蔽目标声源信号后，可懂度错误率为97%，没有言语可懂度，而噪声掩蔽信号掩蔽目标声源信号后，言语可懂度几乎没有丧失。表1实验结果-言语可懂度的错误率
权利要求
1.一种基于时间反转的声掩蔽信号产生方法，该方法根据目标声源信号得到相应的声掩蔽信号，该声掩蔽信号具有和目标声源信号相似的长时幅度谱，并且言语可懂度很低；该方法具体步骤包括步骤1)使用传声器或传声器阵列拾取目标声源信号，通过预处理得到干净的目标声源信号；步骤幻根据所述的步骤1)得到的目标声源信号按特定时间窗长度进行分帧，按照式 (1)对每一帧信号进行时域的时间反转得到目标声源的相应的声掩蔽信号；y(t) =x(-t)(1)其中，x(t)表示一帧信号，y(t)表示该帧的输出信号。
2.根据权利要求1所述的基于时间反转的声掩蔽信号产生方法，其特征在于，所述的步骤1)中的预处理包括语音增强、降噪、声源定位和声音特征识别。
3.根据权利要求1所述的基于时间反转的声掩蔽信号产生方法，其特征在于，所述的步骤2)中按特定时间窗长度进行分帧时帧长度为150ms 500ms。
4.根据权利要求1所述的基于时间反转的声掩蔽信号产生方法，其特征在于，所述的步骤2)还包括对时间反转每帧信号加入时间窗函数平滑。
5.根据权利要求4所述的基于时间反转的声掩蔽信号产生方法，其特征在于，所述的时间窗函数边缘衰减快且端点处为0。
6.根据权利要求4或5所述的基于时间反转的声掩蔽信号产生方法，其特征在于，所述的时间窗函数为Tukey窗函数。
全文摘要
本发明涉及一种基于时间反转的声掩蔽信号产生方法，该方法根据目标声源信号得到相应的声掩蔽信号，该声掩蔽信号具有和目标声源信号相似的长时幅度谱，并且言语可懂度很低；该方法具体步骤包括使用传声器或传声器阵列拾取目标声源信号，通过预处理得到干净的目标声源信号；根据得到的目标声源信号按特定时间窗长度进行分帧，按照y(t)＝x(-t)对每一帧信号进行时域的时间反转得到目标声源的相应的声掩蔽信号；其中，x(t)表示一帧信号，y(t)表示该帧的输出信号。本发明的时间反转声掩蔽信号与目标声源信号具有类似的长时幅度谱，在能量掩蔽上占优势，且时间反转声掩蔽信号完全不可懂或者部分可懂，不会成为新的干扰声源。
文档编号G10L19/02GK102110441SQ20101061716
公开日2011年6月29日申请日期2010年12月22日优先权日2010年12月22日
发明者匡正, 杨军, 蒋斌申请人:中国科学院声学研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋斌;匡正;杨军
技术所有人：中国科学院声学研究所
我是此专利的发明人