一种用于回声消除的语音信号时延估计方法及系统的制作方法

文档序号：10515914阅读：402来源：国知局

一种用于回声消除的语音信号时延估计方法及系统的制作方法
【专利摘要】本发明公开了一种用于回声消除的语音信号时延估计方法及系统，方法包括：分别获取通话中麦克风接收到的语音信号的远端信号和近端信号，生成对应的远端频域信号和近端频域信号；采用基于人耳掩蔽效应的临界频带分别对远端频域信号、近端频域信号进行频域内的子带分解并获取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱；分别提取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征，并分别进行匹配，生成时延估计结果并输出。本发明基于人耳掩蔽效应统计出远端信号和近端信号的相关性，计算简单，而且能够得到准确的时延估计，为消除回声带来了极大的方便。
【专利说明】
-种用于回声消除的语音信号时延估计方法及系统
技术领域
[0001] 本发明设及数字语音处理技术领域，尤其设及一种用于回声消除的语音信号时延估计方法及系统。
【背景技术】
[0002] 随着互联网普及和家居智能化水平的提高，W及移动智能终端的广泛应用，网络电话已成为人们常用的通讯方式。回声消除是常用电话和网络电话应用过程中必须解决的问题。
[0003] 回声分为声学回声和线路回声，线路回声是由线路间匹配禪合引起的，声学回声是在外放的语音通话系统中，扬声器的声音多次反馈到麦克风引起的。声学回声消除，就是要从麦克风收到的语音中消除扬声器发出的声音，得到消除回声后的近端语音。回声消除的模型见图1。在回声消除系统中，扬声器端发出的语音参考信号叫做远端信号，麦克风收到的扬声器发出的声音和语音组合而成的信号叫做近端信号，远端信号发出后，一部分语音直接传送到麦克风端，运部分回声与近端信号时延较小；另一部分信号在有限空间的房间内多次反射后传到近端，运部分回声时延较大。回声消除的过程就是根据远端信号与近端信号的相关性，估算出回声信号，并将回声信号从近端信号中消除，得到纯净的语音。
[0004] 时延估计是影响声学回声消除效果的关键技术，准确的时延估计可W大大的优化回声的消除效果，通过对远、近端信号进行时延估计和对齐，回声的估计和消除工作才能进一步完成。
[0005] 目前工业上常用的时延估计算法是应用互相关的方法对时延进行估计。通过求取互相关函数的最大值，其最大值所在位置即对应了两段语音间的时延。但是其假定了信号和噪声W及噪声与噪声之间均严格相互独立，运在客观上是难W实现的，所W在噪声和混响条件下时延估计效果较差，表现较不稳定，影响了用户在通话时的通话质量。
[0006] 因此，现有技术还有待于改进和发展。

【发明内容】

[0007] 鉴于现有技术的不足，本发明目的在于提供一种用于回声消除的语音信号时延估计方法及系统，旨在解决现有技术中用户在通话过程中对回声的时延估计的算法效果差，回声消除效果差的缺陷。
[000引本发明的技术方案如下：
[0009] -种用于回声消除的语音信号时延估计方法，其中，方法包括：
[0010] A、分别获取通话中麦克风接收到的语音信号的远端信号和近端信号，获取的远端信号和近端信号分别依次进行分帖、FFT快速傅里叶变换、加窗操作生成对应的远端频域信号和近端频域信号；
[0011] B、采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解并获取远端频域信号各临界频点的功率谱，采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解并获取近端频域信号各临界频点的功率谱；
[0012] C、分别提取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征，并分别对远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征进行匹配，生成时延估计结果并输出。
[0013] 所述的用于回声消除的语音信号时延估计方法，其中，所述步骤B具体包括：
[0014] B1、采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解后，获取远端频域信号的各临界频带对应的临界频点，并获取远端频域信号各临界频点的功率谱；
[0015] B2、采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解后，获取近端频域信号的各临界频带对应的临界频点，并获取近端频域信号各临界频点的功率谱；
[0016] B3、分别对远端频域信号各临界频点的功率谱、近端频域信号各临界频点的功率谱进行帖间平滑和帖内平滑。
[0017] 所述的用于回声消除的语音信号时延估计方法，其中，所述步骤C具体包括：
[0018] C1、对平滑处理后的远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱进行局部特征提取分别生成对应的远端频域信号各临界频点的局部二值特征和近端频域信号各临界频点的局部二值特征；
[0019] C2、获取近端频域信号各临界频点的局部二值特征，分别与远端频域信号各临界频点的局部二值特征的前N帖进行异或操作，统计差异点个数，获取当前帖的第一时延估计结果，其中N为自然数；
[0020] C3、获取当前帖的近端信号和当前帖对应的第一时延估计结果对应的远端信号的帖，分别进行局部二值特征提取，生成各时刻对应的当前帖的近端信号局部二值特征和当前帖的远端信号局部二值特征；
[0021] C4、将当前帖的远端信号局部二值特征沿时间轴移动一定距离，对移位后的远端信号局部二值特征与近端信号局部二值特征中重合位置的特征进行异或操作，获取差异最少的时刻，根据所述时刻计算出当前帖的第二时延估计结果。
[0022] 所述的用于回声消除的语音信号时延估计方法，其中，所述步骤C1具体包括：
[0023] C11、对平滑处理后的远端频域信号各临界频点的功率谱的相邻的P帖信号，对相同频点的功率谱，与相邻帖间的相应功率谱进行比对，若大于相邻帖的相应功率谱，则对比结果记为1，若小于相邻帖的相应功率谱，则对比结果记为0,对比结果按序排列，得到远端频域信号各临界频点的局部二值特征，其中P为自然数；
[0024] C12、对平滑处理后的近端频域信号各临界频点的功率谱的相邻的P帖信号，对相同频点的功率谱，与相邻帖间的相应功率谱进行比对，若大于相邻帖的相应功率谱，则对比结果记为1，若小于相邻帖的相应功率谱，则对比结果记为0,对比结果按序排列，得到近端频域信号各临界频点的局部二值特征，其中P为自然数。
[0025] 所述的用于回声消除的语音信号时延估计方法，其中，所述步骤C3具体包括：
[0026] C31、获取当前帖的近端信号，进行局部二值特征提取，取当前帖相邻的Μ个时刻进行比对，若大于比对值，取1，若小于比对值取0,对比对结果按序排列，生成各时刻对应近端信号局部二值特征，其中Μ为自然数；
[0027] C32、获取当前帖的近端信号所对应的远端信号即第一时延结果所对应的远端信号的帖，进行局部二值特征提取，取当前帖相邻的Μ个时刻进行比对，若大于比对值，取1，若小于比对值取0,对比对结果按序排列，生成各时刻对应远端信号局部二值特征，其中Μ为自然数。
[0028] -种用于回声消除的语音信号时延估计系统，其中，系统包括：
[0029] 信号获取与转换模块，用于分别获取通话中麦克风接收到的语音信号的远端信号和近端信号，获取的远端信号和近端信号分别依次进行分帖、FFT快速傅里叶变换、加窗操作生成对应的远端频域信号和近端频域信号；
[0030] 信号分解及功率谱获取模块，用于采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解并获取远端频域信号各临界频点的功率谱，采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解并获取近端频域信号各临界频点的功率谱；
[0031 ]时延估计模块，用于分别提取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征，并分别对远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征进行匹配，生成时延估计结果并输出。
[0032] 所述的用于回声消除的语音信号时延估计系统，其中，所述信号分解及功率谱获取模块具体包括：
[0033] 第一信号分解单元，用于采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解后，获取远端频域信号的各临界频带对应的临界频点，并获取远端频域信号各临界频点的功率谱；
[0034] 第二信号分解单元，用于采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解后，获取近端频域信号的各临界频带对应的临界频点，并获取近端频域信号各临界频点的功率谱；
[0035] 平滑处理单元，用于分别对远端频域信号各临界频点的功率谱、近端频域信号各临界频点的功率谱进行帖间平滑和帖内平滑。
[0036] 所述的用于回声消除的语音信号时延估计系统，其中，所述时延估计模块具体包括：
[0037] 第一局部二值特征生成单元，用于对平滑处理后的远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱进行局部特征提取分别生成对应的远端频域信号各临界频点的局部二值特征和近端频域信号各临界频点的局部二值特征；
[0038] 第一时延估计单元，用于获取近端频域信号各临界频点的局部二值特征，分别与远端频域信号各临界频点的局部二值特征的前Ν帖进行异或操作，统计差异点个数，获取当前帖的第一时延估计结果，其中Ν为自然数；
[0039] 第二局部二值特征生成单元，用于获取当前帖的近端信号和当前帖对应的第一时延估计结果对应的远端信号的帖，分别进行局部二值特征提取，生成各时刻对应的当前帖的近端信号局部二值特征和当前帖的远端信号局部二值特征；
[0040] 第二时延估计结果，用于将当前帖的远端信号局部二值特征沿时间轴移动一定距离，对移位后的远端信号局部二值特征与近端信号局部二值特征中重合位置的特征进行异或操作，获取差异最少的时刻，根据所述时刻计算出当前帖的第二时延估计结果。
[0041] 所述的用于回声消除的语音信号时延估计系统，其中，所述第一局部二值特征生成单元具体包括：
[0042] 远端频域信号的局部二值特征生成单元，用于对平滑处理后的远端频域信号各临界频点的功率谱的相邻的P帖信号，对相同频点的功率谱，与相邻帖间的相应功率谱进行比对，若大于相邻帖的相应功率谱，则对比结果记为1，若小于相邻帖的相应功率谱，则对比结果记为0,对比结果按序排列，得到远端频域信号各临界频点的局部二值特征，其中P为自然数；
[0043] 近端频域信号的局部二值特征生成单元，用于对平滑处理后的近端频域信号各临界频点的功率谱的相邻的P帖信号，对相同频点的功率谱，与相邻帖间的相应功率谱进行比对，若大于相邻帖的相应功率谱，则对比结果记为1，若小于相邻帖的相应功率谱，则对比结果记为0,对比结果按序排列，得到近端频域信号各临界频点的局部二值特征，其中P为自然数。
[0044] 所述的用于回声消除的语音信号时延估计系统，其中，所述第二局部二值特征生成单元具体包括：
[0045] 近端信号局部二值特征生成单元，用于获取当前帖的近端信号，进行局部二值特征提取，取当前帖相邻的Μ个时刻进行比对，若大于比对值，取1，若小于比对值取0,对比对结果按序排列，生成各时刻对应近端信号局部二值特征，其中Μ为自然数；
[0046] 远端信号局部二值特征生成单元，用于获取当前帖的近端信号所对应的远端信号即第一时延结果所对应的远端信号的帖，进行局部二值特征提取，取当前帖相邻的Μ个时刻进行比对，若大于比对值，取1，若小于比对值取0,对比对结果按序排列，生成各时刻对应远端信号局部二值特征，其中Μ为自然数。
[0047] 本发明提供了一种用于回声消除的语音信号时延估计方法及系统，本发明通过利用人耳掩蔽效应及利用了帖间和帖内信号在时域和频域的变化规律统计出远端信号和近端信号的相关性，计算简单，而且能够得到准确的时延估计，为消除回声带来了极大的方便，提升了回声消除的效果，提高了用户网络通话的质量。
【附图说明】
[004引图1为现有技术中回声消除的模型示意图。
[0049] 图2为本发明中一种用于回声消除的语音信号时延估计方法的较佳实施例的流程图。
[0050] 图3为本发明中一种用于回声消除的语音信号时延估计方法的具体应用实施例的临界频带中帖间数据比对结果示意图。
[0051] 图4为本发明中一种用于回声消除的语音信号时延估计方法的具体应用实施例的临界频带中帖内数据比对结果示意图。
[0052] 图5为本发明的一种用于回声消除的语音信号时延估计系统的较佳实施例的功能原理框图。
【具体实施方式】
[0053] 为使本发明的目的、技术方案及效果更加清楚、明确，W下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用w解释本发明，并不用于限定本发明。
[0054] 本发明还提供了一种用于回声消除的语音信号时延估计方法的较佳实施例的流程图，如图2所示，其中，方法包括：
[0055] 步骤S100、分别获取通话中麦克风接收到的语音信号的远端信号和近端信号，分别对远端信号和近端信号依次进行分帖、FFT快速傅里叶变换、加窗操作生成对应的远端频域信号和近端频域信号。
[0056] 具体实施时，当用户通过麦克风进行通话时，麦克风接收到的语音信号有远端信号和近端信号。需要预先获取麦克风接收到的近端信号和远端信号。通话可能是普通的电话也可能是网络电话。
[0057] 如图1所示，远端信号为x(n)，近端信号为d(n)，对运两个信号进行分帖操作，每帖包含10ms数据。分帖后进行FFT快速傅里叶变换和加窗操作，得到分帖后的频域结果远端频域信号Xt(w)和近端频域信号Dt(w)，其中t表示第t帖数据，W表示第W频点。
[0058] 步骤S200、采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解并获取远端频域信号各临界频点的功率谱，采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解并获取近端频域信号各临界频点的功率谱。
[0059] 具体实施时，人耳掩蔽效应是指人耳对强度较强的某一频率信号反应敏感，对于相对来说较弱的频带反应就比较弱，也就是指某一频率的声音掩蔽其他频率声音的运一现象。各频率的声音对其他频率声音掩蔽的能力不同，所W声音频率与掩蔽效应的曲线是非线性的。从人耳感知的角度对频域进行重新的划分，可W在20化~16曲Z间分割出24个临界 bark频带。本发明首先应用临界bark频带的思想对语音进行频率域的子带划分，运样不仅对每帖需要计算的数据进行压缩，而且选用准则符合人耳听觉效果。临界频率的计算公式如下：
[0060]
[0061 ] 进一步地，所述步骤S200具体包括：
[0062] 步骤S201、采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解后，获取远端频域信号的各临界频带对应的临界频点，并获取远端频域信号各临界频点的功率谱；
[0063] 步骤S202、采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解后，获取近端频域信号的各临界频带对应的临界频点，并获取近端频域信号各临界频点的功率谱；
[0064] 步骤S203、分别对远端频域信号各临界频点的功率谱、近端频域信号各临界频点的功率谱进行帖间平滑和帖内平滑。
[0065] 具体实施时，对远端频域信号Xt(w)、近端频域信号Dt(w)进行临界bark频带转换，并求取功率谱，得到远端频域信号各临界频点的功率谱Xt(wb)、近端频域信号各临界频点的功率谱Dt(wb)，其中wbE [1，24]对应临界频点。为防止噪声、突变等对语音变化规律的统计造成影响，导致误判，在对语音变化规律进行统计之前首先对语音进行频域内的平滑预处理操作。因此对远端频域信号各临界频点的功率谱Xt(wb)、近端频域信号各临界频点的功率谱Dt(wb)进行帖间平滑，同时进行帖内平滑，W消除突变影响。
[0066] 步骤S300、分别提取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征，并分别对远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征进行匹配，生成时延估计结果并输出。
[0067] 具体实施时，在对远、近端信号进行处理的过程中选择合适的准则来对语音的变化规律进行统计对最终的时延估计准确度影响至关重要。由于远端信号经房间反射叠加语音信号后才得到近端信号，所W两个信号间的强度均值差异较大。我们设计局部二值特征对语音的变化规律进行特征提取，从而消除远、近端语音的信号差异性影响。
[0068] 如图3所示，对于帖间时延比对，在频域内，每帖信号用24个bark子带的功率谱表示。图3中，当前帖所在的位置记为Va^O,在统计局部二值特征时，首先抽取前后相邻的8帖语音信号，前后相邻的8帖语音信号的位置分别记为化^1，￥曰1-2，化^3，化^4，￥曰1+1，化1 +2，化1+3，Val+4，对当前待处理帖Va^O的每个子带功率谱，与其相邻帖内对应的子带功率谱进行大小对比，如果当前帖化^〇功率谱大于对比帖，则记为1，如果当前帖数据小于对比帖，则记为0。最后，按照前4帖到后4帖的顺序，对对比结果的二值数据进行排列，得到8bit 特征提取结果，特征提取结果为10110010,运个统计特征即表明当前频带的功率谱对应的帖间变化规律。
[0069] 如图4所示，对于帖内时延比对，在时域内，每一时刻的信号强度已知，在统计局部二值特征时，首先抽取前后相邻的8个时刻的语音信号，当前时刻的位置记为Va^O，用当前时刻的语音信号强度与相邻8个时刻的语音信号强度进行对比。相邻8个时刻的位置分别记为化1-1，￥曰1-2，￥曰1-3，化^4，化1+1，化1+2，化1+3，化1+4，如果当前时刻￥曰1-0的信号强度大于对比时刻点，则记为1，如果当前时刻Val-0的信号强度小于对比时刻即记为0。最后按照顺序对8个2进制数据进行排列，得到最终的局部二值特征提取结果，记为10100011。由于运种变化规律是用相对大小比对而得到，所W不受远端、近端信号间的差异性影响，得到的特征提取结果能够用于远、近端信号的关联性比对。
[0070] 应用局部二值特征对帖内和帖间的信息进行变化规律的特征提取之后，对时延进行估计就变成了对统计的局部二值特征进行匹配。由于局部二值特征的每一位代表的是当前数值与之前某时刻点数值间的变化规律，所W可W用异或的方法对远、近端数据的局部二值特征进行计算，判断某一时刻点远、近端数据相对于之前数据的变化规律是否相符，统计异或后为1的数据位数，即可判断当前时刻远、近端数据变化规律间的差异，从而通过简单的数值计算，得到准确的第二时延估计结果。
[0071 ] 进一步地，所述步骤S300具体包括：
[0072] 步骤S301、对平滑处理后的远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱进行局部特征提取分别生成对应的远端频域信号各临界频点的局部二值特征和近端频域信号各临界频点的局部二值特征；
[0073] 步骤S302、获取近端频域信号各临界频点的局部二值特征，分别与远端频域信号各临界频点的局部二值特征的前N帖进行异或操作，统计差异点个数，获取当前帖的第一时延估计结果，其中N为自然数；
[0074] 步骤S303、获取当前帖的近端信号和当前帖对应的第一时延估计结果对应的远端信号的帖，分别进行局部二值特征提取，生成各时刻对应的当前帖的近端信号局部二值特征和当前帖的远端信号局部二值特征；
[0075] 步骤S304、将当前帖的远端信号局部二值特征沿时间轴移动一定距离，对移位后的远端信号局部二值特征与近端信号局部二值特征中重合位置的特征进行异或操作，获取差异最少的时刻，根据所述时刻计算出当前帖的第二时延估计结果。
[0076] 进一步地，所述步骤S301具体包括：
[0077] 步骤S311、对平滑处理后的远端频域信号各临界频点的功率谱的相邻的P帖信号，对相同频点的功率谱，与相邻帖间的相应功率谱进行比对，若大于相邻帖的相应功率谱，贝U 对比结果记为1，若小于相邻帖的相应功率谱，则对比结果记为0,对比结果按序排列，得到远端频域信号各临界频点的局部二值特征，其中P为自然数；
[0078] 步骤S312、对平滑处理后的近端频域信号各临界频点的功率谱的相邻的P帖信号，对相同频点的功率谱，与相邻帖间的相应功率谱进行比对，若大于相邻帖的相应功率谱，贝U 对比结果记为1，若小于相邻帖的相应功率谱，则对比结果记为0,对比结果按序排列，得到近端频域信号各临界频点的局部二值特征，其中P为自然数。
[0079] 进一步地，所述步骤S303具体包括：
[0080] 步骤S331、获取当前帖的近端信号，进行局部二值特征提取，取当前帖相邻的Μ个时刻进行比对，若大于比对值，取1，若小于比对值取0,对比对结果按序排列，生成各时刻对应近端信号局部二值特征，其中Μ为自然数；
[0081] 步骤S332、获取当前帖的近端信号所对应的远端信号即第一时延结果所对应的远端信号的帖，进行局部二值特征提取，取当前帖相邻的Μ个时刻进行比对，若大于比对值，取 1，若小于比对值取0,对比对结果按序排列，生成各时刻对应远端信号局部二值特征，其中Μ 为自然数。
[0082] 具体实施时，对平滑后的临界频点的远端频域信号各临界频点的功率谱Xt(wb)、近端频域信号各临界频点的功率谱Dt(wb)进行局部二值特征提取。取其相邻的P帖，P优先为8，对相同频点的功率谱，与相邻帖间的相应功率谱进行比对，若大于比对值，取1，若小于比对值取0。对比对结果按序排列，得到各频点的局部二值特征分别记为远端频域信号的各临界频点的局部二值特征Xtl(Wb)LBP、近端频域信号的各临界频点的局部二值特征Dt2(Wb)LBP。
[0083] 获取近端频域信号的各临界频点的局部二值特征Dt2(wb)LBP，分别与前N帖的远端频域信号的各临界频点的局部二值特征Xtl(Wb)LBP，其中N是根据远端信号相对于近端信号的延迟时间而预先设置的。N优选为50,（其中tie (-50,0])进行异或，统计结果为1的差异点个数。差异最少的时刻tf为近端频域信号在远端频域信号延迟后的数据帖。该时刻对应了当前帖的第一时延结果，第一时延结果记为xtf(n)，第一时延结果代表远端频域信号相对于近端频域信号的延迟后的数据帖。
[0084] 获取当前帖所在的时域信号即近端信号dt2(n)和第一时延结果估计得到帖的所在的时域信号xtf(n)，并分别进行局部二值特征提取。分别取其相邻的Μ个时刻进行比对，即将当前帖的数据按照Μ个时刻一组分为若干组，Μ优先为8,若大于比对值，取1，若小于比对值取0。对比对结果按序排列，得到各时刻的局部二值特征，分别记为当前帖在各时刻对应的近端信号局部二值特征xtf(n)LBP、各时刻对应的远端信号局部二值特征dt2(n)LBP。
[0085] 令当前帖各时刻对应的远端信号局部二值特征xtf(n)LBP，沿时间轴移动一定距离，一定距离为n，其中ne(-L，L)，L对应当前帖长。分别对移位后的各时刻对应的远端信号局部二值特征Xtf(nc)LBP与时刻对应的近端信号局部二值特征dt2(n)LBP重合位置的特征进行异或，其中，η。为移动后对应的距离，统计1的个数并按照重叠区域求均值。差异最少的时刻cf 为远端信号与近端信号在当前帖内对应的位置，将该帖所在的时域信号值与近端信号的帖的时间差进行计算，计算结果为当前帖近端信号在远端信号的延迟值，也是远端信号相对于近端信号的第二时延估计结果，第二时延估计结果为从最终的精细化的时延估计结果。 [00化]所述步骤S300之后还包括：
[0087] 步骤S400、根据第二时延估计结果对麦克风接收到的语音进行进行滤波，消除远端信号带来的回声。
[0088] 具体实施时，回声消除的过程就是根据远端信号与近端信号的相关性，估算出回声信号，并将回声信号从近端信号中消除，得到纯净的语音。利用得到的精细的第二时延估计结果，将远端信号从原麦克风接收的总信号中删除，从而获得清晰的通话过程中的近端信号即通话语音。
[0089] 由W上方法实施例可知，本发明提供了一种用于回声消除的语音信号时延估计方法，通过远、近端信号分别进行分帖、加窗、FFT变换和临界bark频带帖间信号的功率谱数值变化情况进行统计，对时延进行粗定位，之后在帖内对远、近端信号进行时域内的数值变化统计，进一步对时延进行精细定位，从而得到准确的时延估计结果，更好的进行回声消除，提高了通话质量。
[0090] 本发明还提供了一种用于回声消除的语音信号时延估计系统的较佳实施例的功能原理框图，如图5所示，其中，系统包括：
[0091] 信号获取与转换模块100,用于分别获取通话中麦克风接收到的语音信号的远端信号和近端信号，获取的远端信号和近端信号分别依次进行分帖、FFT快速傅里叶变换、加窗操作生成对应的远端频域信号和近端频域信号;具体如上方法实施例所述。
[0092] 信号分解及功率谱获取模块200,用于采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解并获取远端频域信号各临界频点的功率谱，采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解并获取近端频域信号各临界频点的功率谱;具体如上方法实施例所述。
[0093] 时延估计模块300,用于分别提取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征，并分别对远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征进行匹配，生成时延估计结果并输出；具体如上方法实施例所述。
[0094] 进一步地实施例中，所述信号分解及功率谱获取模块具体包括：
[00%]第一信号分解单元，用于采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解后，获取远端频域信号的各临界频带对应的临界频点，并获取远端频域信号各临界频点的功率谱;具体如上方法实施例所述。
[0096] 第二信号分解单元，用于采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解后，获取近端频域信号的各临界频带对应的临界频点，并获取近端频域信号各临界频点的功率谱;具体如上方法实施例所述。
[0097] 平滑处理单元，用于分别对远端频域信号各临界频点的功率谱、近端频域信号各临界频点的功率谱进行帖间平滑和帖内平滑;具体如上方法实施例所述。
[0098] 具体地，所述时延估计模块具体包括：
[0099] 第一局部二值特征生成单元，用于对平滑处理后的远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱进行局部特征提取分别生成对应的远端频域信号各临界频点的局部二值特征和近端频域信号各临界频点的局部二值特征;具体如上方法实施例所述。
[0100] 第一时延估计单元，用于获取近端频域信号各临界频点的局部二值特征，分别与远端频域信号各临界频点的局部二值特征的前N帖进行异或操作，统计差异点个数，获取当前帖的第一时延估计结果，其中N为自然数;具体如上方法实施例所述。
[0101] 第二局部二值特征生成单元，用于获取当前帖的近端信号和当前帖对应的第一时延估计结果对应的远端信号的帖，分别进行局部二值特征提取，生成各时刻对应的当前帖的近端信号局部二值特征和当前帖的远端信号局部二值特征;具体如上方法实施例所述。
[0102] 第二时延估计结果，用于将当前帖的远端信号局部二值特征沿时间轴移动一定距离，对移位后的远端信号局部二值特征与近端信号局部二值特征中重合位置的特征进行异或操作，获取差异最少的时刻，根据所述时刻计算出当前帖的第二时延估计结果;具体如上方法实施例所述。
[0103] 再进一步，所述第一局部二值特征生成单元具体包括：
[0104] 远端频域信号的局部二值特征生成单元，用于对平滑处理后的远端频域信号各临界频点的功率谱的相邻的P帖信号，对相同频点的功率谱，与相邻帖间的相应功率谱进行比对，若大于相邻帖的相应功率谱，则对比结果记为1，若小于相邻帖的相应功率谱，则对比结果记为0,对比结果按序排列，得到远端频域信号各临界频点的局部二值特征，其中P为自然数;具体如上方法实施例所述。
[0105] 近端频域信号的局部二值特征生成单元，用于对平滑处理后的近端频域信号各临界频点的功率谱的相邻的P帖信号，对相同频点的功率谱，与相邻帖间的相应功率谱进行比对，若大于相邻帖的相应功率谱，则对比结果记为1，若小于相邻帖的相应功率谱，则对比结果记为0,对比结果按序排列，得到近端频域信号各临界频点的局部二值特征，其中P为自然数;具体如上方法实施例所述。
[0106] 进一步的实施例中，所述第二局部二值特征生成单元具体包括：
[0107] 近端信号局部二值特征生成单元，用于获取当前帖的近端信号，进行局部二值特征提取，取当前帖相邻的Μ个时刻进行比对，若大于比对值，取1，若小于比对值取0,对比对结果按序排列，生成各时刻对应近端信号局部二值特征，其中Μ为自然数;具体如上方法实施例所述。
[0108] 远端信号局部二值特征生成单元，用于获取当前帖的近端信号所对应的远端信号即第一时延结果所对应的远端信号的帖，进行局部二值特征提取，取当前帖相邻的Μ个时刻进行比对，若大于比对值，取1，若小于比对值取0,对比对结果按序排列，生成各时刻对应远端信号局部二值特征，其中Μ为自然数;具体如上方法实施例所述。
[0109] 综上所述，本发明提供了一种用于回声消除的语音信号时延估计方法及系统，方法包括:分别获取通话中麦克风接收到的语音信号的远端信号和近端信号，生成对应的远端频域信号和近端频域信号；采用基于人耳掩蔽效应的临界频带分别对远端频域信号、近端频域信号进行频域内的子带分解并获取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱;分别提取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征，并分别进行匹配，生成时延估计结果并输出。本发明基于人耳掩蔽效应统计出远端信号和近端信号的相关性，计算简单，而且能够得到准确的时延估计，为消除回声带来了极大的方便。
[0110]应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可 W根据上述说明加 W改进或变换，所有运些改进和变换都应属于本发明所附权利要求的保护范围。
【主权项】
1. 一种用于回声消除的语音信号时延估计方法，其特征在于，方法包括： A、分别获取通话中麦克风接收到的语音信号的远端信号和近端信号，获取的远端信号和近端信号分别依次进行分帧、FFT快速傅里叶变换、加窗操作生成对应的远端频域信号和近端频域信号； B、采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解并获取远端频域信号各临界频点的功率谱，采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解并获取近端频域信号各临界频点的功率谱； C、分别提取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征，并分别对远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征进行匹配，生成时延估计结果并输出。2. 根据权利要求1所述的用于回声消除的语音信号时延估计方法，其特征在于，所述步骤B具体包括： B1、采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解后，获取远端频域信号的各临界频带对应的临界频点，并获取远端频域信号各临界频点的功率谱； B2、采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解后，获取近端频域信号的各临界频带对应的临界频点，并获取近端频域信号各临界频点的功率谱； B3、分别对远端频域信号各临界频点的功率谱、近端频域信号各临界频点的功率谱进行帧间平滑和帧内平滑。3. 根据权利要求2所述的用于回声消除的语音信号时延估计方法，其特征在于，所述步骤C具体包括： C1、对平滑处理后的远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱进行局部特征提取分别生成对应的远端频域信号各临界频点的局部二值特征和近端频域信号各临界频点的局部二值特征； C2、获取近端频域信号各临界频点的局部二值特征，分别与远端频域信号各临界频点的局部二值特征的前N帧进行异或操作，统计差异点个数，获取当前帧的第一时延估计结果，其中N为自然数； C3、获取当前帧的近端信号和当前帧对应的第一时延估计结果对应的远端信号的帧，分别进行局部二值特征提取，生成各时刻对应的当前帧的近端信号局部二值特征和当前帧的远端信号局部二值特征； C4、将当前帧的远端信号局部二值特征沿时间轴移动一定距离，对移位后的远端信号局部二值特征与近端信号局部二值特征中重合位置的特征进行异或操作，获取差异最少的时刻，根据所述时刻计算出当前帧的第二时延估计结果。4. 根据权利要求3所述的用于回声消除的语音信号时延估计方法，其特征在于，所述步骤C1具体包括： C11、对平滑处理后的远端频域信号各临界频点的功率谱的相邻的P帧信号，对相同频点的功率谱，与相邻帧间的相应功率谱进行比对，若大于相邻帧的相应功率谱，则对比结果记为1，若小于相邻帧的相应功率谱，则对比结果记为0,对比结果按序排列，得到远端频域信号各临界频点的局部二值特征，其中P为自然数； C12、对平滑处理后的近端频域信号各临界频点的功率谱的相邻的P帧信号，对相同频点的功率谱，与相邻帧间的相应功率谱进行比对，若大于相邻帧的相应功率谱，则对比结果记为1，若小于相邻帧的相应功率谱，则对比结果记为0,对比结果按序排列，得到近端频域信号各临界频点的局部二值特征，其中P为自然数。5. 根据权利要求4所述的用于回声消除的语音信号时延估计方法，其特征在于，所述步骤C3具体包括： C31、获取当前帧的近端信号，进行局部二值特征提取，取当前帧相邻的Μ个时刻进行比对，若大于比对值，取1，若小于比对值取0,对比对结果按序排列，生成各时刻对应近端信号局部二值特征，其中Μ为自然数； C32、获取当前帧的近端信号所对应的远端信号即第一时延结果所对应的远端信号的帧，进行局部二值特征提取，取当前帧相邻的Μ个时刻进行比对，若大于比对值，取1，若小于比对值取〇，对比对结果按序排列，生成各时刻对应远端信号局部二值特征，其中Μ为自然数。6. -种用于回声消除的语音信号时延估计系统，其特征在于，系统包括：信号获取与转换模块，用于分别获取通话中麦克风接收到的语音信号的远端信号和近端信号，获取的远端信号和近端信号分别依次进行分帧、FFT快速傅里叶变换、加窗操作生成对应的远端频域信号和近端频域信号；信号分解及功率谱获取模块，用于采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解并获取远端频域信号各临界频点的功率谱，采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解并获取近端频域信号各临界频点的功率谱；时延估计模块，用于分别提取远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征，并分别对远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱的局部二值特征进行匹配，生成时延估计结果并输出。7. 根据权利要求6所述的用于回声消除的语音信号时延估计系统，其特征在于，所述信号分解及功率谱获取模块具体包括：第一信号分解单元，用于采用基于人耳掩蔽效应的临界频带对远端频域信号进行频域内的子带分解后，获取远端频域信号的各临界频带对应的临界频点，并获取远端频域信号各临界频点的功率谱；第二信号分解单元，用于采用基于人耳掩蔽效应的临界频带对近端频域信号进行频域内的子带分解后，获取近端频域信号的各临界频带对应的临界频点，并获取近端频域信号各临界频点的功率谱；平滑处理单元，用于分别对远端频域信号各临界频点的功率谱、近端频域信号各临界频点的功率谱进行帧间平滑和帧内平滑。8. 根据权利要求7所述的用于回声消除的语音信号时延估计系统，其特征在于，所述时延估计模块具体包括：第一局部二值特征生成单元，用于对平滑处理后的远端频域信号各临界频点的功率谱和近端频域信号各临界频点的功率谱进行局部特征提取分别生成对应的远端频域信号各临界频点的局部二值特征和近端频域信号各临界频点的局部二值特征；第一时延估计单元，用于获取近端频域信号各临界频点的局部二值特征，分别与远端频域信号各临界频点的局部二值特征的前N帧进行异或操作，统计差异点个数，获取当前帧的第一时延估计结果，其中N为自然数；第二局部二值特征生成单元，用于获取当前帧的近端信号和当前帧对应的第一时延估计结果对应的远端信号的帧，分别进行局部二值特征提取，生成各时刻对应的当前帧的近端信号局部二值特征和当前帧的远端信号局部二值特征；第二时延估计结果，用于将当前帧的远端信号局部二值特征沿时间轴移动一定距离，对移位后的远端信号局部二值特征与近端信号局部二值特征中重合位置的特征进行异或操作，获取差异最少的时刻，根据所述时刻计算出当前帧的第二时延估计结果。9. 根据权利要求8所述的用于回声消除的语音信号时延估计系统，其特征在于，所述第一局部二值特征生成单元具体包括：远端频域信号的局部二值特征生成单元，用于对平滑处理后的远端频域信号各临界频点的功率谱的相邻的P帧信号，对相同频点的功率谱，与相邻帧间的相应功率谱进行比对，若大于相邻帧的相应功率谱，则对比结果记为1，若小于相邻帧的相应功率谱，则对比结果记为0,对比结果按序排列，得到远端频域信号各临界频点的局部二值特征，其中P为自然数；近端频域信号的局部二值特征生成单元，用于对平滑处理后的近端频域信号各临界频点的功率谱的相邻的p帧信号，对相同频点的功率谱，与相邻帧间的相应功率谱进行比对，若大于相邻帧的相应功率谱，则对比结果记为1，若小于相邻帧的相应功率谱，则对比结果记为0,对比结果按序排列，得到近端频域信号各临界频点的局部二值特征，其中P为自然数。10. 根据权利要求9所述的用于回声消除的语音信号时延估计系统，其特征在于，所述第二局部二值特征生成单元具体包括：近端信号局部二值特征生成单元，用于获取当前帧的近端信号，进行局部二值特征提取，取当前帧相邻的Μ个时刻进行比对，若大于比对值，取1，若小于比对值取0，对比对结果按序排列，生成各时刻对应近端信号局部二值特征，其中Μ为自然数；远端信号局部二值特征生成单元，用于获取当前帧的近端信号所对应的远端信号即第一时延结果所对应的远端信号的帧，进行局部二值特征提取，取当前帧相邻的Μ个时刻进行比对，若大于比对值，取1，若小于比对值取0，对比对结果按序排列，生成各时刻对应远端信号局部二值特征，其中Μ为自然数。
【文档编号】H04M9/08GK105872275SQ201610169226
【公开日】2016年8月17日
【申请日】2016年3月22日
【发明人】李敬源
【申请人】Tcl集团股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李敬源;
技术所有人：TCL集团股份有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。