回声抑制方法、装置、设备及存储介质与流程

文档序号：21801518发布日期：2020-08-11 20:56阅读：440来源：国知局

本申请涉及音频技术，尤其涉及一种回声抑制方法、装置、设备及存储介质。

背景技术：

在语音通讯的音频系统中，由于扬声器与麦克风的耦合，语音通讯的远端说话者的声音通过终端扬声器播放出来，可能会和用户自己，即近端说话者的声音一起被麦克风采集到。麦克风采集到的远端说话者的声音称为回声，采集到的近端说话者的声音称为近端语音，为了保证语音质量，需要尽量消除回声。

目前，普遍的回声消除方法中都包含自适应滤波和非线性回声处理两个部分，自适应滤波去除掉部分线性回声，剩余的非线性回声由非线性处理模块进行抑制。在非线性处理过程中，如果要完全抑制掉自适应滤波后的非线性回声，则近端语音也很容易受到大的损失。例如，在非线性回声大的时段或者频段把信号抹去或者用平均值等代替，这种方法能够有效抑制非线性回声，但会导致近端语音损失严重，从而影响通讯体验。

因此，亟需一种能够尽量消除回声并且尽可能多地保留近端语音的回声抑制方法。

技术实现要素：

本申请提供一种回声抑制方法、装置、设备及存储介质，以实现在尽量消除回声的同时尽可能多地保留近端语音。

第一方面，本申请提供一种回声抑制方法，包括：

从终端设备麦克风获取待处理语音信号；

根据所述待处理语音信号中低频信号的特征值，确定所述待处理语音信号中的回声信号，所述回声信号的频率大于所述低频信号的频率；

对所述待处理语音信号中的回声信号进行抑制处理后，发送至远端设备。

可选的，所述低频信号的特征值包括：所述低频信号的峰值特征值；

所述根据所述待处理语音信号中低频信号的特征值，确定所述待处理语音信号中的回声信号，包括：

将所述待处理语音信号中幅值高于所述峰值特征值的频点，确定为所述回声信号的频点。

可选的，所述方法还包括：

根据所述待处理语音信号的低频信号的幅值确定所述待处理语音信号的低频峰值；

根据所述低频峰值和预设增益向量确定第一低频特征向量；所述第一低频特征向量中的元素为所述待处理语音信号中每个频点对应的峰值特征值。

可选的，所述将所述待处理语音信号中幅值高于所述峰值特征值的频点，确定为所述回声信号的频点，包括：

若所述待处理语音信号中第一频点的幅值大于所述第一低频特征向量中与所述第一频点对应的峰值特征值，则将所述第一频点确定为所述回声信号的第一回声频点；所述第一频点的频率大于所述低频信号的频率。

可选的，所述对所述待处理语音信号中的回声信号进行抑制处理，包括：

根据所述第一低频特征向量中与所述第一回声频点对应的特征值确定对所述第一回声频点进行抑制后的幅值。

可选的，所述低频信号的特征值还包括：所述低频信号的均值特征值；

所述根据所述待处理语音信号中低频信号的特征值，确定所述待处理语音信号中的回声信号，还包括：

确定所述待处理语音信号中幅值高于所述均值特征值且低于所述峰值特征值的目标频点；

根据所述目标频点与远端语音信号中相应频点的相关系数，在所述目标频点中确定所述回声信号的频点。

可选的，所述方法还包括：

根据所述待处理语音信号的低频信号的幅值确定所述待处理语音信号的低频均值；

根据所述低频均值和预设增益向量确定第二低频特征向量；所述第二低频特征向量中的元素为所述待处理语音信号中每个频点对应的均值特征值。

可选的，所述确定所述待处理语音信号中幅值高于所述均值特征值且低于所述峰值特征值的目标频点，包括：

若所述待处理语音信号中第二频点的幅值小于所述第一低频特征向量中与所述第二频点对应的峰值特征值，且大于所述第二低频特征向量中与所述第二频点对应的均值特征值，则将所述第二频点确定为目标频点，所述第二频点的频率大于所述低频信号的频率。

可选的，所述根据所述目标频点与远端语音信号中相应频点的相关系数，在所述目标频点中确定所述回声信号的频点，包括：

将所述目标频点中，与所述远端语音信号中相应频点的相关系数大于阈值的频点确定为所述回声信号的第二回声频点。

可选的，所述对所述待处理语音信号中的回声信号进行抑制处理，还包括：

根据所述第二回声频点的幅值，以及所述第二回声频点与所述远端语音信号中相应频点的相关系数，确定对所述第二回声频点进行抑制后的幅值。

可选的，所述方法还包括：

根据所述待处理语音信号中的每个频点的幅值与所述远端语音信号中相应频点的幅值确定所述待处理语音信号中的每个频点与远端语音信号中相应频点的相关系数。

可选的，所述从终端设备麦克风获取待处理语音信号，包括：

从所述麦克风采集语音信号；

对所述语音信号进行自适应处理，得到所述待处理语音信号。

第二方面，本申请提供一种回声抑制装置，包括：

获取模块，用于从终端设备麦克风获取待处理语音信号；

确定模块，用于根据所述待处理语音信号中低频信号的特征值，确定所述待处理语音信号中的回声信号，所述回声信号的频率大于所述低频信号的频率；

抑制模块，用于对所述待处理语音信号中的回声信号进行抑制处理后，发送至远端设备。

可选的，所述低频信号的特征值包括：所述低频信号的峰值特征值；

所述确定模块用于：

将所述待处理语音信号中幅值高于所述峰值特征值的频点，确定为所述回声信号的频点。

可选的，所述确定模块还用于：

根据所述待处理语音信号的低频信号的幅值确定所述待处理语音信号的低频峰值；

根据所述低频峰值和预设增益向量确定第一低频特征向量；所述第一低频特征向量中的元素为所述待处理语音信号中每个频点对应的峰值特征值。

可选的，所述确定模块还用于：

可选的，所述抑制模块用于：

根据所述第一低频特征向量中与所述第一回声频点对应的特征值确定对所述第一回声频点进行抑制后的幅值。

可选的，所述低频信号的特征值还包括：所述低频信号的均值特征值；

所述确定模块还用于：

确定所述待处理语音信号中幅值高于所述均值特征值且低于所述峰值特征值的目标频点；

根据所述目标频点与远端语音信号中相应频点的相关系数，在所述目标频点中确定所述回声信号的频点。

可选的，所述确定模块还用于：

根据所述待处理语音信号的低频信号的幅值确定所述待处理语音信号的低频均值；

根据所述低频均值和预设增益向量确定第二低频特征向量；所述第二低频特征向量中的元素为所述待处理语音信号中每个频点对应的均值特征值。

可选的，所述确定模块还用于：

可选的，所述确定模块用于：

将所述目标频点中，与所述远端语音信号中相应频点的相关系数大于阈值的频点确定为所述回声信号的第二回声频点。

可选的，所述抑制模块还用于：

根据所述第二回声频点的幅值，以及所述第二回声频点与所述远端语音信号中相应频点的相关系数，确定对所述第二回声频点进行抑制后的幅值。

可选的，所述确定模块还用于：

可选的，所述获取模块用于：

从所述麦克风采集语音信号；

对所述语音信号进行自适应处理，得到所述待处理语音信号。

第三方面，本申请提供一种电子设备，存储器、处理器、扬声器和麦克风；

所述存储器和所述处理器连接；

所述存储器用于存储计算机程序；

所述处理器用于在所述计算机程序执行时，实现如上述第一方面中任一项所述的方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述第一方面中任一项所述的方法。

本申请提供一种回声抑制方法、装置、设备及存储介质，该方法中，在从终端设备麦克风获取待处理语音信号后，根据待处理语音信号中低频信号的特征值，确定待处理语音信号中的中高频信号中的回声信号；再进一步对回声信号进行抑制处理后发送至远端设备。由于扬声器的回声主要集中在中高频，因此可以有针对性的根据低频信号筛选出待处理语音信号的中高频中的回声信号，从而能够在消除回声的同时避免对近端语音的影响，提高了语音通信的质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一种扬声器和麦克风的声音信号传输示意图；

图2为本申请提供的一种回声抑制方法的流程示意图；

图3为本申请提供的一种确定回声信号的流程示意图；

图4为回声返回损耗增强示意图；

图5为本申请提供的一种回声抑制装置的结构示意图；

图6为本申请提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在语音通讯的音频系统中，由于扬声器与麦克风的耦合，使得在受话端由扬声器播放出的声音被设备上的麦克风接收并传给远端讲话者，形成声学回声。声学回声包括直接回声和间接回声，直接回声是由扬声器播放出来然后直接传播到麦克风的声音；而间接回声是指由扬声器播放出的声音，经过不同路径的一次或多次反射后进入麦克风的回声集合。麦克风接收到的信号可能包含三个阶段：纯回声阶段、纯语音阶段和双讲阶段，其中，纯回声阶段即麦克风仅接收到扬声器的回声，纯语音阶段即麦克风仅接收到近端讲话者的近端语音，而双讲阶段则是麦克风既接收到回声又接收到近端语音。

声学回声通过信道延迟后传回给远端说话者，使远端说话者听到自己的声音，影响着语音通讯的质量。特别是在免提通话的情况下，能量过大的回声会给远端的通话者造成语义理解的干扰，极大地影响了通讯体验。随着通讯技术的革新，人们对于语音通讯的质量要求不断提高，移动通讯终端的声学回声消除(acousticechocancellation,aec)也成为了语音通讯质量的重要关注点。

为了去除回声对通讯的影响，目前通常采用自适应滤波(adaptivedigitalfilter,adf)和非线性处理(nonlinearprocessing,nlp)结合的方法实现声学回声消除。示例的，如图1中所示，远端参考信号即远端语音信号101，由扬声器102播放，得到放大信号103，放大信号103通过声学回声路径104产生回声信号105。近端语音信号106即近端用户说话的语音信号，和回声信号105共同被麦克风107采集，形成混合信号108。通过使用自适应滤波器109模拟声学回声路径104，可以使得自适应模拟的回声信号110逼近真实回声信号105，然后从混合信号108中减去模拟的回声信号110，得到残余回声信号111。自适应滤波器109可以使用任意一种自适应滤波算法，包括但不限于最小均方(leastmeansquare,lms)算法，归一化最小均方(normalizedleastmeansquare,nlms)算法，仿射投影(affineprojection,ap)算法，快速仿射投影(fastaffineprojection,fap)算法，最小平方(leastsquare,ls)算法，递归最小二乘(recursiveleastsquare,rls)法等。

然而最理想的自适应滤波器只能消除一部分的线性回声，无法消除非线性回声。由于手持设备的小型化，使得其采用的微型扬声器相对常规尺寸的扬声器小很多，为了满足免提通讯音量，微型扬声器常常工作在非线性区域，音频失真严重。除此之外，手持设备的材质和结构特性也可能会产生非线性的传输路径。这样一来，只依靠自适应滤波器消除回声是远远不够的。也就是说残余回声信号111中仍然包含了大量非线性回声，为了提高回声消除的性能，还需要采用非线性处理模块112对残余回声信号111进行处理，得到发送信号113。

然而，在非线性处理过程中，如果要完全抑制掉自适应滤波后的非线性回声，则近端语音也很容易受到大的损失。例如，在非线性回声大的时段或者频段把信号抹去或者用平均值等代替，这种方法能够有效抑制非线性回声，但会导致近端语音损失严重，从而影响通讯体验。

为了实现尽量消除回声并且尽可能多地保留近端语音信号，本申请提出一种回声抑制方法，根据扬声器普遍的非线性特点和频率特性进行非线性回声抑制。扬声器固有的非线性特性使得扬声器产生了激励信号中并不存在的额外频率分量，这些分量通常为输入信号基波的整数倍。扬声器的频率特性是输出声压随输入信号的频率变化而变化的规律，反应了扬声器对不同频率声波的辐射能力。对于微型扬声器而言，低频的辐射能力比较弱，例如，在低于400hz的频段，频响曲线有明显的下降趋势。

由于微型扬声器具有以上的非线性特点和频率特性，远端说话者经过扬声器播放出来的声音能量主要是在中高频，低频能量比较少。即便是通过自适应滤波消除回声之后，中高频的能量也会多于低频。在实际中，通过获取图1中远端语音信号101的语谱图，混合信号108的语谱图，以及自适应滤波后的残余回声信号111的语谱图进行对比即可发现，混合信号108的中高频能量相对低频能量而言较多，而通过自适应滤波之后的残余回声信号111的中高频能量相对于低频仍然较多。也就是说，回声信号主要集中在中高频，且无论是否经过了自适应滤波处理，待处理语音信号108和残余回声信号111中均存在中高频的回声。因此，本申请中提出，采用待处理语音信号108或残余回声信号111的低频部分的特性来对其中的中高频回声进行抑制，从而能够在抑制回声的同时减少对近端语音信号的影响。

以下结合具体实施例对本申请提供的无线资源管理测量方法进行详细说明。可以理解的是，下面这几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2为本申请提供的一种回声抑制方法的流程示意图。该方法的执行主体为回声抑制装置，该装置可以通过软件和/或硬件的方式实现，示例的，该回声抑制装置可以设置在终端设备中。本实施例的方法包括：

s201、从终端设备麦克风获取待处理语音信号。

本实施例中的终端设备可以是移动终端，如移动电话，也可以是其他具有语音通讯功能的电子设备，例如，例如计算机、车载设备等，本实施例对此不作限制。

本实施例中的待处理语音信号可以是近端语音信号和回声信号形成的混合信号，也可以是混合信号经过进一步自适应处理之后的信号。示例的，待处理语音信号可以是如图1中所示的从麦克风采集到的近端语音信号106和回声信号105共同形成的混合信号108，也可以是从麦克风采集混合信号108后，对混合信号108进行自适应处理得到的残余回声信号111。本实施例中对自适应处理的方法不作具体限定，自适应滤波算法可以为现有技术中的任一种。

s202、根据待处理语音信号中低频信号的特征值，确定待处理语音信号中的回声信号，回声信号的频率大于低频信号的频率。

由于如前所陈述的，微型扬声器的回声信号主要集中在中高频，且无论是否经过了自适应滤波处理，待处理语音信号中均存在中高频的回声。因此，本实施例中采用待处理语音信号的低频信号的特征值来对确定中高频的回声信号，由于低频信号中回声较少，因此，可以将低频信号的特征值作为基准对中高频信号进行筛选，确定出中高频信号中的回声信号，将中高频信号中的回声信号确定为待处理语音信号的回声信号。

s203、对待处理语音信号中的回声信号进行抑制处理后，发送至远端设备。

由于在s202中已经确定出待处理语音信号中的回声信号，因此，本步骤中可以针对性的对回声信号进行抑制，从而使得经过抑制处理后回声被尽可能地消除，同时还保留了近端语音。

本实施例提供的回声抑制方法，在从终端设备麦克风获取待处理语音信号后，根据待处理语音信号中低频信号的特征值，确定待处理语音信号中的中高频信号中的回声信号；再进一步对回声信号进行抑制处理后发送至远端设备。由于扬声器的回声主要集中在中高频，因此可以有针对性的根据低频信号筛选出待处理语音信号的中高频中的回声信号，从而能够在消除回声的同时避免对近端语音的影响，提高了语音通信的质量。

可以理解的是，上述实施例中的待处理语音信号为频域信号，即，对从麦克风采集的时域信号进行频域转换后得到的信号。若待处理语音信号为经过自适应滤波的信号，且自适应滤波器为频域自适应滤波器，则无需再进行频域转换。

此外，上述实施例中，低频信号和中高频信号的范围可以根据实际情况进行选择设置，示例的，低频截止频率选择范围为200hz-1000hz，例如低频段范围为0hz-200hz或者0hz-1000hz等，本实施例不作限定。

在上述实施例的基础上，对s202中根据待处理语音信号中低频信号的特征值，确定待处理语音信号中的回声信号，进行详细说明。

可选的，低频信号的特征值包括：低频信号的峰值特征值。相应的，s202中根据待处理语音信号中低频信号的特征值，确定待处理语音信号中的回声信号，包括：将待处理语音信号中幅值高于峰值特征值的频点，确定为回声信号的频点。

低频信号的峰值特征值可以根据低频信号的峰值幅值确定，对于待处理语音信号中的中高频的频点，若其幅值高于峰值特征值，则将该频点确定为回声信号的频点。而若其幅值不高于峰值特征值，则将该频点有可能是回声信号的频点，也有可能是近端语音信号的频点。

为了进一步对回声信号进行筛选，可选的，低频信号的特征值还包括：低频信号的均值特征值。相应的，s202中根据待处理语音信号中低频信号的特征值，确定待处理语音信号中的回声信号，还可以包括：确定待处理语音信号中幅值高于均值特征值且低于峰值特征值的目标频点；根据目标频点与远端语音信号中相应频点的相关系数，在目标频点中确定回声信号的频点。

低频信号的均值特征值可以根据低频信号的幅值的均值确定，对于待处理语音信号中的中高频中，幅值高于均值特征值且低于峰值特征值的目标频点，需要进一步根据目标频点与远端语音信号中相应频点的相关系数，确定目标频点是否为回声信号的频点。

其中，相关系数通过以下方式确定：根据待处理语音信号中的每个频点的幅值与远端语音信号中相应频点的幅值确定待处理语音信号中的每个频点与远端语音信号中相应频点的相关系数。相关系数反映了待处理语音信号与远端语音信号的相似程度，相关系数大的频点与远端语音信号相似。

对于待处理语音信号中的中高频中，幅值高于均值特征值且低于峰值特征值的目标频点，将目标频点中，与远端语音信号中相应频点的相关系数大于阈值的频点确定为回声信号的频点；而与远端语音信号中相应频点的相关系数小于等于阈值的频点确定为近端语音信号的频点。此外，对于待处理语音信号中的中高频频点，若其幅值低于均值特征值，也将其确定为近端语音频点。

上述方法中通过待处理语音信号的低频信号的峰值特征值、均值特征值以及相关系数对中高频信号进行筛选，由于相关系数体现了远端语音信号和待处理语音信号在该频点的相关性，也就是频点是回声信号的可能性，因此通过低频信号的特性识别出可能存在的特征频点，并进一步通过相关系数进行判断，能够更准确的确定出中高频信号中的回声信号，从而实现对回声信号的抑制。

以下再进一步对低频信号的峰值特征值、均值特征值以及相关系数进行说明，并结合峰值特征值、均值特征值以及相关系数对确定回声信号做详细说明。

首先对低频信号的峰值特征值，根据待处理语音信号的低频信号的幅值确定待处理语音信号的低频峰值；根据低频峰值和预设增益向量确定第一低频特征向量；第一低频特征向量中的元素为待处理语音信号中每个频点对应的峰值特征值。

示例的，采用以下公式确定第一低频特征向量：

maxew(k)＝maxewl*g(k)公式(1)

其中，maxewl为待处理语音信号的低频峰值，g(k)是根据一般语音特性预设的增益向量，g(k)的向量长度和待处理语音信号的长度相同，k表示频点。maxew(k)为第一低频特征向量，也可称为峰值特征向量，maxew(k)中的每个元素即为待处理语音信号的相应频点对应的峰值特征值。示例的，g(k)中的元素的取值范围可以是(0，10)，也可以是大于0的其它值，可以根据实际需要进行设置。例如，若要减弱对中高频的抑制，则增益向量g(k)的元素可以取大于1的数值，从而使得maxewl中的元素的数值较大，那么相应的，中高频的频点的幅值与maxewl进行比较后，被筛选出的回声频点相对较少。

与上述类似的，对于低频信号的均值特征值，根据待处理语音信号的低频信号的幅值确定待处理语音信号的低频均值；根据低频均值和预设增益向量确定第二低频特征向量；第二低频特征向量中的元素为待处理语音信号中每个频点对应的均值特征值。

示例的，采用以下公式确定第二低频特征向量：

avgew(k)＝avgewl*g(k)公式(2)

其中，avgewl为待处理语音信号的低频均值，g(k)是根据一般语音特性预设的增益向量，g(k)的向量长度和待处理语音信号的长度相同，k表示频点。avgew(k)为第二低频特征向量，也可称为均值特征向量，maxew(k)中的每个元素即为待处理语音信号的相应频点对应的均值特征值。示例的，g(k)中的元素的取值范围可以是(0，10)，也可以是大于0的其它值，可以根据实际需要进行设置。同样的，若要减弱对中高频的抑制，则增益向量g(k)的元素可以取大于1的数值，从而使得avgew(k)中的元素的数值较大，那么相应的，中高频的频点的幅值与avgew(k)进行比较后，被筛选出的回声频点相对较少。

待处理语音信号中的每个频点与远端语音信号中相应频点的相关系数，采用以下方式确定：

ampxn(k)＝ρ*ampxn-1(k)+(1-ρ)*x(k).*conj(x(k))公式(3)

ampdn(k)＝ρ*ampdn-1(k)+(1-ρ)*d(k).*conj(d(k))公式(4)

ampxdn(k)＝ρ*ampxdn-1(k)+(1-ρ)*x(k).*conj(d(k))公式(5)

coherexd(k)＝ampxdn(k).*conj(ampxdn(k))./(ampxn(k).*ampdn(k)+δ)公式(6)

其中，x(k)表示远端语音信号，d(k)表示待处理语音信号，k表示频点。ampx(k)是远端语音信号的模的平方，ampd(k)是待处理语音信号的模的平方，ampdx(k)是远端语音信号和待处理语音信号的相关系数，或称为互相关系数，下标n表示第n帧信号。即，ampxn(k)是第n帧远端语音信号的模的平方，ampxn-1(k)是第n-1帧远端语音信号的模的平方；ampdn(k)是第n帧待处理语音信号的模的平方，ampdn-1(k)是第n-1帧待处理语音信号的模的平方；ampxdn(k)是第n帧远端语音信号和待处理语音信号的相关系数，或称为互相关系数，ampxdn-1(k)是第n-1帧远端语音信号和待处理语音信号的相关系数。coherexd(k)是远端语音信号和待处理语音信号的互相关系数的归一化，取值范围是(0,1)，ρ表示平滑因子，示例的ρ取值0.9，conj表示复共轭，.*表示向量点乘，δ是一个小量，以防分母为0。coherexd(k)的某个点取值越接近1，说明远端语音信号和待处理语音信号在该频点的相关性越高，该频点是回声信号的可能性越大。

结合图3对确定回声信号的流程进行说明，对于待处理语音信号的中高频频点中的每个频点都需要按照图3所示的流程进行比较判断。首先，将该频点的幅值(模)与第一低频特征向量中相应频点的峰值特征值进行比较。若待处理语音信号中第一频点的幅值大于第一低频特征向量中与第一频点对应的峰值特征值，则将第一频点确定为回声信号的第一回声频点；第一频点的频率大于低频信号的频率。若第二频点的幅值小于第一低频特征向量中与第二频点对应的峰值特征值，则需要对第二频点进行进一步判断。

进一步的，若待处理语音信号中第二频点的幅值小于第一低频特征向量中与第二频点对应的峰值特征值，且大于第二低频特征向量中与第二频点对应的均值特征值，则将第二频点确定为目标频点，第二频点的频率大于低频信号的频率。对于目标频点，需要结合相关系数来判断其是否为回声信号的频点。

具体的，将目标频点中，与远端语音信号中相应频点的相关系数大于阈值的频点确定为回声信号的第二回声频点。将目标频点中，与远端语音信号中相应频点的相关系数小于等于阈值的频点确定为近端语音信号的频点。

此外，若待处理语音信号的中高频频点中的第三频点的幅值小于第二低频特征向量中与第三频点对应的均值特征值，则将第三频点确定为近端语音信号的频点。

通过上述陈述可以看出，本申请的方法中确定出的回声信号的信号分类为两类，第一回声频点和第二回声频点，对于这两类回声频点可以分别采用不同的方法进行抑制。

对于第一回声频点，根据第一低频特征向量中与第一回声频点对应的特征值确定对第一回声频点进行抑制后的幅值。

可选的，对于第一回声频点，将其幅值抑制为与maxew(k)同等大小。

ew01(k)＝ew1(k)*maxew(k)/abs(ew(k))公式(7)

其中，ew1(k)表示待处理语音信号中的第一回声频点，k表示频点，abs表示复数取模，ew01(k)表示抑制后的第一回声频点。

对于第二回声频点，根据第二回声频点的幅值，以及第二回声频点与远端语音信号中相应频点的相关系数，确定对第二回声频点进行抑制后的幅值。

可选的，采用以下公式确定第二回声频点进行抑制后的幅值

ew02(k)＝ew2(k)*(1-coherexd(k))公式(8)

其中，ew2(k)表示待处理语音信号中的第二回声频点，k表示频点，ew02(k)表示抑制后的第二回声频点。

采用上述方法对待处理语音信号中的回声信号频点进行抑制，通过实际检测可以确定，经过抑制后的待处理语音信号的语谱图相较于抑制之前，中高频能量明显减小。此外，对比处理后的纯语音阶段和双讲阶段的语谱图相似度很高，即双讲阶段的近端语音信号损失极小，表明本申请的方法在信回比小于零的情况下不仅能够有效抑制非线性回声，并且能最大限度保留需要的近端语音。

回声消除的效果能够用回声返回损耗增强(echoreturnlossenhancement,erle)来衡量，该值越高，可认为回声消除性能越好。图4中比较了仅通过nlms自适应滤波处理和自适应滤波处理加上本申请中的非线性nlp抑制方法后的erle数值。由于微型扬声器的非线性较强，在仅经过自适应滤波处理后的erle最大值仅在10db左右，大部分纯回声段的erle值不到10db，因为有相当多的高频非线性回声得不到有效地抑制。在通过本申请的处理之后，纯回声段的erle有了明显提升，部分地方的erle值达到了40db，相较于处理之前普遍增加了20db以上。双讲段确保语音不受明显损失情况下erle有了10db以上的提升，表明本申请的方法回声消除性能较好。

除了以上优点，本申请的方法只需要遍历低频信号寻找最大值和求平均值，并进一步构建特征向量，再与中高频进行比较并且抑制，非线性处理计算复杂度为o(n)，因此计算量较小，而这是常规的非线性处理算法很难实现的。

经过本申请的处理之后得到的语音信号中纯回声段和双讲段的能量区别很大，此时做双讲检测(doubletalkdetection,dtd)的准确率会比较高。在做了双讲检测之后，还可以对结果做进一步的抑制得到最后的回声消除输出结果。此外，通过在3gpp和vodafone的标准测试环境中进行了客观测试，测试结果显示：在信回比小于零的情况下，无论是回声消除量和双讲阶段的语音损失都优于市面上大多数算法的测试结果。

图5为本申请提供的一种回声抑制装置的结构示意图。如图5所示，回声抑制装置50包括：

获取模块501，用于从终端设备麦克风获取待处理语音信号；

确定模块502，用于根据待处理语音信号中低频信号的特征值，确定待处理语音信号中的回声信号，回声信号的频率大于低频信号的频率；

抑制模块503，用于对待处理语音信号中的回声信号进行抑制处理后，发送至远端设备。

可选的，低频信号的特征值包括：低频信号的峰值特征值；

确定模块502用于：

将待处理语音信号中幅值高于峰值特征值的频点，确定为回声信号的频点。

可选的，确定模块502还用于：

根据待处理语音信号的低频信号的幅值确定待处理语音信号的低频峰值；

根据低频峰值和预设增益向量确定第一低频特征向量；第一低频特征向量中的元素为待处理语音信号中每个频点对应的峰值特征值。

可选的，确定模块502还用于：

若待处理语音信号中第一频点的幅值大于第一低频特征向量中与第一频点对应的峰值特征值，则将第一频点确定为回声信号的第一回声频点；第一频点的频率大于低频信号的频率。

可选的，抑制模块503用于：

根据第一低频特征向量中与第一回声频点对应的特征值确定对第一回声频点进行抑制后的幅值。

可选的，低频信号的特征值还包括：低频信号的均值特征值；

确定模块502还用于：

确定待处理语音信号中幅值高于均值特征值且低于峰值特征值的目标频点；

根据目标频点与远端语音信号中相应频点的相关系数，在目标频点中确定回声信号的频点。

可选的，确定模块502还用于：

根据待处理语音信号的低频信号的幅值确定待处理语音信号的低频均值；

根据低频均值和预设增益向量确定第二低频特征向量；第二低频特征向量中的元素为待处理语音信号中每个频点对应的均值特征值。

可选的，确定模块502还用于：

若待处理语音信号中第二频点的幅值小于第一低频特征向量中与第二频点对应的峰值特征值，且大于第二低频特征向量中与第二频点对应的均值特征值，则将第二频点确定为目标频点，第二频点的频率大于低频信号的频率。

可选的，确定模块502用于：

将目标频点中，与远端语音信号中相应频点的相关系数大于阈值的频点确定为回声信号的第二回声频点。

可选的，抑制模块503还用于：

根据第二回声频点的幅值，以及第二回声频点与远端语音信号中相应频点的相关系数，确定对第二回声频点进行抑制后的幅值。

可选的，确定模块502还用于：

根据待处理语音信号中的每个频点的幅值与远端语音信号中相应频点的幅值确定待处理语音信号中的每个频点与远端语音信号中相应频点的相关系数。

可选的，获取模块501用于：

从麦克风采集语音信号；

对语音信号进行自适应处理，得到待处理语音信号。

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图6为本申请提供的一种电子设备的结构示意图。如图6所示，该电子设备60包括：存储器601、处理器602、收发器603、扬声器604和麦克风605，其中，存储器601和处理器602通信；示例性的，存储器601、处理器602、收发器603、扬声器604和麦克风605可以通过通信总线606通信，存储器601用于存储计算机程序，处理器602执行该计算机程序实现上述回声抑制方法。

可选的，上述处理器可以是中央处理单元(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法实施例中的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

本发明实施例还提供一种计算机可读存储介质，包括：其上存储有计算机程序，该程序被处理器执行时实现上述任意方法实施例中的方法。

实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储器(存储介质)包括：只读存储器(read-onlymemory，rom)、ram、快闪存储器、硬盘、固态硬盘、磁带(magnetictape)、软盘(floppydisk)、光盘(opticaldisc)及其任意组合。

本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

在本申请中，术语“包括”及其变形可以指非限制性的包括；术语“或”及其变形可以指“和/或”。本本申请中术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。本申请中，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗本彪;潘思伟;董斐;雍雅琴;林福辉
技术所有人：展讯通信(上海)有限公司
我是此专利的发明人