回音抑制器、回音抑制方法

文档序号：2830996阅读：1053来源：国知局

专利名称：回音抑制器、回音抑制方法
技术领域：
本发明涉及回音抑制，尤其涉及用于抑制由声音输出装置产生的声音引起的回音的一种回音抑制器、方法和计算机可读存储介质。
背景技术：
虽然语音识别技术尚未达到理想的程度，但其一直在发展。例如，按下
按讲开关(push-to-talk switch)以使汽车导航系统静音，可允许系统正确地识别用户的声音指示(auditory instruction)。但在对系统讲话之前不需要冗余操作，例如不需要按下按讲开关的操作。为了改善对该操作的简化 (saving)，需要消除回音以抑制由从系统扬声器发射到麦克风的声音引起的回音。具体而言，当指定用于接收用户声音指示的麦克风接收到多信道汽车音频系统中的多个扬声器之一的声音时，该声音会产生影响用户语音的噪声。因此，需要一种经改善的回音消除方法，用于消除从汽车音频系统发射并经由用于语音识别系统中的麦克风接收的声音。
图12示出了所提出的一种回音消除系统，其中将一种传统的回音抑制方法(回音消除方法)应用于多信道音频系统中。用于该系统中的回音抑制方法依赖于用于单声道信道音频系统的方法，通过该方法对一个信道进行回音消除，如图12所示。从多信道音频系统2000发送的多个声音信号被馈入相应的扬声器2001-1、…和2001-n，所述每一扬声器根据每一信号来发送声音。回音抑制器1000进行操作以消除影响声音信号的回音信号，该声音信号由麦克风2002接收到的声音激活，其中该回音信号是由多个信道获得的声音信号的总和。
通过抑制观测声音信号y(t)的回音来执行回音消除，其中所述观测声音信号y(t)是基于所接收到的声音、利用所述参考声音信号xl(t) ...xn(t)而产生的，而该参考声音信号是基于多个信道(该多个信道具有与参考声音信号 xl(t)...xn(t)相对应的多个抑制机构(回音消除器)1001-1...1001-n)的输出
声音而产生的。
除了图12的结构之外，还提出另一种回音抑制器，其通过将适用于单声道信道音频系统的回音抑制方法应用到多信道音频系统来实现。图13是
示出传统的第二回音抑制器的示意图。第二回音抑制器1000利用加法机构 1002对基于多个信道的声音产生的参考声音信号xl(t) ...xn(t)相加，以产生加和的参考信号声音x(t)，并抑制基于该加和的参考声音信号x(t)产生的观测声音信号y(t)的回音。
图14是示出传统回音抑制器的抑制机构1001的功能配置的功能框图。每一抑制机构1001包括检测单元10010，用于检测说话者正在说话的双端发声状态和说话者没在说话的单端发声状态(在车辆音频系统发声期间)；滤波因子更新单元10011，用于通过基于自适应归一化最小均方(NLMS) 算法进行处理来更新估算回音等级所需的滤波系数；线性有限脉冲响应 (FIR)滤波器10012，用于通过数百阶(several-hundred-order)内积计算来估算基于参考声音信号x(t)的回音信号x'(t);以及减法单元10013，用于从观测声音信号y(t)除去回音信号x'(t)，以获得并输出具有减少回音的抑制结果 r(t)。检测单元10010基于抑制结果r(t)中的强度变化来检测单端发声状态和双端发声状态。根据所产生的双端发声状态，检测单元10010提示滤波因子更新单元10011停止更新滤波系数。滤波因子更新单元10011基于该抑制结果r(t)计算滤波因子(系数)。
图12所示的回音抑制器1000包括图14所示的用于对应于参考声音信号xl(t)…xn(t)的每一信道的抑制机构1001。上述回音抑制方法在例如日本特开专利申请No.2002-237769中示出。
然而，如图14所示，基于NLMS的自适应处理是根据过去获得的结果来抑制回音的，这会导致在单端发声状态和双端发声状态之间的变换不太可能跟得上观测信号的巨大变化的问题。这也导致另一问题，即在单端发声状态下讲话者刚开始讲话之后就检测状态或者仅在双端发声状态下检测包括回音的状态时，可能出现错误的语音识别。
此外，如图12所示的使用对应于每一信道的抑制机构的方法具有如下问题，即增加了成本和设备大小。具体而言，在将此方法应用到安装空间固定有限的车辆导航系统时，尺寸增加的问题会变得严重。
此外，如图13所示，在使用单声道信道的加和的参考声音信号情形下，出现了需要被抑制的残留误差增大的问题，该加和的参考声音信号通过参考
声音信号相加而获得。这是因为在输出音乐声音等的多信道音频单元2000
的输出单元中，来自每个扬声器的重现声音及其强度独立变化，从而通过一种自适应处理难以获得并且估算多个路径中的回音。

发明内容
本发明的一个目的是提供一种回音抑制器，该回音抑制器将时域中的参
考声音信号和观测声音信号转换为频率轴上(频域中)的分量；计算表示经转换的参考声音信号和观测声音信号之间的比率和相关性的值；对表示比率和相关性的值进行比较；基于比较结果、比率和相关性确定用于估算回音级别(level)所需的估算系数；使用该估算系数来估算回音级别；以及基于所估算的回音级别来抑制观测声音信号。相对于使用归一化最小均方(NLMS) 算法的回音抑制器，即使在单端发声和双端发声之间的边界处观测声音信号出现大的变化，根据本发明的回音抑制器和方法仍然可以以较高精确度实现较小的语音识别延迟。
此外，本发明的另一目的是提供一种具有如下功能的回音抑制器。也就是说，在使用多个参考声音信号的情形下，该抑制器基于通过参考声音信号相加而获得的信号来实现回音抑制处理。因此，不需要对每个信道进行抑制处理。从而可以降低成本和设备大小，以及避免出现超出估算能力而增大残留回音的问题，因为没有使用基于学习识别的自适应处理。
根据本发明的第一方案，一种回音抑制器能够和声音输出装置以及声音处理装置相结合操作，并抑制观测声音信号的回音，该声音输出装置用于产生声音信号并输出来自声音输出单元的声音，该声音处理装置用于基于从声音输入单元输入的声音来处理观测声音信号，该回音抑制器的特征在于包括转换单元，用于将参考声音信号和观测声音信号转换为频率轴上的分量，该参考声音信号用于产生输出到声音输出单元的声音，该观测声音信号是利用从声音输入单元输入的声音产生的；计算单元，用于计算参考声音信号和观测声音信号在频率轴上的分量之间的比率和相关性；比较单元，用于比较该比率和该相关性的值；确定单元，用于从比较结果、比率和相关性得到估
算回音所需的估算因子；估算单元，用于利用该估算因子来估算回音；以及抑制单元，用于基于所估算的回音来抑制观测声音信号。
根据本发明的第二方案，根据第一方案的回音抑制器还包括加法单元，
用于加和多个参考声音信号，该抑制器的特征在于转换单元被配置成将观测
声音信号和加和参考声音信号转换为频率轴上的分量；
根据本发明的第三方案，根据第一或第二方案的回音抑制器特征在于
计算单元，其被配置成在预定频率范围内的每一频率上确定参考声音信号和观测声音信号之间的相关性，该预定频率范围包括目标频率，并根据该目标频率改变预定频率范围。
根据本发明的第四方案，根据第一至第三方案中任一方案的回音抑制器
特征在于确定单元，其被配置成设定多个阈值，用于比较比率和相关性的值，以及基于所述多个阈值、该比率和该相关性来确定是单端发声状态还是双端发声状态。
根据本发明的第五方案，根据第四方案的回音抑制器特征在于确定单元，被配置成根据频率改变多个阈值，用于基于该比率和相关性确定该状态是单端发声状态还是双端发声状态。
根据本发明的第六方案，根据第五方案的回音抑制器特征在于计算单元，其被配置成基于从观测声音信号转换而来的复频谱(complex spectrum) 与从参考声音信号转换而来的复频谱的共轭复数(complex conjugate number) 相乘而获得的值、以及基于从参考声音信号转换而来的复频谱与从该参考声音信号转换而来的复频谱的共轭复数相乘而获得的值，来确定比率和相关性的值。
根据本发明的第七方案，根据第六方案的回音抑制器特征在于估算单元，被配置成估算回音的振幅谱；以及抑制单元，被配置成在观测信号的振幅谱与回音的振幅谱的比率不小于预定阈值的情况下，抑制观测声音信号的振幅谱。
根据本发明的第八方案，根据第七方案的回音抑制器特征在于抑制单元，被配置成根据目标频率来改变阈值。
根据本发明的第九方案，一种回音抑制方法，用于通过回音抑制器抑制观测声音信号的回音，所述回音抑制器能够与声音输出装置和声音处理装置
相结合操作，该声音输出装置用于产生声音信号并输出来自声音输出单元的声音，该声音处理装置用于基于从声音输入单元输入的声音来处理观测声音信号，该方法的特征在于，包括以下步骤(操作)将参考声音信号和观测声音信号转换为频率轴上的分量的步骤，该参考声音信号用于产生输出到声音输出单元的声音，该观测声音信号是利用从声音输入单元输入的声音产生
的；计算参考声音信号和观测声音信号在频率轴上的分量之间的比率和相关性的步骤；将该比率和该相关性的值进行比较的步骤；从比较结果、比率和相关性得到估算回音所需的估算因子的步骤；利用该估算因子估算回音的步骤；以及基于所估算的回音抑制观测声音信号的步骤。
根据本发明的第十方案，一种计算机程序产品，被加载到计算机并定义在计算机上执行的步骤，以与声音输出装置和声音处理装置相结合来抑制观测声音信号的回音，该声音输出装置用于产生声音信号并从声音输出单元输出声音，该声音处理装置用于基于从声音输入单元输入的声音处理观测声音信号，该计算机程序产品的特征在于，该程序产品使得计算机执行以下步骤将参考声音信号和观测声音信号转换为频率轴上的分量的步骤，该参考声音信号用于产生输出到声音输出单元的声音，该观测声音信号是利用从声音输入单元输入的声音产生的；计算参考声音信号和观测声音信号在频率轴上的分量之间的比率和相关性的步骤；将该比率和该相关性的值进行比较的步骤；从比较结果、比率和相关性得到估算回音所需的估算因子的步骤；禾U用该估算因子估算回音的步骤；以及基于所估算的回音抑制观测声音信号的步骤。
根据本发明的第一、第九和第十方案，基于比率和相关性之间的关系实时确定当前状态是单端发声状态还是双端发声状态，以适当改变回音估算方法。因此，不必参考过去的信号，在单端发声状态和双端发声状态的边界进行确定时不会出现延迟，这不同于基于学习识别(learning identification)的适应性处理。
根据本发明的第二方案，该抑制器可适用于多信道音频系统，而不必估算每个参考声音信号的回音，从而不必提供用于每个信道的抑制单元。据此，可以阻止抑制电路成本和安装空间的增加。此外，该抑制器没有执行基于学习识别的适应性处理，从而不会出现超出估算能力而使残留回音增大的问
题。
根据本发明的第三方案，例如，用于计算中的预定频率范围朝着最低频率的方向增加，以相对增加相关性的检测灵敏度，从而增加双端发声的检测精确度，其中在该最低频率处难以检测讲话者的语音和基于参考声音信号的声音输出之间的差异。
根据本发明的第四方案，例如，如果比率小于相关性的第一阈值，则抑制器通过参考声音信号和观测声音信号之间的高相关性判断当前状态是单端发声状态。接着，以该比率和参考声音信号作为估算因子来估算回音。此外，例如，如果信号比率不小于相关性的第二阈值，则抑制器通过参考声音信号和观测声音信号之间的低相关性判断当前状态是双端发声状态。接着，以相关性和参考声音信号作为估算因子来估算回音。
根据本发明的第五方案，阈值沿着较低频率至较高频率而降低，以增加双端发声状态的检测精确度，从而抑制讲话者的语音失真。另外，阈值沿着较低频率至较高频率而增大，以增加单端发声状态的检测精确度，从而抑制残留回音。
根据本发明的第六和第七方案，使用对应于复频谱实部的振幅谱，从而可以降低计算负担。
根据本发明的第八方案，阈值沿着较低频率至较高频率而降低，以增加双端发声状态的检测精确度，从而抑制说话者的语音失真。另外，阈值沿着较低频率至较高频率而增大，以增加单端发声状态的检测精确度，从而抑制残留回音。

图1是示出根据本发明第一实施例的回音抑制器的配置实例的示意图；图2是示出根据本发明第一实施例的回音抑制器的回音抑制机构的功能配置实例的功能框图3是示出根据本发明第一实施例的回音抑制器的处理实例的流程图 (运算表)；
图4A和图4B示出了根据本发明第一实施例的回音抑制处理结果的实
例；
图5示出了根据本发明第一实施例的回音抑制方法中频率和可变带宽N
之间的关系；
图6是示出强度比率和对应于回音估算系数的系数之间关系的视图，其中强度比率是相关性和信号比率之间的比率；
图7A和图7B示出了在根据本发明第一实施例的回音抑制方法中频率、第一常数和第二常数之间的关系，第一常数和第二常数根据频率而改变；
图8是示出根据本发明第二实施例的回音抑制器的回音抑制机构的功能配置实例的功能框图9是示出根据本发明第二实施例的回音抑制器的处理实例的流程图 (运算图)；
图10示出了根据本发明第二实施例的回音抑制方法中衰减比率和衰减系数之间的关系；
图IIA和图IIB示出了根据本发明第二实施例的回音抑制方法中频率、第一阈值和第二阈值之间的关系，第一阈值和第二阈值根据频率而改变；图12是示出传统的第一回音抑制器的配置示意图；图13是示出传统的第二回音抑制器的配置示意图；图14是示出传统的回音抑制器的抑制机构的功能配置的功能框图。
具体实施例方式
以下将参考示出本发明实施例的附图来详细描述本发明。第一实施例
图1是示出根据本发明第一实施例的回音抑制器的配置实例的示意图。在图1中，回音抑制器1可以由例如电话会议系统或车辆导航系统中的计算机组成，回音抑制器l也可以由专用计算机组成。回音抑制器l与诸如多信道音频单元的声音输出装置2以及诸如语音识别系统的声音处理装置3相互协作。声音输出装置2发送为模拟信号的输出声音信号，所述模拟信号是诸如扬声器的多个声音输出单元20-1...20-11、以及能够发出声音的其它输出中输出的多个信道的信号。此外，诸如电容器麦克风的声音输入单元30拾取外部声音，并基于所拾取的声音产生作为模拟信号的输入声音信号，以将所产生的信号输出到声音处理装置3。回音抑制器1具有回音消除功能，用于从声音输出单元20-l…20-n输出的声音、输入到声音输入单元30的声音中除去回音。具体地，在以下描述中，将回音抑制器l中的n个输出声音信号 (n是自然数)称作参考声音信号xl(t)…xn(t)，将输入声音信号称作观测声音信号(或测量声音信号)y(t)。
回音抑制器1还包括加法机构10，例如模拟混合器，用于加和多个参考声音信号xl…xn，以产生加和的参考声音信号x(t);第一A/D(模拟至数字)转换机构11，用于以8,000Hz频率对所产生的加和的参考声音信号x(t) 进行采样，例如将该信号转换为数字信号，并用LPF (低通滤波器)进行抗混叠滤波处理，以便阻止基于转换成数字信号而出现的混叠(aliasing)误差 (混叠)；放大机构12，例如放大器，用于放大观测声音信号y(t);第二A/D 转换机构13，用于以8,000 Hz频率对被放大的观测声音信号y(t)(此后称作为观测声音信号y(t))进行采样，例如将该信号转换为数字信号，并执行抗混叠滤波处理；回音抑制机构14，例如DSP (数字信号处理器)，其根据加和的参考声音信号x(t)执行回音抑制处理，以校正观测声音信号y(t)，然后输出抑制结果信号r(t)作为处理后的数字信号；以及D/A (数字至模拟)转换机构15，用于将抑制结果信号r(t)转换成模拟信号，并将转换后的信号输出到声音处理装置3。在作为本发明一个方面的第一实施例中，回音抑制机构 14是运算电路(operational circuit)，在该运算电路中安装有作为固件的计算机程序100、数据和其它项。计算机执行以固件形式安装的计算机程序100，由此作为回音抑制器1而运行。声音处理装置3根据接收的抑制结果信号r(t) 执行语音识别处理等。
图2是示出回音抑制机构14的功能配置实例的功能框图。回音抑制机构14从被转换为数字信号的加和的参考声音信号x(t)和观测声音信号y(t)摘录(clip)出具有20至约40ms预定长度的帧。所述帧彼此重叠约10ms至 20 ms。由通用于语音识别领域的帧处理进行每个帧的处理，例如以窗函数(例如汉明窗或汉宁窗或预加重(pre-emphasis)滤波器)进行滤波。如此产生的帧均受到以下基于各种函数的信号处理的处理。
在执行计算机程序100时，回音抑制机构14可运行为第一和第二 FFT 140、 141，在每个帧中，第一FFT 140将时域的加和的参考声音信号x(t)变换为频域的被变换的参考声音信号X(f)(此后称作参考声音信号X(f))，第
二FFT 141也将时域的观测声音信号y(t)变换为频域的观测声音信号Y(f)(此后称作为观测声音信号Y(f))。简而言之，对于每个帧，FFT 140和141分别在每个帧中将时域的每一信号x(t)和y(t)变换成频域的每一信号X(f)和 Y(f)。
参考声音信号X(f)和观测声音信号Y(f)都具有复频谱(complex spectrum)。另外，DCT (离散余弦变换)和其它此类变换方法可用于进行变换。
此外，在执行计算机程序100时，回音抑制机构14能运行为计算单元 142。计算单元142确定信号比率Gl(f)和相关性G2(f)，下文描述的方程式 (1)中示出的信号比率Gl(f)是在相应频率f上观测声音信号Y(f)和参考声音信号X(f)之间的比率，下文描述的方程式(2)中示出的相关性G2(f)表示在相应频率f上观测声音信号Y(f)和参考声音信号X(f)之间的相似比。在此，观测声音信号Y(f)和参考声音信号X(f)都具有复频谱，从而在将频谱乘以参考声音信号X(f)的共轭复数X^f)而成为实数之后，计算出信号比率(信号比)。
Gl(f)={Y(f)X*(f)}/{X(f)X*(f)} 方程式(1)
其中Gl(f)是信号比率，Y(f)是观测声音信号，X(f)是参考声音信号，X*(f) 是参考声音信号的共轭复数。
计算单元142根据每一频率f从下文的方程式(2)得到观测声音信号 Y(f)和参考声音信号X(f)之间的相关性G2(f)，可计算出频率f上的观测声音信号Y(f)和参考声音信号X①。该相关性表示在每一频率f上观测声音信号 Y(f)的总值和在每一频率f上参考声音信号X(f)的总值之间的比率。在此，观测声音信号Y(f)和参考声音信号X(f)具有复频谱，从而在将频谱乘以参考声音信号X(f)的共轭复数X、f)成为实数之后，计算出相关性G2(f)。
<formula>formula see original document page 12</formula> 方程式(2)
其中G2(f)是相关性。
此外，回音抑制机构14执行计算机程序100以运行为比较单元143以及确定单元144。比较单元143将信号比率Gl(f)和相关性G2(f)相比较，确定单元144根据比较结果从信号比率Gl(f)和相关性G2(f)得到估算回音所需的回音估算因子G(f)(回音估算系数G(f))。具体而言，比较单元143将信
号比率Gl(f)的信号强闺Gl(f)l和相关性G2(f)的a倍(fold)信号强闺G2(f)1 进行比较；a表示基于以下方程式(3)的预定常数。 |Gl(f)|<a|G2(f)| 方程式(3)
其中IGl(f)l是信号比率Gl(f)的信号强度，IG2(f)l是相关性G2(f)的信号强度，(x是常数。
如果信号比率Gl(f)的信号强闺Gl(f)l小于相关性G2(f)的a倍信号强度 |G2(f)|，则确定单元144根据观测声音信号Y(f)和参考声音信号X(f)之间的高相关性判断当前状态为单端发声状态，并确定出满足G(f)KH(f)关系的回音估算因子G(f)。如果信号比率Gl(f)的信号强度IGl(f)l不小于相关性G2(f) 的a倍信号强度IG2(f)1，则确定单元144根据观测声音信号Y(f)和参考声音信号X(f)之间的低相关性判断当前状态为双端发声状态，并确定出满足 G(f)-G2(f)关系的回音估算因子G(f)。也就是说，将常数a用作阈值，用于判断当前状态是单端发声状态还是双端发声状态。
此外，回音抑制机构14执行计算机程序100，以运行为回音估算单元 145，回音估算单元145将回音频谱X'(f)估算为校正量，该校正量根据所确定的回音估算因子G(f)和参考声音信号X(f)来校正观测声音信号Y(f)。回音估算单元145从以下方程式(4)中得到回音X'(f)，该回音X'(f)是回音估算因子G(f)和参考声音信号X(f)的乘积。
X'(f) = G(f)X(f) 方程式(4)
其中X'(f)是回音。
回音抑制机构14执行计算机程序100，以运行为回音抑制单元146，其根据得到的回音X'(f)抑制观测声音信号Y(i)，以输出作为经抑制信号的抑制结果信号R①。回音抑制单元146进行信号校正，以根据以下方程式(5) 从观测声音信号Y(f)中除去回音X'(f)，以便获得抑制结果信号R①，R(O作为频率轴上回音被抑制的分量。
R(f)=Y(f)-X'(f) 方程式(5)
其中R(f)是抑制结果信号。
此外，回音抑制机构14执行计算机程序100，以运行为IFFT (逆傅立叶变换)转换单元147，该IFFT转换单元147通过IFFT处理将抑制结果信号R(f)从频率轴上(即频域中)的分量转换为时间轴上(即时域中)的信号。
通过D/A转换机构15将转换为时间轴上信号的抑制结果信号r(t)输出到声音处理装置3，如图l所示。
接下来，描述根据本发明第一实施例的回音抑制器1的处理。回音抑制器1接收从声音处理装置3输出到声音输出单元20-1……20-n的n个参考声音信号xl(t)……xn(t)，并通过加法机构10将接收的n个参考声音信号 xl(t)……xn(t)相加得到加和的参考声音信号x(t)。接着，回音抑制器1通过第一 A/D转换机构11对加和的参考声音信号x(t)进行A/D转换和抗混叠滤波处理，并将加和的参考声音信号x(t)转换为数字信号，以输出该数字信号到回音抑制机构14。
此外，回音抑制器1基于所接收的声音通过声音输入单元30产生观测声音信号y(t)，通过放大机构12将观测声音信号y(t)放大，通过第二A/D转换机构13进行A/D转换和抗混叠滤波处理，以及将该信号转换为数字信号，以将转换后的观测声音信号y(t)输出到回音抑制机构14。
图3是示出根据本发明第一实施例的回音抑制器1的示例性处理的流程图(操作图)。回音抑制器1的回音抑制机构14将接收的加和的参考声音信号x(t)和观测声音信号y(t)转换为帧，如步骤S101所示。通过第一FFT转换单元140和第二 FFT转换单元141将加和的参考声音信号x(t)和观测声音信号y(t)转换成作为频率轴上分量的参考声音信号X(f)和观测声音信号Y(f)，如步骤S102所示，简而言之，将信号x(t)和y(t)变换到频域。
回音抑制器1的回音抑制机构14通过计算单元142的处理，计算出每个频率上的参考声音信号X(f)和观测声音信号Y(f)之间的信号比率Gl(f)，如步骤S103所示，另外，计算出每个频率f上的参考声音信号X(f)和观测声音信号Y(f)之间的相关性G2，如步骤S104所示。在步骤(操作)S103中，根据上述方程式(1)计算出信号比率Gl(f)，在步骤S104中，根据上述方程式(2)确定出相关性G2(f)。步骤S103中的处理和步骤S104中的处理可以平行进行。
回音抑制器1的回音抑制机构14根据方程式(3)通过比较单元143将信号比率Gl(f)和相关性G2(f)进行比较，如步骤S105所示，并根据比较结果从信号比率Gl(f)和相关性G2(f)得到估算回音所需的回音估算因子G(f)，如步骤S106所示。根据上述方程式(3)，在步骤S106中通过选择信号比
率Gl(f)或相关性G2(f)以得到回音估算因子G(f)。
回音抑制器1的回音抑制机构14通过回音估算单元145的处理，根据回音估算因子G(f)和参考声音信号X(f)来估算回音X'(f)，如步骤S107所示。在步骤S107中，根据上述方程式(4)将回音X'(f)计算为回音的估算值，用于校正观测声音信号Y(f)。
回音抑制器1的回音抑制机构14通过回音抑制单元146的处理基于回音X'(f)来抑制观测声音信号Y(f)，以产生抑制结果信号R(f)，如步骤S108 所示。在步骤S108中，基于上述方程式(5)进行校正，以从观测声音信号 Y(f)除去回音X'(f)。
回音抑制器1的回音抑制机构14通过IFFT转换单元147的处理，将作为频率轴上分量的抑制结果信号R(f)转换为作为时间轴上信号的抑制结果信号r(t)，如步骤S109所示，接着通过D/A转换装置18将经转换的抑制结果信号r(t)转换为模拟信号，以输出到声音处理装置3。
声音处理装置3基于所接收的抑制结果信号r(t)进行语音识别处理等。这样，能够执行根据本发明第一实施例的回音抑制器l的回音抑制处理。
接下来，描述根据本发明第一实施例的回音抑制器1的回音抑制处理的结果。图4A和图4B示出了根据本发明第一实施例的回音抑制处理结果的例子。图4A示出了加和的参考声音信号x(t)的振幅谱IX(f)l的例子，以及观测声音信号y(t)的振幅谱IY(f)l，该加和的参考声音信号x(t)和观测声音信号y(t) 受到了根据本发明第一实施例的回音抑制处理。水平轴表示频率f，而垂直轴表示信号强度dB。附图示出了它们之间的关系。实线表示加和的参考声音信号x(t)的振幅谱IX(f)l，虚线表示观测声音信号y(t)的振幅谱IY(f)l。图4B 示出了抑制结果信号r(t)的振幅谱IR(f)l的例子，该抑制结果信号r(t)作为根据本发明第一实施例的回音抑制处理的结果。水平轴表示频率f，垂直轴表示信号强度。附图示出了它们之间的关系。图4A和图4B示出了双端发声状态下的振幅谱。图4A示出了进行处理之前的振幅，图4B示出了进行处理之后的振幅。另外，在图4A和图4B中，环形(encircled)部分表示讲话者声音等级的峰值。
如图4A所示，在包括讲话者语音的声音频率中，加和的参考声音信号 x(t)的振幅谱IX(f)l和观测声音信号y(t)的振幅谱IY(f)l之间的相关性低。在图
4B中，示出了图4A中处理的结果，强度等级被整体降低。在包括讲话者语
音的声音频率中，峰值强度没有如此改变。这意味着抑制了除了讲话者语音之外的声音的回音。
在第一实施例中，计算相关性G2(f)所需的频率范围是恒定的带宽。然而，本发明并不受此限制，带宽可以根据频率而改变。接下来，描述根据第一实施例中的频率而改变带宽的模式。在改变带宽的情形下，用于计算相关性G2(f)的上述方程式(2)被修改成以下的方程式(6)。<formula>formula see original document page 16</formula>方程式(6)
在方程式(6)中，表示在采样时样本数的阶数(order) N(f)被用作带宽。在方程式(6)中将作为带宽的次数N(f)替换为常数就得到方程式(2)。然而在这个例子中，作为带宽的次数是变化的。图5示出了在根据本发明第一实施例的回音抑制方法中频率f和可变带宽N(f)之间的关系。在图5中，水平轴表示频率f，垂直轴表示作为带宽的次数N(f)。图5示出了它们之间的关系。如图5所示，带宽朝着最低频率的方向而增加(频率越低，带宽越大)。也就是相对较低频率(其中在较低频率下难以从回音中检测差异)而增加带宽，从而增加了样本数并相对增加了相关检测灵敏度，以改善双端发声的检测精确度。
在改变带宽的情形下，在图3所示的流程图(操作图)的步骤S104中，计算单元142基于每个频率f的频率范围中参考声音信号X(f)的总值和观测声音信号Y(f)的总值确定出相关性G2(f)。
在第一实施例中，信号比率Gl(f)或相关性G2(f)被选择并被用作回音估算因子G(f)。然而，本发明并不受此限制。为了抑制在单端发声状态和双端发声状态之间的边界处的不连续变化，可设定第一常数(xl和大于该第一常数al的第二常数a2，以定义一周期，在该周期内信号比率Gl(f)和相关性 G2(f)的加权平均值被用作回音估算因子G①。接下来，描述一种不同于第一实施例描述的确定回音估算因子G(f)方法的方法。
图6示出了强度比率IG2(f)l/IGl(f)l和系数卩之间的关系，其中强度比率 IG2(，Gl(f)l是相关性G2(f)的强度与信号比率Gl(f)的强度的比率，系数卩对应于回音估算因子G(f)。在图6中，水平轴表示强度比率IG2(f)l/IGl(f)1，
垂直轴表示对应于回音估算因子G(f)的系数p。图6示出了它们之间的关系。系数(3(f)是确定回音估算因子G(f)所需的因子。回音估算因子G(f)利用系数卩(f)从以下的方程式(7)得到。
G(f)=|3(f)Gl(f)+U-|3(f)}G2(f) 方程式(7)
其中(3(f)是对应于回音估算因子G(f)的系数。
当强度比率IG2(f)l/IGl①l小于第一常数al时，系数0(0=0，如图6所示，因此方程式(7)使得相关性G2(f)等于回音抑制因子G(f)。如果强度比率 IG2(f)l/IGl(f)l不小于第二常数a2，则因子p(f)4，从而信号比率Gl(f)是回音估算因子G(f)。如果强度比率IG2(f)l/IGl(f)l小于第二常数a2且不小于第一常数al，则根据图6的关系，基于强度比率IG2(f)l/IGl(f)蹄定出因子p(f)，并且基于所确定的值，根据方程式(7)中信号比率Gl(f)和相关性G2(f)的加权平均值确定出回音估算因子G(f)。
在用于确定回音估算因子G(f)的方法改变的情形下，在图3的流程图(操作图)的步骤S106中，确定单元144以如下方式确定回音估算因子G(f)。也就是说，如果1^2(/)1 "11。(7)1 ，则将相关性G2(f)设定成回音估算因子G(f)。如果|(72(/)|^2|(71(/)|，则将信号比率(H(f)设定成回音估算因子G(f)。如果 "iGld S|G2(/)| < 2|G1C0| ，则将信号比率Gl(f)和相关性G2①的加权平均值设定成回音估算因子G(f)。
此外，第一常数al和第二常数a2可根据频率f而改变。图7A和图7B 示出了在根据本发明第一实施例的回音抑制方法中第一常数al和第二常数 a2根据频率f而改变时，频率f、第一常数al(f)和第二常数a2(f)之间的关系。在图7A和图7B中，水平轴表示频率f，垂直轴表示与频率相关的第一常数 al(f)和第二常数a2(f)。图7A和图7B示出了它们之间的关系。在图7A的例子中，第一常数al(f)和第二常数a2(f)从低频至高频减小，以增加双端发声状态的检测精确度，从而抑制了讲话者的语音失真。在图7B所示的例子中，第一常数al(f)和第二常数a2(f)从低频至高频增大，以增加单端发声状态的检测精确度，从而抑制了残留的回音。在此，如果使用单个的常数a，则可使用频率f相关常数a(f)。
第二实施例
根据第二实施例，实振幅谱(real amplitude spectrum)用于第一实施例
中的校正操作。第二实施例的回音抑制器的配置与图1所示第一实施例的回音抑制器的配置相同，从而可参考第一实施例。在此就不重复该回音抑制器的描述。在以下描述中，与第一实施例相同的元件以与第一实施例相同的附图标记表示，并且在此不再进行描述。
图8是示出根据本发明第二实施例的回音抑制器1的回音抑制机构14 的功能配置实例的功能框图。回音抑制器1的回音抑制机构14从加和的参
考声音信号x(t)和观测声音信号y(t)摘录(clip)出预定时间长度的帧，其中信号x(t)和y(t)被转换为数字信号。回音抑制机构14执行计算机程序100以运行为第一 FFT转换单元140和第二 FFT转换单元141 。通过第一 FFT转换单元140产生的参考声音信号X(f)和通过第二 FFT转换单元141产生的观测声音信号Y(f)具有复频谱。在第二实施例中，利用振幅谱来进行处理其中该振幅谱是由第一 FFT转换单元140和第二 FFT转换单元141所产生信号的复频谱的实部(real part)。在以下描述中，作为复频谱的参考声音信号X(f) 的振幅谱称作参考声音信号IX(f)l，作为复频谱的观测声音信号Y(f)的振幅谱称作观测声音信号IYCf)l。
此外，回音抑制机构14执行计算机程序100以运行为计算单元142。由计算单元142处理的参考声音信号IX(f)l和观测声音信号IY(f)l均是振幅谱，从而不必乘以共轭复数X^f)以成为实数。因此，在第二实施例中，计算单元 142从以下方程式(8)(代替方程式(l))得到作为实数的信号比率IGl(f)l'。
|Gl(f)HY(f)|/|X(f)| 方程式(8)
其中IGl(f)l'是信号比率，IY(f)l是观测声音信号，IX(f)l是参考声音信号。此外，在第二实施例中，计算单元142从以下方程式(9)(代替方程式(2))得到作为实数的相关性IG2(f)l'。
|G2(f)|'={|Y(f)||X(C)|}/{|X(f)|2 方程式(9) 其中IG2(f)l'是相关性。
此外，回音抑制机构14执行计算机程序100以运行为比较单元143以及确定单元144。比较单元143基于以下方程式(10)(代替方程式(3)) 将信号比率IG1①I邻a倍相关銜G2(f)l'进行比较，其中a表示预定常数。
|Gl(f)|'<a|G2(f)|' 方程式(10)
如果信号比率IGl(f)l小于a倍相关性IG2(f)1，则确定单元144根据观测声音信号Y(f)和参考声音信号X(f)之间的高相关性来判断当前状态是单端发声
状态，并确定出满足IG(f)l叫Gl(f)l关系的回音估算因子IG(f)l。如果信号比率 IGl(f)l不小于a倍相关性iG2(f)1，则确定单元144根据观测声音信号Y(f)和参考声音信号X(f)之间的低相关性来判断当前状态是双端发声状态，并确定出满足IG(f)l叫G2(f)l关系的回音估算因子IG(f)1。
此外，回音抑制机构14执行计算机程序100以运行为回音估算单元145。在第二实施例中，回音估算单元145从以下的方程式(11)(代替方程式(4)) 得出作为实数的回音IX'(f)l。
IX'(f)l = |G(f)||X(f)| 方程式(11)
其中是IX'(f)l回音。
此外，回音抑制机构14执行计算机程序100，以运行为回音抑制单元 146。在第二实施例中，回音抑制单元145从以下方程式(12)(代替方程式(5))得出是实数的抑制结果信号IR(f)l。
|R(f)| = |Y(f)|_|X'(f)| 方程式(12)
其中IR(f)l是抑制结果信号。
此外，回音抑制机构14执行计算机程序100，以运行为IFFT转换单元 147，其将是实数的抑制结果信号R(f)和通过第二 FFT转换单元141产生的观测声音信号Y(f)的虚部结合，以通过IFFT处理将复合信号转换成时间轴上(时域中)的信号。通过D/A转换机构15将转换成时间轴上信号的抑制结果信号r(t)转换为模拟信号，然后输出到声音处理装置3。
声音处理装置3基于所接收的抑制结果信号r(t)执行语音识别处理等。这样，能够执行根据本发明第二实施例的回音抑制器l的回音抑制处理。
接下来，描述根据本发明第二实施例的回音抑制器l的处理。回音抑制器1将使用n个参考声音信号xl(t)…xn(t)和观测声音信号y(t)而产生的信号输出到类似于第一实施例的回音抑制机构14。
图9是示出根据本发明第二实施例的回音抑制器1的处理实例的流程图 (运行图)。回音抑制器1的回音抑制机构14将接收的加和的参考声音信号x(t)和观测声音信号y(t)转换为帧，如步骤S201所示。接着，回音抑制机构14通过第一 FFT转换单元140和第二 FFT转换单元141将加和的参考声音信号x(t)和观测声音信号y(t)转换为作为频率轴上分量的参考声音信号X(f)
和观测声音信号Y(f)，如步骤S202所示。接着，分别从参考声音信号X(f) 和观测声音信号Y(f)中提取作为振幅谱的参考声音信号IX(f)l和观测声音信号IY(f)l，如步骤S203所示。
回音抑制器1的回音抑制机构14通过计算单元142的处理计算每一频率f上的参考声音信号IX(f)l和观测声音信号IY(f)l之间的信号比率IGl(f)l'，如步骤S204所示，另外还计算每个频率f上的参考声音信号IX(f)l和观测声音信号IY(f)l之间的相关性IG2(f)l'，如步骤S205所示。在步骤S204中，基于上述方程式(8)计算出信号比率IGl(f)l'，在步骤S205中，基于上述方程式(9) 计算出相关性IG2(f)l'。
回音抑制器1的回音抑制机构14通过比较单元143将信号比率IG1①I' 和相关性IG2(f)l'进行比较，如步骤S206所示，并基于该比较结果从信号比率 IGl(f)i'和相关性IG2(f)l'得到回音估算所需的回音估算系数IG(f)1，如步骤S207 所示。在步骤S207中得到回音估算系数IG(f)l时，基于上述方程式(8)至(10) 选择信号比率IGl(f)l'或相关性IG2①l'。
回音抑制器1的回音抑制机构14通过回音估算单元145的处理基于回音估算系数IG(f)l和参考声音信号IX(f)l估算出回音IX'(f)l，如步骤S208所示。在步骤S208中，基于上述方程式(11)将回音IX'(f)l计算成回音的估算值，用于校正观测声音信号IY(f)l。
回音抑制器1的回音抑制机构14通过回音抑制单元146的处理基于回音IX'(f)l来抑制观测声音信号IY(f)l,以产生抑制结果信号IR(f)l，如步骤S209
所示。在步骤S209中，基于上述方程式(12)执行校正以从观测声音信号IY(f)1 除去回音IX'①1。
回音抑制器1的回音抑制机构14通过IFFT转换单元147的处理，将是实数的抑制结果信号IR(f)l和通过第二FFT转换单元141产生的观测声音信号 Y(f)的虚部相组合，如步骤S210所示。此外，回音抑制机构14通过IFFT转换单元147的处理将复合信号转换成作为时间轴上信号的抑制结果信号r(t)，如步骤S211所示。接着，通过D/A转换装置18将经转换的抑制结果信号r(t) 转换为模拟信号，并将该信号输出到声音处理装置3。
声音处理装置3基于所接收的抑制结果信号r(t)来进行语音识别处理等。这样，能够执行根据本发明第二实施例的回音抑制器1的回音抑制处理。在第二实施例中，通过回音抑制单元146在校正时从观测声音信号IY(f)l 除去回音IX'(f)l，能够抑制回音。然而，本发明并不受此限制。观测声音信号 IY(f)l可以被衰减以抑制回音。接下来，描述第二实施例的例子，其中观测声音信号IY(f)l可以被衰减以抑制回音。
图10示出了在根据本发明第二实施例的回音抑制方法中的衰减比率 lY①l/IX'(f)l和衰减因子g(f)之间的关系。在图10中，水平轴表示衰减比率 |Y(f)|/iX'(f)|，垂直轴表示衰减因子gCf)。图IO示出了它们之间的关系。衰减
比率IY(f)l/IX'(f)l是观测声音信号IY(f)l和回音IX'(f)l的比率。衰减因子g(f)是通过乘以观测声音信号IY(f)l来计算抑制结果信号IR(f)l的因子。因子的值为 0《g(f)《1。该值越大，衰减量越大。对于衰减比率IY(f)l/IX'(f)卜设定第一阈值yl和第二阈值Y2。如果衰减比率IY(OI/IX'(f)l小于第一阈值Yl，则衰减因子 g(Q=0。如果该衰减比率不小于第二阈值Y2，则衰减因子g(f)4。如果衰减比率IY(f)l/IX'(f)l不小于第一阈值yl且小于第二阈值Y2，则基于图10的关系根据衰减比率IY(f)l/IX'(f)沐确定衰减因子g(f)。此外，基于以下方程式(13)确定出衰减因子g(f)、观测声音信号IY(f)l和抑制结果信号IR(f)l之间的关系。
IR(f)l = g(f) IY(f)l 方程式(13)
其中g(f)是衰减因子。
在使用衰减因子g(f)的情形下，在图9的流程图(操作图)的步骤S209 中，通过回音抑制单元146的处理，基于观测声音信号IY(f)l和回音IX'(f)l确定出衰减因子g(f)，基于观测声音信号IY(f)l和所确定的衰减因子g(f)而产生抑
制结果信号IR(f)l。另外，基于方程式(13)产生抑制结果信号IR(f)l，利用衰减因子g(f)来衰减观测声音信号IY(f)l以抑制回音。
此外，第一阈值yl和第二阈值Y2根据频率f而改变。图11A和图11B 示出了在根据本发明第二实施例的回音抑制方法中频率f、第一阈值yl和第二阈值Y2之间的关系实例，其中第一阈值Yl和第二阈值y2根据频率f而改变。在图11A和图11B中，水平轴表示频率f，垂直轴表示与频率f相关的第一阈值yl和第二阈值Y2。图IIA和图11B示出了它们之间的关系。在图11A 的例子中，第一阈值Yl和第二阈值y2从较低频率至较高频率减小以改善双端发声状态的检测精确度，从而抑制讲话者的语音失真。在图11B的例子中，第一阈值Yl和第二阈值W从较低频率至较高频率而增大以增加单端发声状
态的检测精确度，从而抑制了残留的回音。
第一和第二实施例是本发明多个实施例中的示意性的实施例。可以任意设置各种硬件和软件部件的配置，并且各种处理可以用于与上述基本处理相结合。例如，虽然在第一和第二实施例中具有多个输出单元，本发明可应用到具有单输出单元的抑制器。另外，作为声音处理装置，本发明可应用于各种系统以处理电话会议系统、车辆导航系统等的语音或声音。此外，还可以将回音抑制器、声音输出装置和声音处理装置整合进一个装置。
权利要求
1、一种抑制回音信号的设备，其中所述回音信号包括在对应于测量声音的测量信号中，所述抑制回音信号的设备能够耦合到用于接收所述测量声音的声音输入装置和用于输出与参考信号相关联的声音的声音输出装置，所述抑制回音信号的设备包括执行将时域中的所述测量信号和所述参考信号两者都转换为频率域中的所述测量信号和所述参考信号的每一次变换的部分；获得频率域中所述测量信号和所述参考信号之间的比率和相关性的每一值的部分；将所述比率和所述相关性的值进行比较的部分；根据所述值的比较结果得到系数的部分；根据频率域中所述系数和所述测量信号的乘积获得估算回音信号的估算值的部分；以及通过在频率域中分别从所述测量信号减去所述估算回音信号的估算值来抑制所述测量信号中的所述回音信号的部分。
2、如权利要求1所述的设备，还包括将多个参考信号相加为结果参考信号的部分，其中执行所述测量信号和所述参考信号的每一次变换的部分将时域中的所述测量信号和所述结果参考信号两者都变换为频率域中的所述测量信号和所述结果参考信号。
3、如权利要求1所述的设备，其中获得所述比率和所述相关性的每一值的部分处理相关性计算，所述相关性是在频率域中每个特定频率周围的预定频率范围中的每个频率上的所述测量信号和所述参考信号之间的相关性，并且所述预定频率范围根据所述特定频率而控制。
4、如权利要求1所述的设备，其中得到所述系数的部分还设定用于对所述比率和所述相关性进行比较的多个阈值，并根据所述多个阈值、所述比率和所述相关性来确定所测量的声音信号是在单端发声状态还是在双端发声状态下被测量的。
5、如权利要求4所述的设备，其中根据所述频率来设定所述多个阈值之一。
6、如权利要求1所述的设备，其中根据变换到频率域的所述测量信号和所述参考信号的每一振幅谱，获得每一值的部分执行对所述比率和所述相关性的计算。
7、如权利要求6所述的设备，其中获得所述估算值的部分估算所述回音信号的振幅，并且在所述测量信号的振幅谱与所述回音信号的振幅谱的比率不小于预定值的情形下，由抑制所述回音信号的部分来抑制所述测量信号的振幅。
8、如权利要求7所述的设备，其中所述预定值根据频率而改变。
9、如权利要求1所述的设备，其中所述设备能够耦合到声音处理装置，所述声音处理装置用于处理从所述设备输出的回音抑制后的声音信号。
10、一种抑制回音信号的方法，所述回音信号包括在对应于测量声音的测量信号中，所述方法包括以下操作-执行所述测量信号和参考信号从时域到频率域的每一次变换，所述参考信号对应于产生声音的源信号；进行用以获得在频率域中所述测量信号和所述参考信号之间的比率和相关性的每一值的计算；实施所述比率和所述相关性的值的比较；根据所述比率和所述相关性的比较结果得到系数；根据频率域中所述系数与所述测量声音的乘积，来实施所述回音信号的估算值；以及通过在频率域中分别从所述测量信号减去所述回音信号的估算值，来抑制所述测量信号中的所述回音信号。
全文摘要
本发明提供一种回音抑制器、回音抑制方法。一种用于抑制回音信号的设备(回音抑制器)，所述回音信号包括在对应于测量声音的测量信号中。在该设备中，测量信号和参考信号从时域变换到频率域(频域)中，并计算以获得频域中测量信号和参考信号之间的比率和相关性的每一值。通过执行比率和相关性的值的比较，得到系数，其中通过所述系数和频域中测量信号的乘积得到回音信号的估算值。通过在频域中分别从所述测量信号减去回音信号的估算值来抑制所述测量信号中的回音。
文档编号G10L15/20GK101339769SQ20081013570
公开日2009年1月7日申请日期2008年7月3日优先权日2007年7月3日
发明者松尾直司申请人:富士通株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：松尾直司
技术所有人：富士通株式会社
我是此专利的发明人