言语信号调平的制作方法

文档序号：20167423发布日期：2020-03-24 21:55阅读：307来源：国知局

发明背景

1.技术领域

本公开涉及用于言语信号调平的系统和方法(通常被称为“系统”)。

2.相关技术

在诸如言语识别和免提通信的言语信号处理中，充分调平的输出言语信号对于言语识别系统的适当识别率或免提系统的远端侧的适当清晰度至关重要。在简易方法中，自动增益控制(agc)可以基于(峰值)限幅器，所述限幅器的(输入)增益以如下方式设定：即使轻声地说出或从远距离处说出，言语也被放大以便仍然传送充分调平的输出信号，即，言语信号，所述言语信号的峰值在理想情况下为可接受的最大振幅范围的满刻度。另一方面，限幅器会将在较近距离处以响亮语音说出的任何言语衰减到满刻度。通过这种方式，如果讲话者离输入传声器的距离较短，则信噪比(snr)将会降低，因为限幅器会更频繁地处于活动状态使得与超出满刻度并被(峰值)限幅器限制为满刻度的言语相比，没有限制非所需噪声和/或残留回声。然而，如果说话者离传声器太远或轻声地说话，则言语输出信号将不会达到满刻度，这可能会再次降低snr。结果，需要一种自动地调整此类动态变化的情况的言语电平的言语信号调平器。

技术实现要素：

一种言语信号调平系统包括可控增益块，其被配置为接收输入信号并通过对所述输入信号施加频率相关或与频率无关的可控增益来生成输出信号，所述增益取决于增益控制信号。所述系统还包括言语检测块，其被配置为接收所述输入信号并生成指示所述输入信号中所包含的语音分量的至少一个言语检测信号。所述系统还包括增益控制块，其被配置为接收所述输入信号和所述至少一个言语检测信号并基于所述输入信号和所述至少一个言语检测信号来生成所述增益控制信号。所述增益控制块还被配置为控制可控增益块以放大或衰减所述输入信号以具有预定均值或最大或绝对峰值信号电平，前提是在所述输入信号中检测到语音分量。

一种言语信号调平方法包括：通过对输入信号施加频率相关或与频率无关的可控增益来生成输出信号，所述增益取决于增益控制信号；以及生成指示所述输入信号中所包含的语音分量的至少一个言语检测信号。所述方法还包括：基于所述输入信号和所述至少一个言语检测信号来生成所述增益控制信号；以及控制可控增益块以放大或衰减所述输入信号以具有预定均值或最大或绝对峰值信号电平，前提是在所述输入信号中检测到语音分量。

在查阅以下详细描述和随附附图后，其他系统、方法、特征和优点将对所属领域技术人员明显或将变得明显。预期所有此类附加系统、方法、特征以及优点都包括在本描述中、在本发明的范围内并且受以下权利要求的保护。

附图说明

参考以下附图和描述可以更好地理解所述系统。附图中的部件不一定按比例绘制，而是重点放在说明本发明的原理上。此外，在附图中，相同的附图标记在所有不同视图中指示对应部分。

图1是示出示例性言语调平系统的信号处理结构和信号流的简化示意图。

图2是示出图1中所示的言语调平系统的示例性实现方式的信号处理结构和信号流的详细示意图。

图3是示出示例性言语调平方法的流程图。

图4是示出另一种示例性言语调平系统的信号处理结构和信号流的简化示意图。

图5是示出图4中所示的言语调平系统的示例性实现方式的信号处理结构和信号流的详细示意图。

图6是示出图4中所示的言语调平系统的修改的信号处理结构和信号流的详细示意图。

图7是示出图4中所示的言语调平系统的另一种修改的信号处理结构和信号流的详细示意图。

具体实施方式

在对示例性言语调平系统和方法的以下描述中，块被理解为具有以下至少一者的硬件系统或其元件：执行软件的处理单元(诸如控制器、处理器等)和用于实施所需信号传输或处理功能的专用电路结构。块可以彼此连接或以另一种方式可操作地彼此耦合，以提供特定信号流结构并生成特定信号，如下详述。言语(语音)的特性是存在无声间隔(空白停顿)和没有词汇含义的发音(有声停顿)。空白停顿和有声停顿有可能边界重合，被实现为长度可变的在子句和段落级别的无声间隔，并且通常标记叙事单元的边界。言语中的停顿通常是可归因于身体、社会心理、交际、语言学和认知原因的多因现象。

图1是示出示例性言语调平系统(其可以执行示例性言语调平方法)的信号处理结构和信号流的示意图。图1中所示的言语调平系统包括接收输入信号x(n)并提供输出信号y(n)的可控增益块101(例如，可控放大器、可控衰减器、可控滤波器、乘法器等)。输出信号y(n)是已施加了频率相关或与频率无关的可控增益g的输入信号x(n)。可控增益块101(即，其增益g)通过增益控制信号g(n)来控制。输入信号x(n)还被供应给言语检测块102，所述言语检测块生成指示输入信号x(n)中所包含的语音分量的至少一个言语检测信号。在所示的示例性系统中，提供了两个言语检测信号(语音活动检测信号vad(n)(例如，vad标志)和言语停顿检测信号spd(n)(例如，spd标志))，所述两个言语检测信号的生成和特性在下面进一步详细说明。

输入信号x(n)还被供应给增益控制块103，所述增益控制块另外接收言语检测信号并基于输入信号x(n)和一个或多个言语检测信号(例如，语音活动检测信号vad(n)和任选地言语停顿检测信号spd(n))来生成增益控制信号g(n)。增益控制块103控制可控增益块101，使得将输入信号x(n)放大或衰减以具有预定均值或最大或绝对峰值信号电平，前提是在输入信号x(n)中没有检测到语音分量。例如，可以阻止输入信号x(n)，即，输出信号y(n)为(几乎为)零，前提是在输入信号x(n)中没有检测到语音分量。

图1中所示的言语调平系统还可以包括任选的延迟块104，所述延迟块在将输入信号x(n)供应给可控增益块101之前将其延迟某个时间(例如，某个数量的帧或样本)使得供应给可控增益块101的输入信号x(n)相对于输入信号x(n)被提供给言语检测块102和增益控制块103时有延迟。下面进一步概述了可以利用延迟块104的情况。

言语检测块102还可以例如从寄存器或存储器(都未示出)接收snr阈值vadsnrth、阈值vadth以及计时器值vad计时器用于语音活动检测，以及任选地接收snr阈值spdsnrth、阈值spdth以及计时器值spdtimer用于任选的言语停顿检测。此外，最小噪声阈值minnoise、初始均方根(rms)值rmsinit_db、均方根阈值rmsth以及阈值maxabspeak中的至少一者可以被提供给言语检测块102。增益控制块103还可以例如从寄存器或存储器(都未示出)接收任选的平滑时间参数τ平滑，调谐参数maxvadgain和调谐参数maxspdgain中的至少一者，以及参考电平reflevel或参考峰值电平refpeaklevel。任选地，(峰值)限幅器块105可以可操作地连接在可控增益块101的下游以接收输出信号y(n)并提供受限的输出信号out(n)。(峰值)限幅器块105还可以接收预定限幅器增益limgain、限幅器阈值limth、上升时间attackt和释放时间releaset。

图2是示出另一种示例性言语调平系统(其执行另一种示例性言语调平方法)的信号处理结构和信号流的示意图。在图2中所示的言语调平系统中，言语检测器块201可以包括将输入信号x(n)从时域变换到频域，这可以由时间-频率变换块202来执行。输入信号x(n)的频谱分量可以通过包括带通滤波和傅立叶变换的多种方式而获得。在一种方法中，可以使用离散傅立叶变换(dft)或快速傅立叶变换(fft)来变换输入信号的n个点的序列块。可以施加诸如汉宁窗的窗函数，在这种情况下可以使用n/2个点的重叠。可以在输入信号的每个频率区间中使用dft。可选地，可以在被输入信号占用的整个频带上使用fft。在输入信号频带内，为每个频率区间存储频谱。

在本示例中，时间-频率变换块202对时域中的输入信号x(n)施加具有任选窗口化(未示出)的fft以生成频域中的信号x(ω)。可以任选地利用例如适当长度的移动平均滤波器来将信号x(ω)平滑化。

(任选的)频谱平滑化可以考虑多个频率区间，这降低了频谱分辨率。时间-频率变换块202的输出通过可操作地连接在时间-频率变换块202的下游的多个(m个)时间平滑块203来进一步平滑化。多个时间平滑块203随时间组合频率区间值以减少时间-频率变换块202的输出信号中的时间动态。

多个时间平滑块203输出可能仍然包含脉冲失真以及背景噪声的时间平滑信号。多个(m个)噪声估计块204可操作地连接在多个时间平滑块203的下游以在多个时间平滑块203的输出中消除诸如言语的脉冲失真，并估计当前背景噪声。为了减少或避免消除诸如音乐或语音信号的所需信号，可以在多个噪声估计块204中采用非线性平滑化(未示出)。

基于来自多个时间平滑块203的平滑信号和来自多个噪声估计块204的估计的准稳态背景噪声信号，可以确定(计算)snr的变化，例如作为snr值的频率分布。使用snr的变化，可以将噪声与所需言语或音乐信号区分开。例如，低snr值可以与各种噪声源(诸如空调、风扇、开窗或电气装置(诸如计算机)等)有关。可以在时域中或在频域中或在子频带域中评估snr。

在多个(m个)比较器块206中，将由多个(m个)snr确定块205确定的输出snr值与预定阈值(例如，snr阈值vadsnrth)进行比较。如果确定的当前snr值大于预定阈值vadsnrth，则将标志vadsnrflag设定为第一逻辑值，例如‘1’。否则，将标志vadsnrflag设定为第二逻辑值，例如‘0’。将来自多个比较器块206的标志传递到求和块207。求和块207将来自多个比较器块206的频谱标志vadsnrflag求和，并输出时变和信号svad(n)。此外，rms确定块211可以提供指示输入信号x(n)的(均方根)均值的均值信号rms(n)。将和信号svad(n)和均值信号rms(n)传递到比较器块208，其中将和信号svad(n)与预定和阈值vadth进行比较，并将均值信号rms(n)与预定阈值rmsth进行比较。如果和信号svad(n)的当前值大于预定和阈值vadth，并且均值信号rms(n)大于预定阈值rmsth，则将标志s'vad(n)(其可以被认为是更新后和信号svad(n))设定为第一逻辑状态，例如‘1’(一)。否则将标志s'vad(n)设定为另一个逻辑状态，例如'0'(零)。可以使用被配置为确定输入信号x(n)的最大绝对峰值的最大绝对峰值确定块(未示出)来代替rms确定块211，以便随后将最大绝对峰值与最大绝对峰值阈值进行比较。

将比较器块208的输出信号(即，标志s'vad(n))传递到语音活动检测(vad)计时器块209，所述vad计时器块检测标志s'vad(n)是否为‘0’。在时间n，如果标志svad(n)为‘0’，则vad计时器块209将计数tvad(n)设定为tvad(n-1)-1，即，将前一计数tvad(n-1)递减一。如果标志svad(n)不为'0'，即，为'1'，则将计数tvad(n)重置为初始化值vadtimerinit。将vad计时器块209的输出(即，计数tvad(n))传递到语音活动检测(vad)块210，其中将计数tvad(n)与预定阈值(例如，零)进行比较。如果当前计数tvad(n)大于预定阈值(零)，则将标志vad(n)设定为‘1’，否则为‘0’。

另外或可选地，在多个(m个)比较器块212中，将由多个(m个)snr确定块205确定的snr值与预定阈值(例如，snr阈值spdsnrth)进行比较。如果确定的当前snr值大于预定阈值spdsnrth，则将标志spdsnrflag设定为例如‘1’。否则，将标志spdsnrflag设定为'0'。将来自多个比较器块212的标志传递到求和块213。求和块213将来自多个比较器块212的标志spdsnrflag求和，并输出时变和信号sspd(n)。将和信号sspd(n)和来自rms确定块211的均值信号rms(n)传递到比较器块214，其中将和信号sspd(n)与预定和阈值spdth进行比较，并将均值信号rms(n)与预定阈值rmsth进行比较。如果和信号sspd(n)的当前值大于预定和阈值spdth，并且均值信号rms(n)大于预定阈值rmsth，则将标志s'spd(n)(其可以被认为是更新后和信号s'spd(n))设定为例如‘1’。否则将标志s'spd(n)设定为‘0’。

将比较器块214的输出信号(即，标志s'spd(n))传递到言语停顿检测(spd)计时器块215，所述spd计时器块检测标志s'spd(n)是否为‘0’。在时间n，如果标志s'spd(n)为‘0’，则spd计时器块215将计数tspd(n)设定为tspd(n-1)-1，即，将前一计数tspd(n-1)递减一。如果标志s'spd(n)不为‘0'，即，为‘1'，则将计数tspd(n)重置为初始化值spdtimerinit。将spd计时器块215的输出(即，计数tspd(n))传递到言语停顿检测(spd)块216，其中将计数tspd(n)与预定阈值(例如，零)进行比较。如果当前计数tspd(n)小于或等于预定阈值(零)，则将标志spd(n)设定为‘1’，否则为‘0’。

如果在时间n，标志vad(n)为‘1’，则检测到语音活动。如果它为‘0’，则没有检测到言语活动。如果在时间n，标志spd(n)为‘1’，则检测到言语停顿。如果它为‘0’，则没有检测到言语停顿。例如，在vad计时器块209中利用的初始化值vadtimerinit和在spd计时器块215中利用的spdtimerinit可以是不同的。例如，在比较器块206中利用的snr阈值vadsnrth和在比较器块212中利用的spdsnrth可以具有不同的值。例如，在比较器块208和214中利用的和阈值vadth和spdth可以相等。

在图2中所示的言语调平系统中，增益控制块217包括言语rms电平确定块218，所述言语rms电平确定块接收输入信号x(n)、标志vad(n)和平滑rms信号的前一样本srms(n-1)并输出信号inrms(n)。如果标志vad(n)为‘1’，则信号inrms(n)对应于输入信号x(n)，否则将所述信号设定为平滑rms信号的前一样本srms(n-1)的值。信号inrms(n)进行任选地利用初始均方根(rms)值rmsinit_db的后续rms确定(计算)。将rms确定输出的值供应给平滑块219，所述平滑块提供平滑rms信号srms(n)。一方面，将平滑rms信号srms(n)延迟一个样本以生成平滑rms信号的前一样本srms(n-1)(其被反馈到言语rms电平确定块218)，并且另一方面供应给增益确定块220，其中根据参考电平reflevel与平滑rms信号srms(n)之间的比率来生成增益控制信号gain(n)。

在任选的增益限制块221中，将增益控制信号gain(n)与参考值maxvadgain进行比较。结果，如果增益控制信号gain(n)大于参考值maxvadgain，则将增益限制块221的输出信号(受限的增益控制信号gain'(n)，其可以被认为是更新后增益控制信号gain(n))设定为参考语音活动值maxvadgain，否则设定为增益控制信号gain(n)。在本示例中，将受限的增益控制信号gain'(n)供应给spd增益限制块222，所述spd增益限制块进一步接收标志vad(n)和spd(n)以及参考言语停顿值maxspdgain。如果在时间n，标志spd(n)为‘1'并且标志vad(n)为‘0'，则将最终增益控制信号gain"(n)(其可以被认为是更新后增益控制信号gain'(n))设定为参考言语停顿值maxspdgain，否则设定为受限的增益控制信号gain'(n)。可选地，框222可以仅接收spd标志。最终增益控制信号gain"(n)在其控制可控增益块223之前可以任选地通过平滑滤波器块226随时间进行平滑化，所述可控增益块经由任选的延迟块242被供应有输入信号x(n)并经由任选的峰值限幅器225输出受限的输出信号out(n)。

在图2中所示的系统中，两个不同的调谐集用于确定语音活动检测标志vad(n)和任选的言语停顿检测标志spd(n)。然而，这两者都基于相同的频谱snr值。如上文已经提及的，为了确定语音活动检测标志vad(n)而对snr阈值vadsnrth使用的值可以高于为了确定言语停顿检测标志spd(n)而对snr阈值spdsnrth使用的值。一方面，这允许仅在确保存在言语时才设定语音活动检测标志vad(n)，因此施加高阈值，并且另一方面，仅在确保发生言语停顿时才将言语停顿检测标志spd(n)设定为‘1’。这可以通过将相应的snr阈值设定为较低值使得即使模糊的言语部分也会导致检测到言语活动且因此避免错误设定言语停顿检测标志spd(n)来实现。

此外，确定(计数)超过给定信噪比阈值vadsnrth和spdsnrth的频谱线的数量并将这些数量与用于语音活动检测部分的阈值vadth进行比较和与用于言语停顿检测部分的spdth进行比较。同时，每帧还计算输入信号x(n)或与输入信号x(n)对应的信号(诸如输出信号y(n))的rms值，每帧的大小可以取决于所涉及fft的长度和选定的重叠。例如，在采样频率fs为16khz下，fft长度可以为512个抽头，并且可以将重叠设定为50％，这导致帧大小为256个样本。这意味着在每个样本块(例如，每256个样本)之后，输入信号x(n)或与输入信号x(n)相对应的信号(诸如输出信号y(n))的rms值是从所有块样本(例如，前256个样本)计算的，然后与rms阈值rmsth进行比较。仅在当前rms值rms(n)超过阈值rmsth时，才能接受(或不接受)将超过阈值vadsnrth和spdsnrth的频谱信噪比的样本的数量进行比较的前一阶段的肯定判定。如果当前rms值rms(n)不超过rms阈值rmsth，则不会做出肯定的语音活动或肯定的言语停顿判定，而是会维持当前状态。

rms处理部分用于避免在信噪比高而输入信号的电平低的情况下错误地设定用于语音活动检测和言语停顿检测的检测标志。因为信噪比是相对值，所以即使输入信号的电平非常低(例如，在仅回声的情况下)，也可能会发生高信噪比。在这种情况下，残留回声的电平可能会非常低，但是其信噪比仍然可能很高，且因此如果视为唯一决策者，则可能会错误地触发语音活动检测标志vad(n)和言语停顿检测标志spd(n)。为了避免这种情况，可以在做出最终判定之前另外采用至少一个其他绝对值。一种方法是考虑输入信号x(n)或输出信号y(n)的能量或rms值。例如，仅在例如当前rms值超过某个极限才考虑信噪比使得避免用于语音活动检测标志vad(n)和言语停顿检测标志spd(n)因非常小的输入信号的设定错误。在另一种方法中，将最小噪声阈值minnoise设定为高得多的值。因此，非常小的输入信号可以被限制在该阈值，结果，在非常小的输入信号的情况下，可实现的信噪比将会降低。

为了避免增益升高到非所需的高值，可以将残留回声或多或少地放大到满刻度和/或可以例如通过任选的调谐参数maxvadgain将增益限制为最大值。因此，可以采用用于语音活动检测和言语停顿检测的不同计时器值。用于语音活动检测的计时器可以被设定为单词的平均长度，而用于言语停顿检测的计时器可以被设定为更高的值，以确保在将时变言语停顿检测标志spd(n)设定为‘1’之前安全地完成话语。相比之下，如果时变语音活动检测标志vad(n)在其初始计时器值vadtimerinit已过期，将被设定为‘0’。

如果将时变vad标志设定为‘1’，即，仅在活动言语序列中，则将确定输入信号x(n)的rms值或可选地最大绝对峰值。否则，将平滑言语rms值的前一样本srms(n-1)传递到平滑滤波器。为了避免非所需的瞬变效应，可以通过适当选择的初始化值rmsinit_db来任选地将rms确定初始化。例如可以使用具有相对较长的平滑时间常数τ的无限脉冲响应(iir)低通滤波器作为平滑滤波器。通过采取言语输出信号的所需参考rms值(即，参考电平reflevel或可选地参考峰值电平refpeaklevel)与该平滑滤波器的输出信号(即，srms(n))的比率来确定(计算)当前增益值gain(n)，使得增益gain(n)＝reflevel/srms(n)。

此外，如上文已经描述，可以施加对增益值gain(n)的最大值的任选限制，以便避免连续放大非常小的输入信号。可以任选地施加增益值的又另一限制，所述限制可以在免提应用中用作电平补偿器并且可以由时变语音活动检测标志vad(n)和/或时变言语停顿检测标志spd(n)来控制。由此，每当言语停顿并且没有检测到语音活动时，例如每当言语停顿检测标志spd(n)呈现‘1’并且时变语音活动检测标志vad(n)呈现‘0’时，增益值gain(n)就会减小到给定的极限maxspdgain。例如，如果spd(n)＝‘1’并且vad(n)＝‘0’，则不会对输入信号x(n)施加任何增益，甚至没有施加增益减小。

上面概述的过程(也可以被认为“增益值的选通”)允许例如履行在免提模式下对终端耦合损耗加权(tclw)值的要求，使得可能满足tclw值例如≥-52db的给定要求，因为对tclw值的测量要求必须在输入信号(其由安装在所述装置处的传声器附近的参考传声器获取)与在所述装置以定义的播放音量播放时所述装置的最终电气输出信号之间实现该值，以在离所述装置的一个或多个扬声器d＝1m距离实现声压级l≈-76dbspl(a)。在免提模式下，就像在言语识别模式中的情况一样，还规定传送约-24dbfs的最小输出言语rms信号。在增益确定单元没有之前提及的选通功能性的情况下，很难履行这些有些矛盾的要求。

利用所描述的系统，可以安全地感测言语停顿，且因此将所需选通施加于增益值gain(n)。主要挑战是一旦言语(来自近侧讲话者)再次处于活动状态，这种选通阶段就会足够快。如果不能保证这一点，则可能会发生设定开启的言语的开头部分无法按要求放大，且因此言语识别系统或听众(远端讲话者)都无法理解。避免这种情况的一种方式是使用快速反应的语音活动检测和/或言语停顿检测。这可以通过使用不平滑的瞬时rms值来实现，所述rms值将与给定阈值进行比较以作为判定的一部分。如果这还不够，则可以在将当前增益gain(n)施加于输入信号之前将输入信号任选地延迟一帧或几帧。可以这样做的前提是不超过最大给定的等待时间。

图3是示出示例性言语调平方法的流程图。所述方法包括过程301，其中通过对输入信号施加频率相关或与频率无关的可控增益来生成输出信号，所述增益取决于增益控制信号。在过程302中，生成指示输入信号中所包含的语音分量的至少一个言语检测信号。所述方法还包括过程303，其中基于输入信号和至少一个言语检测信号来生成增益控制信号，并且控制可控增益块以放大或衰减输入信号以具有预定均值信号电平，前提是在输入信号中没有检测到语音分量，例如，阻止输入信号使得没有提供输出信号，前提是在输入信号中没有检测到语音分量。

图4是示出另一种示例性言语调平系统的信号处理结构和信号流的简化示意图。图4中所示的系统包括可控增益块401(例如，可控放大器、可控衰减器、可控滤波器、乘法器等)，所述可控增益块接收被发送到远端的输出信号outtfe(n)作为输入信号并提供输出信号out(n)。输出信号out(n)在此是已施加了频率相关或与频率无关的可控增益g的输出信号outtfe(n)。可控增益块401(即，其增益g)通过增益控制信号g(n)来控制。输出信号outtfe(n)还被供应给言语检测块402，所述言语检测块生成指示输出信号outtfe(n)中所包含的语音分量的至少一个言语检测信号。在所示的示例性系统中，提供了两个言语检测信号(第一语音活动检测信号vadtfe(n)(例如，第一vad标志)和第二语音活动检测信号vadffe(n)(例如，第二vad标志))，所述两个言语检测信号的生成和特性在下面进一步详细说明。

输出信号outtfe(n)还被供应给增益控制块403，所述增益控制块另外接收言语检测信号并基于输出信号outtfe(n)和一个或多个言语检测信号(第一语音活动检测信号vadtfe(n)和第二语音活动检测信号vadffe(n))来生成增益控制信号g(n)。增益控制块403控制可控增益块401，使得将输出信号outtfe(n)放大或衰减以具有预定均值或最大或绝对峰值信号电平，前提是在输出信号outtfe(n)中没有检测到语音分量。例如，可以阻止输出信号outtfe(n)，即，输出信号out(n)为(几乎为)零，前提是在输出信号outtfe(n)中没有检测到语音分量。

图4中所示的言语调平系统还可以包括任选的延迟块404，所述延迟块在将输入信号x(n)供应给可控增益块401之前将其延迟某个时间(例如，某个数量的帧或样本)使得供应给可控增益块401的输入信号x(n)相对于输入信号x(n)被提供给言语检测块402和增益控制块403时有延迟。下面进一步概述了可以利用延迟块404的情况。

言语检测块402还被连接以例如从寄存器或存储器(都未示出)接收snr阈值vadtfesnrth、阈值vadtfeth以及计时器值vadtfetimer用于基于输出信号outtfe(n)进行的第一语音活动检测，并接收snr阈值vadffesnrth、阈值vadffeth以及计时器值vadffetimer用于基于来自远端的输入信号inffe(n)进行的第二语音活动检测。因此，将输入信号inffe(n)供应给言语检测块402。此外，可以将最小噪声阈值minnoise、初始均方根(rms)值rmsinit_db以及均方根阈值rmsth中的至少一者提供给言语检测块402。

增益控制块403还可以例如从寄存器或存储器(都未示出)接收任选的平滑时间参数τ平滑，最大增益调谐参数maxgain和最大电平增益调谐参数maxlevelergain中的至少一者，以及参考电平reflevel或参考峰值电平refpeaklevel。任选地，(峰值)限幅器块405可以可操作地连接在可控增益块401的下游以接收输出信号out(n)并提供受限的输出信号outl(n)。(峰值)限幅器块405还可以接收表示预定限幅器增益limgain、限幅器阈值limth、上升时间attackt和释放时间releaset的信号。

图5(5a、5b)是示出图4中所示的言语调平系统的示例性实现方式的详细示意图。在如图5a中部分所示的言语调平系统中，语音活动检测器块501可以被配置为通过时间-频率变换块502y将时域中的输入信号(其是输出信号outtfe(n))变换为频域中的信号，例如，一组离散频谱分量y(ω)。输出信号outtfe(n)的频谱分量y(ω)可以通过包括带通滤波和傅立叶变换的多种方式而获得。在一种方法中，可以使用离散傅立叶变换(dft)或快速傅立叶变换(fft)来变换输入信号的n个点的序列块。可以施加诸如汉宁窗的窗函数，在这种情况下可以使用多个(例如，n/2个)点的重叠。可以在输入信号的每个频率区间中使用dft。可选地，可以在被输入信号占用的整个频带上使用fft。在输出信号out(n)的信号频带内，为每个频率区间存储频谱。类似地，时间-频率变换块502x在时域中的输入信号inffe(n)被延迟块500延迟之后还对其施加具有任选窗口化(未示出)的fft，以便由此生成频域中的信号，例如一组频谱分量x(ω)。频谱分量x(ω)和y(ω)在本文中也简称为信号x(ω)和y(ω。

信号x(ω)可以各自任选地由一组(例如，(n/2)个时间平滑块503y进行平滑化，而信号y(ω)可以各自任选地由一组(例如，(n/2)个时间平滑块503x进行平滑化，每个块利用例如适当长度的移动平均滤波器。(任选的)频谱平滑化可以考虑多个频率区间，这降低了频谱分辨率。时间平滑块503y和503x分别可操作地连接在时间-频率变换块502y和502x的下游。多组时间平滑块503y和503x分别针对信号y(ω)和x(ω)中的每一者随时间组合频率区间值，以减少时间-频率变换块502y和502x的输出信号中的时间动态。

多组时间平滑块503y和503x输出可能仍然包含脉冲失真以及背景噪声的时间平滑信号。(例如，n/2个)噪声估计块504y和(例如，n/2个)噪声估计块504x中的每一者可操作地连接在多个时间平滑块503y和503x中的对应时间平滑块的下游，以在时间平滑块503y和503x的输出中消除脉冲失真(诸如言语)，并提供形成用于估计相应的当前背景噪声的基础的多组平滑信号sy_1(n)..sy_n/2(n)和平滑信号sx_1(n)..sx_n/2(n)。一组平滑信号sy_1(n)..sy_n/2(n)与信号y(ω)有关，而另一组平滑信号sx_1(n)..sx_n/2(n)与信号x(ω)有关。为了减少或避免消除诸如音乐或语音信号的所需信号，可以在多个噪声估计块504y和504x中采用非线性平滑(未示出)。一组背景噪声估计值ny_1(n)..ny_n/2(n)由一组噪声估计块504y确定，而一组背景噪声估计值nx_1(n)..nx_n/2(n)由另一组噪声估计块504x确定。

在多个比较器块506y中，将一组平滑信号sy_1(n)..sy_n/2(n)与预定阈值(例如，snr阈值vadysnrth)乘以这组背景噪声估计值ny_1(n)..ny_n/2(n)进行比较，并且将另一组平滑信号sx_1(n)..sx_n/2(n)与另一个预定阈值(例如，snr阈值vadxsnrth)乘以这组背景噪声估计值nx_1(n)..nx_n/2(n)进行比较。这组平滑信号sy_1(n)..sy_n/2(n)和这组背景噪声估计值ny_1(n)..ny_n/2(n)与信号y(ω)有关，而另一组平滑信号sx_1(n)..sx_n/2(n)和另一组背景噪声估计值nx_1(n)..nx_n/2(n)与信号x(ω)有关。如果根据平滑信号sy_1(n)..sy_n/2(n)和sx_1(n)..sx_n/2(n)和背景噪声估计值nx_1(n)..nx_n/2(n)确定的当前snr值各自分别大于对应的预定阈值vadysnrth和vadxsnrth，则将对应标志vadysnrflag和vadxsnrflag设定为第一逻辑值，例如‘1’。否则，将标志vadysnrflag和vadxsnrflag设定为第二逻辑值，例如‘0'。将来自多个比较器块506的每一组的标志分别传递到对应的一组求和块507y和507x。求和块507y将来自多个比较器块506y的频谱标志vadysnrflag求和，并输出时变和信号yvad(n)。求和块507x将来自多个比较器块506x的频谱标志vadxsnrflag求和，并输出时变和信号xvad(n)。

将和信号yvad(n)和xvad(n)传递到比较器块508y和508x，其中将和信号yvad(n)与预定和阈值vady_th进行比较，并将和信号xvad(n)与预定和阈值vadx_th进行比较。如果和信号yvad(n)的当前值大于预定和阈值vady_th，则将标志vad_y(n)(其可以被认识是更新后和信号yvad(n))设定为第一逻辑状态，例如‘1’(一)。否则，将标志vad_y(n)设定为另一个逻辑状态，例如‘0'(零)。如果和信号xvad(n)的当前值大于预定和阈值vadx_th，则将标志vad_x(n)(其可以被认识是更新后和信号xvad(n))设定为第一逻辑状态，例如‘1’(一)。否则，将标志vad_x(n)设定为另一个逻辑状态，例如‘0'(零)。

将比较器块508y和508x的输出信号(即，标志vad_y(n)和vad_x(n))传递到语音活动/停顿检测(vad/spd)计时器块509y和509x，所述计时器块检测标志vad_y(n)和vad_x(n)是否为‘0’。在时间n，如果标志vad_y(n)为‘0’，则vad计时器块509y将计数tvad_y(n)设定为tvad_y(n-1)-1，即，将前一计数tvad_y(n-1)递减一。如果为否，则将计数tvad_y(n)重置为初始化值vadytimerinit。将vad计时器块209y的输出(即，计数tvad_y(n))传递到语音活动检测(vad)块210y，其中将计数tvad_y(n)与预定阈值(例如，零)进行比较。如果当前计数tvad_y(n)大于预定阈值(零)，则将标志vady(n)设定为‘1’，否则为‘0’。类似地，如果标志vad_x(n)为‘0’，则vad计时器块509x将计数tvad_x(n)设定为tvad_x(n-1)-1，即，将前一计数tvad_x(n-1)递减一。如果为否，则将计数tvad_x(n)重置为初始化值vadxtimerinit。将vad计时器块209x的输出(即，计数tvad_x(n))传递到语音活动检测(vad)块210x，其中将计数tvad_x(n)与预定阈值(例如，零)进行比较。如果当前计数tvad_x(n)大于预定阈值(零)，则将标志vadx(n)设定为‘1’，否则为‘0’。vadx(n)＝1在此表示近端讲话者处于活动状态。vadx(n)＝0表示近端讲话者未处于活动状态。vady(n)＝1在此表示远端讲话者处于活动状态。vady(n)＝0表示远端讲话者未处于活动状态。

在如图5b中部分所示的言语调平系统中，增益控制块517包括言语均方根(rms)电平确定块518，所述rms电平确定块接收输出信号outtfe(n)、标志vad_y(n)、标志vad_x(n)和平滑rms信号的前一样本srms(n-1)。言语rms电平确定块518输出信号inrms(n)。如果标志vad_x(n)为‘0’并且标志vad_y(n)为‘1’，则信号inrms(n)等于输出信号outtfe(n)，否则将其设定为平滑rms信号的前一样本srms(n-1)的值。信号inrms(n)进行任选地利用初始均方根(rms)值rmsinit_db的后续最大绝对值(maxabs)确定(计算)。将maxabs确定中输出的值供应给平滑块519，所述平滑块提供平滑rms信号srms(n)。一方面，将平滑rms信号srms(n)延迟一个样本以生成平滑rms信号的前一样本srms(n-1)(其被反馈到言语rms电平确定块518)，并且另一方面供应给增益确定块520，其中根据参考电平reflevel与平滑rms信号srms(n)之间的比率来生成增益控制信号gain(n)。

在任选的增益限制块521中，将增益控制信号gain(n)与参考值maxvadgain进行比较。结果，如果增益控制信号gain(n)大于参考值maxvadgain，则将增益限制块521的输出信号(是受限的增益控制信号gain'(n)且可以被认为是更新后增益控制信号gain(n))设定为参考语音活动值maxvadgain，否则设定为增益控制信号gain(n)。在本示例中，将受限的增益控制信号gain'(n)供应给言语停顿检测(spd)增益限制块522，所述spd增益限制块进一步接收标志vady(n)和vadx(n)以及参考言语停顿值maxgain。如果在时间n，标志vadx(n)为‘0’并且标志vady(n)为‘1’，则将最终增益控制信号gain"(n)(其可以被认为是更新后增益控制信号gain'(n))设定为参考值maxgain，否则设定为受限的增益控制信号gain'(n)。最终增益控制信号gain"(n)在其控制可控增益块523之前可以任选地通过平滑滤波器块(未示出)随时间进行平滑化。增益块523经由任选的延迟块524被供应输入信号outtfe(n)并且输出所述输出信号out(n)，所述输出信号可以由任选的峰值限幅器225进行处理以提供受限的输出信号outl(n)。

在图5中所示的系统中，两个相同或不同的调谐集可以用于确定语音活动检测标志vady(n)和vadx(n)。然而，这两者都基于频谱snr值。例如，为了确定语音活动检测标志vady(n)而对snr阈值vadysnrth使用的值可以高于为了确定语音活动检测标志vadx(n)而对snr阈值vadxsnrth使用的值。一方面，这允许仅在确保在远端存在言语的情况下才相应地设定语音活动检测标志vady(n)，因此施加高阈值，并且另一方面，仅在没有言语时才相应地设定语音活动检测标志vadx(n)。这可以通过将相应的snr阈值设定为较低值使得即使模糊的言语部分也会导致检测到言语活动且因此避免错误设定语音活动检测标志vadx(n)来实现。此外，确定超过给定信噪比阈值vadysnrth和vadxsnrth的频谱分量(线)的数量(对标志进行计数或相加)，并且分别将随之发生的数量yvad(n)和xvad(n)与阈值vady_th和vady_th进行比较。随之发生的时变语音活动检测标志vad_y(n)在其初始计时器值vadytimerinit已过期时将被设定为‘0’，以及随之发生的时变语音活动检测标志vad_x(n)在其初始计时器值vadxtimerinit已过期时将被设定为‘0’。

如果时变vad标志vad_y(n)为‘1’，即，仅在远端的活动言语序列中，而vad_x(n)为"0"，即，仅在近端的言语停顿序列中，则将确定输出信号outtfe(n)的rms值或可选地最大绝对峰值。否则，将平滑言语rms值的前一样本srms(n-1)传递到平滑滤波器519。为了避免非所需的瞬变效应，可以通过适当选择的初始化值rmsinit_db来任选地将rms确定初始化。例如可以使用具有相对较长的平滑时间常数τ的无限脉冲响应(iir)低通滤波器作为平滑滤波器。通过采取言语输出信号的所需参考rms值(即，参考电平reflevel或可选地参考峰值电平refpeaklevel)与该平滑滤波器的输出信号(即，srms(n))的比率来确定(计算)当前增益值gain(n)，使得增益gain(n)＝reflevel/srms(n)。

此外，如上文已经描述，可以对值maxvadgain施加增益值gain(n)的最大值的任选限制，以便避免连续放大非常小的输入信号。因此，如果gain(n)＜gainvadmax，则增益值gain′(n)＝gain(n)，否则，增益值gain′(n)＝maxvadgain。可以任选地施加增益值的又另一限制，所述限制可以在例如免提应用中用作电平补偿器并且可以由时变语音活动检测标志vady(n)和/或vadx(n)控制。由此，如果语音活动检测标志vadx(n)呈现‘0’并且语音活动检测标志vady(n)呈现‘1’，则增益值gain'(n)将减小到给定极限maxgain。否则gain”(n)＝gain'(n)。

利用所描述的系统，可以安全地感测言语停顿，且因此将所需选通施加于增益值gain(n)。主要挑战是一旦言语(来自近端讲话者)再次处于活动状态，这种选通阶段就会足够快。如果不能保证这一点，则可能会发生设定开启的言语的开头部分无法按要求放大，且因此言语识别系统或听众(远端讲话者)都无法理解。避免这种情况的一种方式是使用快速反应的语音活动检测和/或言语停顿检测。这可以通过使用不平滑的瞬时rms值来实现，所述瞬时rms值将与给定阈值进行比较以作为判定的一部分。如果这还不够，则可以在将当前增益g施加于输入信号之前将输入信号任选地延迟一帧或几帧。

现在参考图6，它是在图5中示出并以一些修改结合图5描述的系统。从图6a中特别可以看出，基于来自多个时间平滑块503y和503x的平滑信号以及来自多个噪声估计块504y和504x的估计的准稳态背景噪声信号，可以确定(计算)snr的变化，例如作为在对应的后续snr计算块601y和601x中的snr值的频率分布。使用snr的变化，可以将噪声与所需言语或音乐信号区分开。例如，低snr值可以与各种噪声源(诸如空调、风扇、开窗或电气装置(诸如计算机)等)有关。可以在时域中或在频域中或在子频带域中评估snr。在代替图5中所示的块506y和506x的多组比较器块602y和602x中，分别将由多组snr确定块601y和601x确定的输出snr值与预定阈值(例如，snr阈值vadsnrth和snr阈值spdsnrth)进行比较。

如果由块601y提供的确定的当前snr值大于预定阈值vadsnrth，则将标志vadsnrflag设定为第一逻辑值，例如‘1’。否则，将标志vadsnrflag设定为第二逻辑值，例如‘0’。将来自多个比较器块602y的标志传递到求和块507y。求和块507y将来自多个比较器块602y的频谱标志vadsnrflag求和，并输出时变和信号svad(n)。将和信号svad(n)传递到比较器块508y，其中将和信号svad(n)与预定和阈值vadth进行比较。如果和信号svad(n)的当前值大于预定和阈值vadth，则将标志s'vad(n)(可以被认为是更新后和信号svad(n))设定为第一逻辑状态，例如‘1’。否则将标志s'vad(n)设定为另一个逻辑状态，例如‘0’。如图5中所示操作块509y和510y，其中vadytimerinit＝vadtimerinit，vad_y(n)＝svad(n)，tvady＝tvad和vady(n)＝vad(n)。

如果由块601x提供的确定的当前snr值大于预定阈值spdsnrth，则将标志spdsnrflag设定为第一逻辑值，例如‘1’。否则，将标志spdsnrflag设定为第二逻辑值，例如‘0’。将来自多个比较器块602x的标志传递到求和块507x。求和块507x将来自多个比较器块602x的频谱标志spdsnrflag求和，并输出时变和信号sspd(n)。将和信号sspd(n)传递到比较器块508x，其中将和信号sspd(n)与预定和阈值spdth进行比较。如果和信号sspd(n)的当前值大于预定和阈值spdth，则将标志s'spd(n)(其可以被认为是更新后和信号sspd(n))设定为第一逻辑状态，例如‘1’(一)。否则将标志s'spd(n)设定为另一个逻辑状态，例如‘0’(零)。如图5中所示操作块509x和510x，其中vadxtimerinit＝spdtimerinit，vad_x(n)＝sspd(n)，tvadx＝tspd和vadx(n)＝spd(n)。

特别参考图6b，可以将图5中所示的块518修改为由块603代替块518，其中将标志vad(n)与1进行比较，并且如果其等于1，则将inrms(n)设定为outtfe(n)。否则，将inrms(n)设定为srms(n-1)。至于其余的块518和603是相同的。块519-525以图5中结合块518所示的方式连接到块603的下游，其中vadx(n)＝spd(n)和vady(n)＝vad(n)。

图7示出了图6中示出和以一些修改结合图6描述的系统，其中分开的频率信号信道被显示为一个多信号信道连接(被描绘为粗线)。从图7a特别可以看出，在时间-频率变换块502y的上游增加了提供时间信号延迟的延迟块700，同时省略了图5中所示的延迟块500。此外，添加了从snr计算块601x的输出延伸到乘法器块702的多信道信号路径701。多信道信号路径701包括多信道除法器块703，所述多信道除法器块接收从远端接收的信号inffe(n)的每个频率的信噪比snrffe(ω)，并将这些信噪比snrffe(ω)除以snr阈值snrffeth以提供多信道掩蔽信号maskffe(ω)。这些掩蔽信号maskffe(ω)在多信道比较块704中与1进行比较，比较块在相应的掩蔽信号maskffe(ω)大于1时将掩蔽信号maskffe'(ω)设定为1，否则设定为相应的掩蔽信号maskffe(ω)。然后将掩蔽信号maskffe'(ω)在多信道加法器块505中增加1以提供多信道掩蔽信号maskffe”(ω)。将多信道掩蔽信号maskffe”(ω)在多信道比较器块706中与最小掩蔽阈值minmaskffe进行比较，所述多信道比较器块输出多信道掩蔽信号maskffe”'(ω)。每个频率的多信道掩蔽信号maskffe”'(ω)(被供应给多信道乘法器块702)在多信道掩蔽信号maskffe”(ω)相应的掩蔽信号maskffe”(ω)大于最小掩蔽阈值minmaskffe时都是固定值mindspdmask，否则为掩蔽信号maskffe”(ω)。

此外，多信道舒适噪声生成(例如，计算)块707已经被添加到系统。多信道舒适噪声生成(例如，计算)块707从噪声估计块504y接收多信道估计噪声信号noisetfe(ω)并从块510y接收标志vad(n)。此外，舒适噪声生成块707接收最小噪声阈值mincf、最大噪声阈值maxcf和比例因子scalecf。舒适噪声生成块707生成噪声信号，所述噪声信号例如通过插入在可控增益块523与任选的限幅器块525之间的加法器块708而被加到输出信号out上。舒适噪声生成块707产生将被呈现给听众的更令人愉快或自然的噪声。

已经出于说明和描述的目的而呈现了对实施例的描述。可以根据以上描述执行或可以通过实践方法获得实施例的合适的修改和变化。例如，除非另外指出，否则所述方法中的一种或多种可以由合适的装置和/或装置组合来执行。所述方法和相关联的动作也可以按照除本申请中所述的顺序之外的各种顺序、并行地和/或同时地执行。所述系统本质上是示例性的，并且可以包括附加的元件和/或省略元件。

如本申请中所使用的，以单数形式列举并且前面带有单词“一个(a或an)”的元件或步骤应当被理解为并不排除多个所述元件或步骤，除非指出这种排除情况。此外，对本公开的“一个实施例”或“一个示例”的参考并非意图解释为排除也包含所列举特征的附加实施例的存在。术语“第一”、“第二”和“第三”等只用作标签，而不意图对其宾语施加数字要求或特定位置顺序。

本公开的实施例总体上提供了多个电路、电气装置和/或至少一个控制器。对电路、至少一个控制器和其他电气装置以及由每个提供的功能性的所有提及并不旨在限于仅包含本文所示和所述的内容。尽管可以将特定标签分配给所公开的各种电路、一个或多个控制器和其他电气装置，但是此类标签并不旨在限制各种电路、一个或多个控制器和其他电气装置的操作范围。这样的一个或多个电路、一个或多个控制器和其他电气装置可以基于所需的特定类型的电气实现方式彼此组合和/或以任何方式分离。

应认识到，任何控制器或信号处理器可以包括任何数量的微处理器、集成电路、存储器装置(例如，flash、随机存取存储器(ram)、只读存储器(rom)、电可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或其的其他合适的变型)和软件，它们彼此协作以执行本文公开的一个或多个操作。另外，任何控制器或信号处理器利用任何一个或多个微处理器来执行体现在非暂时性计算机可读介质中的计算机程序，所述非暂时性计算机可读介质被编程为执行所公开的任何数量的功能。此外，如本文中提供的任何控制器包括壳体和定位在壳体内的不同数量的微处理器、集成电路和存储器装置((例如，flash、随机存取存储器(ram)、只读存储器(rom)、电可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom))。如所公开的一个或多个控制器还包括基于硬件的输入和输出以分别从如本文中讨论的其他基于硬件的装置接收数据以及向其传输数据。

尽管已描述了本发明的各种实施例，但是对于所属领域普通技术人员来说明显的是，在本发明的范围内，更多的实施例和实现方式是可能的。具体地，技术人员将认识到来自不同实施例的各种特征的可互换性。尽管在某些实施例和示例的背景中已公开了这些技术和系统，但是应当理解，这些技术和系统可以超出具体公开的实施例而扩展到其他实施例和/或其用途和明显修改。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M.克里斯托夫
技术所有人：哈曼贝克自动系统股份有限公司
我是此专利的发明人