用于自动语音识别(asr)的自适应的基于相位差的噪声消减的制作方法

文档序号:9713665阅读:647来源:国知局
用于自动语音识别(asr)的自适应的基于相位差的噪声消减的制作方法
【专利说明】用于自动语音识别(ASR)的自适应的基于相位差的噪声消减
【背景技术】
[0001] 在诸如语音识别以及自动电话会议之类的各种应用中,语音信号可能遭噪声污 染,所述噪声可包括高斯噪声、语音噪声(不相关的对话)和混响。已知用于识别音频信号中 说出的单词的自动语音识别(ASR)系统。ASR技术使配备了话筒的计算设备能够解释语音, 并且由此提供人到计算机的输入设备(诸如,键盘或小键盘)的替代方案。
[0002] ASR的准确性在噪声条件下降级。例如,如果在用户向机器说话时在背景中具有在 播放的收音机或在说话的人,则自动语音识别器的输出包含比在无声的背景的情况下导出 的输出多得多的误差。在此类环境中,由于信噪比可能是不足够的,因此语音识别是困难 的。此外,环境的噪声模型是未知的,并且它会取决于环境条件(例如,风、音乐、竞争的背景 对话等)而变化。
[0003] 噪声消减算法通过在音频信号被传递到语音识别器之前处理此音频信号来提高 噪声环境中的ASR精度。已提出了许多不同的噪声消减算法。用于语音增强的一种算法基于 话筒阵列的信道之间的相位差。然而,需要针对特定的应用来调谐此方法,并且此方法仅对 有限范围的噪声水平和类型作用良好。
[0004] 相应地,当在诸如智能电话或膝上型计算机之类的移动设备中采用语音识别器 时,语音增强必须克服高度变化的声环境。同时,对每一种噪声条件手动调节噪声消减算法 是不切实际的。
【附图说明】
[0005] 图1示出根据实施例的自适应的基于相位差的降噪系统;
[0006] 图2a-b是示出根据实施例的、从对于500Hz和1000Hz的固定TDoA产生的相位差的 频率依赖关系的曲线;
[0007] 图3示出根据实施例的、用于多于两个的话筒的基于相位的空间滤波;
[0008] 图4示出根据实施例的、使用对波束方向的动态调整的、用于两个话筒的基于相位 的空间滤波;以及
[0009] 图5示出根据实施例的、用于使基于相位差的降噪系统自适应的示例机器的框图。
【具体实施方式】
[0010] 用于自动语音识别(ASR)系统的噪声消减算法的实施例执行对当前的背景噪声水 平自适应的基于相位差的噪声消减。通过使用来自多个话筒的空间信息来估计信噪比 (SNR)并使用此SNR来噪声消减滤波器的相位差对增益因子的映射自适应,从而改善高度变 化的噪声条件和水平下的性能。也可以使用对相位差的依赖于频率的缩放以及单信道频谱 相减来改善用于ASR的噪声消减算法的实施例。
[0011] 图1示出了根据实施例的自适应的基于相位差的降噪系统100。在图1中,具有至少 两个话筒的话筒阵列的信号流和处理序列包括根据实施例的、用于处理多个块的块A-B 110,140以及用于扩展/修改的块C 150。
[0012]由信道dl6和信道2118表示的话筒112、114两者记录包括语音和噪声两者的信号。 噪声可能例如由在背景中谈话的第二人或来自墙的反射导致。由于话筒112,114位于不同 的位置处,因此话筒112,114中的每一个都在略微不同的时刻接收对应于不同的源的信号, 这对应于每一个源与每一个话筒112,114之间的不同的距离。例如,对于话筒112,114之间 的通常使用的例如7cm的间隔以及来自以相对于连接话筒112,114的线呈0°或180°的角度 的单个源的信号,到达时间差(TDoA)可以是约0.0002秒或0.2ms、或在16kHz的采样速率下 的3个样本。
[0013]基于相位差的方法利用不同的TDoA对应于信号相位的偏移这一事实。主扬声器 (来自扬声器位置)的相位差是已知的,而诸如背景扬声器之类的次级源可能会产生更小或 更大的相位差。正在将窗函数120应用于输入数据以准备此输入数据用于至频域的转换,例 如,可以使用Harm窗。随后,短时快速傅里叶变换(FFT)122将每一个话筒112,114的信号从 时域转换到频域。
[0014] FFT 122产生离散的复频谱;即,离散的频率处的实部和虚部、或频率元(bin)。对 于话筒112,114两者,在每一个频率元处,从复频谱估计相位,随后计算信道(即,信道dl6 与信道 2118)之间的相位差。对应于与对于主扬声器所预期的相位差显著不同的相位差的 频率元被衰减。反FFT 142将经增强的信号转换回时域。使用窗口函数144来使处理块之间 的过渡平滑,例如,可以使用重叠相加方法。
[0015] 图2a-b是示出根据实施例的、从对于500Hz和1000Hz的固定TDoA产生的相位差的 频率依赖关系的曲线200,250。在图2a中示出从对于500Hz的固定TDoA产生的相位差200。具 有相位0的500Hz的信号被示出为虚线220。具有45°相移的500Hz的信号通过暗实线222示 出。具有相位〇的500Hz的信号的周期230通过T (即,2JT)示出。
[0016]类似地,在图2b中,具有相位0的1000Hz的信号示出为暗实线270,并且具有90°相 移的1000Hz的信号通过虚线272示出。具有相位0的1000Hz的信号的周期280通过T(即,2JT) 示出。由于对于相同的TDoA,不同的频率具有不同的周期T,因此相位差(△ t/ T )240、290在 500和1000Hz下是不同的。
[0017]为了计算相位差误差161,对于每一个频率元,使用波束宽度、话筒布局(例如,距 离)、采样频率和处理块长度(例如,离散傅里叶变换长度),在先地计算可允许的相位差 (即,phaseThreshold(相位阈值))。术语"波束"表示主扬声器(即,目标语音的源)位于的区 域。噪声被假定为来自波束外部的区域。典型地,波束宽度被固定到大约20°。为简单起见, 在下文中假定,波束方向与连接话筒的线呈90°角。通过在下混频(downmixing)期间延迟话 筒信号并相应地利用计算出的偏移来调整相位差,可容易地支持任何其他波束方向。一般 而言,频率越高,可允许的相位差(△ t/T )240,290将越高。这与对于SNR与相位差之间的关 系导出的公式被呈现为与频率无关的一些学术论文相反。
[0018] 返回到图1,块C 150示出相位差152不被直接使用,而是被用来由相位差误差计算 器160基于经调整的相位差154来计算相位差误差161。对相位差误差161的计算基于从固定 的TDoA产生的相位差152是依赖于频率的观察。将相位差152提供至调整模块154,此调整模 块154调整频率元的相位差152。
[0019] 使用对频率元的相位差152的调整,由相位误差计算器160确定相位差误差161。如 下文中将示出的那样,相位差误差161可用于估计SNR并用于计算衰减因子。将用于每一个 话筒信号的FFT 122的输出提供至下混频器(d〇wnmixer)162。将下混频器162的输出164提 供至SNR估计器170和噪声减法器172。将来自衰减因子计算器180的计算出的衰减因子182 和噪声减法器172的输出提供至用于频率元的衰减器184。随后,应用IFFT142和窗函数144 来产生干净的信号146(具有根据实施例的减小的噪声的信号)。
[0020] 为了确定相位检测器130,132的相位差152,通过使用虚部XL和实部X R计算反正切 来确定左信道和右信道PhL和PhR的相位,其中,XL和XR表示频域中左信道和右信道的信号 (例如,信道U16和信道 2118)。正在将复频谱从实部和虚部转换为极表示(即,相位和幅度)。
[0021] 计算左信道PhL与右信道PhR之间的相位差152,例如,Ph L-PhR。在相位调整模块154 处调整相位差152,例如,340°-20°。对于大于π的相位差152的调整等于-2JT+大于π的相位 差。对于小于-π的相位差的调整等于2JT+小于-π的相位差。随后,计算相位差152的绝对值。
[0022] 相位差误差161等于相位差152的绝对值除以每一个频率元的可允许的相位差再
并且如果此值小于零,则它被更改为零。在此操作(即,测量到的相 位差除以相位阈值)之后,获得对于波束内部的频率元的〈1的值以及波束外部的那些频率 元的>1的值。相位差被按比例缩放以匹配每一个频率元的信道之间的到达时间差,并且允 许当波束内部的相位差误差等于〇时在所定义的波束的差异。从相位阈值中减去1并将负值 卡箝位到零确保了波束内部的频率元保持未衰减,即,对于那些频率,相位差误差161被设 置为0。
[0023]下列处理步骤基于由下混频器162从两个输入信道(即,信道dl6和信道2118)中生 成的单信道(单声道)信号。单声道信号164可以通过任何合适的波束成形方法来生成。对于 90°波束方向,实现它的最简单的可能方式是平均输入信号。在频域中,将通过Xn来表示来 自下混频器的单声道信号164。
[0024] 估计当前的信噪比(SNR)171,并且估计出的SNR 171可以用于噪声减法器172并用 于使衰减因子计算器180自适应。SNR估计器170的示例实现基于波束外部的能量(即,噪声) 与波束内部的能量(例如,诸如语音之类的目标信息)的比率的计算。对于大于零的相位差 误差161,确定经下混合的信号Xn164的幅度,这是波束外部的频率元的幅度,向量outS。随 后,瞬时噪声能量(NE)计算为outS乘转置的outS(点积)。时刻t的时间平均的噪声能量估计 (TANEt)被计算为:
[0025] TANEt= (l-α) TANEt-ι+α*ΝΕ
[0026] 在优
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1