用于提供通知的多信道语音存在概率估计的装置和方法

文档序号:8460802阅读:384来源:国知局
用于提供通知的多信道语音存在概率估计的装置和方法
【技术领域】
[0001] 本发明涉及音频信号处理,尤其涉及一种用于提供通知的多信道语音存在概率估 计的装置和方法。
【背景技术】
[0002] 音频信号处理变得越来越重要。特别是,在许多人机接口和通信系统中对免提语 音捕捉有需要。内置声学传感器通常会接收到所需声音(例如,语音)和不需要的声音(例 如,环境噪声,干扰语言,混响和传感器噪声)的混合。由于不需要的声音降低了所需声音 的质量和清晰度,因此声学传感器信号可被处理(例如,过滤和求和)以提取出所需的源信 号或,换句话说,减少不需要的声音信号。为了计算这种滤波器,通常要求对噪声功率谱密 度(PSD)矩阵的精确估计。在实践中,噪声信号是不可观察的并且其PSD矩阵需要从带有 噪音的声学传感器信号中估计。
[0003] 单信道语音存在概率(SPP)估计器已经被用于估计噪声PSD (见,例如【1-5】)并 且控制降噪和语音失真之间的权衡(见,例如【6, 7】)。多信道后验SPP最近已经用于估计 噪声PSD矩阵(见,例如【8】)。另外,所述SPP估计可用于减低设备的功耗。
[0004] 在下文中,将考虑在多信道语音处理中行之有效的信号模型,其中M-元素阵列的 每个声学传感器捕获所需信号和不需要的信号的累加混合。在第m个声学传感器接收到的 f目号可在如下时间 -频率域中描述:
[0005] Ym (k, n) = Xm (k, n) +Vm (k, n), (1)
[0006] 其中Xm(k,n)和Vm(k,n)分别表示第m个声学传感器的所需源信号和噪声分量的 复频谱系数,并且n和k分别为时间和频率指数。
[0007] 所需信号可以,例如,在整个麦克风空间地相干,并且噪声的空间相干性可以,例 如,遵循理想的球形各向同性声场的空间相干性,见【24】。
[0008] 换句话说,例如,Xm(k,n)可表示在第m个声学传感器的所需源信号的复频率系数, V m(k,n)可表示在第m个声学传感器的噪声分量的复频谱系数,n可表示时间指数,并且k 可以表示频率指数。
[0009] 观察到的嘈杂声学传感器信号可写成矢量符号:
[0010] y(k,n) = [Yjk,n)…YM(k,n)]T (2)
[0011] 并且y(k,n)的功率谱密度(PSD)矩阵被定义为
[0012] ① yy(k,n) = E{y(k,n)yH k,n)}, (3)
[0013] 其中上标H表示矩阵的共轭转置。矢量x(k,n)和v(k,n)以及矩阵〇xx(k,n)和 〇 yy(k,n)也被类似地定义。所需的和不需要的信号被假定为互不相关和为零平均值,使得 式⑶可写为:
[0014] 〇yy(k, n) = 〇xx(k, n)+〇vv(k, n) (4)
[0015] 以下标准的假设被引入在给定的时间频率点中关于所需信号(例如,语音信号) 的存在:
[0016] H0(k,n) :y(k,n) = v(k,n)表示语音不存在,并且
[0017] Hjk,n) :y(k,n) = x(k,n)表示语音存在。
[0018] 它可以,例如,理解为估计条件后验SPP,例如,pliHjk,n)] |y(k,n)。
[0019] 假定将阵列的第i个麦克风作为参考,它可以,例如,理解来估计所需信号Xjn, k) 〇
[0020] 假设所需的和不需要的分量可被建模为复多元高斯随机变量,多信道SPP估计由 下式给出(见【9】): 「00211
【主权项】
1. 一种提供语音概率估计的装置,包括: 第一语音概率估计器(110 ;210 ;310),用于估计表示场景的声场是否包括语音或所述 场景的所述声场是否不包括语音的第一概率的语音概率信息,以及 输出接口(120 ;220),用于根据所述语音概率信息输出所述语音概率估计, 其中,所述第一语音概率估计器(110 ;210 ;310)被配置为至少基于关于所述声场的空 间信息或所述场景的空间信息估计第一语音概率信息。
2. 根据权利要求1所述的装置, 其中,所述装置进一步包括第二语音概率估计器(215 ;315),所述第二语音概率估计 器用于估计表示所述声场是否包括语音或所述声场是否不包括语音的第二概率的语音概 率信息, 其中,所述第二语音概率估计器(215 ;315)被配置为基于所述第一语音概率估计器 (110 ;210 ;310)估计的语音概率信息以及基于取决于所述声场的一个或多个声学传感器 信号,来估计所述语音概率估计。
3. 根据权利要求1或2所述的装置, 其中,所述第一语音概率估计器(110 ;210 ;310)被配置为基于方向性信息估计语音概 率信息,其中所述方向性信息表示所述声场的定向声音是怎样的, 其中,所述第一语音概率估计器(110 ;210 ;310)被配置为基于位置信息估计语音概率 信息,其中所述位置信息表示所述场景的声源的至少一个位置,或者 其中,所述第一语音概率估计器(110 ;210 ;310)被配置为基于接近度信息估计语音概 率信息,其中所述接近度信息表示至少一个可能声音对象到至少一个接近度传感器的至少 一个接近度。
4. 根据前述权利要求中任一项所述的装置,其中,所述第一语音概率估计器(110 ; 210 ;310)被配置为通过确定直接扩散比率的直接扩散比率估计作为所述空间信息,来估 计语音概率估计,所述直接扩散比率表示所述声学传感器信号中包括的直达声与所述声学 传感器信号中包括的扩散声的比率。
5. 根据权利要求4所述的装置, 其中,所述第一语音概率估计器(110 ;210 ;310)被配置为通过确定所述声学传感器信 号中的第一声学信号和所述声学传感器信号中的第二声学信号之间的复相干性的相干性 估计,来确定所述直接扩散比率,其中所述第一声学信号由第一声学传感器P记录,所述第 二声学信号由第二声学传感器q记录,并且 其中,所述第一语音概率估计器(110 ;210 ;310)还被配置为基于所述第一声学信号和 所述第二声学信号之间的直达声的相移的相移估计,来确定所述直接扩散比率。
6. 根据权利要求5所述的装置, 其中,所述第一语音概率估计器(110 ;210 ;310)被配置为通过应用以下公式来确定所 述第一声学信号和所述第二声学信号之间的所述直接扩散比率估计?.?):
其中,是关于时间频率点(k,n)的所述第一声学信号和所述第二声学信号之 间的复相干性的相干性估计,其中n表示时间,并且其中k表示频率, 其中,0 (k,n)为关于时间频率点(k,n)的所述第一声学信号和所述第二声学信号之 间的直达声的相移的相移估计,并且 其中,Fpq,diff(k)对应于纯扩散声场中的声学传感器P和声学传感器q之间的空间相 干性。
7. 根据权利要求
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1