包括低延时声源分离单元的听力装置的制造方法_4

文档序号:9728473阅读:来源:国知局
算法应用于短输入数据帧,同时滤波器权重通过检查更长的 先前的时间上下文建立。由于两个不同的帧大小用于收集时域数据进行处理,跨附加模型 中使用的成对字典存在两个不同的原子长度(例如分别参见图3A-3C中的S dl和a dl)。因 而对于每一声源,产生分开的用于分析和重构的字典。
[0136] 输入音频混合信号按基于帧的方式进行分析和处理,具有从每一时域帧得到的特 征向量。分离通过用组分模型表示特征向量进行,其中每一字典中的原子非负地总计以逼 近混合信号内的声源的谱特征。因此,各个字典原子具有与从混合信号形成的特征向量一 样的尺寸,这些原子在字典内容方面进行分析或滤波。
[0137] 为清晰起见,时域帧长度和从它们得到的特征向量在下面定义(总的来说,变量 总结在【附图说明】部分末尾的符号表中)。我们将为分离声源重构目的进行处理的帧数据称 为长度为L的合成帧S t。保持先前输入的音频样本的长度为A的分析缓冲器y (其中A>L) 并称为"分析帧"。滤波器从其将应用于处理帧的时间上下文可从分析缓冲器得到。此外, 分析和合成缓冲器中的任意一个或二者可进一步细分。
[0138] 在实施例中,分析特征向量y通过取具有50%重叠的长度L的分析子帧的DFT的 绝对值(参见图2中的I DFT I )并将所得的(2 (A/L) - 1)子帧输出级联为单一特征向量 而从y形成。该向量有效地描述过去的A个音频样本期间存在的频率的量值(参见图2)。 为清晰起见,假定sJP a t中的子帧具有相同大小。a ,中的子帧确实不需要与s ,具有一样 的长度。复值频域合成向量s通过仅取¥中的实值数据的DFT结果的正频率而形成,从而 具有长度(L/2)+l。s在每一帧输出处滤波以产生分离声源估计量(参见图IB中的81和 S2) 〇
[0139] 对于基于附加模型的分离,通常针对混合信号中的每一扬声器学习原子字典(参 见图IB中的DIC-SjP DIC-S2)。本发明中提出对每一讲话者使用成对字典(参见图3A-3C), 藉此,较长的分析原子字典(图3A-3C中,a dl,i = 1,2, ···,%)与用于声源重构的较短的合 成原子字典(图3A-3C中,sdl,i = 1,2, ···,%) -起产生。
[0140] 明确地,在两讲话者混合模型中,可有利地使用一字典A用于分析及一字典R用于 重构。每一字典包括如等式3中指明的讲话者特有区域。针对声源η培训的字典部分由下 标η表示,如A n,因而:
[0141] A = [A1A2]
[0142] 等式(7)
[0143] 及
[0144] R = [R1R2]
[0145] 等式(8)
[0146] 每一字典中的第k个原子与交替字典中同样指数处的原子联系(例如参见图 3A-3C中从S dl到a dl的点线),如下面的表达式所示:
[0147] R;,i?c ^ A.)fe
[0148] 等式(9)
[0149] 事实在于,其中每一个从培训数据的类似部分获得(分析原子adl从比合成原子 sdl长的先前上下文取得)。记法R、k(A、k)指字典R(A)的第k列。
[0150] 实际的字典原子产生过程类似于图2中所示特征向量产生的过程。分析字典原子 通过与产生特征向量y -样的处理获得。重构字典原子与s类似地产生,除了保存DFT结 果的实值绝对值以外,与每一 s中存在的复值结果相反。
[0151] A中的原子从长度为A的时域数据形成,同时L个音频样本用于形成重构字典R中 的原子。A中的原子用于估计应用于R中的原子的权重,以形成应用于复值合成帧s的频域 维纳滤波器(参见图IB中的滤波器单元S-FIL。)
[0152] 分析通过学习权重w进行,其使分析向量y和来自字典A的原子的加权和之间的 KL发散最小化(等式10)。
[0155] 在实施例中,采用有效集牛顿算法(ASNA)(参见图6、7)找到最佳解决方案,这是 因为其快速的计算时间和有保证的收敛,尽管基于NMF的方法也可同等地使用。其还可相 较基于GPU的处理器体系结构提供速度优势。
[0156] 学习的权重w应用于字典R中的对应成对字典原子以形成重构维纳滤波器。滤波 器在每一帧处理步骤应用于合成向量s,使得对于每一合成帧,重构第η个分离声源:
[0158] 等式(11)
[0159] 分离的时域声源通过产生Sn的复共辄并对将要叠加和重构为连续时间输出的每 一帧执行逆DFT而重构。
[0160] 图IA示出了两个音频源S1, S2的环境混合(mix)为由传声器(或传声器系统如传 声器阵列)拾取并转换为电数字化信号及保存在两个缓冲器中的公共声场,其中分析缓冲 器B t至少与合成缓冲器s t-样长。图IB示出了基于每一声源S JP S 2的根据本发明的预 先学习的分析和合成(重构)字典DIC-SjP DIC-Sj^、具有两个声源(如两个话音)的声 源分离原理。
[0161] 在图IA中,声源S1, 52的混合信号由声音信号IN表不,其由输入变换器(在此为 传声器)MIC拾取。模拟电输入信号在模数转换器AD中以预定采样频率匕如20kHz进行 采样从而将数字音频样本作为相对较长的分析帧at (包括A的音频样本)和相对较短的合 成帧St (包括L〈A个音频样本)提供给循环分析和合成缓冲器BUF。在时刻tn所得的数字 化电输入信号X在图1A-1B中记为x(t n)。
[0162] 在图IB中,分析和合成缓冲器alP s t的数字化电输出信号,分别为信号a(tn)和 s (tn),馈给声源分离单元SSU以分离电输入信号s (tn)从而提供表示两个声源S1, S2的分离 信号Sl,S2。声源分离单元SSU配置成考虑数据库的分析字典A 1, A2中的原子确定最后A个 音频样本的最佳表示W,并通过使用从分析字典A1, ^确定的最佳表示W组合数据库的相应 合成(重构)字典R1, R2中的原子而产生至少两个声源信号s i,S2。声源分离单元SSU包括 合成滤波器S-FIL,用于使用滤波器更新单元FIL-IPD提供的滤波器权重W 1从电输入信号 S (tn)产生两个分离声源信号S1, S2。最后L个输入音频样本转发给S-FIL并非必须,但使 S-FIL单元能将分离的输出与当前输入进行比较。
[0163] 从DIC-S1, DIC-S2到滤波器更新单元FIL-UPD的箭头指示分析和合成原子从源字 典DIC-S1, DIC-S2传给滤波器更新单元。分析原子(在滤波器更新单元中)用于找到权重。 权重与对应的合成原子一起使用并传给滤波器单元S-FIL以产生声源分离信号 Sl,s2。
[0164] 图2示出了根据本发明的声源分离方案的学习过程部分的实施例。该声源分离方 案基于组分模型(例如参见等式(1))和包括将要分离的每一声源(如来自不同人的语音) 的基本元素的成对字典R 1, A1,例如所涉及声源的谱特征向量形式。在图2中,示出了针对声 源S1的分析和合成(重构)字典A ^R1的产生。特定合成帧s1D(tn)的内容(在此在时间tn 取得,但其为要紧的时间帧内容,而非其大部头索引)通过DFT单元(DFT)变换到频域从而 提供频域原子s1D(f,t n),如合成(重构)字典R1中的Sldl (例如参见图3B)。同样,特定分 析帧a1D (tn)的内容(在此通过重叠子帧a11D (tn),a12D (tn),a13D (tn)表示)通过相应DFT单 元(I DFT I )变换到频域并通过组合单元COMB组合为频域原子a1D(f,tn),例如分析字典 A1中的aldl (例如参见图3B)。
[0165] 图2示出了根据本发明的分析和合成缓冲器的学习过程的实施例。在图2中不 发生声源分离。学习程序优选在听力装置正常使用之前进行。每一数据库中关于"原子指 数"i = 1,2,···,ND1 (其中ND1为声源S1的字典A ^ R1中的(成对)原子的数量)的元素号 (跨字典原子(sldl, sld2,…,sldnD1)和(aldl, a2d2,…,aldnD1))不意味着时间依存。在另一步骤 (未示出)中,"K平均"或其他数据减小方法(聚类分析)应用于数据库中的元素。
[0166] 合成缓冲器St的长度L示为但不需要与分析缓冲器的重叠子帧a 11D,a12D,a13D的长 度一样。优选在子帧之间具有一定重叠以使从一帧到下一帧的非自然信号最小化(当谱分 析形成声源分离的一部分时)。在图2所示的例子中,长度为L个音频样本的三个个别帧与 分析缓冲器中的其每一相邻帧具有50%重叠。
[0167] 在不损失一般性的情形下,也可能以与分析缓冲器类似的方式将合成缓冲器细分 为重叠的帧。
[0168] 当合成帧比20ms短时,进一步预期,声源分离性能的提高通过使用比合成帧长的 分析帧实现。总的来说,使用较大的字典相比较短的帧产生更好的分离性能,就像使用较长 的重构窗口一样。在优点通过使用比合成帧长的分析帧获得时,随着分析帧变得远远长于 合成帧,提高水平降低。对于特定合成窗口长度,最大的性能增加通常在分析窗口为2-4倍 长时实现。
[0169] 本申请的发明人注意到,使用两个字典(A,R)减少分离程序的时延。先前的方法 (例如Virtanen等,参考文献[6] + [7])仅使用一个字典因而不能实现同样的质量,即与下 面相同的20ms短时延。
[0170] 图3A-3C示出了根据本发明的成对字典(数据库)的三个实施例。具有相同指数 i的分析原子adl和合成原子s dl之间的联系通过点线垂直线指示(对于i = 1,2及NDt/NDf/ NDft,指示在分析原子adi和合成原子s di之间)。
[0171] 图3A示出了两个字典(A,R)的原子全部处于时域的实施例。合成(重构)字典 R由NDt个合成原子s dl组成,其由长度为L个音频样本的时域帧组成。合成原子s dl (i = l,2,NDt)的三个例子在该图的上部不出。分析字典A由NDt个分析原子adi组成,其由长度 为A个音频样本的时域帧组成。分析原子a dl(i = l,2,NDt)的三个例子在该图的下部示出。
[0172] 图3B示出了两个字典(A, R)的原子全部处于时频域的实施例。合成(重构)字 典R由Nm个合成原子Sdl组成,每一合成原子由长度为N s(Ns个频带)的频域谱组成。分析 字典A由Nm个分析原子a dl组成,每一分析原子由长度为N a (Na个频带,如对应于多个连续 时间帧的频谱,例如A/L)的频域谱组成。
[0173] 图3C示出了成对字典的原子部分处于时域(合成(重构)字典R)及部分处于时 频域(分析字典A)的实施例。合成(重构)字典R由N Dft个合成原子Sdl组成,其由长度 为L个音频样本的时域帧组成。合成原子sdl(i = l,2,NDt)的三个例子在该图的上部示出。 分析字典A由Nm个分析原子a dl组成,每一分析原子由长度为N a (Na个频带,如对应于多个 连续时间帧的频谱,例如A/L)的频域谱组成。
[0174] 在另一实施例(未示出)中,成对字
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1