语音清晰度预测器及其应用的制作方法

文档序号：2825032阅读：191来源：国知局

专利名称：语音清晰度预测器及其应用的制作方法
技术领域：
本申请涉及增强混噪语音的清晰度的信号处理方法。本申请尤其涉及测量受噪声影响时的目标语音信号的清晰度和/或被处理过或修正过的目标信号的清晰度的算法，及其各种应用。例如，该算法能够预测清晰度测试(即涉及一组听音者的听力测试)的结果。本申请还涉及一种音频处理系统，例如包含通讯设备的听音系统、如助听器的听音设备，助听器适于利用语音清晰度算法来改善由所讨论系统或者设备所接收或者处理的语音信号的感知度。本申请还涉及一种包含处理器和程序代码工具的数据处理系统，程序代码工具使处理器执行至少上述方法步骤的一部分，并还涉及存储程序代码工具的计算机可读介质。本申请可以用于如音频处理系统的应用中，例如听音系统、助听器系统。
背景技术：
下面的现有技术的说明涉及本申请的应用领域之一，助听器。语音处理系统，例如助听器中的语音增强方案或者清晰度改进算法经常引入弱化和修正以消除噪声语音信号。为了确定这些关于语音清晰度算法的效果，需要进行主观听力测试和/或客观清晰度测评 (0ΙΜ)。之前已经开发了这类方案，例如发音指数(Al)、语音清晰度指数(SII)(标准化为 ANSI S3. 5-1997)，或者语音传输指数(STI)。

发明内容
尽管刚刚提到的OIM适用于几种类型的弱化(例如，附加噪声、混响、过滤、剪切)，但是它们不适于噪声语音由时频(TF)加权处理的方法。为了更加详细地分析某些信号的弱化对语音清晰度的影响，OIM必须为简单结构，也就是明显易懂的。然而，一些OIM是基于针对某一数据组广泛训练的大量参数。这使得这些方法不够明显易懂，因而更不适于这些评估目的。另外，OIM通常为整个语音信号的长期统计的函数，并不用于本地短时TF区域的中间测量。采用这些方法措施，很难看出局部化的时频信号弱化对语音清晰度的影响。已经划分了下面三个可利用清晰度预测算法的基本领域1)仅有噪声信号时的在线优化清晰度(参见示例1)。2)目标和干扰信号分离时的在线算法优化清晰度(参见示例2)。3)离线优化，例如用于HA参数调整。在这种应用中，该算法可以替代具有人类主观性的听力测试(参考示例3)。在本文的上下文中，术语“在线”指的是在例如听音设备、听力仪器的音频处理系统在正常运行(一般为持续性地)过程中执行算法的情形，以将进入的声音处理为有利于终端用户。另一方面，术语“离线”指的是算法在调试过程中执行，例如根据用户的特定需求在软件算法的开发期间或者在设备的调试或装配期间执行。本申请的目标是提供替代的客观清晰度测量。另一目的是改善噪声环境中的目标信号的清晰度。
本申请的目的通过的权利要求中描述的以及如下描述的本发明来实现。一种提供语咅清晰度预测器倌的方法本申请的一个目标是通过提供语音清晰度预测器值的方法来实现，该语音清晰度预测器值用于当目标语音信号经过处理算法的处理和/或在噪声环境中接收时估算普通听音者理解目标语音信号的能力，该方法包括a)提供第一信号x(n)的时频表达式\ (m)，第一信号χ (η)表示多个频带和多个时刻中的目标语音信号，j为频带指数，m为时间指数；b)提供第二信号y(n)的时频表达式h(m)，第二信号为多个频带和多个时刻中的所述目标语音信号的噪声和/或处理过的所述目标语音信号；c)以第一和第二信号或者分别源自于它们的信号的时频表达式和y/(m) 的形式分别提供第一和第二清晰度预测输入；d)基于所述第一和第二清晰度预测输入提供时频依赖的中间语音清晰度系数 dj(m)；e)通过在J个频率指数和M个时刻上对所述的中间语音清晰度系数…(m)进行平均运算，计算最终的语音清晰度预测器d。这具有提供适于在时频环境中使用的客观清晰度测量的优势。术语“源自它们的信号”在本文的上下文中包括原始信号s的平均或者比例缩放 (例如归一化)或者剪切(clip)后的信号？，或者例如对原始信号进行非线性转换(例如对数或者指数函数)。在特定的实施例中，该方法包括确定代表音频的电信号是否包括语音信号(在给定的时间点上)。语音信号在本文中被视为包括来自人类的语音信号。还可包括由人类语音系统产生的其它形式的说话方式(例如唱歌)。在一个实施例中，语音活动检测(VAD)适于将用户的当前的听觉环境分为语音或者非语音环境。这样的优点在于可以辨别包括人的话语(例如语音)的电信号的时间段，因此能将其从只包括其它声源(例如人工产生的噪声)的时间段中分离开来。优选包含非语音活动的时间帧在其经过语音清晰度预测算法之前从信号中删除，以使算法只处理包括语音的时间帧。语音活动检测的算法例如在[4]和 [9]中讨论。在特定的实施例中，该方法包括在步骤d)中中间语音清晰度系数+(πι)为预定的 N个时间指数的平均值。在特定的实施例中，M大于或者等于N。在特定的实施例中，根据音素或者词或者句子的典型长度来确定时间指数的个数M。在特定的实施例中，M个时间指数对应于大于 100毫秒的时间，例如大于400毫秒，例如大于1秒，例如在200毫秒到2秒的范围内，例如大于2秒，例如在100毫秒到5秒的范围内。在特定的实施例中，时间指数数值M大于10，例如大于50，例如在10到200范围内，例如在30到100范围内。在一个实施例中，M为预先确定的。或者，M可动态地确定(例如，取决于语音的类型(短/长词、语言等等)).在特定的实施例中，信号S(Ii)的时频表达式s(k，m)包括在多个离散傅立叶变换 DFT块中由指数(k，m)定义的该信号的幅值和/或相位，其中k= 1，...，K表示频率值的数量K，m = 1，...，Mx表示时间帧的数量Mx，时间帧由具体的时间指数m和对应的K个DFT 块定义。例如如

图1所示，其可以是按时间帧排列的数字化信号的离散傅立叶变换的结果，每个时间帧包括在时间、=q*(l/fs)中的连续时间点处对输入信号(幅值)的多个数字化时间采样S,，q为采样指数，例如整数q = 1，2，...表示采样数量，fs为模数转换器的采样速率。在特定的实施例中，定义了具有子频带指数j = 1,2,...的J个子频带，每个子频带包括一个或者更多的DFT块，第j个子频带例如包括上限指数和下限指数分别为kl (j) 和k2(j)的DFT块，其限定了第j个子频带的下限和上限截止频率，具体的时频单元(j，m) 由具有的时间指数m和所述DFT块指数kl(j)-k2(j)限定，例如参考图1。在特定的实施例中，时刻m处的第j个时频单元的信号~的有效幅值由该时频单元中的信号的能量的平方根确定。信号s的有效幅值~可采用多种方式确定，例如利用滤波器组执行或者DFT实现。在特定的实施例中，时刻m处的第j个时频单元的信号~的有效幅值由下式定义
权利要求
1.一种提供语音清晰度预测器值的方法，该语音清晰度预测器值用于当目标语音信号经过算法处理和/或在噪声环境中接收时估算普通听音者理解所述目标语音信号的能力，该方法包括a)提供第一信号χ(η)的时频表达式\(m)，第一信号χ(η)表示多个频带和多个时刻中的目标语音信号，j为频带指数，m为时间指数；b)提供第二信号y(η)的时频表达式L (m)，第二信号y (η)为多个频带和多个时刻中的所述目标语音信号的噪声信号和/或处理过的所述目标语音信号；c)以第一和第二信号或者源自于它们的信号的时频表达式^c/(m)和y/(m)的形式的分别提供第一和第二清晰度预测输入；d)基于所述第一和第二清晰度预测输入提供时频依赖的中间语音清晰度系数Clj(Hl)；e)通过在J个频率指数和M个时间指数上对所述的中间语音清晰度系数…(m)进行平均运算，计算最终的语音清晰度预测器d ；其中，在给定时刻m的语音清晰度系数+ (πι)的计算式为
2.根据权利要求1所述的方法，其中M个时间指数对应于大于100毫秒的时间，例如大于400毫秒，例如大于1秒，例如在200毫秒至2秒的范围内，例如大于2秒。
3.根据权利要求1所述的方法，其中
4.根据权利要求1所述的方法，其中第二清晰度预测输入的有效幅值力(m)为所述第二信号关于所述目标信号的归一化形式，;其中归一化系数％给定为
5.根据权利要求4所述的方法，其中第二信号的归一化有效幅值为被剪切处理，以提供经剪切的有效幅值/」，其中
6.根据权利要求1所述的方法，其中m= m-N+l且N2 = m,以在中间语音清晰度系数 dj(m)的限定中包含当前的和之前N-I个时刻。
7.根据权利要求1所述的方法，其中通过对d应用逻辑转换，将最终的清晰度预测器d 转换为清晰度分数D'
8.一种改善听音者在噪声环境中对目标语音信号的理解的方法，该方法包括a)根据权利要求1的方法提供最终的语音清晰度预测器d；b)确定一组优化的时频依赖的增益&(m)。pt，其中当该增益应用至所述第一或第二信号或者源自它们的信号时，提供最大的最终清晰度预测器dmax ；c)将所述优化的时频依赖增益&(m)。pt应用至所述第一或第二信号或者源自它们的信号，从而提供改善信号h(m)。
9.根据权利要求8所述的方法，其中所述第一信号χ(η)同来自噪声环境的噪声混合，以混合信号ζ (η)的形式被提供给听音者。
10.根据权利要求8所述的方法，包括bl)对混合信号z(n)和第一信号x(n)的电表达式进行统计估算，dl)利用所述第一和混合信号的统计估算来估计所述中间语音清晰度系数Um)。
11.根据权利要求10所述的方法，其中对所述第一和混合信号的电表达式x(n)和 ζ (η)分别进行统计估算的步骤包括分别对第一和混合信号的基础时频表达式\(111)和 Zj(m)的概率分布函数进行估算。
12.根据权利要求10所述的方法，其中利用清晰度系数的统计学上的期望值D将最终的语音清晰度预测器最大化，其中
13.根据权利要求8所述的方法，其中将所述第一信号χ(η)作为单独的信号提供给听音者。
14.根据权利要求13所述的方法，其中将包括来自环境噪声的噪声信号w(n)提供给听音者。
15.根据权利要求14所述的方法，其中将所述噪声信号w(n)转换为表示来自环境中的噪声在听音者耳膜处的信号W' (η)。
16.一种语音清晰度预测器(SIP)单元，其适于接收表示目标语音的第一信号χ和作为目标语音信号的噪声和/或处理过的目标语音信号的第二信号1，并适于为所述第二信号提供语音清晰度预测器值d作为输出，该语音清晰度预测器单元包括a)时间-时频转换(T-TF)单元，其适于i)提供第一信号χ (η)的时频表达式，第一信号χ (η)表示多个频带和多个时刻中的所述目标语音信号，j为频带指数，且m为时间指数；和 )提供第二信号y (η)的时频表达式h(m)，第二信号为多个频带和多个时刻中的所述目标语音信号的噪声和/或处理过的所述目标语音信号；b)转换单元，其适于以第一和第二信号或者源自它们的信号的时频表达式和 y/(m)的形式分别提供第一和第二清晰度预测输入；c)中间语音清晰度计算单元，其适于基于所述第一和第二清晰度预测输入提供时频依赖的中间语音清晰度系数…(m)；d)最终的语音清晰度计算单元，其通过在预定的J个频率指数和预定的M个时间指数上对所述的中间语音清晰度系数+ (πι)进行平均运算，计算最终的语音清晰度预测器d。
17.根据权利要求16所述的语音清晰度预测器单元，其适于根据权利要求1的方法来计算语音清晰度预测器值。
18.一种语音清晰度增强(SIE)单元，其适于接收(A)目标信号1和(B)噪声信号w，或者接收(C)目标语音信号和噪声信号的混合信号z，并适于向听音者提供具有改善的清晰度的改善输出0，该语音清晰度增强单元包括a)根据权利要求16的语音清晰度预测器单元；b)时间-时率转换(T-TF)单元，用来i)在多个频带和多个时刻提供所述噪声信号w(m)的时频表达式或者所述混合信号ζ (η)的时频表达式；c)清晰度增益(IG)单元，用来i)确定一组优化的时频依赖增益&(m)。pt，当该增益被应用至第一或者第二信号或者源自于第一或第二信号的信号时，提供最大的最终的清晰度预测器dmax ； )对所述第一或第二信号或者源自第一或第二信号的信号应用所述的优化的时频依赖增益& (m)。pt，从而提供改善信号…(m)。
19.根据权利要求18所述的语音清晰度增强单元，其适于执行权利要求8的方法。
全文摘要
本申请涉及一种提供语音清晰度预测器值的方法，该语音清晰度预测器值用于当目标语音信号经过算法处理和/或在噪声环境中接收时估算普通听音者理解所述目标语音信号的能力。本申请还涉及在噪声环境中改善听音者对目标语音信号的理解的方法以及对应的设备单元。本申请的目的是提供一种替代的客观清晰度测量方法，例如适于在时频环境中使用的测量方法。本发明可用于例如音频处理系统中、听音系统、助听器系统。
文档编号G10L19/04GK102194460SQ201110062950
公开日2011年9月21日申请日期2011年3月11日优先权日2010年3月11日
发明者C·H··塔阿尔, J·延森, R·亨德里克斯, R·赫斯登斯, U·克耶姆斯申请人:奥迪康有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：C·H··塔阿尔;R·亨德里克斯;R·赫斯登斯;U·克耶姆斯;J·延森
技术所有人：奥迪康有限公司
我是此专利的发明人

上一篇：基于Teager能量熵的音符切分方法
上一篇：用于处理去相干信号或组合信号的设备和方法