单耳侵入语音可懂度预测单元、助听器及双耳助听器系统的制作方法

文档序号:11235320阅读:406来源:国知局
单耳侵入语音可懂度预测单元、助听器及双耳助听器系统的制造方法与工艺

本申请涉及助听器或助听器系统领域。



背景技术:

对于例如因噪声或回响而失真及可能已通过一些信号处理装置如助听器的语音信号,其可懂度降低。因此,需要预测这样的语音信号的可懂度的解决方案以便采取相应措施提高用户的听音质量。



技术实现要素:

本发明涉及基于目标信号分量的实质上无噪声(“纯净”)版本的同时了解进行包括目标信号分量的有噪声/处理后的语音信号的单耳侵入可懂度预测。本发明还涉及包括单耳侵入可懂度预测单元的助听器;及涉及包括第一和第二助听器的双耳助听器系统,每一助听器包括单耳侵入可懂度预测单元,其中该双耳助听器系统配置成建立使能在第一和第二助听器之间交换单耳语音可懂度预测值或源自其的信息的无线链路。

单耳语音可懂度预测单元

在本申请的一方面,提供单耳语音可懂度预测单元,其适于接收包括语音的目标信号的实质上无噪声版本s和有噪声和/或处理后版本x,该单耳语音可懂度预测单元配置成将最终单耳语音可懂度预测值d提供为输出,其指明听者对目标信号的有噪声和/或处理后版本x的感知,该单耳语音可懂度预测单元包括:

a)第一输入单元,用于提供目标信号的无噪声版本s的时频表示s(k,m),k为频率窗口(bin)指数,k=1,2,…,k,及m为时间指数;

b)第二输入单元,用于提供目标信号的有噪声和/或处理后版本x的时频表示x(k,m),k为频率窗口(bin)指数,k=1,2,…,k,及m为时间指数;

c)第一包络提取单元,用于提供目标信号的无噪声版本s的时频子频带表示sj(m),其表示无噪声目标信号的子频带信号sj(m)的时域包络或其函数,j为子频带指数,j=1,2,…,j,m为时间指数;

d)第二包络提取单元,用于提供目标信号的有噪声和/或处理后版本x的时频子频带表示xj(m),其表示目标信号的有噪声和/或处理后版本的子频带信号xj(m)的时域包络或其函数,j为子频带指数,j=1,2,…,j,及m为时间指数;

e)第一时频段分开单元,用于将目标信号的无噪声版本s的时频子频带表示sj(m)分为对应于子频带信号的n个连续样本的时频段sm;

f)第二时频段分开单元,用于将目标信号的有噪声和/或处理后版本x的时频子频带表示xj(m)分为对应于子频带信号的n个连续样本的时频段xm;

g)中间语音可懂度计算单元,适于提供估计所述时频段xm的可懂度的中间语音可懂度系数dm,所述中间语音可懂度系数dm基于实质上无噪声的(非必须地,规格化和/或变换的)时频段及基于有噪声和/或处理后的(非必须地,规格化和/或变换的)时频段

h)最终单耳语音可懂度计算单元,用于计算估计目标信号的有噪声和/或处理后版本x的可懂度的最终单耳语音可懂度预测值d,其通过随时间组合所述中间语音可懂度系数dm或其变换版本进行。

在实施例中,单耳语音可懂度预测单元包括规格化和变换单元,适于提供所述时频段xm(sm)的规格化和/或变换版本

在实施例中,规格化和变换单元配置成将一个或多个行和/或列规格化和/或变换运算算法应用于时频段sm和/或xm。在实施例中,规格化和变换单元配置成提供时频段sm和/或xm的行的至少一规格化和/或变换运算及列的至少一规格化和/或变换运算。

在实施例中,单耳语音可懂度预测单元包括规格化和变换单元,其配置成提供时频段sm和xm的行和列的规格化和/或变换,其中行的规格化和/或变换包括至少一下述运算:

r1)行的均值规格化(参见下面的行规格化g1);

r2)行的单位范数规格化(参见下面的行规格化g2);

r3)行的傅里叶变换(参见下面的行变换g3);

r4)提供行的傅里叶量值谱(参见下面的行变换g4);及

r5)提供恒等运算(参见下面的行变换g5);

及其中列的规格化和/或变换包括至少一下述运算:

c1)列的均值规格化(参见下面的列规格化h1);及

c2)列的单位范数规格化(参见下面的列规格化h2)。

在实施例中,最终单耳语音可懂度计算单元配置成通过随时间求平均或者通过将min或max函数或其它代数或统计函数应用于中间语音可懂度系数dm或其变换版本而组合所述中间语音可懂度系数dm。

在实施例中,第一和第二输入单元配置成将目标信号的无噪声版本s(也称为“纯净目标信号(目标信号的纯净版)”)和目标信号的有噪声和/或处理后版本x(称为“信息信号x”)分别接收为时变(时域/全带)信号s(n)和x(n),n为时间指数。在实施例中,第一和第二输入单元配置成从另一单元或装置分别接收纯净目标信号s和信息信号x,分别为时频表示s(k,m)和x(k,m),k和m分别为频率和时间指数。在实施例中,第一和第二输入单元中的每一个包括频率分解单元,用于从相应信号(s(n)和x(n),n为时间指数)的时域版提供纯净目标信号s和信息信号x的时频表示s(k,m)和x(k,m)。在实施例中,频率分解单元包括带通滤波器组(如γ音滤波器组),或者适于实施傅里叶变换算法(如短时傅里叶变换(stft)算法)。

在实施例中,单耳语音可懂度预测单元包括话音活动检测单元,用于指明目标信号的实质上无噪声的版本s及有噪声和/或处理后的版本x的特定时段是否或者何种程度地包括语音或估计包括语音,及提供指明该结果的话音活动控制信号。在实施例中,话音活动检测单元配置成提供二元指示,其识别包括语音或不包括语音的段。在实施例中,话音活动检测单元配置成识别具有某一概率包括语音的段。在实施例中,话音活动检测单元适用于时域信号(或全带信号s(n),x(n),n为时间指数)。在实施例中,话音活动检测单元适用于信号(s(k,m),x(k,m),或sj(m),xj(m),k和j为频率指数(分别对应于窗口和子频带),m为时间指数)或源自其的信号的时频表示。在实施例中,话音活动检测单元配置成基于时频单元电平(或例如在子频带信号xj(m)中)识别包括语音的时频段。在实施例中,单耳语音可懂度预测单元适于从另一单元或装置接收(如无线接收)话音活动控制信号。

在实施例中,单耳语音可懂度预测单元包括话音活动检测单元,用于分别识别目标信号的实质上无噪声版本s和有噪声和/或处理后版本x的包括或者估计包括语音的时段,及其中单耳语音可懂度预测单元配置成分别提供目标信号的实质上无噪声版本s和有噪声和/或处理后版本x的修改版本,其仅包括前述包括或估计包括语音的时段。

在实施例中,第一和第二时频段分开单元配置成使时频段sm和xm或其规格化和/或变换版本的产生基于话音活动控制信号,例如根据话音活动控制信号产生所述时频段,例如仅在指明存在语音时或者在所涉及时频段包含语音的概率大于预定值如0.5时。

在实施例中,单耳语音可懂度预测单元包括听力损失模型单元,配置成应用目标信号的有噪声和/或处理后版本x的随频率而变的修改,从而反映听者的相应耳朵与正常听力之间的偏差如听力受损,进而提供目标信号的修改后的有噪声和/或处理后版本x以与目标信号的实质上无噪声版本s一起用作计算最终单耳语音可懂度预测值d的基础。

在实施例中,听力损失模型单元配置成添加统计上独立的噪声信号,其根据听者的相应耳朵的听力图、目标信号的有噪声和/或处理后版本x进行谱整形。

第一和第二包络提取单元配置成分别从纯净目标信号s和信息信号x的时频表示s(k,m)和x(k,m)提取纯净目标信号s和信息信号x的包括j个子频带(j=1,2,…,j)的时域包络sj(m)和xj(m)。在实施例中,第一和第二包络提取单元中的每一个包括用于实施希尔伯特变换的算法,或者用于对复值stft信号s(k,m)和x(k,m)的量值进行低通滤波的算法,等等。

在实施例中,单耳语音可懂度预测单元适于将时域包络信号xj(m)和sj(m)分别提取为:

其中,z表示x或s,j=1,…,j和m=1,…,m,及k1(j)和k2(j)指对应于第j个子频带的低和高截止频率的dft窗口指数,j为子频带的数量,及m为所涉及信号中的信号帧的数量,f(·)为函数。

在实施例中,函数f(·)=f(w),其中w表示该函数在下述函数之中选择或其组合:

-f(w)=w表示恒等;

-f(w)=w2提供功率包络;

-f(w)=2·logw或f(w)=wβ,0<β<2,使能对健康耳蜗的压缩非线性进行建模。

在实施例中,函数f(·)=f(w),其中w表示该函数在下述函数之中选择或其组合:

-f(w)=w2提供功率包络;

-f(w)=2·logw或f(w)=wβ,0<β<2,使能对健康耳蜗的压缩非线性进行建模。

在实施例中,第一和第二时频段分开单元配置成将时频表示sj(m)和xj(m)分别再分为对应于所有子频带信号的n个连续样本的谱图形式的段,其中第m段zm由jxn矩阵定义:

其中,z(z)表示s(s)或x(x)。

在实施例中,单耳语音可懂度预测单元包括:

-第一非必需的规格化和/或变换单元,适于提供时频段sm的规格化和/或变换版本

-第二非必需的规格化和/或变换单元,适于提供时频段xm的规格化和/或变换版本

在实施例中,规格化和/或变换单元配置成将一个或多个行和/或列规格化和/或变换算法分别应用于时频段sm和xm。

在实施例中,规格化和/或变换单元配置成将一个或多个下述算法分别应用于时频段xm和sm,通常记为zm,其中,在下述表达式中,为简单起见,下标、时间指数m被略过:

-r1)行规格化为零平均值:

其中为jx1向量,其第j'项为z的第j'行(因此中的上标r)的平均值,其中1指一的nx1向量,及上标t指矩阵转置;

-r2)行规格化为单位范数:

g2(z)=dr(z)z,

其中其中diag(·)为在主对角线上具有自变量元素的对角矩阵,及其中z(j,:)指z的第j'行,使得dr(z)为jxj对角线矩阵,在主对角线上每一行具有反范数及在别处为零(上标h指厄米变换)。自左乘以dr(z)使得所得矩阵的行规格化为单位范数;

-r3)对每一行应用傅里叶变换

g3(z)=zf,

其中f为nxn傅里叶矩阵;

-r4)对每一行应用傅里叶变换,之后计算所得复值元素的量值

g4=|zf|

其中|·|计算逐元素量值;

-r5)单位算子

g5(z)=z.

-c1)列规格化为零平均值:

其中为nx1向量,其第i项为z的第i行的平均值,及其中1指一的jx1向量;

-c2)列规格化为单位范数:

h2(z)=zdc(z),

其中,其中z(:,n)指z的第n’行,使得dc(z)为nxn对角线矩阵,在主对角线上的每一列具有反范数及在别处为零,自右乘以dc(z)使得所得矩阵的列规格化为单位范数。

在实施例中,中间语音可懂度计算单元适于例如根据两个kx1向量a和b中的元素的线性样本相关系数d(a,b)确定中间语音可懂度系数dm,d(a,b)由下式确定:

其中

其中k为向量项的指数,k为向量维数。

在实施例中,a和b表示分别来自时频段sm(或)和xm(或)的(如任何k个)元素。

在实施例中,a和b表示分别来自时频段sm(或)和xm(或)的列的元素。在实施例中,a和b表示分别来自时频段sm(或)和xm(或)的行的元素。在实施例中,a和b分别表示时频段sm(或)和xm(或)中的所有元素。

在实施例中,中间可懂度指数dm定义为:

1)sm和xm或者中的(部分,如所有)列的平均样本相关系数,即

n为列指数;

2)sm和xm或者中的(部分,如所有)行的平均样本相关系数,即

j为行指数;

3)sm和xm或者中的所有元素的样本相关系数,即

其中,记法sm(:)和xm(:)或者表示通过堆叠相应矩阵的列形成的njx1向量。在实施例中,列数n为30(或更多)。在实施例中,列数为15(或更多)。在实施例中,n≤30及j≤15。

在实施例中,最终语音可懂度计算单元适于从中间语音可懂度系数dm将最终语音可懂度预测值d计算为目标信号的有噪声和/或处理后版本x的随时间的平均(非必须地,通过函数u(dm)进行变换):

其中m表示目标信号的有噪声和/或处理后版本x的语音活跃部分的时间单元的持续时间。在实施例中,目标信号的有噪声和/或处理后版本x的语音活跃部分的持续时间定义为话音活动控制信号指明目标信号的有噪声和/或处理后版本x包括语音的(可能累计的)时间段。

在实施例中,函数u(dm)定义为

或者定义为

u(dm)=dm。

助听器

一方面,本发明提供适于位于用户的左和右耳之处或之中或者适于完全或部分植入在用户头部中的助听器,该助听器包括上面描述的、具体实施方式中详细描述的、图中所示的及权利要求中限定的单耳语音可懂度预测单元。

在实施例中,助听器配置成自适应修改助听器的输入信号的处理以使最终单耳语音可懂度预测值d最大化,从而增强用户对呈现给用户的、助听器的输出信号的可懂度。

在实施例中,该助听器包括:

a)多个输入单元iui,i=1,…,m,m等于或大于1,每一输入单元配置成提供表示在第i个输入单元处接收的声音输入的时变电输入信号yi,该电输入信号yi包括目标信号分量和噪声信号分量,目标信号分量源自目标信号源;

b)可配置的信号处理单元,用于处理电输入信号及提供处理后的信号u,其连接到单耳语音可懂度预测单元的听力损失模型;

c)输出单元,用于基于电输出产生配置成可由用户感知为声音的输出刺激,所述电输出为来自信号处理单元的处理后的信号u或者源自其的信号的形式;及

d)天线和收发器单元,用于接收包括目标信号的无线信号s’及用于提取目标信号的实质上无噪声的版本s,其连接到单耳语音可懂度预测单元;

e)其中最终语音可懂度预测值d馈给可配置的信号处理单元。

助听器(如单耳语音可懂度预测单元)优选包括听力损失模型,配置成使得单耳语音可懂度预测单元的输入信号(如可配置的处理单元的输出,例如参见图5b)被修改以反映用户的听力曲线与正常听力曲线的偏差,例如以反映用户的听力受损。

在实施例中,可配置的信号处理单元适于基于单耳语音可懂度预测单元提供的最终语音可懂度预测值d控制或影响相应电输入信号或者源自其的一个或多个信号(如所得波束成形信号)的处理。

在实施例中,可配置的信号处理单元适于在目标信号分量包括语音时例如仅在目标信号分量包括语音时(例如通过话音(语音)活动检测器确定)基于最终语音可懂度预测值d控制或影响相应电输入信号的处理。

在实施例中,可配置的信号处理单元适于控制或影响相应电输入信号的处理以使最终语音可懂度预测值d最大化。

在实施例中,助听器适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿用户的听力受损。

在实施例中,输出单元包括耳蜗植入物的多个电极或者骨导助听器的振动器。在实施例中,输出单元包括输出变换器。在实施例中,输出变换器包括用于将刺激作为声信号提供给用户的接收器(扬声器)。在实施例中,输出变换器包括用于将刺激作为颅骨的机械振动提供给用户的振动器(例如在附着到骨头的或骨锚式助听器中)。

在实施例中,输入单元包括用于将输入声音转换为电输入信号的输入变换器。在实施例中,输入单元包括用于接收包括声音的无线信号并提供表示所述声音的电输入信号的无线接收器。在实施例中,助听器包括定向传声器系统,其适于增强佩戴助听器的用户的局部环境中的多个声源之中的目标声源。在实施例中,定向系统适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。

在实施例中,助听器包括用于从另一装置如通信装置或另一助听器无线接收直接电输入信号的天线和收发器电路。总的来说,由助听器的天线和收发器电路建立的无线链路可以是任何类型。在实施例中,无线链路在功率受限制的条件下使用,例如因为助听器包括便携(通常电池驱动的)装置。

在实施例中,助听器包括输入变换器(传声器系统和/或直接电输入(如无线接收器))和输出变换器之间的正向或信号通路。在实施例中,信号处理单元位于该正向通路中。在实施例中,信号处理单元适于根据用户的特定需要提供随频率而变的增益。在实施例中,助听器包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计量等)的功能件的分析通路。在实施例中,分析通路和/或信号通路的部分或所有信号处理在频域进行。在实施例中,分析通路和/或信号通路的部分或所有信号处理在时域进行。

在实施例中,助听器包括模数(ad)转换器以按预定的采样速率如20khz对模拟输入进行数字化。在实施例中,助听器包括数模(da)转换器以将数字信号转换为模拟输出信号,例如用于经输出变换器呈现给用户。

在实施例中,助听器包括多个检测器,其配置成提供与助听器的当前网络环境(如当前声环境)有关、和/或与佩戴助听器的用户的当前状态有关、和/或与助听器的当前状态或运行模式有关的状态信号。作为备选或另外,一个或多个检测器可形成与助听器(如无线)通信的外部装置的一部分。外部装置例如可包括另一助听器、遥控器、音频传输装置、电话(如智能电话)、外部传感器等。在实施例中,多个检测器中的一个或多个对全带信号起作用(时域)。在实施例中,多个检测器中的一个或多个对频带拆分的信号起作用((时-)频域)。

在实施例中,助听器还包括用于所涉及应用的其它适宜功能,如压缩、降噪、反馈减少等。

单耳语音可懂度预测单元的应用

此外,本发明提供上面描述的、“具体实施方式”中详细描述的、图中所示的及权利要求中限定的单耳语音可懂度预测单元在助听器中的应用,其用于修改助听器中的信号处理以增强通过助听器呈现给用户的语音信号的可懂度。在实施例中,提供单耳语音可懂度预测单元在有噪声环境下在助听器中的用途(例如车载电话情形,或者目标语音信号(如其实质上纯净的版本)被无线接收及在用户耳朵处存在声学噪声的其它听音情形),以增强用户在有噪声环境下的语音可懂度。在实施例中,提供单耳语音可懂度预测单元在耳朵保护装置中的用途。

提供单耳语音可懂度预测器的方法

另一方面,提供一种提供单耳语音可懂度预测器的方法,所述预测器用于估计用户理解包括目标语音信号的有噪声和/或处理后版本的信息信号x的能力。该方法包括:

-提供目标信号的无噪声版本s的时频表示s(k,m),k为频率窗口指数,k=1,2,…,k,及m为时间指数;

-提供目标信号的有噪声和/或处理后版本x的时频表示x(k,m),k为频率窗口指数,k=1,2,…,k,及m为时间指数;

-提供目标信号的无噪声版本s的时频子频带表示sj(m),其表示无噪声目标信号的子频带信号sj(m)的时域包络或其函数,j为子频带指数,j=1,2,…,j,m为时间指数。

-提供目标信号的有噪声和/或处理后版本x的时频子频带表示xj(m),其表示目标信号的有噪声和/或处理后版本的子频带信号xj(m)的时域包络或其函数,j为子频带指数,j=1,2,…,j,及m为时间指数;

-将目标信号的无噪声版本s的时频子频带表示sj(m)分为对应于子频带信号的n个连续样本的时频段sm;

-将目标信号的有噪声和/或处理后版本x的时频子频带表示xj(m)分为对应于子频带信号的n个连续样本的时频段xm;

-提供估计所述时频段xm的可懂度的中间语音可懂度系数dm,所述中间语音可懂度系数dm基于实质上无噪声的、规格化和/或变换的时频段及基于有噪声和/或处理后的、规格化和/或变换的时频段

-计算估计目标信号的有噪声和/或处理后版本x的可懂度的最终单耳语音可懂度预测值d,其通过随时间组合所述中间语音可懂度系数dm或其变换版本进行,例如通过求平均或者应用min或max函数。

当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的或权利要求中限定的装置的部分或所有结构特征可与本发明方法的实施结合,反之亦然。方法的实施具有与对应装置一样的优点。

在实施例中,该方法包括使语音信号(包括语音的信号)经历听力损失模型从而提供信息信号x,其中听力损失模型配置成对受损听觉系统的缺陷建模。通过使语音信号(如图3a中的信号x’)经历听力损失模型(图3a中的hlm),所得的信息信号x可用作语音可懂度预测器(图3a中的msip)的输入,从而提供未受助听力受损人员的语音信号可懂度度量。在实施例中,听力损失模型为反映普通听力受损用户的听力受损的广义模型。在实施例中,听力损失模型可配置成反映特定用户的听力受损,例如包括随频率而变的听力损失(听觉阈与正常听力人员的(平均)听觉阈之间的偏差)。通过使语音信号(如图3c中的信号y)经历计划补偿用户的听力受损的信号处理(如图3c中的spu)及经历听力损失模型(图3c中的hlm),所得的信息信号x可用作语音可懂度预测器(例如参见图3c中的msip)的输入,从而提供受助听力受损人员的语音信号可懂度度量d。这样的方案例如可用于评估不同处理算法(和/或处理算法的改进)对用户对所得信息信号(例如参见图3b)的(估计的)可懂度的影响或者用于在线优化助听器中的信号处理(例如参见图3c)。

在实施例中,该方法包括向目标语音信号添加噪声以提供信息信号x,其用作提供单耳语音可懂度预测值的方法的输入。向信息信号添加预定(或变化)量的噪声可用于以简单的方式评估用户的听力损失(从而提供听力损失模型的效果)。在实施例中,目标信号根据用户的听力损失如听力图进行修改(例如衰减)。在实施例中,噪声被添加到目标信号,及该目标信号被衰减以反映用户的听力损失。

双耳听力(助听器)系统

一方面,本发明还提供包括左和右上面描述的、“具体实施方式”中详细描述的、图中所示的及权利要求中限定的助听器的(第一)双耳听力系统。

在实施例中,左和右助听器中的每一个包括用于使能在左和右助听器之间建立通信链路并交换信息的天线和收发器电路。

在实施例中,该双耳听力系统还包括双耳语音可懂度预测单元,用于在用户暴露于声音输入时,基于相应的左和右助听器的单耳语音可懂度预测值dleft,dright,提供预测的用户语音可懂度的最终双耳语音可懂度度量dbinaural。

在实施例中,最终双耳语音可懂度度量dbinaural确定为相应的左和右助听器的语音可懂度预测值dleft,dright中的最大值:dbinaural=max(dleft,dright)。从而,提供相当简单的系统,从而实施更好的耳朵方法。在实施例中,双耳听力系统适于在用户检测到或选择非对称听音情形时启动前述方法,例如在讲话者主要位于佩戴双耳听力系统的用户一侧的情形下,例如当坐在车中时。

在实施例中,左和右助听器的相应的可配置信号处理单元适于基于所述最终双耳语音可懂度度量dbinaural控制或影响相应的电输入信号的处理。在实施例中,左和右助听器的相应的可配置信号处理单元适于控制或影响相应的电输入信号的处理以使所述最终双耳语音可懂度度量dbinaural最大化。

在实施例中,双耳听力系统还包括辅助装置。

在实施例中,该听力系统适于在助听器和辅助装置之间建立通信链路以使信息(如控制和状态信号,可能音频信号)能在其间进行交换或从一装置转发给另一装置。

在实施例中,辅助装置是或包括遥控器,用于控制助听器的功能和运行。在实施例中,遥控器的功能实施在智能电话中,该智能电话可能运行使能经智能电话控制音频处理装置的功能的app(助听器包括到智能电话的适当无线接口,例如基于蓝牙或一些其它标准化或专有方案)。

app

另一方面,本发明还提供称为app的非短暂应用。app包括可执行指令,其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的助听器或听力系统的用户接口。在实施例中,该app配置成在移动电话如智能电话或另一使能与所述助听器或听力系统通信的便携装置上运行。

计算机可读介质

本发明进一步提供保存包括程序代码的计算机程序的有形计算机可读介质,当计算机程序在数据处理系统上运行时,使得数据处理系统执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的任一方法的至少部分(如大部分或所有)步骤。

作为例子但非限制,前述有形计算机可读介质可包括ram、rom、eeprom、cd-rom或其他光盘存储器、磁盘存储器或其他磁性存储装置,或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的,盘包括压缩磁盘(cd)、激光盘、光盘、数字多用途盘(dvd)、软盘及蓝光盘,其中这些盘通常磁性地复制数据,同时这些盘可用激光光学地复制数据。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外,计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。

数据处理系统

一方面,本发明进一步提供数据处理系统,包括处理器和程序代码,程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的任一方法的至少部分(如大部分或所有)步骤。

计算机程序

本申请还提供包括指令的计算机程序(产品),当所述程序由计算机运行时,使得计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。

定义

在本说明书中,“助听器”指适于改善、增强和/或保护用户的听觉能力的装置如听力仪器或有源耳朵保护装置或其它音频处理装置,其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。“助听器”还指适于以电子方式接收音频信号、可能修改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵的装置如头戴式耳机或耳麦。听得见的信号例如可以下述形式提供:辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户耳蜗神经的电信号。

助听器可构造成以任何已知的方式进行佩戴,如作为佩戴在耳后的单元(具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元、或作为整个或部分植入的单元等。助听器可包括单一单元或几个彼此电子通信的单元。

更一般地,助听器包括用于从用户环境接收声信号并提供对应的输入音频信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理输入音频信号的(通常可配置的)信号处理电路、及用于根据处理后的音频信号将听得见的信号提供给用户的输出装置。在一些助听器中,放大器可构成信号处理电路。信号处理电路通常包括一个或多个(集成或单独的)存储元件,用于执行程序和/或用于保存在处理中使用(或可能使用)的参数和/或用于保存适合助听器功能的信息和/或用于保存例如结合到用户的接口和/或到编程装置的接口使用的信息(如处理后的信息,例如由信号处理电路提供)。在一些助听器中,输出装置可包括输出变换器,例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些助听器中,输出装置可包括一个或多个用于提供电信号的输出电极。

在一些助听器中,振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在一些助听器中,振动器可植入在中耳和/或内耳中。在一些助听器中,振动器可适于将结构传播的声信号提供给中耳骨和/或耳蜗。在一些助听器中,振动器可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些助听器中,输出电极可植入在耳蜗中或植入在颅骨内侧上,并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听觉皮层和/或大脑皮层的其它部分。

“听力系统”指包括一个或两个助听器的系统。“双耳听力系统”指包括两个助听器并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听力系统还可包括一个或多个“辅助装置”,其与助听器通信并影响和/或受益于助听器的功能。辅助装置例如可以是遥控器、音频网关设备、移动电话(如智能电话)、广播系统、汽车音频系统或音乐播放器。助听器、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。

附图说明

本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略其他细节。在整个说明书中,同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明,其中:

图1a示意性地示出了样本中的时变模拟信号(振幅-时间)及其数字化,这些样本安排在多个时间帧中,每一时间帧包括ns个样本。

图1b示出了图1a的时变电信号的时频图表示。

图2a象征性地示出了基于信息信号x的时频表示xj(m)提供单耳语音可懂度预测值d的侵入单耳语音可懂度预测单元。

图2b示出了侵入单耳语音可懂度预测单元的第一实施例。

图2c示出了侵入单耳语音可懂度预测单元的第二实施例。

图3a示出了侵入单耳语音可懂度预测单元与听力损失模型和评估单元的结合。

图3b示出了侵入单耳语音可懂度预测单元与信号处理单元和评估单元的结合。

图3c示出了包括侵入单耳语音可懂度预测单元的助听器的第一实施例,其具有配置成优化用户对助听器的输出信号的可懂度的听力损失模型。

图4a示出了使用根据本发明的包括侵入单耳语音可懂度预测单元的助听器的第一场合,以提高助听器用户对来自佩戴无线传声器的讲话者的语音的可懂度(如在讲课或演讲情形下)。

图4b示出了使用根据本发明的包括侵入单耳语音可懂度预测单元的助听器的第二场合,以提高助听器用户对来自在车中使用免提电话机的电话会话的远程讲话者的语音的可懂度,其中远程声音无线及声学地传给助听器用户。

图5a示出了使用根据本发明的包括侵入单耳语音可懂度预测单元的助听器的第三场合,以提高助听器用户对来自在车中使用免提电话机的电话会话的远程讲话者的语音的可懂度,其中远程声音(仅)无线传给助听器用户。

图5b示出了在图5a的(第三)场合中使用的,包括侵入单耳语音可懂度预测器的助听器的实施例。

图5c示出了形成为耳内接收器式(rite)助听器的示例性助听器,包括适于位于耳廓后面的部分及适于位于用户耳道中的包括输出变换器(如扬声器/接收器)的部分。

图6a示出了根据本发明的双耳助听器系统,包括第一和第二助听器及辅助装置。

图6b示出了包括用户接口的辅助装置,用户接口为用于控制和显示与语音可懂度预测值有关的数据的app的形式。

图7示出了根据本发明的包括左和右听力装置的双耳助听器系统的实施例,每一听力装置包括单耳语音可懂度预测器,其各个预测值dleft和dright在听力装置之间交换并用于影响或控制听力装置中的信号处理以优化用户的双耳语音可懂度。

通过下面给出的详细描述,本发明进一步的适用范围将显而易见。然而,应当理解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。对于本领域技术人员来说,基于下面的详细描述,本发明的其它实施方式将显而易见。

具体实施方式

下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而,对本领域技术人员显而易见的是,这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等(统称为“元素”)进行描述。根据特定应用、设计限制或其他原因,这些元素可使用电子硬件、计算机程序或其任何组合实施。

电子硬件可包括微处理器、微控制器、数字信号处理器(dsp)、现场可编程门阵列(fpga)、可编程逻辑器件(pld)、选通逻辑、分立硬件电路、及配置成执行本说明书中描述的多个不同功能的其它适当硬件。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等,无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。

本发明涉及用于预测语音可懂度的信号处理方法,如信号处理装置如助听器的输出信号。可懂度预测以与一般听者能从一些语音材料理解的话语片断高度相关的指数的形式进行。对于需要绝对可懂度的估计量即理解的话语的实际百分比的情形,该指数可变换为百分之0-100的范围中的数,这样的方法例如参见[3]。

在此提出的方法属于所谓的侵入方法类型。该类方法的特征在于,它们通过将有噪声及可能已进行信号处理的语音信号与潜在语音信号的无噪声未失真版本进行比较而预测可懂度,例如参见[1,2,3]的现有方法。可得到无噪声参考信号的假设在许多实践情形中是合理的。例如,当评估多个不同的助听器信号处理算法对可懂度的影响时,通常对人受测对象进行听音测试。在准备这样的测试时,通常通过向无噪声语音信号明确添加噪声信号而人为产生刺激,换言之,无噪声信号容易得到。因此,所提出的可懂度预测算法使能用机器预测代替成本高且耗时的涉及人受测对象的听音测试。

本发明的很多信号处理在时频域进行,其中时域信号通过适当的数学算法(如傅里叶变换算法)或滤波器(如滤波器组)变换到(时-)频域。

图1a示意性地示出了样本中的时变模拟信号(振幅-时间)及其数字化,这些样本安排在多个时间帧中,每一时间帧包括ns个样本。图1a示出了模拟电信号(实线曲线),例如表示来自传声器的声输入信号,其在模数(ad)转换过程中转换为数字音频信号,在模数转换过程中,模拟信号以预定采样频率或速率fs进行采样,fs例如在从8khz到40khz的范围中(适应应用的特定需要),以在离散时间点n提供数字样本x(n),如从时间轴延伸的在其与所述曲线重合的端点处具有实心点的垂直线所示,表示在对应的不同时间点n的数字样本值。每一(音频)样本x(n)表示通过预定数量(nb)的比特表示声信号在n的值,nb例如在从1到16比特的范围中。数字样本x(n)具有1/fs的时间长度,例如对于fs=20khz,该时间长度为50μs。多个(音频)样本ns安排在时间帧中,如图1a下部示意性图示的,其中各个(在此均匀间隔的)样本按时间帧分组(1,2,…,ns)。同样如图1a的下部图示的,时间帧可连续地安排成非重叠(时间帧1,2,…,m,…,m)或重叠(在此为50%,时间帧1,2,…,m,…,m’),其中m为时间帧指数。在实施例中,一时间帧包括64个音频数据样本。根据实际应用,也可使用其它帧长度。

图1b示意性地示出了图1a的(数字化)时变电信号x(n)的时频表示。该时频表示包括信号的对应复值或实值在特定时间和频率范围的阵列或映射。该时频表示例如可以是将时变输入信号x(n)转换为时频域的(时变)信号x(k,m)的傅里叶变换的结果。在实施例中,傅里叶变换包括离散傅里叶变换算法(dft)。典型听力装置(如助听器)考虑的从最小频率fmin到最大频率fmax的频率范围包括从20hz到20khz的典型人听频范围的一部分,如从20hz到12khz的范围的一部分。在图1b中,信号x(n)的时频表示x(k,m)包括信号的量值和/或相位在指数(k,m)确定的多个dft窗口中的复值,其中k=1,….,k表示k个频率值(参见图1b中的纵向k轴),及m=1,….,m(m’)表示m(m’)个时间帧(参见图1b中的水平m轴)。时间帧由特定时间指数m和对应的k个dft窗口确定(参见图1b中的时间帧m的指示)。时间帧m表示信号x在时间m的频谱。包括所涉及信号的(实或)复值x(k,m)的dft窗口(k,m)在图1b中通过时频图中对应场的阴影图示。频率指数k的每一值对应于频率范围δfk,如图1b中通过纵向频率轴f指明。时间指数m的每一值表示时间帧。连续时间指数跨越的时间δtm取决于时间帧的长度(如25ms)及相邻时间帧之间的重叠程度(参见图1b中的水平t轴)。

在本申请中,定义具有子频带指数j=1,2,…,j的j个(非均匀)子频带,每一子频带包括一个或多个dft窗口(参见图1b中的纵向子频带j轴)。第j个子频带(由图1b的右部的子频带j(xj(m))指明)包括分别具有低和高指数k1(j)和k2(j)的dft窗口,其分别定义第j个子频带的低和高截止频率。特定时频单元(j,m)由特定时间指数m和dft窗口指数k1(j)-k2(j)定义,如图1b中通过对应dft窗口周围的粗框架指明。特定时频单元(j,m)包含第j个子频带信号xj(m)在时间m的复值或实值。

图2a象征性地示出了侵入单耳语音可懂度预测单元(msip),其基于目标信号的实质上无噪声(纯净)版本s和包括语音的目标信号s的有噪声和/或处理后版本x的下面任何一个提供单耳语音可懂度预测值d:

-时域版本s(n),x(n)(n为时间(样本)指数);

-时频带表示s(k,m),x(k,m)(k为频率指数,m为时间(样本)指数);或者

-子频带表示sj(m),xj(m)(j为子频带指数)

图2b示出了侵入单耳语音可懂度预测单元msip的第一实施例。该侵入单耳语音可懂度预测单元适于按实质上无噪声版本s(n)和按有噪声和/或处理后版本x(n)接收包括语音的目标信号,其中n为时间指数。该单耳语音可懂度预测单元配置成将最终单耳语音可懂度预测值d提供为输出,其指明听者(用户)对目标信号的有噪声和/或处理后版本x的感知。

单耳语音可懂度预测单元msip包括:第一输入单元iu,用于从时变信号s(n)提供目标信号的无噪声版本s的时频表示s(k,m);第二输入单元iu,用于从时变信号x(n)提供目标信号的有噪声和/或处理后版本x的时频表示x(k,m),k为频率窗口指数,k=1,2,…,k,及m为时间指数。

单耳语音可懂度预测单元msip还包括:第一包络提取单元aeu,用于从时频表示s(k,m)提供目标信号的无噪声版本s的时频子频带表示sj(m),其表示无噪声目标信号的子频带信号sj(m)的时域包络或其函数;第二包络提取单元aeu,用于从时频表示x(k,m)提供目标信号的有噪声和/或处理后版本x的时频子频带表示xj(m),其表示目标信号的有噪声和/或处理后版本的子频带信号xj(m)的时域包络或其函数,j=1,2,…,j,及m为时间指数。

单耳语音可懂度预测单元msip还包括:第一时频段分开单元sdu,用于将目标信号的无噪声版本s的时频子频带表示sj(m)分为对应于子频带信号的n个连续样本的时频段sm;第二时频段分开单元sdu,用于将目标信号的有噪声和/或处理后版本x的时频子频带表示xj(m)分为对应于子频带信号的n个连续样本的时频段xm。

单耳语音可懂度预测单元msip还非必须地包括:第一规格化和/或变换单元n/tu,适于提供时频段sm的规格化和/或变换版本及非必须地,第二规格化和/或变换单元n/tu,适于提供时频段xm的规格化和/或变换版本

单耳语音可懂度预测单元msip还包括中间语音可懂度计算单元isiu,适于提供估计所述时频段xm的可懂度的中间语音可懂度系数dm,其中所述中间语音可懂度系数dm基于实质上无噪声的(非必须地,规格化和/或变换的)时频段sm、及基于有噪声和/或处理后的(非必须地,规格化和/或变换的)时频段xm、

单耳语音可懂度预测单元msip还包括最终单耳语音可懂度计算单元fsiu,用于计算估计目标信号的有噪声和/或处理后版本x的可懂度的最终单耳语音可懂度预测值d,其通过随时间组合所述中间语音可懂度系数dm或其变换版本进行,例如通过求平均或者应用min或max函数。

图2c示出了侵入单耳语音可懂度预测单元msip的第二实施例。图2c的实施例包括与结合图2b所述一样的功能单元。另外,其包括话音活动检测单元vad,用于指明目标信号的实质上无噪声版本s(图2c中的s’(n))和有噪声和/或处理后版本x(图2c中的x’(n))的特定时段是否或者何种程度地包括或估计包括语音,及提供指明其的话音活动控制信号。在图2c的实施例中,话音活动检测单元vad本身配置成提供目标信号的实质上无噪声版本s和有噪声和/或处理后版本x的修改版本,其仅包含包括语音或者估计包括语音的时段(在图2c中分别记为s(n)和x(n))。作为备选,修改信号s(n)和x(n)可在相应分开单元中产生。

为模拟可懂度因听力损失而可能降低,包括非必需的听力损失模型(参见图3a、3b、3c)。存在几种用于模拟听力损失的方法[4]。通常,听力损失模型(至少)基于包含用户的随频率而变的听觉阈(或表示听力损失的类型)的听力图建立。或许,最简单的听力损失模型包括向输入信号x(n)添加统计上独立的噪声信号,其根据听者的听力图进行谱整形[5]。

所提出的单耳侵入语音可懂度预测器可分解为多个子级,如图2b和2c中所示及如上所述。每一子级在下面进行更详细地描述。

话音活动检测(vad)

语音可懂度(si)与输入信号的具有语音活动的区域有关,静默区域对si没有贡献。因此,第一步骤是检测输入信号中的话音活动区域。由于可得到无噪声语音信号s’(n),话音活动没有意义。例如,在[3]中,无噪声语音信号s’(n)被分为连续的帧。之后,语音活跃的帧被识别为具有不低于例如40db的最大帧能量的帧。语音不活跃的帧即最大帧能量低于如40db的帧被从两个信号x’(n)和s’(n)抛弃。将具有语音活动的输入信号分别记为x(n)和s(n),其中n为离散时间指数。话音活动检测器在图2c中示为vad单元。

频率分解(iu)和包络提取(aeu)

第一步骤是进行信号x(n)和s(n)的频率分解(参见图2c中的输入单元iu)。这可以许多方式实现,例如使用短时傅里叶变换(stft)、带通滤波器组(例如γ单音滤波器组)等。随后,提取每一子频带信号的时域包络(参见图2c中的单元aeu)。这例如可使用希尔伯特变换或通过对复值stft信号的量值进行低通滤波等实现。

作为例子,下面我们描述频率分解和包络提取可怎样使用stft实现;所描述的过程类似于[3]的过程。作为例子,假定信号以fs=10000hz的采样频率进行采样。首先,时频表示通过将信号x(n)和s(n)分段为(如50%)重叠窗口帧获得(例如参见图1a)。通常,使用锥形窗口如汉宁(hanning)窗口。当样本速率为10000hz时,窗口长度例如可以是256个样本。之后,每一帧使用快速傅里叶变换(fft)(可能在适当的补零之后)进行傅里叶变换。所得的dft窗口(bin)可按感知有关的子频带分组。例如,可使用三分之一倍频带(例如,如[4]中所述),但显而易见的是,可使用任何其它子频带划分(例如,分组可均匀,即与感知无关,参见图1b)。在三分之一倍频带和10000hz的采样速率情形下,有15个频带,其覆盖150-5000hz的频率范围。也可使用其它数量的频带及另一频率范围。我们将这些帧和子频带定义的时频瓦(tile)称为时频(tf)单元(或stft系数),参见图1b。将其应用于有噪声/处理后的输入信号x(n)导致(通常复值的)stft系数x(k,m),其中k和m分别指频率和帧(时间)指数。无噪声参考语音信号的stft系数s(k,m)以类似的方式找到。

之后,时域包络信号可提取为

和m=1,...m,

其中k1(j)和k2(j)指对应于第j个子频带的低和高截止频率的dft窗口指数,j为子频带的数量(例如16),及m为所涉及信号中的信号帧的数量,及其中为了通用性包括函数f(x)。例如,对于f(x)=x,得到[4]中使用的时域包络,具有f(x)=x2,我们提取功率包络,及具有f(x)=2logx,或者f(x)=xβ,0<β<2,我们可对健康耳蜗的压缩非线性建模。显然,对于f(x),存在其它合理的选择。无噪声语音信号的时域包络信号sj(m)以类似的方式找到。在两种情形下可使用同样的f(x)选择。

如所提及的,可实施其它包络表示,例如使用γ单音滤波器组,其后为希尔伯特包络提取器等,及函数f(x)可以与上面结合基于stft的包络描述的方式类似的方式应用于这些包络。在任何情形下,该程序的结果从子频带时域包络方面来说为时频表示xj(m)和sj(m),其中j为子频带指数,m为时间指数。

时频段(sdu)

接下来,我们将时频表示xj(m)和sj(m)分为对应于所有子频带信号的n个连续样本的段即声谱图。例如,有噪声/处理后的信号的第m个段由jxn矩阵定义:

无噪声参考信号的对应段sm以同样的方式找到。

应当理解,可使用其它版本的时段,例如时间已位移从而对帧指数m-n/2+1到m+n/2产生作用的段。

时频段的规格化和变换(n/tu)

每一段xm和sm的行和列可以多种不同的方式进行规格化/变换(下面,我们将规格化/变换示为应用于xm;它们以完全类似的方式应用于sm。同样的规格化/变换应用于xm和sm。)。具体地,我们考虑下面的行(r)规格化/变换:

r1)行规格化为零平均值:

其中μxr为jx1向量,其第j项为x的第j行(因此μxr中的上标r)的平均值,其中1指一的nx1向量,及上标t指矩阵转置;

r2)行规格化为单位范数:

g2(x)=dr(x)x,

其中及其中diag(·)为在主对角线上具有自变量元素的对角矩阵。此外,x(j,:)指x的第j行,使得dr(x)为jxj对角线矩阵,在主对角线上每一行具有反范数及在别处为零(上标h指厄米变换)。自左乘以dr(x)使得所得矩阵的行规格化为单位范数;

r3)对每一行应用傅里叶变换

g3(x)=xf,

其中f为nxn傅里叶矩阵;

r4)对每一行应用傅里叶变换,之后计算所得复值元素的量值

g4(x)=|xf|

其中|·|计算逐元素量值;

g4(x)=|xf|,

r5)单位算子

g5(x)=x

我们还考虑下面的列(c)规格化:

c1)列规格化为零平均值:

其中μxc为nx1向量,其第i项为x的第i行的平均值,及其中1指一的jx1向量;

c2)列规格化为单位范数:

h2(x)=xdc(x),其中

在此,x(:,n)指x的第n行,使得dc(x)为nxn对角线矩阵,在主对角线上的每一列具有反范数及在别处为零,自右乘以dc(x)使得所得矩阵的列规格化为单位范数。

上面列出的行(r#,#=1,2,…,5)和列(c#,#=1,2)规格化/变换可以不同的方式组合。在优选实施例中,(以任何顺序)应用至少一行规格化/变换gi(·)(i=1,2,…,5)和至少一列规格化/变换hj(·)(j=1,2)。

特别感兴趣的一种组合是,首先,行规格化为零平均值和单位范数,其后进行列的类似平均值和范数规格化。该特定组合可写为:

其中,xm为所得的行和列正规化矩阵。

另一感兴趣的变换为计算矩阵xm的每一行的量值傅里叶谱,之后进行使得列的均值及范数规格化。使用引入的记法,这可简单地写为:

这些规格化/变换的其它组合也可能感兴趣,例如

(列的均值和范数标准化,之后进行行的均值和范数标准化)等。如上面提及的,选择行和列规格化/变换的特定组合并分别应用于有噪声/处理后的和无噪声的信号的所有段xm和sm。

中间可懂度系数(isiu)

无噪声参考信号的时频段sm或规格化/变换的时频段现在可与对应的有噪声/处理后的段xm,一起用于计算中间可懂度指数dm,其反映有噪声/处理后的信号段xm,的可懂度。为实现此,我们首先定义两个kx1向量x和y中的元素的样本相关系数d(x,y):

其中

对于计算中间可懂度指数dm,存在几个选择。具体地,dm可定义为

1)中的列的平均样本相关系数,即

或者

2)中的行的平均样本相关系数,即

或者

3)中的所有元素的样本相关系数,即

其中,我们采用记法表示通过堆叠相应矩阵的列形成的njx1向量。

最终可懂度系数的估计(fsiu)

最终可懂度系数d(其反映有噪声/处理后的输入信号x(n)的可懂度)定义为跨x(n)的语音活跃部分的持续时间的中间可懂度系数的平均值,可能经函数u(dm)变换,即

函数u(dm)例如可以是以将中间可懂度系数与信息度量联系起来,但显然存在其它选择。

“无为”函数u(dm)=dm也是一个可能的选择(其先前已在stoi算法中使用[3])。

在下面,考虑可能已通过信号处理装置如助听器中的信号处理装置的有噪声/混响语音信号x(n)。提出一种算法,其可预测x(n)的、具有类似听力曲线的一群听者如正常听力或听力受损听者感知的平均可懂度。为实现此目的,所提出的算法依赖于无噪声、未失真的潜在信号s(n)的存在,参见图3a。图3a示出了侵入单耳语音可懂度预测单元与听力损失模型hlm和评估单元msip组合(一起构成改进的单耳语音可懂度预测单元msip’)。在图3a的实施例中,信号x’(n)通过听力损失模型hlm,其配置成对受损听觉系统(如特定用户的受损听觉系统)的缺陷进行建模。听力损失模型单元hlm例如基于用户耳朵的听力图(可能及与用户的听力有关的其它数据)。听力损失模型单元hlm例如配置成应用目标信号的有噪声和/或处理后版本的随频率而变的修改x’,从而反映与用户的相应耳朵的正常听力的偏差如听力受损,进而提供目标信号的修改的有噪声和/或处理后版本x以与目标信号的实质上无噪声版本s一起用作单耳语音可懂度预测单元msip的输入,从而提供最终单耳语音可懂度预测值d。在图3a中,评估单元eval被示为接收和评估语音可懂度预测值d并提供处理后的预测值d’。评估单元eval例如可进一步处理语音可懂度预测值d,例如以图形和/或数值地显示当前值和/或最近的历史值、衍变趋势等。作为备选或另外,评估单元可向用户(或通信伙伴或护理人员)提出行动,如增加方向性、移动得更近、讲得更大声、启动si增强模式等。评估单元例如可实施在单独的装置中,如用作语音可懂度预测单元msip和/或包括该单元的助听器的用户接口,例如实施为遥控装置,例如实施为智能电话的app(参见图6a、6b)。

图3b示出了侵入单耳语音可懂度预测单元msip’与例如听力装置的信号处理单元spu和评估单元eval组合。相较于图3a,图3b的实施例另外包括多个输入单元(在此为两个:m1,m2)如传声器,用于提供表示所涉及输入单元处接收的声音输入的时变电输入信号。至少一(如每一)电输入信号包括目标信号分量(如语音分量)和噪声信号分量(在图3b中称为有噪声目标)。目标信号分量假定源自装置(如听力装置,参见图3c)环境中的目标信号源。图3b的实施例还包括可配置的信号处理单元spu,用于处理电输入信号(如提供波束成形和/或降噪、随频率和电平而变的放大、随电平而变的压缩等)及基于一个或多个电输入信号提供处理后的信号x’,其为可配置的信号处理单元spu的输入。来自可配置的信号处理单元spu的处理后的信号x’馈给单耳语音可懂度预测单元msip’的听力损失模型hlm。听力损失模型单元hlm包括用户(如听力装置用户)的听力损失的模型并配置成对输入信号整形以提供表示处理后的(可能听力损失补偿的)及(再次)恶化的信号的输出信号x,其馈给单耳语音可懂度预测器msip。图3b的实施例还包括天线和收发器单元rx,用于接收包括目标信号的无线信号(在图3b中称为纯净目标)及用于提取目标信号的实质上无噪声的版本s,其连接到单耳语音可懂度预测器msip。来自单耳语音可懂度预测单元msip’的最终语音可懂度预测值d馈给评估单元eval,其修改后的预测值d’馈给可配置的信号处理单元spu。可配置的信号处理单元spu适于基于单耳语音可懂度预测单元提供的及评估单元eval修改的最终语音可懂度预测值d控制或者影响相应电输入信号的处理。可配置的信号处理单元spu适于控制或者影响相应电输入信号的处理以使最终语音可懂度预测值d最大化(例如受评估单元eval(max)控制)。

图3b的实施例例如还可包括输出单元,用于基于电输出产生配置成可由用户感知为声音的输出刺激,电输出为来自信号处理单元的处理后的信号x’或者源自其的信号的形式。输出单元(例如参见图3c中的ot)例如可包括用于放在用户耳道中的扬声器,或者用于附着到用户颅骨的振动器,或者用于放在用户耳蜗中的电极。从而,提供根据本发明的助听器。该助听器可采取空气传导听力仪器、骨导听力仪器、耳蜗植入假体、有效耳朵保护装置、头戴式耳机、具有有效噪声消除的耳麦等。

图3a示出了听力装置hd(如助听器)的第一实施例,包括包含听力损失模型部分hlm和预测器部分msip的侵入单耳语音可懂度预测单元msip’,其配置成优化用户对听力装置hd的输出信号u的可懂度(由指数d表示)。图3c的实施例基本等同于图3b的实施例,但另外包括包含扬声器形式的输出变换器ot的输出单元,其直接连接到信号处理单元spu的输出u。此外,图3c的助听器仅包括一个输入单元it,其包括用于拾取目标信号的有噪声表示y’并将其转换为电输入信号y的传声器,电输入信号y馈给可配置的信号处理单元spu。如图3b中所示,天线和收发器单元rx适于接收包括目标信号的无线信号(在图3c中称为s’)及适于提取目标信号的实质上无噪声版本s,该版本馈给侵入单耳语音可懂度预测单元msip’的预测器部分msip。单耳语音可懂度预测单元msip’提供用户对输出信号的可懂度的估计量,其为(最终)语音可懂度预测值d的形式并馈给可配置的信号处理单元spu的控制部分以修改信号处理从而在反馈环路中优化d。

图4a示出了使用包括根据本发明的侵入单耳语音可懂度预测器(如上面结合图2a、2b、2c和图3a、3b、3c所述)的助听器hd的第一场合,以提高助听器用户u对来自佩戴无线传声器m的讲话者tlk的语音的可懂度,例如在讲课或演讲情形下。讲话者的话音(目标信号)由位于靠近讲话者嘴巴的传声器m拾取。传声器m包括发射器tx,用于使用无线链路wls(如使用fm或蓝牙或者其它标准化或专有技术)将目标信号的实质上无噪声版本s无线传给用户u佩戴的助听器的对应接收器rx。同时,被位置(如具有反射表面的房间,如墙壁)修改并与来自环境的可能噪声混合的目标信号声学传播版本由助听器hd的一个或多个传声器拾取(有噪声信号x)。

图4b示出了使用包括根据本发明的侵入单耳语音可懂度预测器的助听器hd的第二(类似)场合,以提高助听器用户u对来自在车car中使用免提电话机通话的远程讲话者的语音的可懂度,其中远程声音无线及声学地传给助听器用户。远程讲话者的由电话(移动电话)接收的“纯净”目标信号无线传给助听器hd的接收器rx并由其接收为纯净信号s(图4b中的纯净目标),该声音同时由免提电话机的扬声器传播给助听器的传声器it,从而提供“有噪声信号”x(图4b中的有噪声目标x)。用户正驾驶车辆(汽车、方向盘),同时经免提电话机在电话中讲话。车厢中的噪声(由噪声源n1、n2指明)与免提电话机(或电话本身)的扬声器播放的“目标信号”混合并由助听器传声器it拾取为有噪声目标信号x。

图4a、4b的两种场合中使用的助听器hd可以是根据本发明的助听器,如结合图3a、3b、3c所述的助听器,其配置成使助听器传声器拾取并由信号处理装置处理的声学信号的处理适于优化用户的语音可懂度(基于单耳语音可懂度预测单元的预测值,如本发明提出的)。

图5a示出了使用包括根据本发明的侵入单耳语音可懂度预测单元的助听器hd的第三场合,以提高助听器用户对来自在车中使用免提电话机(汽车、方向盘)通话的远程讲话者的语音的可懂度,其中来自远程通信伙伴的声音无线传给助听器用户u。图5a的场合类似于图4b的场合,但在图5a的场合中,远程通信伙伴的声音不被车中的扬声器播放。

纯净目标信号s从移动电话传给助听器hd。车厢的背景噪声v’由助听器的传声器it捕获。可以假定捕获的背景噪声v’实质上等于用户耳膜处出现的噪声νed(参见图5b、5c)。当然,该假定越好,传声器越靠近耳膜定位(和/或耳道部分越开阔)。在实施例中,助听器的传声器位于耳道中,如耳道的入口处或者靠近耳膜(参见图5c中的it3)。

图5b示出了在图5a的(第三)场合中使用的,包括侵入单耳语音可懂度预测器的助听器的实施例。图5b中所示的助听器hd的实施例包括与图3c中所示的实施例同样的功能元件。然而,信号处理单元spu和无线接收器rx和输入变换器it的互连不同。如图5a中所示及如图5b和5c中指明的,助听器的扬声器ot的声音输出(等于来自信号处理单元spu的处理后的信号f(s))与耳膜处的“环境”(车厢)噪声νed声学上混合(参见图5b中s和νed的混合)。

图5b中的助听器实施例的基本想法是处理目标信号的纯净版本s,使得语音可懂度d在纯净目标信号的处理后版本f(s)时最大化。纯净目标信号的处理后版本f(s)可自适应控制,而对于耳膜处的车厢噪声νed(其给定)并非如此。

使用图5b的配置中的语音可懂度模型(如本发明中公开的),来自信号处理单元spu的处理后的信号f(s)当由扬声器(或助听器的声导元件)呈现给耳朵并与耳膜处存在的噪声信号νed混合时,用户对其中存在的语音分量的可懂度可确定,参见信号u=f(s)+ν,该信号用作图5b中的单耳语音可懂度预测单元msip’的听力损失模型hlm的“处理后/有噪声的目标信号输入”。

优选地,扬声器(或者,作为备选,声导元件)位于耳道中,优选靠近耳膜,以将处理后的信号f(s)传到耳膜。优选地,听力装置的传声器(其用于拾取背景噪声v’(参见图5a、5b))位于靠近耳膜处或者耳道入口处或者耳廓中或者耳后。在实施例中,由特定传声器拾取的噪声信号(在助听器中)进行适当修改以考虑声信号从传声器位置到耳膜的传递函数,从而更好地估计用户(在耳膜处)接收的背景噪声νed以用于估计语音可懂度d=d(f(s)+ν,s)。

在图5b的配置中,信号处理单元spu配置成迭代地修改从无线接收器单元rx接收的纯净目标信号s的信号处理以提供纯净目标信号s的、优化用户耳膜处出现的(混合)信号的语音可懂度的处理后版本f(s)(在实践中,在此通过使根据本发明的单耳语音可懂度预测值d(f(s)+ν,s)最大化而逼近)。

作为使用语音可懂度预测器修改(优化)s的备选(或者作为本发明的极端选择),简单增加纯净目标信号s的增益(即f(s)=g·s,g为增益因子,例如g=10)可用于增大耳膜处的信噪比(snr)(假定耳膜处的背景(车厢)噪声νed的电平恒定)。在实践中,然而,这样的仅依赖于纯净目标信号的增益增加可能没有吸引力或者不可能(例如由于声反馈问题、扬声器的最大功率输出限制、或者用户的不舒适电平等)。作为代替,提出纯净目标信号的适当的随频率而变的整形并受单耳语音可懂度预测器(包括听力损失模型hlm,优选定义助听器用户的听力受损的决定性方面)控制。

图5c示出了形成为耳内接收器式(rite)助听器的示例性助听器hd,包括适于位于耳廓后面的部分bte及适于位于用户耳道中的包括输出变换器ot(如扬声器/接收器)的部分ite(例如如图5a、5b中所示,例示助听器hd)。bte部分(bte)和ite部分(ite)通过连接元件ic进行连接(如电连接)。在图5c的助听器实施例中,bte部分包括两个输入单元,其包括两个(可个别选择的)输入变换器(如传声器)it1,it2,每一输入变换器提供表示来自环境(在图5a的场景下,来自车厢)的输入声音信号的电输入音频信号。图5c的听力装置还包括两个(可个别选择的)无线接收器wlr1,wlr2,用于提供相应的直接接收的辅助音频和/或信息信号。助听器hd还包括其上安装多个电子元件的衬底sub,包括可配置的信号处理单元spu、单耳语音可懂度预测单元msip及听力损失模型单元hlm(经电导体wx彼此连接及连接到输入和输出单元)。可配置的信号处理单元spu提供增强的音频信号(例如参见图5b中的信号f(s)),其计划呈现给用户。在图5c的助听器装置实施例中,ite部分包括扬声器(接收器)形式的输出单元ot,用于将电信号(如图5b中的f(s))转换为声信号。ite部分还包括输入单元,其包括用于提供表示耳道中来自环境的输入声音信号的电输入音频信号的输入变换器it3(如传声器)(在此,对佩戴助听器hd的用户u的耳膜处来自车厢的噪声νed进行逼近)。在其它实施例中,助听器可仅包括位于耳道之中或之处的输入单元it3,或者位于耳道之中或之处的输入单元it3与位于别处如bte部分中的输入单元的组合。ite部分还包括引导元件如圆顶do,用于引导并将ite部分定位在用户耳道中。

图5c中例示的助听器hd为便携装置,及还包括用于对bte部分和ite部分的电子元件供电的电池bat。

在实施例中,助听器hd包括定向传声器系统(波束形成器),其适于增强佩戴助听器装置的用户的局部环境中的多个声源之中的目标声源。在实施例中,所述定向系统适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。

图5c的助听器可形成根据本发明的助听器和/或双耳助听器系统的一部分(例如参见图7)。

图6a示出了双耳听力系统的实施例,包括左和右听力装置如助听器hdleft,hdright与用作双耳助听器系统的用户接口ui(参见图6b)的便携(手持)辅助装置aux通信。在实施例中,双耳听力系统包括辅助装置aux(及用户接口ui)。在图6a的实施例中,指明了记为ia-wl(如左和右听力装置之间的感应链路)和wl-rf(如分别在辅助装置aux和左助听器hdleft之间及辅助装置aux和右助听器hdright之间的rf链路(如蓝牙))的无线链路(通过对应的天线和收发器电路实施在装置中,在图6a中在左和右听力装置中分别指示为rf-ia-rx/tx-l和rf-ia-rx/tx-r)。

图6b示出了包括用户接口ui的辅助装置aux,用户接口为用于控制和显示与语音可懂度预测器有关的数据的app的形式。用户接口ui包括显示器(如触敏显示器),显示用于控制助听器系统及将信息呈现给用户的语音可懂度si-app的屏幕。该spp包括关于双耳(或单耳)听力系统的功能的多个预定动作按钮。在例示app(的一部分)中,用户u具有经将si预测模式选择为单耳sip或双耳sip模式而影响运行模式的选择。在图6b所示的屏幕中,选择无光度的按钮,即si增强模式(其中处理适于基于(单耳或双耳)语音可懂度预测值优化语音可懂度)连同特定车载电话模式一起(如结合图5a、5b、5c所述)。此外,显现当前si估计量已被启动(导致双耳语音可懂度预测器的当前预测值被显示(肯定指示符的形式),连同当前噪声电平的指示(指明为“高”)一起)。灰色阴影按钮“演讲模式”(如结合图4a、4b所述)可被选择,代替车载电话模式。

图7示出了根据本发明的双耳助听器系统的实施例,包括左和右听力装置hdleft,hdright,每一听力装置包括单耳语音可懂度预测单元msip’,其各个预测值dleft和dright在听力装置之间交换并用于影响或控制听力装置中的相应信号处理单元spu的信号处理以优化用户的双耳语音可懂度。左和右听力装置hdleft,hdright例如为结合图3c所述的听力装置。左和右听力装置中的每一个包括天线和收发器电路ia-rx/tx,用于使能建立通信链路ia-wls并使信息dleft,dright能在左和右听力装置之间交换。在实施例中,双耳助听器系统包括双耳语音可懂度预测单元,用于在用户暴露于声音输入时提供其预测的语音可懂度的最终双耳语音可懂度度量dbinaural,其中最终双耳语音可懂度度量dbinaural根据相应的左和右听力装置的最终单耳语音可懂度预测值dleft,dright确定。双耳语音可懂度预测单元例如可实施在左和右听力装置的一个或两个信号处理单元spu中。在实施例中,最终双耳语音可懂度度量dbinaural确定为相应的左和右听力装置的语音可懂度预测值dleft,dright中的最大值:dbinaural=max(dleft,dright)。

当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。

除非明确指出,在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解,说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件,但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解,除非明确指出,当元件被称为“连接”或“耦合”到另一元件时,可以是直接连接或耦合到其他元件,也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出,在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

应意识到,本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外,特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见,及在此定义的一般原理可应用于其他方面。

权利要求不限于在此所示的各个方面,而是包含与权利要求语言一致的全部范围,其中除非明确指出,以单数形式提及的元件不意指“一个及只有一个”,而是指“一个或多个”。除非明确指出,术语“一些”指一个或多个。

因而,本发明的范围应依据权利要求进行判断。

参考文献

[1]americannationalstandardsinstitute,“ansis3.5,methodsforthecalculationofthespeechintelligibilityindex,”newyork1995.

[2]k.s.rhebergenandn.j.versfeld,“aspeechintelligibilityindexbasedapproachtopredictthespeechreceptionthresholdforsentencesinfluctuatingnoisefornormal-hearinglisteners,”j.acoust.soc.am.,vol.117,no.4,pp.2181-2192,2005.

[3]c.h.taal,r.c.hendriks,r.heusdens,andj.jensen,“analgorithmforintelligibilitypredictionoftime-frequencyweightednoisyspeech,”ieeetrans.audio,speech,lang.process.,vol.19,no.7,pp.2125-2136,sept.2011.

[4]b.c.j.moore,“cochlearhearingloss,”physiological,psychologicalandtechnicalissues,“wiley,2007.

[5]r.beutelmannandt.brand,“predictionofintelligibilityinspatialnoiseandreverberationfornormal-hearingandhearing-impairedlisteners,”j.acoust.soc.am.,vol.120,no.1,pp.331-342,april2006.

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1