低延时助听器的制作方法

文档序号:32441924发布日期:2022-12-06 22:17阅读:42来源:国知局
低延时助听器的制作方法

1.本发明涉及听力装置如助听器,尤其涉及配置成在音频信号的处理方面具有低延迟的听力装置。


背景技术:

2.[luo et al.;2019]描述了用于独立于扬声器的语音分离的方案,其使用深度学习框架下的全卷积时域音频分离网络(dnn)进行端到端时域语音分离。dnn使用线性编码器生成针对分离的各个扬声器优化的语音波形的表示。扬声器分离通过将一组加权函数(掩模)应用于编码器输出而实现。修改后的编码器表示则使用线性解码器转回为波形。掩模使用由堆叠的1-d个空洞卷积块组成的时域卷积网络(temporal convolutional network,tcn)发现,这使网络能在保持小模型大小的同时对语音信号的长期相依性进行建模。
[0003]
图1示出了配置成在频域处理信号的听力装置hd’如助听器。通过传声器(m1,

,mm)拾取的时域信号(i1,

,im,m≥1)使用分析滤波器组afb转换为时-频域信号(if1,

,ifm)。在频域,信号被修改以补偿用户的听力损失(参见hlc单元和输出信号of),及可能还被处理以增强有噪声背景中的语音(例如通过降低输入信号(if1,

,ifm)中的噪声,参见nr模块和输出信号ifnr)。nr模块的目的在于降低背景噪声以增强目标信号。噪声通常使用波束形成和/或通过衰减其中信噪比(snr)估计很差的时间和频率区域而进行衰减。处理后的信号of通过合成滤波器组sfb转换到时域,所得的时域信号o经输出变换器(在此为扬声器spk)呈现给用户。
[0004]
在图1中所示的听力仪器hd’的框图中,传声器信号(i1,

,im)在频域进行处理以提供随频率而变的增益(从而例如对听力仪器用户提供听力损失补偿)。频域处理通常需要滤波。滤波器(分析滤波器afb+合成滤波器sfb)具有一定程度,藉此,在处理通路中引入延迟。作为大拇指规则,越高的频率分辨率要求越长的滤波器,从而通过听力仪器的延迟越高。
[0005]
然而,在处理后的声音被显著降级之前,听力装置能引入多少延时(也称为等待时间)有限制。通常,在日常听力装置使用期间,超过约10毫秒(ms)的延迟是不可接受的。


技术实现要素:

[0006]
助听器
[0007]
在本技术的一方面,提供一种配置成由用户佩戴的助听器。该助听器包括:
[0008]-至少一输入单元,用于提供第一域的电输入信号的至少一样本流,至少一电输入信号表示助听器环境中的声音;
[0009]-至少一编码器,配置成将第一域的电输入信号的至少一样本流转换为第二域的电输入信号的至少一样本流;
[0010]-处理单元,配置成处理第二域的至少一电输入信号以针对用户的听力受损提供补偿及将处理后的信号提供为第二域的样本流;及
[0011]-解码器,配置成将第二域的处理后的信号的样本流转换为第一域的处理后的信号的样本流。
[0012]
至少一编码器可配置成将来自第一域的电输入信号的至少一样本流的第一数量的样本转换为第二域的电输入信号的至少一样本流中的第二数量的样本。解码器可配置成将来自第二域的处理后的信号的样本流的第二数量的样本转换为第一域的电输入信号的样本流中的第一数量的样本。样本的第二数量可大于样本的第一数量。至少一编码器可进行训练(例如优化)。针对用户的听力受损提供补偿的所述处理单元的至少一部分可实施为经训练的神经网络。
[0013]
从而可提供改进的助听器。
[0014]
编码器和解码器配置成分别按n1-》n2样本批和n2-》n1样本批分别将信号从第一域转换到第二域及从第二域转换到第一域,其中n1和n2分别为样本的第一数量和第二数量。
[0015]
编码器/解码器(例如其参数)可进行训练(例如优化)。处理单元可实施为经训练的神经网络。编码器(或者编码器/解码器)和实施处理单元(或者至少补偿用户的听力受损的部分)的神经网络可联合训练(在共同的训练程序中,例如使用单一价值函数)。经训练的编码器/解码器框架可学习关于频率含量的信息,但编码后的通道不必然特别分配给特定频带,因为编码后的“基函数”也可包含跨频率和时间的信息,例如调制。图3c示出了基函数可怎样看起来相像的例子。每一基函数可与输入信号中的具体特征相关联。其例如可以是语音特定特征如起始、音高、调制、频率特定特征或某些波形。通常,基函数将基于不同的输出信号进行训练。基函数例如可进行训练以获得解码的、听力损失得以补偿的信号,从而实施低延时听力损失补偿,如本发明提出的。
[0016]
处理单元配置成运行一种或多种处理算法以改善第二域的电输入信号。一种或多种处理算法可包括听力损失补偿算法、降噪算法(例如包括波束形成器,及可能后滤波器)、反馈控制算法等或者其组合。
[0017]
术语“神经网络”或“人工神经网络”可覆盖任何类型的人工神经网络,例如前馈、循环、长/短期记忆、门控循环单元(gru)、卷积等。
[0018]
解码器例如可形成处理单元的一部分。
[0019]
编码器例如可实施具有零填充的输入的傅里叶变换。
[0020]
样本的第二数量(n2)可为样本的第一数量(n1)的两倍以上。样本的第二数量(n2)可为样本的第一数量(n1)的5倍以上。样本的第二数量(n2)可为样本的第一数量(n1)的10倍以上。
[0021]
第一域可以是时域。
[0022]
通常,当应用傅里叶变换时,其对应于n个输入样本乘以n x n dft矩阵,即x=wx,其中w=nxn,x=nx1,因此x=nx1。与dft矩阵有关的“基函数”在“dft matrix”(dft矩阵)主题下的链接中说明,其将dft描述为矩阵相乘,参见链接:https://en.wikipedia.org/wiki/dft_matrix(2022年5月30日访问)。
[0023]
在dft矩阵的大小大于n个输入样本的情形下,输入样本可进行零填充。
[0024]
根据本发明的变换可不同于傅里叶变换,因为根据本发明的变换矩阵g为n2xn1矩阵,其中n2》n1,使得变换后的信号为s=gs,其中g=n2xn1,s=n1x1及s=n2x1,其中s为初
始(例如时域)信号,g为(与编码有关的)变换。从而,(与解码有关的)逆变换矩阵g-1
可写为n1xn2矩阵,使得逆变换后的信号为s=g-1
s。
[0025]
图3c示意性地示出了变换矩阵g的基函数的例子。
[0026]
在傅里叶变换中,每一基函数包含某一频率。傅里叶变换可看作基函数的特殊情形,其中每一基函数为复正弦波。通过将每一正弦波与输入信号相关联,可能找到输入信号中包含的频率。
[0027]
同样,根据本发明的每一基函数可“与输入信号相关联”,以类似的方式,我们能确定每一基函数怎样好地与输入信号“相关联”。
[0028]
至少一输入单元可包括输入变换器,用于将声音转换为表示第一域的该声音的电输入信号的样本流。输入变换器可包括模数转换器以将模拟电输入信号数字化为音频样本流。输入变换器可包括传声器(例如配置成将空气中的振动转换为电信号的“一般”传声器)。
[0029]
编码器和/或解码器可实施为神经网络、或者相应的神经网络、或者神经网络的相应部分。编码器和/或解码器(中的每一个)可实施为前馈神经网络。
[0030]
至少一编码器和处理单元可配置成联合地进行优化以在低延时的约束条件下最佳地处理至少一电输入信号。处理单元可包括神经网络(或由其构成)。编码器可将第一域的第一数量(n1)的样本转换为第二域的第二数量(n2)的样本。第二域的第二数量(n2)的样本可构成(处理单元的)神经网络的输入向量的至少一部分。(处理单元的)神经网络可提供包括第二域的第二数量(n2)的样本的输出向量。解码器可将第二域的第二数量(n2)的样本转换为第一域的第一数量(n1)的样本。
[0031]
至少一编码器、处理单元和解码器可配置成联合地进行优化以在低延时的约束条件下最佳地处理至少一电输入信号。低延时约束条件例如可经优化判据下的损失函数实施,使得误差在输出声音的波形与希望的输出声音的波形“时间对齐”时最小。
[0032]
已在低延时约束条件下与助听器的处理单元联合优化的编码器和解码器分别称为低延时编码器和低延时解码器。
[0033]
低延时约束条件例如可与通过听力装置的处理时间(的限制)有关。低延时约束条件例如可与通过编码器、处理装置和解码器的处理时间有关。输入帧越大,通过听力装置的延时越高。因而,对输入帧大小的约束将使通过听力装置的延时更短。
[0034]
通常,在输入帧短(包括相当少的音频样本)时,滤波器组将仅包含有限的频率分辨率。本发明的优点在于通过将短的输入帧映射到基函数的高维空间,使能实现频率的高分辨率修改,例如根据从听力图(及可能另外的输入)获得的处方。
[0035]
(根据本发明的包括编码器/解码器组合的)助听器可配置成具有1ms如5ms或10ms的最大延迟。
[0036]
参与(例如联合)优化(训练)的参数对于神经网络而言可包括下述之一或多个:神经网络的权重参数、偏置量参数和非线性函数参数。在训练期间参与优化的参数对于编码器和/或解码器而言可包括样本的第一和第二数量中的一个或多个。
[0037]
至少一编码器/解码器组合例如可配置成实施线性变换(例如矩阵相乘)。
[0038]
至少一编码器/解码器例如可包含一个或多个非线性变换(如神经网络)。
[0039]
处理单元(的功能)的至少一部分可实施为循环神经网络(如gru)。
[0040]
至少一编码器、处理单元、(最佳地)及解码器的参数可进行训练以使由与包括线性滤波器组而不是至少一编码器和解码器的听力装置的差异给出的价值函数最小化。至少一编码器、处理单元、(最佳地)及解码器的参数可一起进行训练以提供实施至少一编码器、处理单元和解码器的、分开的神经网络的优化参数。
[0041]
助听器可包括输出单元,用于基于第一域的处理后的信号的样本流向用户提供可感知为声音的刺激。
[0042]
助听器可包括:
[0043]-配置成佩戴在用户耳朵处或耳朵中的至少一耳件;及
[0044]-独立的音频处理装置。
[0045]
耳件和独立的音频处理装置可配置成使能在彼此之间(例如经有线或无线链路)交换音频信号或从其得出的参数。
[0046]
独立的音频处理装置可为便携例如可穿戴装置。
[0047]
耳件和独立的音频处理装置可包括相应的收发器,从而使能在其间建立无线通信链路例如无线音频通信链路。通信链路可基于任何适当的(例如短程)专有或标准化通信技术,例如蓝牙或低功耗蓝牙、超宽带(uwb)、nfc等。
[0048]
耳件可包括:
[0049]-所述至少一输入单元;及
[0050]-所述输出单元。
[0051]
耳件可包括至少一输入变换器如传声器。耳件可包括至少两个输入变换器如传声器。
[0052]
独立的音频处理装置可包括处理单元。
[0053]
独立的音频处理装置可包括编码器。
[0054]
耳件可包括编码器。耳件和独立的音频处理装置可包括(可能一样的)编码器单元。从而,从独立的音频处理装置到耳件的传输可限于适当的增益(表示第二域的(编码后的)电输入信号的放大的衰减)应用于(耳件中)第二域的电输入信号的样本流。
[0055]
耳件可包括解码器。
[0056]
独立的音频处理装置可包括解码器。
[0057]
输出单元可包括耳蜗植入型助听器的多个电极、或者骨导助听器的振动器、或者基于空气传导的助听器的扬声器。
[0058]
听力装置(如助听器)可适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿用户的听力受损。听力装置可包括用于增强输入信号并提供处理后的输出信号的信号处理器。
[0059]
听力装置可包括输出单元,用于基于处理后的电信号提供由用户感知为声学信号的刺激。输出单元可包括耳蜗植入物的多个电极(对于ci型助听器而言)或者骨导助听器的振动器。输出单元可包括输出变换器。输出变换器可包括用于将刺激作为声信号提供给用户的接收器(扬声器)(例如在声学(基于空气传导的)助听器中)。输出变换器可包括用于将刺激作为颅骨的机械振动提供给用户的振动器(例如在附着到骨头的或骨锚式助听器中)。
[0060]
听力装置可包括用于提供表示声音的电输入信号的输入单元。输入单元可包括用
于将输入声音转换为电输入信号的输入变换器如传声器。输入单元可包括无线接收器,用于接收包括或表示声音的无线信号并提供表示所述声音的电输入信号。无线接收器例如可配置成接收在无线电频率范围(3khz到300ghz)的电磁信号。无线接收器例如可配置成接收在光频率范围(例如红外光300ghz到430thz或者可见光如430thz到770thz)的电磁信号。
[0061]
听力装置可包括定向传声器系统,其适于对来自环境的声音进行空间滤波从而增强佩戴听力装置的用户的局部环境中的多个声源之中的目标声源。定向系统可适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。这可以例如现有技术中描述的多种不同方式实现。在听力装置中,传声器阵列波束形成器通常用于空间上衰减背景噪声源。许多波束形成器变型可在文献中找到。最小方差无失真响应(mvdr)波束形成器广泛用在传声器阵列信号处理中。理想地,mvdr波束形成器保持来自目标方向(也称为视向)的信号不变,而最大程度地衰减来自其它方向的声音信号。广义旁瓣抵消器(gsc)结构是mvdr波束形成器的等同表示,其相较原始形式的直接实施提供计算和数字表示优点。
[0062]
听力装置可包括天线和收发器电路,其使能建立到娱乐设备(例如电视机)、通信装置(如电话)、无线传声器或另一听力装置等的无线链路。听力装置因而可配置成从另一装置无线接收直接电输入信号。类似地,听力装置可配置成将直接电输入信号无线传给另一装置。直接电输入信号可表示或包括音频信号和/或控制信号和/或信息信号。
[0063]
一般地,听力装置的天线及收发器电路建立的无线链路可以是任何类型。无线链路可以是基于近场通信的链路,例如基于发射器部分和接收器部分的天线线圈之间的感应耦合的感应链路。无线链路可基于远场电磁辐射。优选地,用于在听力装置和另一装置之间建立通信链路的频率低于70ghz,例如位于从50mhz到70ghz的范围中,例如高于300mhz,例如在高于300mhz的ism范围中,例如在900mhz范围中或在2.4ghz范围中或在5.8ghz范围中或在60ghz范围中(ism=工业、科学和医学,这样的标准化范围例如由国际电信联盟itu定义)。无线链路可基于标准化或专用技术。无线链路可基于蓝牙技术(如低功耗蓝牙技术)或者超宽带(uwb)技术。
[0064]
听力装置可以是便携式(即配置成可穿戴的)设备或形成其一部分,例如包括本地能源如电池例如可再充电电池的设备。听力装置例如可以是低重量、容易穿戴的设备,例如具有小于500g的总重量(例如助听器的独立的处理装置),例如小于100g,例如小于20g,例如小于5g(例如助听器的耳件)。
[0065]
听力装置可包括听力装置的输入和输出单元之间的、用于处理音频信号的“正向”(或“信号”)通路。信号处理器可位于该正向通路中。信号处理器可适于根据用户的特定需要提供随频率而变的增益(例如听力仪器)。听力装置可包括具有用于分析信号和/或控制正向通路的处理的功能件的“分析”通路。分析通路和/或正向通路的部分或所有信号处理可在频域进行,在该情形下,听力装置包括适当的分析和合成滤波器组。分析通路和/或正向通路的部分或所有信号处理可在时域进行。
[0066]
表示声信号的模拟电信号可在模数(ad)转换过程中转换为数字音频信号,其中模拟信号以预定采样频率或采样速率fs进行采样,fs例如在从8khz到48khz的范围中(适应应用的特定需要)以在离散的时间点tn(或n)提供数字样本xn(或x[n]),每一音频样本通过预定的nb比特表示声信号在tn时的值,nb例如在从1到48比特的范围中如24比特。每一音频样本因此使用nb比特量化(导致音频样本的2
nb
个不同的可能的值)。数字样本x具有1/fs的时
间长度,如50μs,对于fs=20khz。多个音频样本可按时间帧安排。一时间帧可包括64个或128个音频数据样本。根据实际应用可使用其它帧长度。
[0067]
听力装置可包括模数(ad)转换器以按预定的采样速率如20khz对模拟输入(例如来自输入变换器如传声器)进行数字化。听力装置可包括数模(da)转换器以将数字信号转换为模拟输出信号,例如用于经输出变换器呈现给用户。
[0068]
听力装置如输入单元和/或天线及收发器电路可包括用于将时域信号转换为变换域(例如频域或laplace域等)中的信号的变换单元。变换单元可由时频(tf)转换单元构成或者包括tf转换单元,其用于提供输入信号的时频表示。时频表示可包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。
[0069]
听力装置考虑的、从最小频率f
min
到最大频率f
max
的频率范围可包括从20hz到20khz的典型人听频范围的至少一部分,例如从20hz到12khz的范围的一部分。通常,采样率fs大于或等于最大频率f
max
的两倍,即fs≥2f
max

[0070]
听力装置可配置成在不同模式下运行,如正常模式及一个或多个特定模式,例如可由用户选择或者可自动选择。运行模式可针对特定声学情形或环境进行优化。运行模式可包括低功率模式,其中听力装置的功能被减少(例如以便节能),例如禁用无线通信和/或禁用听力装置的特定特征。
[0071]
听力装置可包括多个检测器,其配置成提供与听力装置的当前网络环境(如当前声环境)有关、和/或与佩戴听力装置的用户的当前状态有关、和/或与听力装置的当前状态或运行模式有关的状态信号。作为备选或另外,一个或多个检测器可形成与听力装置(如无线)通信的外部装置的一部分。外部装置例如可包括另一听力装置、遥控器、音频传输装置、电话(如智能电话)、外部传感器等。
[0072]
多个检测器中的一个或多个可对全带信号起作用(时域)。多个检测器中的一个或多个可对频带拆分的信号起作用((时-)频域),例如在有限的多个频带中。
[0073]
多个检测器可包括用于估计正向通路的信号的当前电平的电平检测器。检测器可配置成决定正向通路的信号的当前电平是否高于或低于给定(l-)阈值。电平检测器作用于全频带信号(时域)。电平检测器作用于频带拆分信号((时-)频域)。
[0074]
听力装置可包括话音活动检测器(vad),用于估计输入信号(在特定时间点)是否(或者以何种概率)包括话音信号。在本说明书中,话音信号可包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。话音活动检测器单元可适于将用户当前的声环境分类为“话音”或“无话音”环境。这具有下述优点:包括用户环境中的人发声(如语音)的电传声器信号的时间段可被识别,因而与仅(或主要)包括其它声源(如人工产生的噪声)的时间段分离。话音活动检测器可适于将用户自己的话音也检测为“话音”。作为备选,话音活动检测器可适于从“话音”的检测排除用户自己的话音。
[0075]
听力装置可包括自我话音检测器,用于估计特定输入声音(如话音,如语音)是否(或以何种概率)源自系统用户的话音。听力装置的传声器系统可适于能够在用户自己的话音及另一人的话音之间进行区分及可能与无话音声音区分。
[0076]
多个检测器可包括运动检测器,例如加速度传感器。运动检测器可配置成检测用户面部肌肉和/或骨头的例如因语音或咀嚼(如颌部运动)引起的运动并提供标示该运动的检测器信号。
[0077]
听力装置可包括分类单元,配置成基于来自(至少部分)检测器的输入信号及可能其它输入对当前情形进行分类。在本说明书中,“当前情形”可由下面的一个或多个定义:
[0078]
a)物理环境(如包括当前电磁环境,例如出现计划或未计划由听力装置接收的电磁信号(包括音频和/或控制信号),或者当前环境不同于声学的其它性质);
[0079]
b)当前声学情形(输入电平、反馈等);
[0080]
c)用户的当前模式或状态(运动、温度、认知负荷等);
[0081]
d)听力装置和/或与听力装置通信的另一装置的当前模式或状态(所选程序、自上次用户交互之后消逝的时间等)。
[0082]
分类单元可基于或包括神经网络例如经训练的神经网络。
[0083]
听力装置可包括声(和/或机械)反馈控制(如抑制)或者回声消除系统。自适应反馈抵消有能力跟踪反馈通路随时间的变化。其通常基于估计反馈通路的线性时不变滤波器,但滤波器权重随时间更新。滤波器更新可使用随机梯度算法进行计算,包括某一形式的最小均方(lms)或归一化lms(nlms)算法。它们均具有在均方方面使误差信号最小化的性质,nlms另外使滤波器更新关于某一参考信号的欧几里得范数的平方归一化。
[0084]
听力装置还可包括用于所涉及应用的其它适宜功能,如压缩、降噪等。
[0085]
听力装置可包括听力仪器例如适于位于用户耳朵处或者完全或部分位于耳道中的听力仪器,例如头戴式耳机、耳麦、耳朵保护装置或其组合。听力系统可包括喇叭扩音器(包含多个输入变换器和多个输出变换器,例如用在音频会议情形),例如包括波束形成器滤波单元,例如提供多个波束形成能力。
[0086]
应用
[0087]
一方面,提供如上所述的、“具体实施方式”部分中详细描述的和权利要求中限定的听力装置如助听器的应用。可提供在包括一个或多个助听器(如听力仪器,例如双耳助听器系统)、耳机、耳麦、主动耳朵保护系统等的听力系统中的应用,例如免提电话系统、远程会议系统(例如包括喇叭扩音器)、广播系统、卡拉ok系统、教室放大系统等。
[0088]
助听器的运行方法
[0089]
一方面,本技术进一步提供配置成由用户佩戴的助听器的运行方法。该方法包括:
[0090]-提供第一域的电输入信号的至少一样本流,至少一电输入信号表示助听器环境中的声音;
[0091]-将第一域的电输入信号的至少一样本流转换(编码)为第二域的电输入信号的至少一样本流;
[0092]-处理第二域的至少一电输入信号以针对用户的听力受损提供补偿及将处理后的信号提供为第二域的样本流;
[0093]-将第二域的处理后的信号的样本流转换(解码)为第一域的处理后的信号的样本流;及
[0094]-基于第一域的处理后的信号的样本流向用户提供可感知为声音的刺激。
[0095]
所述方法还可包括:
[0096]-将来自第一域的电输入信号的至少一样本流的第一数量的样本转换(编码)为第二域的电输入信号的至少一样本流中的第二数量的样本;及
[0097]-将来自第二域的处理后的信号的样本流的第二数量的样本转换(解码)为第一域
的电输入信号的样本流中的第一数量的样本。
[0098]
样本的第二数量可大于样本的第一数量。编码可进行训练(例如优化)。针对用户的听力受损的补偿可通过经训练的神经网络提供。
[0099]
当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的或权利要求中限定的装置的部分或所有结构特征可与本发明方法的实施结合,反之亦然。方法的实施具有与对应装置一样的优点。
[0100]
训练(例如优化)助听器的方法
[0101]
一方面,进一步提供训练上面描述的、“具体实施方式”中详细描述的或权利要求中限定的助听器的参数的方法。该方法包括:
[0102]-训练上面描述的、“具体实施方式”中详细描述的或权利要求中限定的基于低延时编码器的助听器的参数以使包括在傅里叶域运行的滤波器组的目标助听器的输出信号处的误差最小。
[0103]
术语输出信号处的“误差”在本说明书中意为基于低延时编码器的助听器的输出与包括在傅里叶域运行的滤波器组的助听器的输出之间的“差”。
[0104]
一方面,进一步提供基于编码器/解码器的助听器的参数的优化方法,以使基于编码器/解码器-编码器的目标助听器的输出信号与基于滤波器组的助听器的输出信号之间的差最小化。
[0105]
基于编码器/解码器-编码器的助听器包括正向通路,其包括:
[0106]-编码器,配置成将第一域的电输入信号的样本流转换为第二域的电输入信号的样本流;
[0107]-处理单元,配置成处理第二域的至少一电输入信号以提供针对用户的听力受损的补偿及将处理后的信号提供为第二域的样本流;
[0108]-解码器,配置成将第二域的处理后的信号的样本流转换为第一域的处理后的信号的第一样本流。
[0109]
基于滤波器组的助听器包括正向通路,其包括:
[0110]-分析滤波器组,用于将第一域的电输入信号的样本流转换为傅里叶域的信号;及
[0111]-处理单元,其连接到分析滤波器组和合成滤波器组并配置成处理傅里叶域的信号以补偿用户的听力受损及提供傅里叶域的处理后的信号;
[0112]-合成滤波器组,用于将傅里叶域的处理后的信号转换为第一域的处理后的信号的第二样本流。
[0113]
所述方法包括:
[0114]-提供第一域的电输入信号的样本流,至少一电输入信号表示基于编码器/解码器-编码器的目标助听器和/或基于滤波器组的助听器的环境中的声音;
[0115]-使由第一域的处理后的信号的第一和第二样本流之间的差给出的价值函数最小化,从而优化基于编码器/解码器的助听器的参数(以提供基于编码器/解码器-编码器的目标助听器)。
[0116]
该方法可配置成使得所述参数包括下述之一或多个:神经网络的权重参数、偏置量参数和非线性函数参数。
[0117]
该方法可配置成使得所述参数包括样本的第一和第二数量中的一个或多个。
[0118]
该方法可包括:
[0119]-除编码器、处理单元和解码器的处理延迟之外,还提供单独的、基于编码器/解码器的助听器的正向通路中的延迟(d),其中延迟参数(d)用于调节目标助听器与基于编码器的助听器之间预计的延时差。
[0120]
术语“基于低延时编码器的助听器的参数”例如可包括编码矩阵g(即变换矩阵)的权重,或者更一般地讲,实施编码器(可能及基于低延时编码器的助听器的其它功能部分,例如处理器和/或低延时解码器)的神经网络的权重和偏置量。
[0121]
基于滤波器组的助听器包括正向通路,其包括一个或多个传声器(如基于低延时编码器的助听器一样)、用于将相应传声器信号从时域转换到频域的一个或多个分析滤波器组、至少包括用于补偿用户的听力受损并提供处理后的信号的听力损失补偿算法的处理单元、及用于将处理后的信号从频域转换到时域的合成滤波器组。基于滤波器组的助听器和被训练(例如优化)的根据本发明的基于编码器/解码器-编码器的助听器的输入单元和输出单元可一样。从用户的角度,基于滤波器组的助听器和被训练的根据本发明的基于编码器/解码器-编码器的助听器的总体功能可一样(但延迟除外)。
[0122]
所提出的模型的优点在于,根据本发明的基于编码器的助听器的延时相较于传统的助听器处理可保持在最低。可进行朝向其中延迟高于通常允许的延迟的助听器的训练,例如如果分析滤波器组因延时而具有比助听器中通常允许的频率分辨率高的频率分辨率(例如在正向通路中》64或128个频带)。
[0123]
延迟参数d可用于调节基于滤波器组的助听器与基于编码器的助听器之间的延时差。延迟参数可用允许随频率而变的延迟的全通滤波器替代。
[0124]
基于低延时编码器的助听器的编码器、处理单元和解码器可作为一个深度神经网络进行训练,其中深度神经网络的第一层对应于编码器,最后的层对应于解码器,中间的层对应于听力损失补偿处理。神经网络可联合地进行训练。编码器和解码器可进行训练,但针对个体听力图进行精调时保持固定(其中仅中间的层进行训练,例如针对用户的具体听力损失进行训练)。
[0125]
编码器和解码器可针对特定听力损失进行训练。
[0126]
双耳助听器系统中的编码器/解码器在两个助听器中可以相同(或不同)。
[0127]
编码器/解码器可以是双耳系统的一部分,其中神经网络联合地进行训练,例如为了保留双耳线索。
[0128]
计算机可读介质或数据载体
[0129]
本发明进一步提供保存包括程序代码(指令)的计算机程序的有形计算机可读介质(数据载体),当计算机程序在数据处理系统(计算机)上运行时,使得数据处理系统执行(实现)上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。
[0130]
作为例子但非限制,前述有形计算机可读介质可包括ram、rom、eeprom、cd-rom或其他光盘存储器、磁盘存储器或其他磁性存储装置,或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的,盘包括压缩磁盘(cd)、激光盘、光盘、数字多用途盘(dvd)、软盘及蓝光盘,其中这些盘通常磁性地复制数据,同时这些盘可用激光光学地复制数据。其它存储介质包括存储在dna中(例如合成的dna
链中)。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外,计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。
[0131]
计算机程序
[0132]
此外,本技术提供包括指令的计算机程序(产品),当该程序由计算机运行时,导致计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。
[0133]
数据处理系统
[0134]
一方面,本发明进一步提供数据处理系统,包括处理器和程序代码,程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。
[0135]
听力系统
[0136]
另一方面,提供包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置及包括辅助装置的听力系统。
[0137]
听力系统可适于在听力装置与辅助装置之间建立通信链路以使得信息(如控制和状态信号,可能音频信号)可进行交换或者从一装置转发给另一装置。
[0138]
辅助装置可包括遥控器、智能电话或者其它便携或可穿戴电子装置智能手表等。
[0139]
辅助装置可由遥控器构成或者包括遥控器,其用于控制听力装置的功能和运行。遥控器的功能实施在智能电话中,该智能电话可能运行使能经智能电话控制听力装置或听力系统的功能的app(听力装置包括适当的到智能电话的无线接口,例如基于蓝牙或一些其它标准化或专有方案)。
[0140]
辅助装置可由音频网关设备构成或者包括音频网关设备,其适于(例如从娱乐装置如tv或音乐播放器、从电话设备如移动电话或者从计算机如pc)接收多个音频信号并适于选择和/或组合所接收的音频信号中的适当信号(或信号组合)以传给听力装置。
[0141]
辅助装置可由另一听力装置构成或者包括另一听力装置。听力系统可包括适于实施双耳听力系统如双耳助听器系统的两个听力装置。
[0142]
本技术进一步提供包括第一和第二上面描述的、“具体实施方式”中详细描述的及权利要求中限定的助听器的双耳听力系统。
[0143]
双耳听力系统可配置成使得独立的音频处理装置服务第一和第二助听器。第一和第二助听器可分别包括第一和第二耳件。第一和第二耳件中的每一个可包括相应的至少一编码器和解码器。独立的音频处理装置可包括至少一编码器及处理单元,其中处理单元配置成确定适当的增益,这些增益在相应第一和第二耳件中基于来自第一和第二听力装置的第二域的电输入信号的至少一样本流应用于第二域的至少一电输入信号的相应样本流。
[0144]
双耳听力系统可体现为如图7中所示。
[0145]
app
[0146]
另一方面,本发明还提供称为app的非短暂应用。app包括可执行指令,其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置或听力系统的用户接口。该app可配置成在移动电话如智能电话或另一使能与所述听力装置或听力系统通信的便携装置上运行。
[0147]
app可包括延时配置app,其使用户能决定怎样配置根据本发明的处理。用户可指明当前涉及单耳系统(单一助听器系统)还是包括左和右助听器的双耳系统。对于单耳系统,用户还可指明助听器是位于左耳处还是右耳处。用户还可指明是否将使用外部音频处理装置。辅助装置和助听器可适于使能在其间经例如无线通信链路通信表示当前选择的配置的数据。
[0148]
定义
[0149]
在本说明书中,助听器如听力仪器指适于改善、增强和/或保护用户的听觉能力的装置,其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。可听见的信号例如可以下述形式提供:辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户的耳蜗神经的电信号。
[0150]
助听器可构造成以任何已知的方式进行佩戴,如作为佩戴在耳后的单元(具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的输出变换器如扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元如振动器、或作为可连接的或者整个或部分植入的单元等。助听器可包括单一单元或几个彼此(例如声学、电学或光学)通信的单元。扬声器可连同助听器的其它部件一起设置在壳体中,或者其本身可以是外部单元(可能与柔性引导元件如圆顶状元件组合)。
[0151]
助听器可适应特定用户的需要如听力受损。助听器的可配置的信号处理电路可适于施加输入信号的随频率和电平而变的压缩放大。定制的随频率和电平而变的增益(放大或压缩)可在验配过程中通过验配系统基于用户的听力数据如听力图使用验配基本原理(例如适应语音)确定。随频率和电平而变的增益例如可体现在处理参数中,例如经到编程装置(验配系统)的接口上传到助听器,并由助听器的可配置的信号处理电路执行的处理算法使用。
[0152]“听力系统”指包括一个或两个助听器的系统。“双耳听力系统”指包括两个助听器并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听力系统还可包括一个或多个“辅助装置”,其与助听器通信并影响和/或受益于助听器的功能。前述辅助装置可包括至少下述之一:遥控器、远程传声器、音频网关设备、娱乐设备如音乐播放器、无线通信装置如移动电话(例如智能电话)或平板电脑或另一装置,例如包括图形界面。助听器、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。助听器或听力系统例如可形成广播系统、主动耳朵保护系统、免提电话系统、汽车音频系统、娱乐(如tv、音乐播放或卡拉ok)系统、远程会议系统、教室放大系统等的一部分或者与其交互。
[0153]
本发明的实施例如可用在如助听器和耳机的应用中。
附图说明
[0154]
本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略其他细节。在整个说明书中,同样的附图标记用于同样或对应的部分。每一方面的各个特征
可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明,其中:
[0155]
图1示出了配置成在频域处理信号的听力装置;
[0156]
图2示出了根据本发明的听力装置的实施例;
[0157]
图3a示出了根据本发明的编码器/解码器功能的例子;
[0158]
图3b更详细地示出了图3a的例子,其中变换矩阵g将20个样本转换为200个值(编码),逆变换矩阵g-1
将200个值转换回20个样本(解码);
[0159]
图3c示意性地示出了变换矩阵g的基函数的例子;
[0160]
图4示出了根据本发明的听力装置的实施例,其中编码器/处理/解码器的参数进行训练以使由与具有线性滤波器组、听力损失补偿和(可选的)降噪的常规听力仪器的差给出的价值函数最小化;
[0161]
图5示出了根据本发明的听力装置的例子,其包括耳件和独立的(外部)音频处理装置,其中低延时编码器可允许外部音频处理装置中的处理;
[0162]
图6示出了根据本发明的听力装置的例子,其包括与图5中类似的功能配置,但其中仅信号处理的部分被移到外部音频处理装置;
[0163]
图7示出了根据本发明的双耳听力系统的例子,其中估计的增益可取决于来自双耳助听器系统中的两个听力装置的信号;
[0164]
图8示出了根据本发明的助听器的实施例;
[0165]
图9示出了与包括用于助听器的用户接口的辅助装置通信的根据本发明的助听器的实施例,其包括位于用户耳后的bte部分和位于用户耳道中的ite部分。
[0166]
通过下面给出的详细描述,本发明进一步的适用范围将显而易见。然而,应当理解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。对于本领域技术人员来说,基于下面的详细描述,本发明的其它实施方式将显而易见。
具体实施方式
[0167]
下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而,对本领域技术人员显而易见的是,这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等(统称为“元素”)进行描述。根据特定应用、设计限制或其他原因,这些元素可使用电子硬件、计算机程序或其任何组合实施。
[0168]
电子硬件可包括微机电系统(mems)、(例如专用)集成电路、微处理器、微控制器、数字信号处理器(dsp)、现场可编程门阵列(fpga)、可编程逻辑器件(pld)、选通逻辑、分立硬件电路、印刷电路板(pcb)(例如柔性pcb)、及配置成执行本说明书中描述的多个不同功能的其它适当硬件,例如用于感测和/或记录环境、设备、用户等的物理性质的传感器。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等,无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。
[0169]
本技术涉及听力装置领域。本技术尤其涉及配置成在音频信号的处理方面具有低延迟的听力装置。
[0170]
图2示出了根据本发明的听力装置hd如助听器的实施例。图2示出了所提出的听力装置结构的实施例:图1的分析和合成滤波器组(afb,sfb)被用更一般的低延时编码器/解码器(ll-enc,ll-dec)代替。低延时编码器ll-enc一次取几个样本,其经编码器映射到高维空间。对于每一传声器,ll-enc可包含同样的一组优化的参数。输入在由低延时解码器ll-dec合成回时域信号并通过输出变换器(在此为扬声器spk)呈现给听者之前(在处理单元pro中)在高维空间进行处理。该系统联合地进行优化以在低延时约束条件下最佳地处理输入(即应用听力损失补偿和降噪,例如通过处理单元pro提供)。应注意,解码器ll-dec不需要完美地重构时域信号。
[0171]
ll解码器ll-dec可与处理单元一起联合进行优化(因为处理单元通常将改变输入信号)。由于极少发生输入信号不被处理单元改变的情况,完美重构可能不必要(编码器和解码器的参数可以更好的方式进行利用)。
[0172]
与分析滤波器组(图1中的afb)类似,低延时编码器ll-enc将时域样本映射到另一域。然而,代替将样本映射到傅里叶域,时域样本被映射到高维域。例如,由20khz的采样速率下的例如t=20个样本组成的时间帧被编码到高维域,例如由n=200个值组成。这在图3a、3b示意性地示出。
[0173]
图3a、3b示出了根据本发明的编码器/解码器功能的例子。图3a、3b的底部表示低维空间(在此为时域),而图3a、3b的顶部表示高维空间。图3a、3b的底部的左半边示出输入音频样本流,图3a、3b的底部的右半边示出(处理后的)输出音频样本流。时域样本的帧(参见图3a、3b的下部的音频样本的输入流中包含从s(n-t)到s(n)的t(例如n1)个样本的左方括号,n为时间样本指数)(在中记为inf)被编码到高维空间。例如,t=20个样本使用编码函数g(s)编码到高维空间,例如编码为(n2=)n=200个值,参见从方括号inf到g(s)的箭头。输入信号(流)在(使用解码函数g-1
(.))解码回时域信号(参见从g-1
(.)到时域样本的输出流中记为outf的方括号的箭头)之前在该高维空间中进行处理(参见图3顶部中的“处理”)。由于输入帧inf仅基于少数几个样本,编码与解码之间的延时保持在最少。输出帧的大小可与输入帧的大小类似。这些帧时间上可重叠。
[0174]
图3b更详细地示出了图3a的例子,其中变换矩阵g将n1=20个样本转换为n2=200个值(编码),逆变换矩阵g-1
将n2=200个值转换回n1=20个样本(解码)。在图3b中,特别示出了高维空间中的输入帧和输出帧(inf-hd,outf-hd)。
[0175]
图3c示意性地示出了变换矩阵g的基函数的例子。每一基函数可与输入信号中的具体特征相关联。其例如可以是语音特定特征如起始、音高、调制、频率特定特征或某些波形。通常,基函数将基于不同的输出信号进行训练。基函数例如可为了获得解码的、听力损失得以补偿的信号进行训练,从而实施低延时听力损失补偿,如本发明提出的。
[0176]
根据本发明的变换可不同于傅里叶变换,因为(与根据本发明的编码有关的)变换矩阵g为n2xn1矩阵(参见图3c),其中n2》n1,使得变换后的信号为s=gs,其中g=n2xn1,s=n1x1及s=n2x1,其中s为初始(例如时域)信号。从而,(与解码有关的)逆变换矩阵g-1
可写为n1xn2矩阵,使得逆变换后的信号为s=g-1
s。
[0177]
编码/解码函数可为线性函数,例如g(s)可以是n
×
t矩阵,解码函数可以是t
×
n矩阵,其中n≥t(t为输入帧中的样本数)。dft(离散傅里叶变换)矩阵为这样的编码函数的特殊情形。编码/解码函数也可为非线性函数,例如实施为神经网络如前馈神经网络。神经网
络可以是深度神经网络。不需要完美重构(即gg-1
=i,其中i为t
×
t单位矩阵)。
[0178]
编码步骤可写为矩阵相乘:
[0179]
z=g(s)=f(su)
[0180]
其中u为t x n矩阵,f为可选的非线性函数。
[0181]
类似地,g-1
(z)=h(zw),其中w为n x t矩阵,h为可选的非线性函数。
[0182]
文献中存在一些将语音分解为基本向量(即基函数)的高维空间的例子,例如参见[lewicki&sejnowski;2000]的图5中或者[bell&sejnowski;1996]的图2中的基函数例子的图示。该编码可通过使用神经网络而使用独立的成分分析或者更一般的方法进行训练(参见[luo et al.;2019])。
[0183]
本发明的主要概念在图4中示出。图4示出了根据本发明的听力装置hd(不包括图2的输出变换器)如助听器的实施例(图4的底部),其中编码器/处理/解码器的参数进行训练以使由与具有线性滤波器组(afb,sfb)、听力损失补偿hlc和(可选的)降噪nr单元的常规听力仪器hd’(不包括图1的输出变换器)(图4的顶部)的差给出的价值函数(参见图4中的误差l(α,

))最小化。误差信号l(α,

)由组合单元cu提供,其在此为将现有技术助听器hd’的输出o’从根据本发明的助听器hd的输出o减去的求减单元“+”。听力损失补偿(hlc)为通过hlc模块的输入α参数化的用户听觉能力(例如听力图)的函数。低延时编码器ll-enc可联合地或单独地编码传声器信号(i1,

,im),取决于怎样构造神经网络nn(表示图2实施例的处理单元pro)。
[0184]
因而提出在根据本发明的低延时编码器/解码器助听器(图2)中训练参数以使具有在傅里叶域运行的滤波器组(afb,sfb)的常规助听器hd’的输出信号o’处的差(误差,图4中的l(α,

))最小化(参见组合单元cu,在此执行低延时编码器/解码器助听器的(可能延迟的(参见延迟单元z-1
))输出与包括滤波器组(afb,sfb)的常规助听器的输出的求减)。
[0185]
所提出的模型的优点在于,基于编码器/解码器的助听器hd的延时相较于传统的助听器hd’处理可保持在最低。甚至可允许朝向其中(对应的基于滤波器组的助听器的)延迟高于通常允许的延迟(例如》10ms,例如≥15ms)的助听器的训练。例如,分析滤波器组afb因延时而可能具有比助听器中通常允许的频率分辨率高的频率分辨率。这样的更高的分辨率例如将使能衰减语音信号的谐波频率之间的噪声。
[0186]
延迟参数d(参见在信号通路中插入在低延时解码器ll-dec与组合单元cu之间的延迟元件z-d
)用于调节基于滤波器组的助听器与基于编码器的助听器之间的延时差(从而朝向具有更低延时的助听器训练,同时具有基于滤波器组的助听器中的更大延迟的好处(例如增加频率分辨率))。延迟参数可用允许随频率而变的延迟的全通滤波器替代。基于编码器的助听器hd可作为一个深度神经网络进行训练,其中前几层对应于编码器,最后几层对应于解码器。中间的层对应于降噪和听力损失补偿处理。神经网络可联合地进行训练。在实施例中,编码器和解码器进行训练,但针对个体听力图进行精调时保持固定(其中仅中间的层进行训练)。对应于低延时编码器和/或低延时解码器的层例如可实施为前馈神经网络。对应于听力损失补偿(等)的层例如可实施为循环神经网络。
[0187]
在图4的示例性训练设置中,进行比较的两个助听器处理方案(hd’,hd)中的每一个具有从1到m个传声器(m1,

,mm)。m可以是1个以上、2个以上如3个等。在训练情形下,同样的音频数据被馈给两个“助听器”,例如从数据库,或通过将同样的声音信号播放给两个助
听器(的同样的传声器配置m1,

,mm),或通过将从一助听器接收到的信号i1,

,im馈给另一助听器,或通过将声音信号的电版本直接分别馈给分析滤波器组和低延时编码器。这通过组合两个助听器的相应输入信号i1,

,im的虚线标示。
[0188]
训练的主要目标在于使得图4下部中的低延时听力仪器模拟图4上部中的(传统)助听器的性能。
[0189]
在信号或者编码的特征部分或完全在外部设备中进行处理的情形下,所实现的更低的延时可用于补偿另外的传输延迟。外部设备可包含另外的传声器,或者其可使其计算基于来自一个以上助听器例如安装在左和右耳上的一对助听器的信号。不同的例子在图5、图6和图7中示出。
[0190]
图5示出了根据本发明的听力装置hd如助听器的例子,其包括适于位于用户耳朵处或耳朵中的耳件ep和例如适于由用户佩戴的、独立的(外部)音频处理装置exd,其中低延时编码器ll-enc可允许外部音频处理装置exd中的处理。图5实施例的耳件ep包括两个传声器(m1,m2),用于拾取耳件ep处的声音并提供表示该声音的相应电输入信号(i1,i2)。输入信号如信号(i1,i2)或其表示例如其经滤波(例如经波束形成)的版本从耳件ep(参见传输的信号i
ep
)传给外部音频处理装置exd(参见接收到的信号i
exd
),传输经相应装置(ep,exd)的收发器(发射器tx和接收器rx)提供的(有线或无线)通信链路lnk进行。外部音频处理装置exd的接收器rx向根据本发明的低延时编码器(或多个编码器)ll-enc提供输入信号(或多个输入信号)ix。低延时编码器ll-enc提供高维空间中的输入信号i
enc
。输入信号i
enc
被馈给处理单元pro(参见点线框)。处理单元pro例如可包括听力损失补偿算法(和/或用于增强输入信号的其它音频处理算法,例如执行波束形成和/或其它降噪的算法)。在图5的实施例中,处理单元pro包括增益单元g,用于确定在组合单元“x”例如相乘单元中应用于输入信号i
enc
的适当增益g
enc
(例如用于补偿用户的听力损失等)。组合单元cu(在此及处理单元pro)提供处理后的信号o
enc
。处理后的信号被馈给提供处理后的(时域)输出信号o
x
的低延时解码器ll-dec,该输出信号被提供给发射器tx以经无线链路lnk传给耳件ep,参见传输的信号o
exd
和接收到的信号o
ep
。耳件ep的接收器rx将(时域)输出信号o提供给耳件的输出变换器(在此为扬声器spk)。输出信号o作为可由用户感知为声音的刺激进行呈现(在此作为空气中的振动呈现到用户的耳膜)。
[0191]
从而,所提供的更低的处理延时(参见外部音频处理装置exd的点线框中的处理单元pro)可补偿因听力仪器的耳件ep与外部音频处理装置exd之间的通信链路lnk引起的传输延迟。藉此,听力仪器hd相较于耳件ep中的本地处理能利用更多处理能力,例如更好地使能计算集中的任务,例如与神经网络计算有关的任务。
[0192]
图5的外部音频处理装置exd(和/或图4中所示的听力装置)的参数可朝向特定听力损失及特定听力损失补偿策略(例如nal-nl2、dsl 5.0等)进行训练。可指定低延时仪器(hd)中的延时。延时例如可以是1ms、5ms、8ms或低于10ms。参数可联合进行训练以补偿听力损失及抑制背景噪声。
[0193]
编码器ll-enc可用实值权重或者作为备选用复值权重实施。
[0194]
耳件ep和外部音频处理装置exd可通过电缆连接。然而,链路lnk可以是短程无线(例如音频)通信链路,例如基于蓝牙如低功耗蓝牙或者超宽带(uwb)技术。
[0195]
在上面的描述中,耳件ep和外部音频处理装置exd假定形成听力装置hd的一部分。
外部音频处理装置exd可由专用优选便携的音频处理装置构成,例如特别配置成(至少)执行听力装置的处理更集中的任务。
[0196]
外部音频处理装置exd可以是适于完成耳件的处理任务的便携通信装置如智能电话,例如经应用程序(app),但也用于与听力装置功能不直接有关的其它任务。
[0197]
耳件ep可包括比图5的实施例中所示更多的功能。
[0198]
耳件ep例如可包括在外部音频处理装置exd不可用(或者有意不使用)时在某一运行模式下使用的正向通路。在该情形下,耳件ep可执行听力装置的正常功能。
[0199]
听力装置hd可由助听器(听力仪器)或耳机构成。
[0200]
图6示出了根据本发明的听力装置hd如助听器的例子,其包括与图5中类似的功能配置,但其中仅信号处理的部分被移到外部音频处理装置exd。在图6的实施例中,增益估计(参见模块g)在外部音频处理装置exd中进行,在高维域估计的增益g
enc
经无线链路lnk传给耳件ep。图6的耳件包括正向通路,其包括(在此为两个)传声器(m1,m2)、提供高维域的电输入信号i
enc
的相应低延时编码器ll-enc、组合单元“x”(在此为相乘单元)、低延时解码器ll-dec和输出变换器spk(在此为扬声器)。在耳件中从外部音频处理装置exd接收到的估计的增益g
enc
在耳件ep的组合单元“x”中应用于高维域的电输入信号i
enc
,所得的处理后的信号o
enc
被馈给耳件的低延时解码器ll-dec从而提供处理后的(时域)输出信号o。处理后的输出信号o被馈给耳件ep的扬声器spk以作为已补偿听力损失的声音信号呈现给用户。
[0201]
相较于图5的实施例,图6实施例的外部音频处理装置exd不需要编码器。
[0202]
在实施例中,提供一种听力装置hd,其配置成在将图5和图6的实施例分别实施为不同的模式的两种运行模式之间切换(在该情形下,外部音频处理装置exd包括低延时解码器ll-dec)。在两种运行模式之间切换可根据当前声环境和/或耳件(或外部音频处理装置exd)的当前处理能力(例如电池状态)而自动提供。在两种运行模式之间切换可经例如实施在外部音频处理装置exd中的用户接口提供。
[0203]
图7示出了根据本发明的双耳听力系统的例子,其中估计的增益可取决于来自双耳助听器系统中的两个听力装置的信号。在图7的实施例中,双耳听力系统(如双耳助听器系统)包括第一和第二耳件(ep1,ep2)及外部音频处理装置exd。外部音频处理装置exd配置成服务于第一和第二耳件(ep1,ep2)中的每一个。第一和第二耳件(ep1,ep2)中的每一个与外部音频处理装置exd之间的相应通信链路lnk可经三个装置中的适当的收发器电路(rx,tx)建立。图7的第一和第二耳件(ep1,ep2)包括与图6中所示并结合其描述的同样的功能元件。然而,在图7的实施例中,外部音频处理装置exd配置成基于来自两个耳件(ep1,ep2)的传声器信号确定估计的增益(g
enc1
,g
enc2
)。从而,在增益估计时可照顾双耳效果(例如确保在用户的相应耳朵处适当地保留空间线索、保持用户的方向认知)。
[0204]
在实施例中,空间线索如耳间时间差或耳间电平差为优化过程中的价值函数的一部分。例如,左和右目标信号与估计的左和右目标信号之间的耳间时间差可实施为价值函数中的项。作为备选,纯净语音或噪声的耳间传递函数可被包括在价值函数中以保留空间线索。
[0205]
图8示出了根据本发明的助听器hd的实施例。图8的实施例具有与图2中所示实施例同样的功能。如图2中一样,助听器hd包括m个输入变换器,在此为传声器(m1,

,mm,其中m≥1),每一传声器提供电输入信号(i1,

,im),这些电输入信号被馈给相应的低延时编码器
(在此,所有编码器均包括在ll-enc-nn单元中)。在图8中,低延时编码器ll-enc-nn和解码器ll-dec-nn中的每一个实施为神经网络(nn),例如相应的前馈神经网络。处理单元pro(实线框)配置成补偿用户的听力受损(例如通过应用听力损失补偿算法,例如基于用户的听力图及非必须地基于关于用户的另外的数据),同样至少部分通过神经网络如循环神经网络实施。在图8的实施例中,处理单元的神经网络pro-hlc-nn接收包括编码的输入信号i
enc
(或从编码的输入信号提取)的输入向量。神经网络的输入向量可包括第二高维域的一个或多个“帧”并将第二高维域的具有适当增益值g
enc
的“帧”提供为输出向量(g
enc
)。输入向量可另外包括一个或多个传感器(如运动传感器)或检测器(如话音检测器,例如自我话音检测器等)的值。处理单元的神经网络的输入向量(对于给定时间单元)可包括m个输入信号的编码后版本的堆叠的“帧”,或者从其提取的数据。处理单元pro还包括组合单元“x”,在此为相乘单元,其接收来自神经网络pro-hlc-nn的估计的增益g
enc
及接收编码后的输入信号i
enc
。组合单元cu将估计的增益g
enc
应用于编码后的信号i
enc
,藉此提供处理单元pro的经编码的处理后的输出信号o
enc
及(在此)馈给解码器l-dec-nn以从第二(高维)域转换到第一(低维)域,在此为时域(参见信号o)。处理后的(已补偿听力损失的)时域信号被馈给输出变换器(在此为扬声器)并呈现给用户。其它输出变换器可以是骨导型助听器的振动器或者耳蜗植入型助听器的多电极阵列。
[0206]
图9示出了与包括用于助听器的用户接口的辅助装置通信的根据本发明的助听器的实施例,其包括位于用户耳后的bte部分和位于用户耳道中的ite部分。
[0207]
图9示出了根据本发明的听力装置hd如助听器的实施例,其与包括用于听力装置的用户接口ui的辅助装置aux通信并包括位于用户耳(耳朵(耳廓))后的bte部分以及位于用户耳道中的ite部分。辅助装置aux可包括结合图5、6、7描述的外部音频处理装置。图9示出了被形成为耳内接收器式(rite)助听器的示例性助听器hd,其包括适于位于耳廓(耳朵(耳廓))处或耳廓后面的bte部分bte及包括适于位于用户耳道中的输出变换器(如扬声器/接收器)的部分ite(例如例示如图2或图8中所示的助听器hd)。bte部分(bte)和ite部分(ite)通过连接元件ic进行连接(如电连接)。在图9的助听器实施例中,bte部分包括两个输入变换器(在此为传声器)(m1,m2),每一输入变换器提供表示来自环境(在图9的情形下,包括声源s)的输入声音信号的电输入音频信号。图9的助听器hd还包括两个无线接收器或收发器wlr1,wlr2,用于提供相应的直接接收的辅助音频和/或信息/控制信号(及非必须地,用于将这些信号传给其它装置)。助听器hd包括衬底sub,其上安装多个电子元件并根据所涉及的应用(模拟、数字、无源元件等)进行功能划分,但包括经电导体wx彼此连接及连接到输入和输出单元的信号处理器dsp、主要包含模拟电路及模拟与数字处理之间的接口的前端芯片fe和存储器单元mem。所提及的功能单元(及其它元件)可根据所涉及的应用按电路和元件进行划分(例如为了尺寸、功耗、模拟-数字处理、无线电通信等),例如集成在一个或多个集成电路中,或者作为一个或多个集成电路与一个或多个单独的电子元件(如电感器、电容器等)的组合。信号处理器dsp提供增强的音频信号(参见图2或图6-8中的信号o),其计划呈现给用户。在图9的助听器实施例中,ite部分包括扬声器(接收器)spk形式的输出单元,用于将电信号o转换为声信号(从而提供或贡献于耳膜处的声信号s
ed
)。ite部分还可包括包含一个或多个输入变换器(如传声器)的输入单元。在图9中,ite部分包括位于用户耳道入口处的传声器m
ite
。ite传声器m
ite
配置成提供表示耳道处或耳道中来自环境的输入声音信
号的电输入音频信号(即包括因耳廓引起的输入信号的任何声学修改,反映耳廓的声学特征)。在另一实施例中,助听器还可包括位于不同于耳道入口处的别处(例如面向耳膜)的输入单元(如传声器或振动传感器)与位于bte部分和/或ite部分中的一个或多个输入单元的组合。ite部分还包括引导元件如圆顶件do(或者开放或封闭的耳模),用于引导并将ite部分定位在用户耳道中。
[0208]
图9中例示的助听器hd为便携装置,及还包括用于对bte部分及ite部分的电子元件供电的电池bat。
[0209]
助听器hd可包括定向传声器系统,其适于相对于佩戴助听器的用户的局部环境中的多个声源增强目标声源(例如基于来自传声器(m1,m2,m
ite
)中的两个以上传声器的电输入信号)。存储器单元mem可包括预定(或自适应确定)的复数、随频率而变的常数,其定义预定(或自适应确定)的波束图等。
[0210]
存储器mem例如可包括与用户有关的数据,例如优选的设置。
[0211]
图9的助听器可构成或形成根据本发明的助听器和/或双耳听力系统的一部分。
[0212]
根据本发明的助听器hd可包括用户接口ui,例如如图9中左下部所示实施在辅助装置aux如遥控器中,例如实施为智能电话或其它便携(或固定不动的)电子设备如上面结合图5-7描述的独立的音频处理装置中的app。在图9的实施例中,用户接口ui的屏幕示出了延时配置app。屏幕“选择助听器系统的配置”使用户能决定怎样配置根据本发明的处理。用户可指明当前是单耳系统(单一助听器系统)还是包括左和右助听器的双耳系统。对于单耳系统,用户还可指明助听器(hd
l
)是位于左耳处还是右耳处。用户u还可指明是否将使用外部音频处理装置axd(参见结合图5、6、7描述的实施例)。在所示例子中,选择仅在用户u的左耳处使用听力装置的单耳系统(参见“单耳系统”及“左”处的实心方框)。还选择将使用(经无线链路lnk)与左助听器hd
l
如耳件通信的外部音频处理装置(参见“外部处理装置?”处的实心方框)。辅助装置(aux(exd))和助听器适于使能经例如无线通信链路(参见图9中的虚线箭头lnk)传送表示当前选择的配置的数据。听力装置hd与辅助装置(aux(exd))之间的通信链路wl2例如可基于远场通信,例如蓝牙或低功耗蓝牙(或类似技术,例如uwb),其通过助听器hd和辅助装置aux中的适当的天线和收发器电路实施,通过助听器中的收发器单元wlr2标示。助听器中由wlr1标示的收发器可用于建立耳间链路,例如用于在双耳助听器系统的左和右助听器(hd
l
,hdr)之间交换音频信号(或其部分)和/或控制或信息参数。耳间链路例如可实施为感应链路或通信链路wl2。
[0213]
辅助装置例如可由外部音频处理装置(exd)构成或者包括外部音频处理装置(exd)。
[0214]
与助听器(如波束形成器)、音量设置、针对给定听音情形的特定助听器程序等的控制有关的其它方面可被使得可从用户接口ui选择或配置。用户接口例如可配置成使用户能决定延时装备的具体运行模式,例如参见结合图6所述。
[0215]
当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。
[0216]
除非明确指出,在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解,说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件,但不排除存在或增加一个或多个其他
特征、整数、步骤、操作、元件、部件和/或其组合。应当理解,除非明确指出,当元件被称为“连接”或“耦合”到另一元件时,可以是直接连接或耦合到其他元件,也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出,在此公开的任何方法的步骤不必须精确按所公开的顺序执行。
[0217]
应意识到,本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外,特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见,及在此定义的一般原理可应用于其他方面。
[0218]
权利要求不限于在此所示的各个方面,而是包含与权利要求语言一致的全部范围,其中除非明确指出,以单数形式提及的元件不意指“一个及只有一个”,而是指“一个或多个”。除非明确指出,术语“一些”指一个或多个。
[0219]
参考文献
[0220]
·
[luo&mesgarani;2019]yi luo,nima mesgarani,“conv-tasnet:surpassing ideal time-frequency magnitude masking for speech separation”,ieee/acm transactions on audio,speech,and language processing,27(8),1256-1266(2019).
[0221]
·
[lewicki&sejnowski;2000]michael s.lewicki,terrence j.sejnowski,“learning overcomplete representations”,neural computation,12,337

365,massachusetts institute of technology(2000).
[0222]
·
[bell&sejnowski;1996]anthony j bell and terrence j sejnowski,“learning the higher-order structure of a natural sound”,network:computation in neural systems,7,261

266,iop publishing ltd(1996).
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1