用于耳蜗力学和处理的神经网络模型

文档序号:28421634发布日期:2022-01-11 22:23阅读:412来源:国知局
用于耳蜗力学和处理的神经网络模型

1.本发明通常涉及音频处理领域。更具体地,本发明涉及用于通过模仿人类听觉系统对声音进行听觉处理的方法和设备。


背景技术:

2.人类耳蜗(或内耳)是将声音转换成耳蜗行波的活跃的非线性系统,耳蜗行波可以被表征为基底膜(bm)位移或速度。对这些耳蜗行波进行建模对更好地理解听力机制、补偿听力损伤、甚至改进机器听力应用可以是有用的。
3.然而,从bm位移的角度来表征耳蜗行波是非平凡计算问题,因为行波描述必须捕获耳蜗处理的一些方面,诸如耳蜗处理的级别相关(level-dependent)的调谐(q)、频率拓扑与q之间的关系以及耳蜗滤波器的耦合。一种普遍的方法是将耳蜗近似为非线性传输线(tl)模型,该非线性传输线(tl)模型将空间沿着bm长度进行离散化并将每个部分描述为常微分方程(ode)系统,该常微分方程(ode)系统描述了沿bm的特定部分(或频率拓扑位置)的系统行为。
4.另外,tl模型将耳蜗表示为级联系统,即耳蜗部分的响应也取决于所有先前耳蜗部分的响应。这使得这些模型的计算成本很高,因为不可能使在级联耳蜗模型中求解耦合的ode所涉及的计算并行化。这种计算复杂性对将这种类型的耳蜗模型用于需要短的计算延迟(ms量级)的助听器和机器听力应用造成了设计限制。
5.此外,现有的基于nn的听觉模型都没有捕获到听觉外围的直至达到内毛细胞和听觉神经处理的级别的特性。
6.因此,需要改进的耳蜗建模系统,该改进的耳蜗建模系统在捕获(人类)耳蜗处理的关键非线性特性、耦合特性和频率选择性特性的同时易于计算并且具有短的延迟。所生成的建模系统将确保机器听力设备、机器人应用和辅助/增强听力的方法基于人类真实的正常音频处理或听力受损的音频处理。虽然到目前为止,人类真实的处理只能通过计算缓慢的tl模型来实现,但是非常需要达到最先进的tl模型的性能但是计算复杂度降低的改进的耳蜗建模系统。具体地,改进的耳蜗建模系统的计算复杂度和速度应该与其他快速但更基本的耳蜗处理模型的计算复杂度和速度相匹配,这些快速但更基本的耳蜗处理模型通常用于诸如car-fac、mel、gammatone或gammachirp的听觉应用。


技术实现要素:

7.本发明的实施方式的目的是提供用于模仿听觉刺激的耳蜗处理的良好的方法和系统,使用这样的方法和系统来对听力进行建模的良好的助听器,以及使用这样的建模方法来辅助听力的方法。
8.本发明的实施方式的优点在于,提供允许以快速方式进行精确建模的良好的建模系统和方法。
9.本发明的实施方式的优点在于,准确地模拟了听觉刺激到耳蜗基底膜振动的转
换。
10.本发明的实施方式的优点在于,经由由神经网络生成的与相等数目的模仿的耳蜗滤波器对应的大量输出序列精确地捕获人类听觉系统特征,诸如听觉刺激级别和频率相关(频率)的选择性。
11.本发明的实施方式的优点在于,可以以精确的方式模仿遍及人类和非人类动物的各种听觉系统。
12.本发明的实施方式的优点在于,可以准确地模仿正常听力和听力损伤。
13.本发明的实施方式的优点在于,该处理可以针对个体的听力损伤特征(即外毛细胞、内毛细胞或听觉神经纤维损坏模式的特定频率模式)进行个体化,并且因此可以用在旨在补偿听力损坏的单个方面或各方面的组合的反向传播方法中。
14.根据本发明的方法和设备可以有利地用于改进目前可用的助听器。
15.本发明的实施方式的优点在于,这些实施方式当在支持(大规模)并行计算的设备上(例如在诸如图形处理单元(gpu)的多个处理元件(pe)上)实现时可以允许更快的模仿。
16.本发明的实施方式的优点在于,用于模仿耳蜗处理的方法和设备可以容易地实现并集成到听力设备、助听器、自动语音识别系统和机器听力应用中。
17.本发明的实施方式具有如下优点,这些实施方式可以用短的处理延迟来实现,以便提供实况音频处理能力或接近实况的音频处理能力。
18.本发明的实施方式的优点在于,这些实施方式可以容易地与各种可用的语音识别软件或算法相结合,对于这些语音识别软件或算法,它们可以用作语音或音频信号预处理模块。
19.根据本发明的一些实施方式的方法和设备可以在存在受噪声影响的听觉刺激的情况下可靠地执行。
20.上述目的通过根据本发明的方法和设备来实现。
21.本发明涉及用于模仿听觉刺激的耳蜗处理的计算机实现的方法。该方法包括提供多层卷积编码器-解码器神经网络的步骤,该多层卷积编码器-解码器神经网络包括编码器和解码器,所述编码器和解码器各自至少包括多个连续的卷积层,编码器的连续卷积层具有对于神经网络的输入的增加的步长以顺序地对输入进行压缩,以及解码器的连续卷积层具有对于来自编码器的经压缩的输入的增加的步长以顺序地对经压缩的输入进行解压缩,卷积层中的每一者包括多个卷积滤波器,卷积滤波器用于与卷积层的输入进行卷积以生成对应的多个激活图作为输出。神经网络还包括至少一个非线性单元,其用于对由神经网络的至少一个卷积层生成的激活图应用非线性变换,并且该非线性变换仿效与耳蜗力学和外毛细胞相关联的级别相关的耳蜗滤波器调谐(例如响应)。神经网络还包括:设置在编码器与解码器之间的多个捷径连接将编码器的卷积层的输入直接转发至解码器的至少一个卷积层。此外,神经网络包括:输入层,其用于接收神经网络的输入;以及输出层,其用于针对神经网络的每个输入生成耳蜗响应参数的n个输出序列以展开耳蜗频率拓扑位置-频率图,耳蜗响应参数的n个输出序列对应于与n个不同中心频率相关联的n个模仿的耳蜗滤波器,其中,每个输出序列的耳蜗响应参数指示耳蜗基底膜的位置相关的时变振动。该方法还包括提供指示时间采样的听觉刺激的预定长度的至少一个输入序列,并将至少一个相同的输入序列应用于神经网络的输入层以获得耳蜗响应参数的n个输出序列。
22.本文中使用的术语“预定长度”是指模型的输入序列的长度。在一些实施方式中,输入序列的长度对于不同阶段的模型是相同的。在一些实施方式中,不同阶段的模型之间的输入序列的长度不同。虽然模型优选地在固定长度的序列上进行训练,但是它们仍然能够以相同的方式处理可变长度的输入序列。
23.该输入可以包括一个音频输入序列,或者作为输入的一个或更多个耳蜗响应。n是1或更大的整数,优选地为2或更大。
24.该方法可选地包括对所获得的n个输出序列求和(或组合)以生成耳蜗响应参数的单个输出序列的步骤(本文中也称为群体编码)。对所获得的耳蜗的n个输出序列求和(或组合)允许获得单个输出序列(波形),该单个输出序列(波形)共享与输入序列相同的表示并且可以以相同的方式回放。这样,人们可以听到由不同的耳蜗模型(正常听力和听力受损两者)产生的声音,从而也体验听力受损的外围“听起来”是什么样的。在一些实施方式中,该方法包括获得单个输出序列并可选地对其进行回放的步骤。在一些实施方式中,该方法包括通过收听输出序列来比较不同的耳蜗模型(例如正常听力和听力受损)的步骤。
25.在一些实施方式中,该方法用于可逆耳蜗滤波器组,优选地用于助听器应用中。可逆耳蜗滤波器组允许将一个单个输入序列分解成n个输出序列,然后重新合成这些输出序列(通过求和或以更复杂的方式组合)以再次创建单个输入序列。这样的滤波器组还提供了以更详细的、频率相关的方式对n个输出序列进行处理以便接收经处理的输入序列的能力。这对于助听器应用是有用的并且也可以涉及例如用于外毛细胞和/或听觉神经损伤补偿的闭环方法。
26.非线性单元可以将非线性变换应用为元素方式非线性变换,优选地为双曲正切。神经网络可以包括多个非线性单元,所述多个非线性单元用于对由神经网络的每个卷积层生成的激活图应用非线性变换。
27.编码器的卷积层的数目可以等于解码器的卷积层的数目。
28.神经网络可以包括编码器的每个卷积层与解码器的相应一个卷积层之间的捷径连接。捷径连接中的至少一些可以设置在编码器的连续卷积层中的第一卷积层与解码器的连续卷积层中的最后一个卷积层之间。神经网络可以包括编码器的每个卷积层与解码器的相应一个卷积层之间的捷径连接。神经网络可以包括编码器的除了最后一个卷积层之外的每个卷积层与解码器的相应一个卷积层之间的捷径连接。
29.编码器的连续卷积层对于神经网络的输入的增加的步长可以等于解码器的连续卷积层对于经压缩的输入的增加的步长,从而将编码器的每个卷积层与解码器的相应一个卷积层匹配,以转置编码器的卷积层的卷积操作。
30.至少一个输入序列的样本的数目可以等于每个输出序列中的耳蜗响应参数的数目。至少一个输入序列可以包括分别在指示听觉刺激的多个输入样本之前和/或之后的前上下文部分和/或后上下文部分。在本发明的一些实施方式中,该方法还可以包括裁剪步骤,该裁剪步骤用于对所生成的输出序列中的每一个进行裁剪以包含与指示听觉刺激的多个输入样本中的输入样本的数目相等的一定数目的耳蜗响应参数。
31.另一方面,本发明还涉及用于在如上所述的任何一种模仿方法(即训练方法)中确定与神经网络相关联的多个权重参数的方法。通过执行以下步骤来确定神经网络权重参数。在第一步骤中提供包括多个训练输入序列的训练数据集,其中,每个训练输入序列包括
指示时间采样的听觉刺激的多个输入样本。在第二步骤中,提供用于耳蜗处理的生物物理学上精确的验证模型,优选地为耳蜗传输线模型,例如通过优选的(耳蜗)传输线模型进行耳蜗bm处理,根据耳蜗频率拓扑位置-频率图,相对于实验测量的耳蜗响应参数来评估耳蜗传输线模型的精确度,该实验测量的耳蜗响应参数指示位置相关的时变基底膜振动。然后,针对每个训练输入序列生成n个训练输出序列,其中,n个训练输出序列中的每一个与耳蜗频率拓扑图的不同中心频率相关联。在另一步骤中,使用模仿方法中的任何一种的神经网络并使用训练输入序列来执行模仿方法,以生成神经网络的耳蜗响应参数的相应模仿序列,其中,神经网络相对于与验证模型的耳蜗频率拓扑图相同的耳蜗频率拓扑图生成n个输出序列。接下来,对模仿序列与训练输出序列之间的偏差进行评估,模仿序列与训练输出序列一起被设置为训练对。每个训练对的模仿序列和训练输出序列与相同的训练序列相关联。然后,使用误差反向传播方法来更新神经网络权重参数,该神经网络权重参数也包括与每个卷积滤波器相关联的权重参数。可选地,针对不同的神经网络超参数集重新训练神经网络权重参数以进一步减小偏差,其中,不同的神经网络超参数集包括以下项中的一项或更多项:由至少一个非线性单元应用的不同非线性变换、编码器和/或解码器中的卷积层的不同数目、神经网络的任何一个卷积层中的卷积滤波器的不同数目、作为输入序列的预定长度的不同长度、捷径连接的不同配置以及可选地卷积滤波器的不同大小。
32.该方法可以包括以下步骤:提供反映遭受听力损伤的耳蜗处理(例如,bm、ihc或听觉神经处理)的经修改的验证模型,以及针对经修改的验证模型或验证模型与经修改的验证模型的组合重新训练神经网络权重参数。验证模型与经修改的验证模型的组合可以包括相对于与耳蜗频率拓扑图的不同中心频率相关联的输出序列对听力损伤进行补偿的差异或校正。
33.如本文中所使用的,术语“听力损伤”涵盖听觉外周的每个阶段的听力损失。术语“听力损伤”可以指传统的外毛细胞损坏以及老年性耳聋、内毛细胞损坏或听觉神经突触损坏(耳蜗突触融合或去分化)。在一些实施方式中,本文所用的听力损伤仅指外毛细胞(ohc)损坏。在一些实施方式中,本文所用的听力损伤是指外毛细胞(ohc)和/或内毛细胞损伤或损失两者以及听觉神经纤维(anf)损坏。
34.如本文中所使用的,术语“耳蜗突触”是指听觉神经(an)纤维突触的听力损坏。例如,即使听力阈值保持在正常级别,噪声暴露也会导致听觉神经纤维的选择性损失。耳蜗突触病变也被描述为隐性听力损失,因为耳蜗突触病变被认为不能使用听力计的阈值的标准测量方法来检测。来自人类和动物研究的证据表明,这种“隐性的”听力损失影响了日常收听条件下的语音的稳健编码和对噪声中的语音的理解。由于在衰老过程中突触病变发生的时间早于外毛细胞缺陷,因此预计大量自报听力困难(但听力敏度图正常)的人或听力敏度图受损的人可能患有突触病变。
35.在又一方面,本发明涉及包括用于执行上述方法步骤的装置的数据处理设备,该数据处理设备包括:输入装置,其用于接收指示听觉刺激的至少一个输入序列;多个乘法和累加单元,其用于在卷积层的卷积滤波器与卷积层的输入之间执行卷积操作;以及存储单元,其用于存储至少神经网络权重参数。
36.处理设备可以是诸如asic的专门设计的处理单元,或者可以是适用于便携式和嵌入式应用(例如电池供电应用)的专用的、高效能的机器学习硬件模块例如卷积加速器芯
片。处理设备可以包括处理元件的脉动阵列,该脉动阵列用于经由阵列上的脉动数据流进行卷积的分布式计算。处理元件的阵列上的这样的数据流可以是行固定的,并且数据流映射可以是灵活的(例如是层大小相关的)。处理设备可以根据定点量化方法存储和使用神经网络权重参数,以减少存储器和能量需求。通过利用输入数据和所请求的神经网络权重参数两者中的冗余并促进这两者的重复使用,可以减少根据本发明的实施方式的处理设备中的数据和权重参数移动。
37.在另一方面,本发明涉及包括如上所述的数据处理设备的听力设备,并且还包括:压力检测装置,例如诸如麦克风的气压检测装置,其用于检测指示至少一个听觉刺激的时变压力信号;采样装置,其用于对检测到的听觉刺激进行采样以获得包括多个输入样本的输入序列;以及至少一个换能器,其用于将由神经网络生成的输出序列转换成听觉时变压力信号、基底膜振动或与至少一个听觉刺激相关联的相应的听觉神经刺激。检测人体生物信号(例如,eeg、耳声发射)的可替选或另外的传感器也可以被添加到该设备,以基于从时变生物信号得出的特征来确定或更新听力设备的参数。因此,在一些实施方式中,听力设备包括检测人体生物信号的传感器,例如eeg传感器。
38.在又一方面,本发明涉及包含指令的计算机程序,所述指令在该程序由计算机执行时执行如上所述的方法步骤。本发明还涉及包含指令的计算机可读介质,所述指令在程序由计算机执行时执行上述方法步骤。
39.在一个方面,本发明还涉及根据上述模型的基于正常听力实现或听力受损实现的助听器或增强的听力设备。听力损伤可以使用来自正常听力实现的转移学习技术来实施。本发明还涉及助听器或增强的听力设备,该助听器或增强的听力设备基于所生成的bm位移值以及可选的内毛细胞电位或听觉神经激发模式生成电脉冲。
40.如本文中所使用的,术语“转移学习”是指如下技术,其中基于神经网络的正常听力的耳蜗模型的权重被用于听力受损的模型的权重的初始化。在一些实施方式中,从这些正常听力权重开始训练模型,并且根据训练集的听力受损的输入-输出对来更新权重。该步骤在生成的模型中没有显著差异的情况下通过使用非常小的数据集显著地减少了训练时间。除了耳蜗阶段之外,相同的技术还可以用于不同阶段中的听力损伤或多个(或全部)听觉外围阶段中的不同听力损伤的组合的实施。
41.本发明还涉及用于模仿听觉刺激的耳蜗处理的计算机实现的方法,该方法包括以下步骤:
[0042]-提供多层卷积编码器-解码器神经网络,其包括
[0043]
·
编码器和解码器,两者都包括至少多个连续的卷积层,例如两者各自包括至少一个卷积层,优选地各自包括至少多个连续的卷积层,编码器的连续的卷积层具有对于神经网络的输入的步长(例如增加的步长、恒定的步长和/或增加的步长,优选地为恒定的步长和/或增加的步长)以顺序地压缩输入;并且解码器的连续的卷积层具有对于来自编码器的经压缩的输入的步长(例如减小的步长、恒定的步长和/或增加的步长,优选地为恒定的步长和/或增加的步长)以顺序地对经压缩的输入进行解压缩,卷积层中的每一个包括多个卷积滤波器,所述多个卷积滤波器用于与卷积层的输入进行卷积,以生成相应的多个激活图作为输出,
[0044]
·
至少一个非线性单元,其用于对由神经网络的至少一个卷积层生成的激活图应
用非线性变换,该非线性变换仿效与耳蜗处理(例如耳蜗力学、基底膜振动、外毛细胞处理、内毛细胞处理或听觉神经处理,以及它们的组合,例如耳蜗力学和外毛细胞的组合)相关联的级别相关的耳蜗滤波器调谐,
[0045]
·
编码器与解码器之间的一个或更多个捷径连接,优选地多个捷径连接,所述捷径连接用于将编码器的卷积层的输入直接转发至解码器的至少一个卷积层,
[0046]
·
用于接收神经网络的输入的输入层,以及
[0047]
·
输出层,其用于针对神经网络的每个输入生成耳蜗响应参数的n个输出序列以展开耳蜗频率拓扑位置-频率图,该n个输出序列对应于与n个不同中心频率相关联的n个模仿的耳蜗滤波器,每个输出序列的耳蜗响应参数(例如耳蜗力学,例如耳蜗基底膜振动和/或内毛细胞和/或外毛细胞和/或听觉神经响应,例如位置相关的时变耳蜗基底膜振动和/或内毛细胞受体电位和/或外毛细胞响应和/或听觉神经纤维激发模式,例如位置相关的时变耳蜗基底膜振动)指示耳蜗处理,
[0048]
·
提供指示时间采样的听觉刺激的预定长度的至少一个输入序列,并且将该至少一个输入序列应用于神经网络的输入层,以获得耳蜗响应参数的n个输出序列,并且
[0049]
·
可选地,对获得的n个输出序列求和或组合(优选地求和),以生成耳蜗响应参数的单个输出序列。
[0050]
本发明还涉及用于在本文中描述的任何一种模仿方法或其实施方式中确定与神经网络相关联的多个权重参数的方法,该方法包括:
[0051]-提供包含多个训练输入序列的训练数据集,每个训练输入序列包括指示时间采样的听觉刺激的多个输入样本,
[0052]-提供用于耳蜗处理的生物物理学上精确的验证模型,优选地为耳蜗传输线模型,该耳蜗传输线模型的精确度相对于指示耳蜗处理的实验测量的耳蜗响应参数(例如耳蜗力学,例如耳蜗基底膜振动和/或内毛细胞和/或外毛细胞和/或听觉神经响应,例如位置相关的时变耳蜗基底膜振动和/或内毛细胞受体电位和/或外毛细胞响应和/或听觉神经纤维激发模式,例如根据耳蜗频率拓扑位置-频率图的位置相关的时变基底膜振动)来评估,
[0053]-针对每个训练输入序列生成n个训练输出序列,n个训练输出序列中的每一个与耳蜗频率拓扑图的不同中心频率相关联,
[0054]-使用训练输入序列来执行模仿方法,以相对于同一耳蜗频率拓扑图生成神经网络的耳蜗响应参数的对应模仿序列,并且评估被设置为训练对的模仿序列与训练输出序列之间的偏差,每个训练对的模仿序列和训练输出序列与相同的训练序列相关联,
[0055]-使用用于更新包括与每个卷积滤波器相关联的权重参数的神经网络权重参数的误差反向传播方法,
[0056]-可选地,针对不同的神经网络超参数集合重新训练神经网络权重参数以进一步减小偏差,不同的神经网络超参数集合包括以下项中的一项或更多项:由至少一个非线性单元应用的不同非线性变换、编码器和/或解码器中的卷积层的不同数目、神经网络的任何一个卷积层中的卷积滤波器的不同数目、作为输入序列的预定长度的不同长度、捷径连接的不同配置、或者可选地,神经网络的任何一个卷积层中的卷积滤波器的不同大小。
[0057]
本发明还涉及包括如本文所述的数据处理设备或其实施方式的听力设备,并且还包括:
[0058]-压力检测装置,其用于检测指示至少一个听觉刺激的时变压力信号;和/或检测人体生物信号的传感器,例如eeg传感器,或诸如耳道压力传感器的压力传感器,
[0059]-采样装置,其用于对检测到的听觉刺激进行采样以获得包含多个输入样本的输入序列,以及
[0060]-至少一个换能器,其用于将由神经网络生成的输出序列转换成可听到的时变压力信号、耳蜗响应;例如基底膜振动、内毛细胞响应、外毛细胞响应、听觉神经响应或相应的听觉神经响应及它们的组合,例如基底膜振动;或者与至少一个听觉刺激相关联的相应听觉神经刺激。
[0061]
在一些实施方式中,多层卷积编码器-解码器神经网络包括编码器和解码器,这两者都包括至少多个连续的卷积层,例如各自包括至少一个卷积层,优选地各自包括至少多个连续的卷积层。
[0062]
在一些实施方式中,编码器具有步长,例如减少的步长、恒定的步长和/或增加的步长,优选地为恒定的步长和/或增加的步长。
[0063]
在一些实施方式中,解码器具有步长,例如减少的步长、恒定的步长和/或增加的步长,优选地为恒定的步长和/或增加的步长。
[0064]
在一些实施方式中,非线性变换仿效与耳蜗处理(例如耳蜗力学、基底膜振动、外毛细胞处理、内毛细胞处理或听觉神经处理及它们的组合,例如耳蜗力学与外毛细胞的组合)相关联的级别相关的耳蜗滤波器调谐。
[0065]
在一些实施方式中,多层卷积编码器-解码器神经网络包括编码器与解码器之间的一个或更多个捷径连接,优选地为多个捷径连接,所述捷径连接用于将编码器的卷积层的输入直接转发至解码器的至少一个卷积层。
[0066]
在一些实施方式中,每个输出序列的耳蜗响应参数(例如耳蜗力学,例如耳蜗基底膜振动和/或内毛细胞和/或外毛细胞和/或听觉神经响应,例如位置相关的时变耳蜗基底膜振动和/或内毛细胞受体电位和/或外毛细胞响应和/或听觉神经纤维激发模式,例如位置相关的时变耳蜗基底膜的振动)指示耳蜗处理。
[0067]
在一些实施方式中,该方法包括对所获得的n个输出序列求和或组合(优选地求和)以生成耳蜗响应参数的单个输出序列的可选步骤。
[0068]
在一些实施方式中,实验测量的耳蜗响应参数(例如耳蜗力学,例如耳蜗基底膜振动和/或内毛细胞和/或外毛细胞和/或听觉神经响应,例如位置相关的时变耳蜗基底膜振动和/或内毛细胞受体电位和/或外毛细胞响应和/或听觉神经纤维激发模式,例如根据耳蜗频率拓扑位置-频率图的位置相关的时变基底膜振动)指示耳蜗处理。
[0069]
在一些实施方式中,不同的神经网络超参数集合包括以下项中的一项或更多项:由至少一个非线性单元应用的不同非线性变换、编码器和/或解码器中的卷积层的不同数目、神经网络的任何一个卷积层中的卷积滤波器的不同数目、作为输入序列的预定长度的不同长度、捷径连接的不同配置、或者可选地,神经网络的任何一个卷积层中的卷积滤波器的不同大小。
[0070]
在一些实施方式中,听力设备包括用于检测指示至少一个听觉刺激的时变压力信号的压力检测装置;和/或检测人体生物信号的传感器,例如eeg传感器,或诸如耳道压力传感器的压力传感器。
[0071]
在一些实施方式中,听力设备包括至少一个换能器,该至少一个换能器用于将由神经网络生成的输出序列转换成可听到的时变压力信号、耳蜗响应;例如基底膜振动、内毛细胞响应、外毛细胞响应、听觉神经响应或相应的听觉神经响应及它们的组合,例如基底膜振动;或者与至少一个听觉刺激相关联的相应听觉神经刺激。
[0072]
在所附的独立权利要求和从属权利要求中阐述了本发明的特定方面和优选方面。来自从属权利要求的特征可以适当地与独立权利要求的特征以及其他从属权利要求的特征相结合,而不仅仅是权利要求中明确阐述的特征。
[0073]
出于总结本发明以及通过现有技术所获得的优点的目的,本文已经在上面描述了本发明的某些目的和优点。当然,应当理解,根据本发明的任何特定实施方式不一定可以实现所有这样的目的或优点。因此,例如,本领域技术人员将认识到,本发明可以以实现或优化如本文所教导的一个优点或一组优点而不必实现如本文所教导或建议的其他目的或优点的方式来实施或执行。
[0074]
参照下文描述的(一个或多个)实施方式,本发明的上述和其他方面将变得明显并得以阐明。
附图说明
[0075]
现在将参照附图,通过示例的方式进一步描述本发明,在附图中:
[0076]
图1示出了根据本发明的可以用于模仿耳蜗处理的神经网络的示例。
[0077]
图2和图3示出了根据本发明的可以用于模仿耳蜗处理的在编码器和解码器中具有不同数目的卷积层和不同捷径连接的神经网络的示例。
[0078]
图4描述了根据本发明的实施方式的听力设备。
[0079]
图5从左到右示出了用作听觉刺激的类脉冲激励以及用于模仿bm处理的传输线模型、如图1所示的用于模仿bm处理的神经网络以及如图1所示的用于模仿bm处理但具有扩展的上下文的神经网络的被设置为2d图的相应的输出序列。
[0080]
图6示出了可以用于根据本发明的实施方式的根据格林伍德图且n=201的位置相关的中心频率与通道数目之间的关系。
[0081]
图7示意性地示出了根据本发明的处理设备的示例。
[0082]
图8示出了根据本发明的一些实施方式的具有上下文信息的输入序列的采样操作。
[0083]
图9从左到右示出了响应于用作听觉刺激的不同级别的三种不同纯音激励而生成的用于模仿耳蜗bm处理的传输线模型的、如图1所示的用于模仿耳蜗bm处理的神经网络的以及如图1所示但具有扩展的上下文的神经网络的输出序列。对于每个模拟的cf,计算针对10db spl与90db spl之间的级别的刺激的bm响应的均方根级别。
[0084]
图10示出了根据本发明的实施方式的用于确定神经网络权重参数的不同训练方法。附图仅是示意性的,并且是非限制性的。在附图中,出于说明的目的,一些元件的大小可能被放大并且没有按比例绘制。尺寸和相对尺寸不一定对应于实践本发明的实际缩减。
[0085]
图11示出了根据本发明的实施方式的神经网络耳蜗模型(本文中称为connear模型)针对纯音刺激的ihc受体电位激励模式。包括bm振动和ihc模型两者以模拟对不同频率的100ms的纯音的响应。对于每个模拟的cf,计算针对级别在10db spl与90db spl之间的刺
激的平均ihc受体电位。将connear模型模拟与使用包含相同处理阶段的基于tl的耳蜗模型模拟的相同响应进行比较。
[0086]
图12示出了神经网络耳蜗模型(connear)对短声(click)刺激的ihc受体电位响应。将connear响应与包括对bm振动和ihc转换的描述的基于参考tl模型的耳蜗模型进行比较。
[0087]
图13示出了用于听力损伤的补偿策略的设计的闭环方法。此处,对来自正常的connear模型和听力受损的connear模型的模拟结果进行比较,以启发神经网络信号处理算法,该神经网络信号处理算法使听力受损的响应更接近正常听力的响应。
[0088]
图14示出了提取、近似、训练和评估听觉外围模型的不同阶段的输出的方法。顶部虚线框示出了基于tl的耳蜗模型中包含的所有元素,该基于tl的耳蜗模型包括对中耳、耳蜗bm振动、内毛细胞、听觉神经和耳蜗核、下丘处理的分析描述。上述处理阶段的模拟的tl模型输出(针对所有模拟的cf或作为多个cf的总和)可以用于训练connear模型的不同处理阶段。此处示出了其中到语音语料库的tl模型bm振动输出被用于训练bm振动connear模型的示例。在示例中,模拟的connear输出与tl模型输出之间的l1损失被用于确定connear参数。在训练之后,使用在听觉神经科学和听力研究中经常使用的基本声学刺激来测试得到的connear模型的性能(例如,参见图5、图9、图11、图12中的模拟)。
[0089]
图15示出了本发明的实施方式的响应,该响应模拟了低自发速率anf的耳蜗anf响应(瞬时激发速率)。
[0090]
图16示出了不同的听力受损的耳蜗处理模型的评估。
[0091]
图17提供了图15的更详细的版本,其模拟了an模型(a)和根据本发明的实施方式的模型(b)针对以70db-spl呈现的音刺激随时间的an激发速率。
[0092]
图18示出了模拟的级别-速率曲线。从顶部到底部,分别模拟了针对高自发速率的an纤维模型、中自发速率的an纤维模型和低自发速率的an纤维模型的an速率级别曲线。
[0093]
权利要求中的任何附图标记不应被解释为限制范围。
[0094]
在不同的附图中,相同的附图标记指代相同或类似的元件。
具体实施方式
[0095]
本发明将关于特定实施方式并参照某些附图进行描述,但是本发明不限于这些特定实施方式和附图,而是仅由权利要求书来限定。
[0096]
应当注意的是,权利要求中使用的术语“包括”不应被解释为限于其后列出的装置;术语“包括”不排除其他元素或步骤。因此,术语“包括”将被解释为指定所提到的陈述的特征、整数、步骤或组件的存在,但不排除一个或更多个其他特征、整数、步骤或部件或其组合的存在或添加。因此,表述“包括装置a和装置b的设备”的范围不应限于仅由部件a和部件b组成的设备。这意味着就本发明而言,设备的仅相关的部件是部件a和部件b。
[0097]
贯穿本说明书对“一个实施方式”或“实施方式”的引用意味着结合该实施方式描述的特定特征、结构或特性包括在本发明的至少一个实施方式中。因此,贯穿本说明书,在各处出现的短语“在一个实施方式中”或“在实施方式中”不一定都指同一实施方式,而是可以指不同的实施方式。此外,在一个或更多个实施方式中,如根据本公开内容对于本领域普通技术人员将明显的,特定特征、结构或特性可以以任何合适的方式组合。
[0098]
类似地,应当理解,在本发明的示例性实施方式的描述中,出于简化本公开内容并有助于理解各种发明方面中的一个或更多个方面的目的,本发明的各种特征有时被组合在单个实施方式、附图或其描述中。然而,本公开内容的方法不应被解释为反映如下意图:所要求保护的发明需要比每个权利要求中明确叙述的特征更多的特征。相反,如以下权利要求所反映的,发明方面在于少于单个前述公开的实施方式的所有特征。因此,所附权利要求由此明确地并入该具体实施方式中,其中,每个权利要求独立地作为本发明的单独实施方式。
[0099]
此外,如本领域技术人员将理解的,虽然本文中描述的一些实施方式包括其他实施方式中包括的一些特征,而不包括其他实施方式中包括的其他特征,但是不同实施方式的特征的组合意味着在本发明的范围内并且形成不同的实施方式。
[0100]
应当注意,在描述本发明的某些特征或方面时对特定术语的使用不应被视为暗示:该术语在本文中被重新定义以被限制为包括与该术语相关联的本发明的特征或方面的任何特定特性。
[0101]
在本文提供的描述中,阐述了许多具体细节。然而,应当理解,本发明的实施方式可以在没有这些具体细节的情况下实施。在其他情况下,没有详细示出熟知的方法、结构和技术,以免模糊对本说明书的理解。
[0102]
定义
[0103]
在本发明的上下文中,听觉刺激根据年龄和健康状况可以是多种多样的并且是指人类或动物听力易感的声信号(例如压力波),例如包含并传送针对人类听觉系统的大约20hz至大约20khz范围内的声能的信号。显然,对于非人类动物,适用不同的频率范围。如本文中所使用的,术语“耳蜗处理”是指由听觉外围对声音的处理,并且包括遍及上行听觉通路的各个阶段对声音的耳蜗和神经处理。因此,耳蜗处理是指发生在中耳内、基底膜(bm)上、外毛细胞和内毛细胞(ohc与ihc)内、听觉神经纤维(anf)突触和神经元内的处理。因此,“connear”或“耳蜗模型”或“听觉外围模型”是指各自与耳蜗处理的不同方面类似的模型的集合。connear模型的具体要素被称为“bm振动模型”、“ihc模型”、“anf模型”。这些模型中的每一个将具有作为本发明的一部分描述的基于神经网络的模型,并且将具有用于模型训练目的的参考分析描述。
[0104]
在本发明的上下文中,近实时处理、实况处理或接近实况处理被认为与音频处理应用中遇到的典型延迟有关。低于200ms的音频延迟被普遍接受,但对于音频信号的实况处理,目标是低于20ms的延迟。
[0105]
在本发明的上下文中,如果神经网络包括至少一个卷积层,则该神经网络被认为是卷积神经网络。卷积层包括通过卷积对层输入进行操作的一个或更多个滤波器或内核,其中,卷积方向沿着由输入图定义的一个或一些维度。在本发明的实施方式中,卷积方向通常是一维的并且是指层的输入的时间维度或时间轴,该输入通常是更高维的。沿卷积方向执行卷积操作通常涉及多个输入维度或甚至输入批(batch)以及多个输出维度(滤波器深度),并且因此最常作为层输入(图)与层滤波器之间的广义张量卷积来执行,以产生相应的(非线性激活的)层输出(图)。
[0106]
在本发明的上下文中,神经网络的连续卷积层是指神经网络层堆栈的后续层,该神经网络层堆栈的后续层通过卷积对其输入图进行操作。因此,神经网络的连续卷积层的
术语包括:卷积层是层堆叠的紧邻层的情况;以及下一卷积层通过一个或更多个其他非卷积层与层堆叠中的前一卷积层分离的情况。相对于输入或压缩输入的增加步长包括单调增加以及严格单调增加。
[0107]
参照图1,现在描述本发明的实施方式中使用的示例性神经网络10。神经网络10包括编码器11和解码器12。编码器11和解码器12中的每一者包括多个卷积层,即编码器11的第一系列卷积层11a-d以及解码器12的第二系列卷积层12a-c和14。神经网络10的输入层13连接至编码器11,并且编码器11的最后一个卷积层11d连接至解码器12的第一卷积层12a。解码器12的连续卷积层的最后一个卷积层14也提供神经网络10的输出层。输入层13适于接收预定长度的至少一个输入序列,例如采样听觉刺激的至少一个时间序列,该预定长度的至少一个输入序列包括以预定采样率进行采样的多个输入样本,例如与128ms时间窗口对应的16khz或20khz采样率下的2048、4096或8192个样本或者与64ms时间窗口对应的16khz采样率下的1024个样本等。此外,输入层13可以适于接收作为复合的多维输入的预定长度的多个输入序列,例如与三个不同的单向麦克风相关联的三个输入序列。因此,神经网络10的输入具有至少一个时间维度,并且可以在深度上具有一个或更多个维度(例如输入特征)。此外,可以将一些输入连结成一批输入以用于由神经网络进行处理。输入的批处理通常由张量卷积支持,但是推理时间变慢。因此,批处理可以在训练期间使用,在训练中应用了宽松的延迟要求并且可以在运行时(例如在测试阶段)被停用或禁用。神经网络10的输出层14被配置成用于生成n个不同的输出序列,n是明显大于1的整数,例如至少100或更多。
[0108]
编码器11的连续卷积层11a-d以及解码器12的连续卷积层12a-c和14各自可以由执行卷积的相应步长来表征。大于1的步长导致对编码器11的输入进行下采样,例如,当执行卷积操作时,通过减少平移卷积滤波器的感受野中的交叠来减小卷积层输入图与对应的输出图之间的输入(时间)维度。因此,相对于神经网络的输入具有增加的步长的编码器11的连续卷积层11a-d沿着其卷积方向(例如沿着时间维度)顺序地压缩输入。同样,大于1的步长导致对解码器12的压缩输入进行上采样,例如,当执行卷积操作时,例如通过沿着上采样(时间)维度在层输入之间进行零填充来增加卷积层输入图与对应的输出图之间的输入(时间)维度。由解码器12的卷积层进行的卷积操作也被称为转置卷积或(不太合适的)去卷积。因此,解码器12的连续卷积层12a-c、14顺序地对压缩输入进行解压缩,所述连续卷积层12a-c、14对于由编码器压缩的压缩输入(例如,由编码器11的最后一层生成的输出图,例如,由卷积层11d生成的输出图)具有增加的步长。因此,解码器12能够经由上采样和插值至少部分地恢复压缩损失。例如,图1的特定实施方式中的编码器11的每个卷积层11a-d的步长可以被选择为2,这导致对于输入的两个下采样的幂的级联,例如,对于神经网络10的输入的步长严格地单调增加并且作为序列{2;4;8;16}给出,例如,压缩输入包括沿时间方向比输入层13处的输入少16倍的输入样本。类似地,图1的特定实施方式中的解码器12的每个卷积层12a-c、14的步长也可以选择为2,从而产生压缩输入的两个上采样的幂的级联,例如,对于由编码器11生成的压缩输入的步长严格地单调增加并且作为序列{2;4;8;16}给出,例如由解码器的最后一个卷积层14生成的输出序列包括沿时间方向比呈现给解码器的第一卷积层12a的压缩输入多16倍的样本。在该特定示例中,(一个或多个)输入序列中的输入样本的数目与每个生成的输出序列中的输出样本的数目相匹配。然而,存在如下可替选实施方式:例如在输入采样率比输出采样率低两倍的实施方式中,在每个输出序列中生成
的输出样本可能比每个输入序列中的输入样本多。为了实现这一点,这样的实施方式可以包括编码器中的三个卷积层和解码器中的三个卷积层,所述编码器中的三个卷积层和解码器中的三个卷积层对于输入和压缩输入分别具有步长序列{2;8;8}和{2;8;64}。可以观察到,在这种特定情况下,步长序列不是以2的幂增加,而是甚至更快地增加。还要注意的是,编码器的步长序列的增加不是严格单调的,而仅是单调的,因为编码器的最后一个卷积层已经被选择为具有1的绝对步长。
[0109]
总体而言,神经网络10因此表示具有编码器-解码器架构的多层卷积神经网络,对于该多层卷积神经网络,多个层导致模仿的耳蜗滤波器(在该示例中是耳蜗bm滤波器)的相互耦合。编码器-解码器架构的优点是,压缩输入的特征空间具有相对小的维度尺寸,例如压缩(编码)特征的数目很少,这使得整个神经网络不易受到过拟合的影响,并且对于不受控制的外部变化(例如说话者变化)更加鲁棒。更具体地,每个说话者具有各自的口音、基频和说话速度,这不应该影响用于耳蜗处理的基础训练神经网络模型(即,架构,包括学习的神经网络权重),这与人类听觉系统在生理上不依赖于这些说话者变化或受这些说话者变化影响非常相似。重要的是要注意,神经网络模型的这种说话者不变特性并不意味着说话者变化在神经网络输出层不被恢复,例如,经处理的数据反映了这样的变化,但是神经网络架构(几乎)不反映这样的变化。
[0110]
对于图1中用于耳蜗bm处理的示例性实施方式,每个卷积层包括通过(张量)卷积作用于层输入的多个不同的卷积滤波器,例如编码器11的卷积层11a-d和解码器12的卷积层12a-c中的每一者包括128个不同的卷积滤波器(或内核),并且这些不同的卷积滤波器(或内核)各自的感受野沿着层输入的时间维度被设置为64个样本的长度。对于解码器的最后一个卷积层14,此处是神经网络10的输出层,滤波器的感受野也被设置为64,但是该层中不同滤波器的数目——即滤波器深度——被选择为201,该201与耳蜗频率拓扑位置-频率图的201个不同中心频率——例如展开格林伍德音图的100hz至12khz的频率范围的201个中心频率——对应。卷积层的滤波器的滤波器深度和感受野不限于以上示例值,并且可以根据耳蜗处理阶段、应用、所需的模仿精度、频率跨度和音图的分辨率等而变化。存在大约1130万个与图1中的神经网络10相关联的经训练的神经网络参数,该神经网络10包括总共八个卷积层。在神经网络的训练期间发现,较小的感受野——例如低于64个样本——导致观察到的输出序列中耳蜗离散度(在低频分量与高频分量之间例如以毫秒为单位确定的耳蜗响应延迟,见图5)的显著降低,而较大的感受野仅适度地有助于改进的耳蜗离散度,其可能由于与这些较大的感受野相关的神经网络权重的显著增加而被拒绝。
[0111]
对于耳蜗处理的连续阶段(ihc和an),形成其架构的各个层可以保留与bm阶段的最后一层所具有的相同数目的不同滤波器(即,滤波器深度,此处选择为201),使得ihc和an处理可以应用于耳蜗频率拓扑位置-频率图的相同中心频率,例如,展开格林伍德频率拓扑图的100hz至12khz的频率范围的201个中心频率。
[0112]
神经网络还包括至少一个非线性单元,该至少一个非线性单元用于对由神经网络的卷积层之一生成的激活图进行非线性变换,以生成对应的输出图。非线性优选地元素方式应用,并且模仿与耳蜗外毛细胞相关联的级别相关的对称耳蜗滤波器调谐,例如外毛细胞感知运动活动对基底膜振动的压缩非线性。非线性单元的优选非线性被给定为元素方式应用的双曲正切(“tanh”)激活函数,该双曲正切激活函数用于将卷积层的激活图条目非线
性地转换成层输出图的对应样本。对于图1中的特定神经网络10,提供了多个非线性单元。更具体地,由编码器11和解码器12的每个卷积层11a-d、12a-c、14生成的激活图通过元素方式应用tanh激活函数而被非线性变换。然而,本发明的实施方式不仅仅限于非线性变换的卷积层,而是在神经网络中可能存在一个或更多个线性激活的卷积层。此外,非线性不限于元素方式应用的双曲正切。本领域的技术人员可以进行其他选择,例如逐矢量应用于卷积层激活图的矢量的挤压函数,例如由每个卷积步骤的所有滤波器响应形成的矢量,或者元素方式应用的形式为α*tanh(x)+(l-α)*sign(x)——其中,层相关的α在0与1之间变化——的参数化非线性。
[0113]
对于每个阶段,优选地基于生物物理特性来选择激活函数。因此,在一些实施方式中,不同的阶段具有不同的非线性激活函数。类似地,在一些实施方式中,在编码器与解码器之间激活函数不同。例如,tanh激活可以用在编码器的层中,而sigmoid激活函数可以用在解码器的层中。
[0114]
通常,神经网络的特性对于每个阶段可能不同,神经网络的特性包括输入序列的长度、层数、每层中滤波器的数目、激活函数,并因此还包括参数的总数。
[0115]
神经网络10中还包括多个捷径连接15。这些捷径连接提供编码器11的卷积层11a-c与解码器12的卷积层12b-c和14之间的连接。更具体地,捷径连接15被布置成用于:当输入被施加到编码器11的具有捷径连接的卷积层时,同时将该输入转发到解码器的卷积层。这意味着对于该转发的输入,多层神经网络10的一个或更多个卷积层被有效地绕过或跳过。注意,解码的接收卷积层不处理这些另外的被转发的输入,直到常规输入——例如,作为由多层神经网络的被有效绕过的不同中间层顺序处理的结果的输入——也可用。在文献中,捷径连接也被称为残余连接、横向连接或跳跃连接。对于图1中的特定实施方式,存在用于将第一编码器卷积层11a的输入连接至第四解码器卷积层14的捷径连接15,将第二编码器卷积层11b的输入连接至第三解码器卷积层12c的捷径连接15,以及将第三编码器卷积层11c的输入连接至第二解码器卷积层12b的捷径连接15。然而,在其他实施方式中,可以在编码器11的卷积层与解码器12的卷积层之间设置或多或少的捷径连接。捷径连接15例如通过确保编码器11的卷积层与解码器12的卷积层之间——例如编码器11的卷积层11a-c中的每一者与解码器12的对应的一个卷积层12b-c和14之间——的时间对准来确保输入序列与生成的输出序列之间的时间对准,其中,通过匹配至少与时间相关的层输入维度来建立对应。因此,在由编码器11进行的输入压缩期间丢失的时间相位信息在解压缩期间被解码器12恢复。除了编码器-解码器架构中特有的自顶向下和随后的自底向上方法之外,编码器的卷积层与解码器的卷积层之间的捷径连接在输出生成和细化期间向解码器的卷积层提供另外的输入。具体地,编码器中的重复下采样生成以多个尺度提取的多个特征,然后这些特征经由捷径连接被用作解码器的另外的输入。因此,本发明的实施方式还提供多尺度滤波,类似于例如通过小波滤波器组实现的滤波。
[0116]
本领域技术人员能够选择各种类型的捷径连接。例如,就增加的神经网络权重的数目、训练和推理能量成本而言,最简单和最经济的捷径连接类型是权重1或单一的未训练的连接。例如具有增加神经网络的整体精度或学习编码器中多尺度下的推断特征的输入模式相关的转发的目标的更复杂的类型也是可能的,该类型包括但不限于例如在高速公路网络中使用的门控捷径连接或缩放/加权的捷径连接。在这方面,用于缩放的捷径连接的加权
矩阵可以是稀疏矩阵,这有利地导致更少的实现的捷径连接和神经网络对噪声的整体鲁棒性的潜在增加。
[0117]
模仿耳蜗处理将再现由外部施加的噪声激励的基底膜振动,但是在本发明的特定实施方式中也可以获得基于耳蜗处理的模仿的具有噪声去除的增强的耳蜗处理。不考虑影响听觉刺激的外部噪声源,内部噪声源也可能具有负面影响。例如,作为用于获得指示听觉刺激的时间采样输入序列的采样方法的结果的量化噪声的添加可以构成内部噪声源。因此,神经网络的噪声鲁棒性可以是用于听力质量评估的感兴趣的量。
[0118]
从上述论点可以得出,对于接收转发输入和常规输入的解码器的每个卷积层,可以不同地执行转发输入和常规输入的组合(图1中的“+”号)。由于能量上的廉价,解码器的任何一个卷积层的转发输入和常规输入的优选组合被提供为该转发输入和常规输入的元素方式求和或平均。然而,更高级类型的捷径连接可以提供被应用于常规输入和转发输入的加权和以分别控制常规输入和转发输入的相对贡献的元素方式非线性。
[0119]
神经网络10的输出层14适于针对神经网络的每个输入生成与n个模仿的耳蜗滤波器(例如,bm滤波器、ihc、anf响应)对应的耳蜗响应参数的n个输出序列,这些输出序列与展开耳蜗频率拓扑位置-频率图的n个不同的中心频率相关联,其中,每个输出序列的耳蜗响应参数指示位置相关的时变耳蜗bm振动、ihc受体电位或anf放电模式,例如耳蜗基底膜的位置相关的时变振动。当实践本发明的实施方式时,本领域技术人员可以选择以下已知的图中的一种作为耳蜗频率拓扑位置-频率图或尺度:等效矩形带宽(erb)尺度间距、格林伍德(greenwood)图、巴克(bark)尺度等。该列表不是详尽的,并且技术人员可能会注意到其他合适的耳蜗频率拓扑位置-频率图。耳蜗基底膜的位置相关的时变振动可以在局部膜位移、局部膜速度、局部膜加速度、膜上的局部压力或加速力或它们的组合的方面来表示。
[0120]
尽管鉴于仅包括卷积层的神经网络的权重共享和移位不变性(例如,对于听觉刺激例如短声声音出现的绝对时刻的不变性),该类型的神经网络是优选的,但本发明的实施方式不限于仅包括卷积层的神经网络。在层到层映射中共享多个权重节省了内存和计算需求,并允许在专用加速器芯片上进行有效的硬件实现。因此,当在例如包含电池的听力设备和耳戴式助听器中寻求计算机实现的方法的低能量有效的硬件实现时,增加可以被实现为卷积操作的网络层的数目是有利的选择。可以形成神经网络的一部分的其他层包括致密层、完全连接层、池化层等,并且存在于下面进一步描述的其他实施方式中。其他层(如果存在的话)可以布置在输入层与编码器之间、编码器与解码器之间、解码器与输出层之间,并且更一般地,可以布置在编码器和/或解码器的连续卷积层之间,而不影响卷积层的序列,即两个连续的卷积层保持连续而不管被插入的一个或更多个非卷积层。
[0121]
在操作条件期间,神经网络通常可以接收至少一个被施加到其输入层13的输入序列。输入序列表示听觉刺激,例如纯音、短声声音、语音等。例如,在一个示例中,单个输入序列可以包括在时域中以16khz采样的语音信号的2048个样本。采样率可以高于16khz,例如20khz、32khz或44khz或更高。然后,将所施加的输入序列从输入层13馈送至编码器11的第一层,例如馈送至第一卷积层11a。由编码器11的第一层生成的激活图被直接传递到下一层,或者首先传递到非线性单元以应用非线性变换。针对编码器11的每一层重复这一过程,以获得作为由编码器的最后一层生成的输出图的压缩输入。接下来,解码器12在其第一层——例如解码器12的第一卷积层12a——处接收来自编码器11的压缩输入。由解码器12
的第一层生成的激活图被直接传递到下一层,或者首先传递到非线性单元以应用非线性变换。解码器12的至少一层经由多个捷径连接15接收编码器11的层的输出图作为另外的输入。例如通过求和或平均将该另外的输入与来自前一层的常规的序列输入相结合,以产生到解码器12的该层的输入图。针对解码器12的每一层重复前述步骤,以获得解压缩的输入作为由解码器12的最后一层生成的输出图。该解码器的最后一层可以是输出层14。最终,输出层生成n个输出序列,每个输出序列包括时域中的多个样本。时域中的这些输出样本与耳蜗响应(例如,bm振动、ihc受体电位、anf放电)例如基底膜振动相关联。
[0122]
例如,第一卷积层11a是如下层:其在输入序列与滤波器长度为64的128个一维卷积滤波器中的每一者之间执行跨步填充卷积(步长参数为2,“相同”填充),以生成深度为128以及长度为1024(可选地为2048、4096或8182)的相应的激活图。然后,该激活图例如经由元素方式应用的双曲正切而被非线性地转换成第一卷积层11a的输出图。该第一输出图然后被用作编码器的下一层(例如第二卷积层11b)的输入图,并且针对该第二卷积层11b再次执行跨步卷积和非线性变换,以此类推。在如图1所示的本发明的实施方式中,编码器11的每个卷积层可以具有2的步长参数和128的深度,使得由最后的卷积层12d生成的最后的非线性变换的激活图由深度为128并且压缩长度(沿着时间维度)为128的样本来表征。然后,解码器12的卷积层12a-c、14的序列将压缩的长度/时间维度重新扩展,例如,该序列通过执行重复的跨步转置卷积——例如步长为2的卷积和用于上采样和插值的填充——来对来自编码器11的压缩输入进行解压缩。因此,由解码器的最后一个卷积层14(例如神经网络10的输出层14)生成的输出图的长度/时间维度再次包含2048个样本。然而,输出层14与解码器12的其他卷积层12a-c的不同之处在于,深度被设置为频率拓扑图的不同中心频率的数目n,例如根据格林伍德图,n=201个中心频率。在图1的特定示例中,除了与由解码器12的第一卷积层12a生成的输出图对应的常规输入之外,解码器12的第二卷积层12b还经由捷径连接15接收由编码器11的第三卷积层11c生成的输出图以作为另外的输入。例如通过对到层12b的另外的输入和常规输入进行求和或求平均来将这两个输入组合成具有相同维度的单个输入。同样,除了与由解码器12的第二卷积层12b生成的输出图对应的常规输入之外,解码器12的第三卷积层12c还经由捷径连接15接收由编码器11的第二卷积层11b生成的输出图以作为另外的输入,并且例如通过对到层12c的另外的输入和常规输入进行求和或求平均来将这两个输入组合成具有相同维度的单个输入。此外,除了与由解码器12的第三卷积层12c生成的输出图对应的常规输入之外,解码器12的第四以及最后一个卷积层14还经由捷径连接15接收由编码器11的第一卷积层11a生成的输出图以作为另外的输入,并且例如通过对到层14的另外的输入和常规输入进行求和或求平均来将这两个输入组合成具有相同维度的单个输入。
[0123]
在变型中,至少一个输入序列包括前上下文部分和/或后上下文部分,例如时域中在感兴趣的采样信号部分之前或随后出现的多个样本,例如包括指示感兴趣的听觉刺激的样本的前上下文部分与后上下文部分之间的输入序列的中心部分。可以通过将具有交叠区域的滑动采样窗口应用于所获取和采样的音频信号来获得前上下文部分和/或后上下文部分,例如,前上下文部分和/或后上下文部分可以对应于各自被附加到感兴趣的2048个样本长部分的左侧和右侧的256个另外的样本,例如,输入序列可以包括总共2048+2*256=2560个样本。前上下文部分和/或后上下文部分的优点是避免了每个输入序列的末端部分附近
的不连续特性以及所生成的输出序列中的伪像。例如由于滑动采样窗口的尖锐边缘和零填充,导致这样的不连续特性将人工高频内容引入到模仿的耳蜗处理中,这在听觉系统的连续耳蜗处理中是不存在的。这些虚假的快速开/关转换在由神经网络进行的处理期间在前上下文部分和/或后上下文部分内衰减并且不影响感兴趣的中心部分。在这样的实施方式中,由神经网络的输出层生成的输出序列可以被裁剪到没有伪像的感兴趣的中心部分以用于进一步处理,例如,可以移除中心部分的左侧和/或右侧的附加样本(作为解码器模型中的最后一层)。
[0124]
在图8中,具有交叠区域的滑动窗口的采样动作被示出,并且可以用在本发明的包括前上下文部分和后上下文部分的实施方式中。感兴趣的连续采样信号部分(帧)被指示为序列s1至s5(相邻部分之间的间隙仅被绘制以为了更好的可视性)。长度大于每个序列s1至s5的长度的采样窗口(c2至c4)沿水平时间轴滑动,并在相邻序列的中心位置处连续对齐。由于大于滑动窗口对齐的序列,所以也对两个相邻序列的样本进行采样。例如,采样窗口c3以第三序列s3为中心被定位,并与第二序列s2和第四序列s4两者的样本交叠。这些交叠样本提供了另外的上下文信息。
[0125]
上下文部分是可选的,并且对于足够长的输入序列可能不是必需的,或者在能够提供不太精确的模仿的耳蜗处理的应用——例如在对音素进行分析和分类之前使用神经网络作为预处理器的语音识别应用——中可能不存在。
[0126]
图5分别示出了由用于耳蜗bm处理的id传输线模型生成的输出序列(左起第二个)、如关于图1所述的模仿耳蜗bm处理的神经网络的输出序列(左起第三个)、以及如关于图1所述的模仿耳蜗处理并另外使用过去输入上下文和未来输入上下文的神经网络的输出序列(右侧),这些输出序列响应于用作左侧所示的听觉刺激(例如通常在生理学研究中使用的短咔哒声)的类似脉冲的激励而生成。输出序列被布置为2d图,其中将以20khz的采样速率采样的时间样本轴作为横轴,并且将(例如,根据n=201个通道的格林伍德图选择的)不同的位置相关的中心频率通道的轴作为纵轴。所生成的输出序列的该2d图对于评估耳蜗离散度非常有用。例如,根据图5中的2d图可以得出,耳蜗离散度的主要部分包含在持续大约12ms的时间间隔中(例如,大约直到时间样本200)。这是人类耳蜗处理期间经历的延迟的指标。图5还表明,用于模仿耳蜗处理的神经网络以非常详细和忠实的方式再现作为参考模型的传输线模型的响应。
[0127]
图6示出了根据格林伍德图和n=201的用于获得上面图5中的输出图的中心频率与通道数目之间的关系。
[0128]
在图9中还观察到由用于耳蜗bm处理的精确传输线模型生成的输出序列与由用于模仿耳蜗bm处理的神经网络生成的输出序列之间的良好一致性。该附图是针对各种声压级下的声学纯音刺激(例如,每列中声压级在10db spl与90db spl范围之间的三个不同的纯音频率)获得的。对于纯音激励,所生成的输出序列是周期性的,针对频率拓扑图的每个位置相关的中心频率(cf)(横轴),仅报告了模仿的基底膜振动(y_rms)的均方根能量(纵轴)。传输线(tl)响应曲线作为参考曲线被示出在左列中,对于该传输线(tl)响应曲线,与用于模仿具有(右列)输入上下文和不具有(中间列)输入上下文的耳蜗bm处理的神经网络获得的相应响应曲线具有良好的一致性。此外,由耳蜗bm处理的神经网络模型模仿的耳蜗bm滤波器的频率选择性以及形状和耦合被忠实地再现,例如,在纯音刺激的频率处获得显著的
滤波器共振峰值。峰值的高频侧的肩部表示滤波器的耦合(较高的频率在基底膜的靠近椭圆形窗口的较硬部分处退出)。在图9中还可以看到,对于较高的激励水平,频率选择行为(例如增益、调谐)以非线性方式减少。
[0129]
根据本发明的实施方式的神经网络可以使用从用于耳蜗处理的生物物理学精确的验证模型获得的训练数据来训练,例如,由验证模型生成的参考输出序列被用作训练目标。特别地,精确的验证模型被优选地提供为耳蜗和bm振动的时域传输线模型。分析性参考ihc和anf转换模型应尽可能在生物物理学上真实,并且优选地与耳蜗传输线模型结合使用以用于训练和评估目的。
[0130]
当耳蜗被刺激时,所产生的基底膜振动(例如位移和速度)是沿着bm在空间和时间上连续变化的量。出于模拟或建模的目的,通常首先在空间中对基底膜进行离散,即将基底膜的振动建模成一维非均匀传输线的离散版本。这导致也受到延迟反馈的影响的耦合的非线性振荡器阵列。耦合的振荡器组的运动方程的解可以通过时间变量的数值积分获得,其中,确保稳定性条件是最重要的。更具体的细节和诸如基底膜宽度/高度、刚度、耳蜗液体密度、中耳阻力等的相关模型参数的选择在以下文献中被描述:例如,verhulst,sarah等,“nonlinear time-domain cochlear model for transient stimulation and human otoacoustic emission”,《美国声学学会杂志》第132卷,第6期(2012年);altoe,alessandro等,“transmission line cochlear models:improved accuracy and efficiency”,《美国声学学会杂志》第136卷,第4期(2014年);verhulst,sarah等,“functional modeling of the human auditory brainstem response to broadband stimulation”,《美国声学学会杂志》,第138卷(2015年);以及verhulst,sarah等,“computational modeling of the human auditory periphery:auditory-nerve responses,evoked potentials and hearing loss”,hearing research,第360卷(2018年)。耳蜗的时域生物物理模型的其他以及更通用的方法也可以用作验证模型,例如,allen,jont b,“cochlear micromechanics——a physical model of transduction”,《美国声学学会杂志》68.6(1980):1660-1670;sisto,renata等,“different models of the active cochlea,and how to implement them in the state-space formalism”,《美国声学学会杂志》128.3(2010):1191-1202;或meaud,j.和lemons,c.(2015),“a physiologically-based time domain model of the mammalian ear”,mechanics of hearing:protein to perception,由d.karavitaki和d.corey编辑,第12届国际听力力学研讨会论文集(美国物理学会,梅尔维尔,纽约州),第1703卷,第1期,第070009页。根据本发明的实施方式使用的验证模型不必是纯时域模型,而是还可以包括频域模型,该频域模型提供与用于将时域输入序列转换成频率表示(例如频谱图)以及将频率表示转换成时域输入序列的时间-频率变换和频率-时间变换(例如傅立叶变换、快速傅立叶变换、z变换)相结合的(级联)并行滤波器。
[0131]
传输线模型通常在生物物理学上是非常精确的,因为模型参数可以被优化以适合传输线模型,或者另外地或可替选地,从被声音刺激的内耳的生理测量中选择。传输线模型的准确性通过它们忠实地再现特征耳蜗现象——诸如但不限于耳蜗bm滤波器或级联滤波的纵向耦合、耳声激发、畸变产物、压缩非线性、频率离散和群延迟、(位置相关的)频率选择性——的能力来反映。
[0132]
尽管这些传输线模型有用,但它们的缺点是其计算复杂性,这限制了它们在现场或实时音频处理中的适用性。以令人满意的精度水平求解耦合的微分方程式组只需几秒钟的计算时间。在这种复杂模型中寻找解决方案轨迹所涉及的这样的高延迟和能量成本是阻碍助听器或耳戴式听力设备的数字信号处理器中的有效模型实现的因素。
[0133]
反向传播算法通常可以用于训练和更新神经网络权重,例如使用共轭梯度或随机梯度更新以及固定或自适应学习速率的反向传播算法。用于训练的输入序列可以取自可用的语音语料库。在训练阶段或训练过程期间,由验证模型生成的输出序列与由神经网络生成的输出序列之间的偏差在误差度量(例如l1范数)下被重复评估,从该误差度量中得出关于神经网络权重的更新的梯度信息。训练过程可以使用单个输入样本序列或由单个输入样本序列形成的小批。停止标准当被满足时表明神经网络已经被充分地训练为例如低于特定的剩余损失。
[0134]
例如,根据本发明的实施方式的神经网络可以使用输入训练序列的timit语音语料库来训练。训练目标被确定为由如以下文献所描述的传输线模型生成的n个输出序列:verhulst,sarah等,“nonlinear time-domain cochlear model for transient stimulation and human otoacoustic emission”,《美国声学学会杂志》第132卷,第6期(2012年);以及verhulst,sarah等,“computational modeling of the human auditory periphery:auditory-nerve responses,evoked potentials and hearing loss”,hearing research,第360卷(2018年)。使用大小为64的小批、adam优化器和1e-4
的学习速率的反向传播算法可以适当地更新和训练神经网络权重参数。l1损耗误差度量可以在连续训练时期(例如,多达60个训练时期)期间被监视并且一旦l1损耗的变化降低到阈值参数以下——例如,l1损耗的相对变化至少五个连续时期低于0,1——就停止。不同的神经网络架构及相关的超参数(诸如分别在编码器和解码器中的卷积层的数目、输入序列的长度、中心频率的数目n、每层中卷积滤波器的数目和感受野大小、由非线性单元施加的非线性、跳跃连接的拓扑、层步长等)然后可以在验证数据集下进行评估并将它们的性能相互比较以例如选择表现最好的一个。优选地,验证数据集包括通常在听觉建模和研究领域中使用的听觉刺激的集合,例如声调和短声刺激经常用于描述耳蜗处理中的不同方面或生理元素的特征。当然,这些刺激在训练集中并不存在。已经在验证测试下证实:人类耳蜗力学的所有重要方面已经被经训练的神经网络准确地捕获,包括诸如频率选择性、级别相关的调谐和压缩、耳蜗离散度、耳蜗畸变产物和耳蜗阶跃响应等各方面。
[0135]
本发明的实施方式的优点在于,仅需要很少的另外的训练样本就可以对经训练的神经网络进行快速调整,以反映耳蜗处理的变化,例如与听力损伤相关的重要变化。针对该目的,可以提供经修改的验证模型,例如,例如基于已知的效应或测量的个体听力敏度图、耳声激发(oae)或听觉诱发的电位(aep)来对听力损伤进行捕获和建模的生物物理学上精确的传输线模型。这对于佩戴助听器的人是有益的,因为从测量的听力敏度图或听觉诱发的电位得出的听力损伤参数可以容易地用于训练可以在助听器的处理设备上实现的个体化神经网络模型。该调整可以被离线执行(例如在外部计算机上执行),并且经调整的神经网络权重参数被发送并存储在处理设备可以访问的助听器的存储设备上,或者该调整可以被在线执行(例如直接由助听器的处理设备执行)。在变型中,不是通过保留来调整经训练的神经网络权重参数,而是神经网络的扩展模块可以变得活跃并且在考虑经修改的验证模
型或者经修改的验证模型和原始的(正常的)验证模型、未修改的验证模型的组合的情况下被训练。
[0136]
对经训练的神经网络的扩展的快速再训练或快速训练也可以有益于用于语音识别应用的大型深度卷积神经网络的精度改进,其中用于模仿耳蜗处理的神经网络被用作预处理模块。基于网络或基于云的服务器应用可以实时、每小时或每天收集新的语音样本或听觉诱发的电位,并将所收集的新的语音样本或听觉诱发的电位用于连续地重新调整神经网络权重参数。
[0137]
图14示出了应用于模拟耳蜗bm振动的模型训练和评估步骤的示例。耳蜗处理的参考tl模型(顶部灰色虚线框)对语音语料库的模拟被用于对耳蜗bm振动的神经网络的参数进行定义和优化。通过将神经网络模型的响应与用于训练的参考tl模型的响应进行比较,使用在模型训练阶段没有使用的简单声学刺激来进行经训练的神经网络模型(例如图5和图9)的性能的研究。
[0138]
图15示出了本发明的实施方式的响应,其模拟了低自发速率anf的耳蜗anf响应(瞬时激发速率)。在左侧示出了用于训练的参考tl模型模拟,并且在右侧示出了connear响应。示出了响应于1khz或4khz的声学纯音的响应。除了一些低级别的nn噪声之外,connear anf模型准确地捕获到了参考模拟。
[0139]
图16示出了不同的听力受损的耳蜗处理模型的评估。耳蜗bm滤波器的调谐(o
erb
)在此处被描述为参考tl模型的cf的函数并与connear模型模拟进行比较。还示出了参考实验人类o
erb
估计。顶部面板示出了针对正常听力模型的模拟,以及中间面板和底部面板示出了针对与插图中描绘的纯音听力敏度图对应的听力受损的模型的模拟。
[0140]
现在参照图10来描述对经训练的神经网络的扩展的训练、重新训练和(横向)训练的各种方法。图10中的实线是指在(重新)训练和测试/执行期间都有效的功能单元或信号连接,而虚线是指仅在(重新)训练期间有效但在测试/执行期间无效或被移除的功能单元或信号连接。点划线是指可选的输入连接。在下面的示例中,每个对bm处理的引用也可以被替选类型的耳蜗处理——诸如ihc处理(例如使用内毛细胞受体电位模型)、anf处理(例如使用听觉神经纤维模型)或它们的组合——代替。关于bm处理的每个步骤也可以通过替选类型的耳蜗处理——诸如经过必要修改的ihc处理或an处理——来执行。
[0141]
作为示例,实例a)示出了先前描述的用于使用作为验证模型的传输线bm模型tl1和作为误差度量的损耗函数loss来模仿耳蜗处理(在该特定示例中为耳蜗bm处理(但可替选地也可以是ihc处理或an处理),nn1)的神经网络的训练。输入数据(in data)在(重新)训练期间可以与语音信号——例如来自诸如timit的语音语料库的语音信号——对应,并且在测试/执行期间可以与听觉刺激(音频样本、短声音、纯音等)对应。由神经网络nn1生成的输出数据(outdata)在被训练时包括与频率拓扑图(例如格林伍德图)的n个不同的中心频率相关联的n个输出序列。
[0142]
在实例b)中,使用不同的验证模型tl2——例如,对与ohc损害相关的听力损伤进行建模的传输线模型tl2——对用于耳蜗处理的经训练的神经网络nn1进行(快速地)重新训练。可替选地,tl2可以指其中可以分别模拟老年性耳聋(ihc)和/或耳蜗突触融合/去分化的损伤的ihc模型或anf模型。然后,经重新训练的神经网络nn1r生成与同一频率拓扑图(例如格林伍德图)的n个不同的中心频率相关联的n个输出序列,但是所述n个输出序列的
输出样本不反映正常听力的人的基底膜振动,而是反映听力受损的人的基底膜振动。还可以将噪声信号或(例如,由于麦克风的信号采集失真导致的)信号失真添加到神经网络nnr的输入信号中,并对该神经网络nnr进行训练以执行噪声去除行为或信号恢复(失真补偿)。
[0143]
实例c)描述了如下训练场景,其中使用两个验证模型tl1和tl2的组合来训练用于耳蜗处理的经训练的神经网络nn1或未经训练的新的神经网络。例如,由针对正常听力的人的第一传输线模型tl1生成的输出序列与针对听力受损的人的第二传输线模型tl2生成的输出序列之间的差异被确定(
“‑”
)并用作用于神经网络nn2的训练的目标序列。神经网络nn2在被训练时生成与频率拓扑图的校正对应的输出序列。这些校正可以容易地用在听力设备中,以对获取的采样音频信号进行校正,从而补偿听力损伤。
[0144]
由于其性质,本文描述的当前模型通常由高度非线性但并行的操作组成。与复杂的数学前馈表达式的计算相比,这提供了计算在专用芯片上实现时具有显著加快的速度的优势。同时,这些操作是可微分的,这意味着神经网络可以被训练成反向传播到在其他实例中不可能达到的解。因此,在一些实施方式中,本文描述的方法及其实施方式被用于闭环补偿方法。
[0145]
例如,使用可以描述正常听力的听觉外围的“参考”神经网络和对应的听力受损的神经网络,“助听器”神经网络模型可以被训练成处理听觉输入并补偿听力受损的模型的劣化的输出(如图13所示)。该单独的“助听器”模型将产生如下信号,该信号可以将特定的听力受损的耳蜗的输出匹配(或部分匹配)到“参考”正常听力的耳蜗的输出。在一些实施方式中,助听器模型被训练成使特定度量(诸如两个其他模型之间的绝对差或平方差)最小化,或者使指示听力能力劣化的更复杂的度量最小化。
[0146]
使用闭环方法,一旦针对个体估计了听力损失的准确听觉分布,就可以开发能够精确补偿特定听力损伤的个体化助听器模型。在一些实施方式中,该方法包括开发优选地使用本文所述的闭环方法的个体化助听器模型的步骤。这样的听力损伤分布(profile)可以包括外毛细胞损坏、内毛细胞损坏、耳蜗突触病变(synaptopathy),或者甚至听觉外围的所有不同阶段中的听力损失的组合。使用基于耳声发射(oae)和听觉诱发的电位(aep)的敏感指标,可以建立可以说明单个突触病变和毛细胞损坏方面的个体化模型。因此,优选地,个体化模型包括突触病变和毛细胞损坏。所开发的听觉外围的神经网络模型通过提供更快的方法来将实验数据聚类到模拟输出使得可以建立个体化的听力损失的分布,从而也可以在该步骤中有所帮助。
[0147]
优化度量的选择对该闭环补偿有影响。考虑到这些表示的复杂性,在一些实施方式中使用的正常听力的模型与听力受损的模型的输出之间的差异的最小化可能不总是期望的或者甚至是不可能的。在一些实施方式中,可以选择训练助听器模型,以在一些或所有频率拓扑频率下补偿听力损坏的单个方面(例如外毛细胞损坏或突触病变)。在一些其他实施方式中,助听器模型可以被训练成最佳地恢复听觉诱发的电位的发生器,在这种情况下,跨模拟频率的范围的合计的耳蜗响应被用于确定助听器模型的参数。在一些其他实施方式中,使用本文所述的方法的模拟的耳蜗响应被用作脑干和皮层处理的模型的输入,使得另外的听觉诱发的电位特征可以被模拟并用于确定助听器模型的参数。在一些其他实施方式中,助听器模型被训练成处理听觉信号,使得对于诸如语音清晰度的感知任务,可以达到正常听力的受试者的“参考”表现。在这种情况下,任务优化的语音“后端”被连接至将模拟听
者在不同任务中的表现的正常听力的耳蜗模型和听力受损的耳蜗模型的输出(即“前端”)。后端的输出然后可以用来训练助听器模型,该助听器模型使听力受损的表现与正常听力的表现之间的差异最小化。前端可以是本文所述的耳蜗模型或本文所述的连接至听觉脑干/皮层处理的模型的耳蜗模型。任务优化的后端可以是基于nn的自动语音识别(asr)系统。在一些实施方式中,作为下一步骤,噪声或混响被引入到听觉信号中,以概括这些模型在更真实场景中的性能。在这种情况下,基于nn的噪声/混响抑制模型还可以被添加为前端与后端之间的中间步骤。
[0148]
实例d)描述了如何使用经修改的验证模型tl2(例如,用于听力受损的人的耳蜗处理的模型)来训练神经网络模型的扩展或先前非有效(例如,被绕过)的部分nnb。所示出的另一部分nna对应于经训练的神经网络nn1,该经训练的神经网络nn1是使用未修改的验证模型tl1(例如,用于正常听力的人的传输线模型tl1)和非有效的扩展nnb进行训练的结果。结果,包含nna和nnb这两部分的较大的神经网络能够生成输出序列,该输出序列的输出样本分别对应于正常听力的人和听力受损的人(例如,同一人随着时间的推移听力劣化或部分丧失)的例如基底膜振动的耳蜗响应(耳蜗响应可以包括bm振动、ihc受体电位和anf放电模式)。这两个输出之间的差可以形成为校正信号。
[0149]
在实例e)中,较大的神经网络(nna和nnb)的扩展的或先前非有效的部分nnb没有被顺序地连接至先前训练的部分nna,而是与先前训练的部分nna平行布置,并且接收与作为部分nna的经训练的神经网络nn1的不同尺度处的多个提取的特征相关联的多个横向输入。nnba与nnb这两部分之间的横向连接具有与单个神经网络内的捷径连接相似的功能。
[0150]
在另一方面,本发明还涉及计算机程序代码或计算机可读存储介质,该计算机程序代码或计算机可读存储介质包括用于在计算机或其他处理设备上执行上述方法的指令。计算机程序代码能够用于从因特网下载,或者能够经由网络连接(例如通过服务器-客户端应用、云计算应用、分布式计算应用等)对用户可用。计算机程序代码本身可以分布在一些互连的计算机上;计算机程序代码能够永久可用(例如永久存储)或临时可用(例如仅在运行期间可用)。包含指令的计算机可读存储介质可以包括任何非暂态存储设备,诸如存储(闪存)卡、硬盘驱动器、光学存储盘、usb设备、rom、静态ram、闪存ram等。
[0151]
本发明还涉及数据处理设备,其适于执行模仿耳蜗处理(例如bm振动、ihc或anf处理)的步骤以及可选的根据本发明的实施方式的与神经网络的训练相关的步骤。数据处理设备优选地被提供为单个处理器,例如被提供为小型听力设备中的专用asic芯片,但是也可以被提供为多个通信处理器,例如分布式计算设备或系统的许多内核或处理器。处理设备还包括用于接收指示听觉刺激的至少一个输入序列的输入装置,例如用于接收数据流的输入缓冲器、移位寄存器或i/o接口,并且还包括用于在卷积层的卷积滤波器与卷积层的输入之间执行卷积操作的多个乘法和累加单元。数据处理设备的存储单元至少存储经训练的神经网络权重。
[0152]
根据本发明的实施方式的神经网络的训练和推理过程可以使用专门的硬件——例如图形处理单元(gpu)或可操作用于灵活的数据流映射的处理元件的脉动阵列——来加速。
[0153]
参照图7,现在简要地描述根据一些实施方式的处理设备的示例。处理设备700可以是集成半导体器件(例如芯片),处理设备700可以包括控制单元701、全局缓冲器702、处
理元件704的阵列703以及用于接收或发送数据的多个数据输入/输出连接器,例如用于接收/发送包括时间采样信号的序列的数据(例如用于从一个或更多个麦克风接收传感器时间序列数据或将由神经网络实现生成的输出序列发送到声换能器)的连接器705。执行神经网络实现的推理过程所需的网络权重参数可以存储在具有大存储容量的外部存储单元706(例如,dram、sram、非易失性存储设备)上,并且可以根据请求(例如,控制单元701发出存储器读取访问命令)传送到处理设备700。指示听觉刺激的至少一个输入序列可以被接收以用于由连接器705处的神经网络进行处理,或者可以从外部存储单元706中检索。所接收的神经网络权重参数和输入序列的组块在通过控制单元701的相应命令被引导至阵列703的特定处理元件704之前可以被缓冲在处理设备700的全局缓冲器702中。阵列703可以被配置为用于实现大规模并行化的分布式计算的脉动阵列,例如,层输入与层的卷积滤波器之间的卷积在脉动阵列上并行化。脉动阵列的优点是,部分处理的数据跨阵列移动,使得新的未处理的数据可以同时馈送至脉动阵列。每个处理元件704可以包括能够执行乘法和累加操作的逻辑。优点在于,处理元件704仅需要很少的功能和存储器(例如寄存器),使得可以将大量的处理元件布置在处理设备(例如芯片)上。此外,处理元件704可以在许多计算周期期间存储神经网络权重参数,使得该处理元件被有效地重复使用,这导致更少的存储器访问周期和延迟,并且还导致对于电池驱动的便携式设备来说重要的能量节省。可以提供已知的数据流映射来进一步改进阵列703的使用效率,并进一步降低能量成本,例如提供行固定数据流。累加的经处理的数据流在阵列703的边缘处被读出并且被存储在全局缓冲器702中,或者,在不需要进一步处理的情况下可以被发送至外部存储单元706或者被应用到连接器705。
[0154]
处理设备700可以以流水线方式执行数据访问和处理步骤,以增加吞吐量。同样,输入序列可以由处理设备700成批处理,以进一步提高吞吐量并减少由频繁的存储器读/写操作引起的延迟。输入数据的批处理在由大量用户访问的基于网络或基于云的应用中也可能是有利的,例如,用户的运行语音识别算法的许多请求可能被捆绑,对此,处理设备被用作预处理模块。处理设备700可以提供支持张量卷积以及多个层输入图/层输出图形状和大小的数据流映射。
[0155]
对于图7中的处理设备700,存储器层级和脉动阵列架构导致重要的能量成本降低,并且允许高度并行、低延迟和高吞吐量的层计算(例如卷积)。结合在给定采样率(例如16khz或20khz)下输入序列的预定长度的减少,例如每个输入序列少于8192个样本,例如每个输入序列少于4096个样本,例如每个输入序列少于2048个样本,例如每个输入序列少于1024个样本,例如每个输入序列少于512个样本,例如每个输入序列256个样本,可以获得少于128ms的处理延迟,例如少于64ms的处理延迟,例如少于32ms的处理延迟,例如16ms的处理延迟(脉动阵列或处理设备的处理速率通常可以被假设为足够大以仅增加可忽略的延迟)。因此,可以实现音频信号的现场处理或接近现场的处理,这对于佩戴听力设备(例如现场录音中的听力设备或助听器)的人的听力体验和舒适性具有积极的影响。
[0156]
在另一方面,本发明涉及一种听力设备,其包括所公开的如前所述的数据处理设备,并且还包括用于检测指示至少一个听觉刺激的时变压力信号的气压检测装置、用于对检测到的听觉刺激进行采样以获得包括多个输入样本的输入序列的采样装置、以及用于将由神经网络生成的输出序列转换成可听的时变压力信号或与至少一个听觉刺激相关联的
相应的听觉神经刺激的至少一个换能器。听力设备优选地是佩戴在耳朵上的电子设备,但不限于此。示例性听力设备包括耳机、助听器、个人放大设备、耳蜗植入物和其他可听戴设备。示例性听力设备可以是以下类型之一:耳内(ite)、耳后(bte)、耳道内接收器(ric)、完全耳道内(cic)。其他示例包括脑计算机接口,例如听觉诱发的电位可以使用eeg传感器来监测,以对如本文所述的听力受损的模型的参数进行调节/重新训练。可替选地,本文所述的降噪系统的参数可以基于该另外监视的听觉诱发的电位信号进行调整,该听觉诱发的电位信号可以用于使处理最小化。
[0157]
参照图4,现在描述听力设备100。听力设备100包括一个或更多个声音感测元件,例如三个麦克风104或可替选地eeg传感器。一个或更多个声音感测元件(例如(一个或多个)麦克风)具有用于检测指示至少一个听觉刺激101的时变压力信号的压力检测装置。检测到的压力信号被转换成电信号,以用于由听力设备100进一步处理。在优选实施方式中,(一个或多个)声音感测元件被提供为(一个或多个)麦克风。一个或更多个麦克风可以是单向的、多向的(例如双向的、超心形的等)、或全向的,其用于检测压力信号101,例如作为分别源自一个特定方向、多个选定方向或任何方向的听觉刺激的声音信号。一个或更多个麦克风可以是电容性麦克风或电感性麦克风。典型的麦克风可以是压电麦克风、驻极体电容器麦克风、mems麦克风。
[0158]
此外,听力设备100包括采样装置103,采样装置103可以是(一个或多个)声音感测元件的整体部分,或者可以被单独提供为一个或更多个电子电路,例如提供为如图4所示的处理设备102的一部分。由每个声音感测元件(例如麦克风)生成的电信号随后经由采样装置103在时域中被采样。例如,采样装置103的电子采样电路(例如模数转换器)以16khz或更高(例如20khz或更高,例如32khz或更高,例如44khz)的采样速率对代表听觉刺激的每个电子信号进行采样。另外,采样装置可以包括前置放大器、抗混叠滤波器或这两者。可替选地或另外地,可以使用另一传感器,例如测量aep(eeg信号)的传感器,使得还可以调整用于降噪、助听器信号处理的算法。
[0159]
听力设备100的处理设备102适于接收时域中的采样信号,并且适于将预定长度的采样输入序列应用于根据本发明的实施方式的神经网络。例如,神经网络的输入层可以被提供为缓冲器或移位寄存器,该缓冲器或移位寄存器由随后的时间采样输入数据来填充并且被周期性地并行读出,例如,长度为2048(或者可替选地4096或8192)的移位寄存器以16khz(或者可替选地20khz)的速率接收输入样本,并且所有2048个样本以每2048个采样步骤——例如每128ms(或者可替选地102.4ms)——并行读出。类似地,神经网络的输出层可以包括例如各自包含2048个样本(或可替选地4096或8192)的相同长度的n个向量寄存器,或者用于接收n个输出序列的等效的阵列存储器结构。n个向量寄存器的对应元素也可以通过求和电路(例如加法器)而被组合成新的元素,以生成单个输出序列。(一个或多个)输出序列的连续样本也可以以相同的采样速率——例如16khz(或者可替选地20khz)——被检索。可替选地,每个输出序列产生的输出样本可以比每个输入序列产生的输入样本多,并且一旦输出样本可用,就以更高的速率对其进行检索,例如,每个输出序列产生4096个输出样本,并且以32khz(或者可替选地40khz)的增加速率来检索连续的输出样本。
[0160]
处理设备102可以是asic、专用硬件加速器、低延迟数字音频处理器等,并且可以包括一个或更多个专用处理元件,所述一个或更多个专用处理元件用于执行计算机程序代
码,使得当程序代码被执行时,处理设备102有效地执行根据本发明的实施方式的神经网络的数据处理步骤。对于小型听力设备,特别是低能量电池驱动设备,处理设备被实现为具有减少的神经网络权重提取带宽、低能量神经网络权重存储、神经网络权重重复使用等的专用神经网络加速器。
[0161]
根据本发明的实施方式,在数据处理设备102中实现的神经网络对耳蜗处理进行模拟,并且可以被训练成辅助听力或改进听力质量。例如,在数据处理设备102中实现的神经网络可以被训练成从听觉刺激中去除背景噪声信号,例如从环境音乐或语音中去除背景噪声信号。可替选地或另外地,在数据处理设备102中实现的神经网络可以被训练成:通过滤除特定的预定义的、可选择的背景场景(诸如交通、街道、风、波浪、餐馆、火车站、汽车、飞机、学校等)来改进听力质量。在关于助听器的实施方式中,在数据处理设备102中实现的神经网络可以被训练成:例如基于最近的听力敏度图或听觉诱发的电位、耳声发射测量来确定并对所获取的至少一个听觉刺激应用校正,以便以个体化的方式补偿听力损伤(例如,部分听力损失)。然后,所应用的校正恢复使用助听器的人的受损的听力质量。在又一可替选实施方式中,在数据处理设备102中实现的神经网络被用于耳蜗植入物中以用于模仿耳蜗处理,优选地还通过模仿内毛细胞和听觉神经处理来增强神经网络,以使得能够生成可以直接刺激听觉神经的相应刺激。该耳蜗内毛细胞模型与耳蜗bm振动模型相结合,以生成由耳蜗植入物施加的真实听觉神经刺激。此外,在将接收到的输入信号应用于神经网络的输入层之前,处理设备102可以对这些接收到的输入信号执行进一步的信号处理操作。这样的进一步的信号处理操作可以包括削峰、脉冲检测和衰减(例如,防止过大的声级对耳朵的损伤)、信号水平标准化等。
[0162]
换能器105也包括在听力设备100中。由处理设备102生成的输出序列被传送到换能器105,以用于转换成声信号。例如,声换能器105包括放大器级和用于生成模拟信号表示的信号转换器。声换能器105还可以包括输出整形滤波器。被放大的信号然后由声换能器105经由扬声器或声波发生器输出,例如,放置在外耳道中的扬声器生成指向中耳的声波,或者声波发生器(例如振动器)在骨锚式助听器或光声刺激中产生被施加到耳后的颅骨的振动。在可替选实施方式中,换能器包括用于根据由处理设备生成的输出序列将听觉神经脉冲直接施加到听觉神经的电极。特别地,这样的替选实施方式适用于耳蜗植入物。可替选地,可以生成神经脉冲或信号以用于深部脑刺激。
[0163]
图4中的元件组即(一个或多个)声音感测元件例如(一个或多个)麦克风104(和/或诸如eeg传感器的其他传感器)、采样装置103、处理设备102和声换能器105可以通过有线连接或通过无线(网络)连接(例如通过rf信号)互连。例如,这在声音录制工作室中是有用的,在声音录制工作室中,声音的拾取和声音母带制作/混合发生在不同的声学隔离室中。
[0164]
可选地,根据本发明的一些实施方式的听力设备还包括用于直接感应耦合到(移动)电话或辅助收听系统的拾音线圈。拾音线圈强烈地抑制了在听觉设备向外部设备的声学耦合期间可能出现的声学反馈信号。
[0165]
虽然已经在附图和前面的描述中详细示出和描述了本发明,但是这样的示出和描述被认为是说明性的或示例性的,而不是限制性的。前面的描述详述了本发明的某些实施方式。然而,应当理解,无论前述内容在文本中显得多么详细,本发明都可以以多种方式实践。本发明不限于所公开的实施方式。
[0166]
例如,可以在具有如图2中所示的神经网络的实施方式中操作本发明。图2中的神经网络20与图1中提到的神经网络的不同之处在于,编码器11的卷积层的数目(例如神经网络20的四个卷积层11a-d)与解码器12中存在的卷积层的数目(例如三个卷积层12a-b和14)不相等,最后一个卷积层14也被操作为神经网络20的输出层14。此外,在该特定实施方式中,捷径连接25仅布置在编码器11的第一卷积层11a与解码器12的最后一个卷积层14之间。
[0167]
此外,编码器11经由补充致密层或完全连接层16——例如具有与编码器的前一卷积层11d相同的滤波器输出维度但具有深度1的致密层或完全连接层——连接至解码器12。这样的致密层或完全连接层对于学习不是移位不变的或全局性质的另外的编码特征(例如最大尺寸感受野)可能是有用的。如果该补充致密层或完全连接层16被插入在金字塔编码器11的顶端处,那么与该致密层相关联的神经网络权重的数目被有利地减少。
[0168]
参照图3,示出了又一不同实施方式的神经网络30,该神经网络30与图1中的神经网络的不同之处在于,编码器11的卷积层的数目(例如神经网络30的两个卷积层11a-b)与解码器12中存在的卷积层的数目(例如解码器的四个卷积层12a-d)不相等。此外,编码器11包括补充层17、16,编码器11通过补充层17、16连接至解码器12。如图2中的先前的实施方式,神经网络30的补充层16可以是致密层或完全连接层。在该特定实施方式中,神经网络的另一补充层17被提供为池化层,例如大小为2且步长为2的最大池化层或平均池化层,该池化层像编码器11的具有相同步长的卷积层那样有效地实现了下采样。这是用相同步长的池化层代替编码器的卷积层以实现层输入的类似下采样的示例,但是区别在于,卷积层的神经网络权重是能够训练的,而池化层滤波不能够训练。因此,如果生成的输出序列的精度损失仍然能够容忍,则能够获得神经网络权重的降低。可容忍精度的阈值通常取决于作为目标的特定应用。例如,使用具有较小权重(例如通过用池化层来替换编码器的一个或更多个卷积层)的神经网络可能导致精度级别降低,这对于神经网络充当语音预处理模块的语音识别应用来说仍然是可容忍的,但是对于例如听力设备中的纯耳蜗处理应用来说是不可容忍的。致密层或完全连接层16可以部分地补偿或过度补偿由插入到神经网络30中以代替另一卷积层的池化层17引起的神经网络权重的降低。
[0169]
此外,神经网络30的解码器12包括四个卷积层12a-d,其中三个卷积层12a、12c-d被配置为转置卷积层,以对层输入执行上采样操作,从而使编码器11的总下采样效果反转。另外的卷积层12b具有步长1,以再现与前一卷积层12a相同的层输出大小(例如,激活图在时间(而不是深度)方向上的长度/大小),并且因此相对于压缩输入具有相同的(表观)步长。这保证了解码器12的连续卷积层的步长在增加,即使这种增加不是严格单调而仅是单调的。
[0170]
对于该可替选实施方式,神经网络30的输出层14没有形成解码器12的一部分,而是直接连接至解码器12。此外,该示例中的输出层14没有被提供为卷积层,尽管这是明显的替选方案(例如,在数字音频处理应用中,例如具有步长1或步长2的卷积层与生成的输出序列的两倍快的采样率相结合),而是被提供为n个不同的另外的致密层或完全连接层,所述致密层或完全连接层各自具有相同的输出维度(即,神经元的数目),所述输出维度优选地被选择为与输入序列的预定长度相等。
[0171]
从图3中还可以明显看出,捷径连接35使得到编码器11的卷积层之一(例如到卷积层11b)的输入被直接转发作为到解码器12的两个不同卷积层(例如到卷积层12a-b)的另外
的输入,其中,另外的输入与从前一层的输出获得的常规输入相结合(例如元素方式求和或元素方式求和以及非线性变换)。
[0172]
已经描述了本发明的用于模仿耳蜗处理(例如听觉刺激的bm、ihc或anf处理)的实施方式,然而所描述的实施方式不限于此。例如,特定实施方式可以另外模仿耳廓、外耳道、鼓膜、中耳等的处理,或者可以包括诸如骨传导的另外的效果,以产生听觉系统的更扩展的模仿。这可以通过将作为经训练的神经网络的基础的参考模型近似相同地扩展为包括耳廓、中耳、特定脑干、中脑和皮质神经元等的生物物理学正确模型来实现,例如耦合到中耳模型的耳廓模型的输出是到先前描述的耳蜗传输线模型的输入。基于耳蜗传输线的bm模型可以进一步作为到脑干、中脑和皮层听觉处理的分析或nn模型描述的输入。
[0173]
如下所述,耳蜗bm振动模型可以用作到ihc受体电位模型和到ihc-anf突触模型的输入。
[0174]
内毛细胞受体电位模型:
[0175]
用于实验提取的ihc参数的处理的分析模型描述的这些ihc参数通常依赖于细胞结构和通道特性的体外全细胞膜片钳测量。这些传统的基于非nn的模型描述了来自耳蜗bm振动的非线性和频率相关的传导,该耳蜗bm振动由ihc立体纤毛感测并转换为ihc受体电位。这样的模型的示例在本领域中已知。在一些实施方式中,ihc模型基于对ihc的机械驱动来估计ihc立体纤毛的振动,并预测ihc受体电位,该ihc受体电位对至anf突触和神经元的突触传递进行驱动,一些模型包括基底侧向外的k+电流以精确地捕获与ihc受体电位相关的时间常数。
[0176]
我们发明了基于nn的ihc模型,该基于nn的ihc模型遵循图3中的通用编码器-解码器模型,并且遵循图13中可视化的训练过程,并且使用verhulst等人2018年的耳蜗tl模型(bm振动和ihc处理模块)来生成训练数据。将timit语音语料库(250个句子,70和130db spl级别)给到耳蜗tl模型,并将bm振动的n=201个模拟输出和ihc受体电位输出分别用作输入数据集和输出数据集,以确定基于nn的ihc模型的准确结构和超参数。提取的tl模型数据被下采样至20khz,并被切割到具有50%交叠的2048个样本的窗口,其中256个上下文样本作为到基于nn的ihc模型的输入,模型输出被裁剪成2048个样本。切割数据被减至一维数据集,相应地导致输入数据集和输出数据集的250
×
201=50250个不同的序列。这是必要的,因为耳蜗处理的连续阶段是按频率计算的,即相同的操作被应用于耳蜗的频率拓扑频率部分的每一部分。因此,在训练期间,connear的基于nn的ihc模块被设计成具有单个输入/输出(n=1),其中切割序列被给出为一维输入/输出对。使用adam优化器和1e-4
的学习率,以1000个一维序列的批量大小进行训练。该模型被训练成使模拟输出与输出数据集之间的l-1损失最小化。
[0177]
在训练阶段之后,通过跨该n通道输入阵列应用相同的计算权重,该模型被扩展为用于n通道输入序列,使得经训练的ihc模型模块可以计算与沿bm的频率拓扑位置对应的所有n通道上的ihc电位。被发现最接近ihc模块的架构是具有6个卷积层(3个用于编码器,并且3个用于解码器)的自动编码器以及每个层中滤波器长度为64的128个滤波器。在每一层中使用跨步卷积,以与耳蜗阶段中相同的方式分别在编码器的每个步骤中使大小减半,并且在解码器的每个步骤中使大小加倍。不同的非线性激活函数被相应地用于包括编码器阶段和解码器阶段的层。对于编码器,使用了与bm振动模型模块中相同的非线性函数(tanh)。
然而,因为ihc受体电位对应于电压差,因此解码层中的sigmoid非线性函数被发现更好地捕获参考tl模型输出,并确保tanh中存在的压缩性质可以被保留在内毛细胞受体电位的可能的负值输出中。
[0178]
使用不作为训练数据集的一部分的基本声学刺激(纯音、短声等)将基于nn的ihc模型的性能与动物数据和参考生物物理tl模型的模拟进行比较。图11和图12分别示出了不同频率和级别的纯音刺激的模拟激励模式以及对短声刺激的响应。
[0179]
听觉神经纤维模型
[0180]
来自听觉神经(an)的单-单位记录可以从动物生理学中可靠地获得,并且多年来已经在猫和小型啮齿动物中产生了大量的对基本听觉刺激的an响应。这些记录启发了对发生在ihc-anf突触和anf神经元中的处理的分析模型描述。这些最先进的模型通常描述由不同神经递质存储的消耗和补充导致的anf尖峰或瞬时激发速率,并且可以包括被建模为常微分方程(ode)的耦合集的三存储扩散模型,该三存储扩散模型将ihc受体电位作为模型输入。如本领域所知,这样的ihc-anf模型的一些示例存在并预测了三种自发速率(即高自发速率(hsr)、中等自发速率(msr)和低自发速率(lsr))纤维的an响应。最先进的模型包含一组耦合的(非线性ode),该组耦合的非线性ode计算速度慢且不容易区分,并因此不能被嵌入到反向传播网络或实时应用中,而我们的基于nn的an模型架构允许这种可能性。
[0181]
我们发明了三个基于nn的耳蜗anf处理的模型,每个模型模拟不同自发速率anf类型的响应,并使用相同的250个timit句子用于训练目的。针对三个anf模型中的每一个提取了n=201个输出,其中采样频率为20khz。一维数据集被切割成具有50%的交叠和8192个样本上下文的8192个样本的窗口。需要较长的窗口来捕获阶跃响应的缓慢、指数衰减的时间适应特性(大约300ms)。anf模型的训练是为了使verhulst等人2018年描述的参考耳蜗tl模型anf响应与各自的connear anf模型之间的l-l损失最小化。timit数据集的模拟ihc受体电位作为输入。被发现最佳地捕获三种不同anf纤维的响应的架构由多达14个编码器/解码器卷积层(总共28层)组成。然而,与bm振动模型相比,每层中需要更少的更短长度(16)的卷积滤波器,这也导致少得多的参数。更深的架构对于捕获anf响应的慢适应特性是必要的,较低数目的卷积与最先进的参考tl模型中存在的较低数目的耦合ode相一致。和前面一样,使用了跨步卷积,分别在编码器的每一步骤中使大小减半,并且在解码器的每一步骤中使大小加倍。bm处理和ihc处理中存在的压缩生长特性(和负信号偏转)在anf处理中没有保留。可以在不同的编码器/解码器层之间使用线性激活函数(即参数化relu;prelu)。使用训练中没有看到的基本听觉刺激(纯音、短声、sam音等)对最终的connear anf模型进行验证。将connear anf响应与动物anf响应以及耳蜗tl模型的anf模块的模拟进行比较。图15示出了针对1khz和4khz的纯音阶跃响应,参考耳蜗anf模型(左)和connear模型(右)的模拟瞬时anf速率响应。除了一些低级别的nn噪声之外,connear anf模块精确地捕获了参考模型的起始、适应和载波频率特性,并且符合参考猫anf生理学数据(kiang等人,1965)。
[0182]
本发明的具体实施方式的最后一个示例涉及听力受损的connear模型。为了开发在耳蜗处理级别上模拟个体听力损失(例如外毛细胞或内毛细胞,anf损坏)的connear模型,我们可以使用上述训练程序,但是从针对个体听力损坏模式进行个体化以生成训练数据的参考tl模型开始。可以使用生成的训练数据完全重新训练connear模型,或者可以使用转移学习技术,对于该转移学习技术,仅使用训练数据的子集来确定特定耳蜗响应模型的
超参数,该特定耳蜗响应模型遵循与正常听力的connear模型相同的架构。我们示出了成功针对bm振动生成听力受损的connear模型的具体示例。图16(顶部面板)示出了人类耳蜗滤波器沿bm(shera等人,2010)跨频率拓扑频率(cf)的实验调谐特性(qerb),以及用于训练目的的模拟参考tl模型(黑色符号)。正常听力的connear q
erb
跨频率和刺激级别与实验值和模拟值非常匹配。在图16的中间面板和底部面板中,我们模拟了针对两个ohc损坏connear模型的bm振动模式。为此,我们使用了参考tl模型,该参考tl模型与插图中描绘的听力受损的听力敏度图以及前面描述的connear训练过程相匹配。图16表明,经训练的听力受损的connear模型与参考听力受损的tl模型的模拟非常匹配。考虑了两种不同类型的听力损伤:倾斜的高频听力损失(倾斜35,中间面板)和平坦的增益损失,在平坦的增益损失中,外毛细胞在所有频率拓扑耳蜗频率下受到同等损坏(平坦35,底部面板)。各自对应的听力受损的听力敏度图被示出在两个图的插图中。
[0183]
图17提供了图15的更详细的版本,其针对与图15中使用的tl模型相同的an模型(a)以及根据本发明的实施方式的模型(b)connear,模拟了在70db-spl下呈现的音刺激随时间的an激发速率。上图、中图和下图分别对应于高自发速率纤维模型、中自发速率纤维模型和低自发速率纤维模型的响应,而图15仅示出了an阶段的低自发速率分量。从顶部到底部,音刺激是:
[0184]-1khz纯音;
[0185]-4khz纯音;
[0186]-1khz幅度调制音;以及,
[0187]-4khz幅度调制音。
[0188]
图18示出了模拟的级别-速率曲线。从顶部到底部,分别模拟了高自发速率的an纤维模型、中自发速率的an纤维模型和低自发速率的an纤维模型的an速率-级别曲线。对于每个anf模型,生成50ms的音刺激并以1khz(虚线颜色)和4khz(实线颜色)的cf呈现。参考数据来源于豚鼠(在频率约为1.5khz时,纤维的sr为65尖峰/秒(spikes/s)、10尖峰/秒和0尖峰/秒)和小鼠记录(cf为18.8khz时,sr为47.6尖峰/秒,以及cf为23.7khz时,sr为0.1尖峰/秒)。connear模型(空圆圈)是根据本发明的实施方式。参考模型和connear模型包括三种分别针对高自发速率、中自发速率和低自发速率的被标记为anfh、anfm和anfl的纤维模型。
[0189]
通过研究附图、公开内容和所附权利要求,本领域技术人员在实践所要求保护的发明时可以理解和实现所公开的实施方式的其他变型。在权利要求中,词语“包括”不排除其他元件或步骤,以及不定冠词“一”或“一个”不排除多个。在相互不同的从属权利要求中陈述某些措施的仅有事实并不指示这些措施的组合不能有利地使用。权利要求中的任何附图标记不应被解释为限制范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1