包括低延时声源分离单元的听力装置的制造方法_3

文档序号:9728473阅读:来源:国知局
或包括音频网关设备,其适于接收多个音频信号,及适于 选择所接收音频信号(或所选信号的组合)中的适当信号以传给听力装置。在实施例中,辅 助装置是或包括遥控器,用于控制听力装置的功能和运行。在实施例中,遥控器的功能实施 在智能电话中,该智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(听 力装置包括到智能电话的适当无线接口,例如基于蓝牙或一些其它标准化或专有方案)。
[0078] 在实施例中,辅助装置是或包括另一听力装置。在实施例中,辅助装置是或包括上 面描述的、"【具体实施方式】"中详细描述的及权利要求中限定的听力装置。在实施例中,听力 系统包括两个听力装置,适于实施双耳听力系统如双耳助听器系统。
[0079] 定义
[0080] 在本说明书中,"听力装置"指适于改善、增强和/或保护用户的听觉能力的装置如 听力仪器或有源耳朵保护装置或其它音频处理装置,其通过从用户环境接收声信号、产生 对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提 供给用户的至少一只耳朵而实现。"听力装置"还指适于以电子方式接收音频信号、可能修 改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵 的装置如头戴式耳机或耳麦。听得见的信号例如可以下述形式提供:辐射到用户外耳内的 声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信 号、及直接或间接传到用户耳蜗神经的电信号。
[0081] 听力装置可构造成以任何已知的方式进行佩戴,如作为佩戴在耳后的单元(具有 将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的扬声器)、作为 整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元、 或作为整个或部分植入的单元等。听力装置可包括单一单元或几个彼此电子通信的单元。
[0082] 更一般地,听力装置包括用于从用户环境接收声信号并提供对应的输入音频信号 的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理 输入音频信号的信号处理电路、及用于根据处理后的音频信号将听得见的信号提供给用户 的输出装置。在一些听力装置中,放大器可构成信号处理电路。在一些听力装置中,输出装 置可包括输出变换器,例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声 信号的振动器。在一些听力装置中,输出装置可包括一个或多个用于提供电信号的输出电 极。
[0083] 在一些听力装置中,振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在 一些听力装置中,振动器可植入在中耳和/或内耳中。在一些听力装置中,振动器可适于将 结构传播的声信号提供给中耳骨和/或耳蜗。在一些听力装置中,振动器可适于例如通过 卵圆窗将液体传播的声信号提供到耳蜗液体。在一些听力装置中,输出电极可植入在耳蜗 中或植入在颅骨内侧上,并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听 觉皮层和/或大脑皮层的其它部分。
[0084] "听力系统"指包括一个或两个听力装置的系统。"双耳听力系统"指包括一个或两 个听力装置并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听 力系统还可包括"辅助装置",其与听力装置通信并影响和/或受益于听力装置的功能。辅 助装置例如可以是遥控器、音频网关设备、移动电话、广播系统、汽车音频系统或音乐播放 器。听力装置、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增 强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。
【附图说明】
[0085] 本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起 见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略 其他细节。在整个说明书中,同样的附图标记用于同样或对应的部分。每一方面的各个特 征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面 的图示明显看出并结合其阐明,其中:
[0086] 图1A-1B示意性地示出了两个音频源混合为由传声器拾取并转换为电数字化信 号及保存在两个缓冲器夂St中的公共声场,其中a t缓冲器至少与s t缓冲器一样长(图 1A),及基于每一声源的根据本发明的预先学习的分析和合成(重构)字典的、具有两个声 源(如话音)的声源分离原理(图1B)。
[0087] 图2示意性地示出了根据本发明的声源分离方案的学习过程部分的实施例。
[0088] 图3A-3C示意性地示出了根据本发明的成对字典(或数据库)的三个实施例,图 3A示出了原子处于时域的实施例,图3B示出了原子处于时频域的实施例,及图3C示出了成 对字典的原子部分处于时域及部分处于时频域的实施例。
[0089] 图4示出了根据本发明实施例的声源分离程序的分析部分。
[0090] 图5A-5D示意性地示出了根据本发明的听力装置(或听力系统)的四个实施例。
[0091] 图6示出了根据本发明的双耳听力系统的实施例,其中作为双耳分离算法的一部 分,两个听力装置交换输入信号、中间信号及输出信号。
[0092] 图7示出了根据本发明的听力系统的实施例,其包括两个听力装置及辅助装置, 其中辅助装置包括用户接口。
[0093] 符号
[0094] Bt 时域分析帧
[0095] St 时域合成帧
[0096] A a1的样本长度
[0097] L St的样本长度
[0098] y Wat形成的实值特征向量
[0099] s Wst形成的复值合成向量
[0100] A 分析字典
[0101] R 重构字典
[0102] R:;k 字典R的第k列
[0103] w 单一输出帧的权向量
[0104] Sn 混合信号中的第η个声源的重构帧
[0105] η 指字典、权重或重构帧中的第η个声源的下标
[0106] 通过下面给出的详细描述,本发明进一步的适用范围将显而易见。然而,应当理 解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。对于本 领域技术人员来说,基于下面的详细描述,本发明的其它实施方式将显而易见。
【具体实施方式】
[0107] 下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供 多个不同概念的彻底理解的具体细节。然而,对本领域技术人员显而易见的是,这些概念可 在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、 模块、元件、电路、步骤、处理、算法等(统称为"元素")进行描述。根据特定应用、设计限制 或其他原因,这些元素可使用电子硬件、计算机程序或其任何组合实施。
[0108] 电子硬件可包括微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列 (FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、及配置成执行本说明书中描述的 多个不同功能的其它适当硬件。计算机程序应广义地解释为指令、指令集、代码、代码段、程 序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行 线程、程序、函数等,无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。
[0109] 使用线性模型通过逼近进行声源分离已表明是有效的,例如参见参考文献 [1]-[5]。混合信号的谱量值通过分量的加权求和逼近,这些分量保存在预先培训的字典 内,每一字典对特定声源进行建模,每一字典的贡献是用于产生应用于混合声谱图以隔离 那一声源的维纳滤波器。
[0110] 假定集合N个字典,每一个体字典对特定声源的特性建模,如用于多个已知话音 的字典。用于声源η的字典由心个原子组成,k为字典内的原子数。每一原子if可以 是连续多个声音(音频)样本、同样的连续多个声音样本的频域表示或同样的连续多个声 音样本的时频域表示。对于声音样本和时频表示,值可以是实值;及对于时频表示,值可以 是复值。原子在下面结合图2、3A-3C的描述中称为andl和s ndl (其中η为声源指数,i为 原子数(对应于中的k))。
[0111] 考虑连续音频样本X的观测包含源自各个字典已针对其培训的一个或多个声源 的声音。该观测建模为数据库中的原子的加权求和。
[0112] 帧建模为字典"原子" dg和该声源的已知例子的频域表示的和,使得原子Cf的 非负权重按下面定义示例性组分模型的等式(1)进行估计:
[0115] 分离通过找到数据库的所有原子的最佳权重wi然后将每一声源重构为对应于该 声源的原子的加权和而实现。权重估计通过使价值函数最小化进行,这可以是观测X和估 计i之间的Kullback-Leibler (KL)发散,此外,价值函数可包括声源字典内及声源字典之 间的稀疏限制。
[0116] 最后,转变成矩阵记法等式(1)可重写为:
[0117] t = Dw
[0118] 等式(2)
[0119] 其中字典矩阵D分割为
[0120] D = [D1D2. . . Dn]
[0121] 等式(3)
[0122] Dn包含对声源η培训的原子。属于每一声源的权重记为Wn,模型可描述为:
[0125] 声源按下面的方式使用上述组分模型(如等式(1))进行分离。如果将要分离的 复值观测向量为y,则声源η的分离贡献Sn从原子直接提取或者通过滤波提取
[0128] 其使用适当的字典及等式5的分子中的权重(符号"(g)"指卷积)。随后的运行可 考虑频域中的维纳滤波器,非必需的归一化确保重构的声源估计量总计为初始混合信号。
[0129] 对于低延时系统,可用于进行处理并输出为音频的音频样本之间的时延应尽可能 低。在基于帧的处理方案中,必须在处理进行输出之前收集和保存整个数据帧。我们将进 入算法及进行处理和可用于输出的样本之间的理论最小时延称为"算法延时"T a,而实际处 理时间可称为"计算延时" T。。总的可实现的延时T为这些值的和:
[0130] T = Ta+Tc 等式(6)
[0131] 我们仅考虑实现低算法延时的约束条件,因为根据特定处理方案、硬件等的参数, 延时是非确定的。
[0132] 由于合成帧按基于块的方式进行处理,整个输入帧必须在可输出第一样本之前捕 获。从纯算法的角度,不管帧重叠,可在帧一被处理就发生样本输出。因此,前述方法的算 法延时为合成帧长度。实际上,任何处理开销均添加到实际的最小延时。
[0133] 对于未重叠的帧,计算复杂性降低,但这可导致一输出帧的最后样本和下一输出 帧的第一样本之间的不连续。更大的重叠提供更多的信息,其相较未重叠的帧提供更好的 分呙质量。
[0134] 在实施例中,窗口函数如Hanning窗口优选已在任何傅里叶变换如离散傅里叶变 换(DFT)之前应用于所有向量(a和s)以提供时间平滑并调节频率重叠的量。为清晰起见, 这从其余描述部分省略。
[0135] 为获得低算法延时,
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1