包括低延时声源分离单元的听力装置的制造方法

文档序号：9728473阅读：483来源：国知局

包括低延时声源分离单元的听力装置的制造方法
【技术领域】
[0001] 本申请涉及听力装置，尤其涉及多声源环境中的声源分离。本发明具体涉及包括用于提供表示来自多个声源产生的声音环境的声音的一个或多个电输入信号的输入单元的听力装置。
[0002] 本申请还涉及多声源环境中分离声源的方法。
[0003] 本申请还涉及包括处理器和程序代码的数据处理系统，程序代码使得处理器执行本发明方法的至少部分步骤。
[0004] 本发明的实施例如可用在下述应用中：听力装置如助听器、头戴式耳机、耳麦、有源耳朵保护系统、免提电话系统、移动电话、远程会议系统、广播系统、卡拉OK系统、教室放大系统等。
【背景技术】
[0005] 音频声源分离包括分离音频混合物（音频混合物包括来自声场中混合的多个声源的声音）内的不同成分声源的任务。目前，解决该问题的大多数方法已"离线"执行，意味着整个音频混合物在分离时存在（通常为数字式录音的形式），而不是"实时"存在，其中随着新的音频数据进入系统，声源被分离。在鸡尾酒会情形下，多个竞争性讲话者的存在使得听单一声源传输的信息很困难，但成功的声源分离能够一次向听者呈现仅从单一讲话者呈现的?目息。
[0006] 为使声源分离可用在真实通信情形中，其应实时进行或以非常低的延时进行。如果在讲出的音频和分离的音频之间出现明显的处理时延，听者可能被讲话者嘴巴运动和对应的音频之间的不同步弄得烦恼不安，及较少获益于可能的唇读。因此，以低延时（如在进入和离开系统的音频样本之间低于20ms)运行的声源分离方法是有利的。当前的（基于附加混合模型的）声源分离方法依赖于使用相当长的分析帧（通常为>50ms级），如果直接实施，其将违反低延时要求。
[0007] 在本说明书中，仅考虑我们称为"数据延时"的延时，因为假定在正确的实施和计算能力下实际的处理算法可及时执行。
[0008] 针对两讲话者混合问题存在多个解决方案。
[0009] -些对实时非负矩阵因数分解（NMF)的研究已提供好的结果，但并未考虑处理足够小以产生助听器应用所需要的延时性能（<20ms)的窗口大小。同样，概率潜在分量分析 (PLCA)方法也主张实时性能，但作用于长度为64ms的帧时，其不满足助听器用户的延时需求。
[0010] 直到目前为止，大多数基于NMF的算法已设计成"离线"运行，然而，将要进行分离 /增强的整个混合信号立刻可用于处理算法。
[0011] 尽管已报导一些提供实时解决方案的尝试，但仍需要在正常运行期间在听力装置中给出令人满意的结果的解决方案。

【发明内容】

[0012] 本发明提出使用将要分离的每一声源特有的字典及专用的帧处理方法解决实时声源分离的问题，以提供增强的分离，即使对于短处理帧也是如此（其产生最低延时）。通过将先前的输入帧的高速缓存保存在循环缓冲器中，可得到将基于较大的时间上下文输出的当前帧的滤波器系数。此外，相较于单独使用短输入帧，可获得更好的低延时声源分离性能。
[0013] 本申请的目标由所附权利要求限定的及下面描述的发明实现。
[0014] 听力装詈
[0015] 一方面，本申请的目标由一种听力装置实现，其包括：
[0016] -输入单元，用于递送表示包括至少两个声源的音频信号的时变电输入信号；
[0017] -适合保存最后A个音频样本的长度为A的循环分析缓冲器单元；及
[0018] -适合保存最后L个音频样本的长度为L的循环合成缓冲器单元，其中L小于A， L个音频样本计划分开在各个声源中；
[0019] -已保存来自至少两个声源的记录的声音例子的数据库，数据库中的每一条目 (记录的声音例子）称为原子，这些原子源自来自大小对应于合成和分析缓冲器单元的第一和第二缓冲器的音频样本，对于每一原子，来自第一缓冲器的音频样本与来自第二缓冲器的音频样本重叠，及其中源自第一缓冲器的原子构成重构字典，及其中源自第二缓冲器的原子构成分析字典。
[0020] 听力装置还包括声源分离单元，用于分离电输入信号以提供表示至少两个声源的至少两个分离信号，声源分离单元配置成，如果原子在数据库的分析字典中，确定最后A个音频样本的最佳表示（W)，及通过使用最佳表示（W)组合数据库的合成（重构）字典中的原子而产生至少两个分离信号。
[0021] 本发明基于方法的增强最后L个样本与最后A个样本的分离的能力，其中L〈A，同时分离L个音频样本中存在的各个声源（如话音）。该方法从由长度为A的所记录例子组成（或源自其）的数据库计算最后A个音频样本的表示，表示W的定义，如加权和的权重，如组分（如附加）模型定义的，之后应用于来自长度为L的数据库的所记录例子以提供合成缓冲器的当前内容的当前分离信号。
[0022] 在实施例中，至少两个声源包括至少一目标声源。在实施例中，至少两个声源包括噪声声源。在实施例中，至少两个声源包括目标声源和噪声声源。在实施例中，在特定时间点或时间间隔仅存在目标声源和噪声声源。在实施例中，至少两个声源包括两个以上不同的目标声源。在实施例中，至少两个声源包括三个以上不同的目标声源。在本说明书中，术语"目标声源"意为用户有意向注意的声源。在本说明书中，术语"目标声源"意为对其存在学习的数据库的声源（包括分析和重构字典以用在根据本发明的声源分离中）。
[0023] 在实施例中，听力装置包括用于按时频表示（k，m)提供分析和/或合成缓冲器的内容的时频（TF)转换单元。在实施例中，时频转换单元提供电输入信号在多个频带、多个时刻的时间段（如基于时间帧接时间帧地，例如对应于分析和/或合成时间帧/缓冲器），k 为频带指数，m为时间指数，其中（k，m)定义包括电输入信号对应于频率指数k和时刻m的复值或实值形式的信号分量的特定时频窗口或单元。在实施例中，仅考虑信号的量值。在实施例中，TF转换单元包括用于对（时变）输入信号进行滤波并提供多个（时变）输出信号的滤波器组，每一输出信号包括截然不同的输入信号频率范围。在实施例中，TF转换单元包括用于将时变输入信号转换为频域中的（时变）信号的傅里叶变换单元，如离散傅里叶变换（DFT)。在实施例中，听力装置考虑的、从最小频率心"到最大频率f _的频率范围包括从20Hz到20kHz的典型人听频范围的一部分，例如从20Hz到12kHz的范围的一部分。在实施例中，听力装置的正向和/或分析通路的信号拆分为NI个频带，其中NI如大于5,如大于10,如大于50,如大于100,如大于500,其中至少部分个别进行处理。在实施例中，听力装置适于在NP个不同频道处理正向和/或分析通路的信号（NPSNI)。频道可以宽度一致或不一致（如宽度随频率增加）、重叠或不重叠。
[0024] 在实施例中，数据库的原子在时域或（时_)频域进行表示。
[0025] 在实施例中，听力装置包括时-频域到时域转换单元，用于提供分离信号的时域表不。
[0026] 在实施例中，声源分离单元包括循环分析和合成缓冲器和/或时域到时-频域转换单元和/或时-频域到时域转换单元。
[0027] 在实施例中，听力装置包括特征提取单元，用于提取分析缓冲器和/或合成缓冲器的内容的特性特征。
[0028] 在实施例中，特征提取单元配置成按时频表示提供特性特征。特性的例子可以是特定声源在时频域的短声音例子（即短于100ms)(如图3B、3C中所示）。
[0029] 在实施例中，声源分离单元配置成使声源分离基于非负矩阵因数分解（NMF)、隐马尔科夫模型（HMM)或深层神经网络（DNN)。
[0030] 在实施例中，数据库中每一记录的声音例子由源自分别来自第一和第二缓冲器的音频样本的原子对组成，第一和第二缓冲器大小对应于合成和分析缓冲器单元。
[0031] 在实施例中，数据库的每一对应的原子对包括其源自的声源的标识符，如其话音由特定的一组原子对表示的人的姓名，或声源类型，或声源数量，如声源#1、声源#2等。
[0032] 在实施例中，数据库包括针对每一声源的分析和重构字典。分析和重构字典中的每一原子与另一字典（源自同一声音元素或为其特性）中的对应原子相关联。在实施例中，每一字典或字典的每一原子与特定声源如声源1、声源2、声源3相关联。
[0033] 在实施例中，各个字典的大小通过标准数据减小技术如K平均聚类或通过在字典学习中引入稀疏限制而减小。
[0034] 在实施例中，声源分离单元配置成使用声源标识符产生至少两个声源。在实施例中，声源分离单元配置成使用组分模型产生至少两个声源。在实施例中，组分模型包括优化程序，如最小化程序。在实施例中，声源分离单元配置成使观测向量X及其近似值交之间的发散函数（如Kullback-Liebler(KL)发散）最小化。
[0035] 在实施例中，听力装置包括用于控制以预定更新频率更新分析和合成缓冲器的控制单元，及配置成在每次更新时将从输入单元接收的最后H个音频样本保存在分析和合成缓冲器中并抛弃分析和合成缓冲器中保存的最旧的H个音频样本。在实施例中，分析和合成缓冲器的每次更新之间的音频样本的数量H小于16,如小于8,如小于4,如小于2。在实施例中，控制单元配置成根据预定方案更新分离信号，如有规律地，如以预定更新频率f upd，例如每H个音频样本（fupd= lAH*f s)，其中fs为采样频率）。
[0036] 在实施例中，听力装置包括信号处理单元，用于处理一个或多个分离的、表示至少两个声源的信号（或源自其的信号）。在实施例中，信号处理单元配置成向用户呈现一个或多个分离信号，例如一个接一个，使得在特定时间仅呈现来自单一声源信息。
[0037] 在实施例中，听力装置配置成以在进入和离开声源分离系统的音频样本之间小于或等于20ms的延时提供声源分离，例如通过优化合成和分析帧长度的大小。在实施例中，听力装置配置成动态调整合成和分析帧长度，例如根据当前的声环境（如声源数量、环境噪声电平等）。
[0038] 在实施例中，听力装置（输入单元）包括用于将输入声音转换为电输入信号的输入变换器。在实施例中，听力装置包括定向传声器系统，其适于增强佩戴听力装置的用户的局部环境中的多个声源之中的目标声源。在实施例中，听力装置包括多个输入变换器和 /或接收一个或多个表示音频的直接输入信号。在实施例中，听力装置配置成基于来自多个输入变换器的电输入信号和/或基于一个或多个直接输入信号产生定向信号。在实施例中，听力装置配置成基于至少一分离信号产生定向信号。在实施例中，听力装置适于从另一装置如遥控器或智能电话和/或分开的（如搭档）传声器接收传声器信号。在实施例中，另一装置为双耳听力系统的对侧听力装置。在实施例中，听力装置配置成基于至少一分离信号及至少一从另一装置接收的传声器信号产生定向信号。在实施例中，定向系统适于检测（如自适应检测）传声器信号的特定部分源自哪一方向。这可以例如现有技术中描述的多种不同方式实现。

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：T·巴克尔;T·维塔雷恩;N·H·彭托皮丹;
技术所有人：奥迪康有限公司;
我是此专利的发明人

上一篇：一种基于频域图处理的干罗音识别方法
上一篇：一种用于拾音器的多窗谱估计的维纳滤波语音增强方法