空间音频装置的制造方法_6

文档序号：9476595阅读：来源：国知局

12x 2. 59m，并且混响时间（T60)大约为0. 35s。下面的示例中的捕获阵列由4个DPA 4060-BM预极化全向微型电容扩音器组成。阵列尺寸由下表给出：
[0328] 并且在图12中示出具有参考轴的阵列几何形状。
[0329] 给定阵列的空间假频频率为1563Hz。
[0330] 要分析的示例随后的实施例的信号长度在每个测试用例中被设置为10秒，STFT 窗口长度为具有50%窗口重叠的2048个采样。在下面的示例中，所确定的非负矩阵因式分解的迭代数为200个迭代。此外，对于下面的示例，从以下角度[0,45,90,135,180, 305]来捕获脉冲响应，其中，选取所述角度与不同源类型（语音、音乐和噪声）的若干组合进行评估。在对脉冲响应进行卷积之后，将信号下采样至24kHz。在图6中示出了由所有查看方向向量定义的对不同DSBF的空间采样，该图包括110个波束方向，所述110个波束方向近似均匀地对阵列周围的单位球面进行采样。在该示例中，在零仰角处（换句话说，在阵列的平面处）的横向分辨率为10度，并且不同仰角以22.5度进行间隔。所述实施例中的方位角分辨率随着靠近单位球体的顶点而降低。将分离性能与在本文中提出的CNMF方法进行比较。
[0331] 在所有下面的测试用例中，测试了总计五个10秒信号，并且在测试用例内的所有测试信号和所有源上对分离度量进行平均。
[0332] 在第一测试用例中，测试了两个具有90度间隔的说话者。在图13中示出了源定位（说话者1在〇度处，而说话者2在90度处），并且由下表给出分离结果：
[0333]
[0334] 在第二测试用例中，从不同角度（说话者在45度处，而粉红噪声来自135度）测试了具有90度间隔的说话者和伪造粉红噪声源的组合。在图14中示出了源定位，并且在下表中给出分离结果：
[0336] 在第三测试用例中，测试了具有145度间隔的电视广播和一个说话者。在图15中示出了源定位（TV源在305度处，而说话者在90度处），并且在下表中给出分离结果：
[0338] 应当理解，所获得的分离性能指示：如在示例性基于波束成形对源分离的空间协方差矩阵估计中所示的实施例相比于也基于空间协方差估计的参照物而言系统地增加了分离。此外应当理解，分离性能提升对于具有显著方位角差的语音源情况是最大的，并且对于诸如伪造粉红噪声这样的困难宽带噪声情况是降低的。
[0339] 应当理解，尽管下面的示例示出了捕获音频信号、对音频信号进行分析以生成经建模的音频源以及根据经建模的音频源再生音频信号的操作，但在某些实施例中，所述装置以及例如所述空间合成器可被配置为根据任何合适的手段对经建模的音频源进行处理。
[0340] 例如，如在图16和图17中所示，示出了示例性处理，其中，在图16中，出现了一男性说话者和两个其他说话者的示例。在该示例中，扩音器是全向的，并且所有说话者均出现在两个通道中。然而，男性说话者在扩音器阵列的右边，并且因此他的语音在右通道（右通道=两个通道中的较低通道）中占优势。在图17中，该图示出了以下情形：通过移除根据在本文中描述的实施例所估计的音频源，男性说话者被移除。在所述实施例中，如可见的那样，在不影响在左通道中占优势的来自其他说话者的声音的情况下，男性说话者在右通道中被衰减大约12dB。
[0341] 应当认识到，术语"用户设备"旨在涵盖任何合适类型的无线用户设备，例如移动电话、便携式数据处理设备或便携式web浏览器，以及可穿戴设备。
[0342] 一般来说，本发明的各种实施例可以用硬件或专用电路、软件、逻辑或者其任意组合来实现。例如，某些方面可以用硬件来实现，而其它方面可以用可由控制器、微处理器或其它计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各种方面可以作为框图、流程图或使用某种其它图片表示来示出和描述，但应当理解，在本文中描述的这些框块、装置、系统、技术或方法作为非限制性示例可以用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备、或者其某种组合来实现。
[0343] 本发明的实施例可以由可由移动设备的数据处理器（例如在处理器实体中）执行的计算机软件、或由硬件、或由软件和硬件的组合来实现。在这点上进一步应当指出，附图中的逻辑流的任何框均可表示程序步骤、或者互连的逻辑电路、块和功能、或者程序步骤和逻辑电路、块和功能的组合。软件可以存储在物理介质中，所述物理介质例如是在处理器内实现的存储器芯片或存储器块、诸如硬盘或软盘的磁介质，以及诸如DVD和其数据变体CD 的光介质。
[0344] 存储器可以具有任何适于本地技术环境的类型，并且可以使用任何合适的数据存储技术来实现，例如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可装卸存储器。数据处理器可以具有任何适于本地技术环境的类型，并且作为非限制性示例可以包括通用计算机、专用计算机、微处理器、数字信号处理器（DSP)、专用集成电路（ASIC)、门级别电路以及基于多核处理器体系结构的处理器中的一个或多个。
[0345] 本发明的实施例可以在诸如集成电路模块这样的各种组件中来实现。集成电路的设计大体上是高度自动化的过程。复杂和强大的软件工具可用于将逻辑级设计转换为将被蚀刻和形成在半导体衬底上的半导体电路设计。
[0346] 诸如由 California 的Mountain View 的 Synopsys 公司和 California 的 San Jose 的Cadence Design提供的那些的程序使用已完善建立的设计规则以及预存储的设计模块的库来自动地在半导体芯片上规定导体的线路和放置组件。一旦半导体电路的设计已完成，则产生的采用标准化电子格式（例如Opus、⑶SII等）的设计可被传送给半导体制造厂或"fab"进行制造。
[0347] 前述说明书已借助于示例性和非限制性示例提供了对本发明的示例性实施例的详尽和信息丰富的描述。然而，当结合附图和所附权利要求阅读时，基于前述说明书，各种修改和调整对于相关领域的技术人员可以变得显而易见。然而，对本发明的教导的所有这样的和类似修改仍将落在如由所附权利要求定义的本发明的范围内。
【主权项】
1. 一种用于分离音频源的方法，其包括：接收至少两个音频信号；将所述至少两个音频信号变换为所述至少两个信号的频域表示；根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵；生成包括至少一个波束成形器内核的空间协方差矩阵模型；生成音频对象的线性量值模型；将所述空间协方差矩阵模型和所述线性量值模型合并；确定至少一个合并参数，从而使得用于合并的所述至少一个参数尝试优化所述合并；以及基于所述至少一个合并参数对所述音频对象进行聚类，以便产生分离的音频源。2. 根据权利要求1所述的方法，其中，接收所述至少两个音频信号包括以下中的至少一个：从扩音器生成所述音频信号，所述扩音器从至少一个音频源接收声波；以及从存储器接收所述音频信号，所述音频信号描述了来自至少一个音频源的声波。3. 根据权利要求1到2所述的方法，其中，将所述至少两个音频信号变换为所述至少两个信号的频域表示包括：对所述至少两个音频信号实施时间到频率变换。4. 根据权利要求1到3所述的方法，其中，根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵包括：根据所述两个频域表示的自协方差生成观察空间协方差矩阵。5. 根据权利要求1到4所述的方法，其进一步包括：通过生成对扩音器阵列周围的空间场所进行采样的一组查看方向在频域中的时间延迟，生成至少一个波束成形器内核。6. 根据权利要求5所述的方法，其中，生成至少一个波束成形器内核包括：生成对所述扩音器阵列周围的空间场所进行采样的一组查看方向在频域中的时间延迟的自协方差。7. 根据权利要求1到6所述的方法，其中，生成音频对象的线性模型包括：实施对音频对象量值的非负矩阵因式分解。8. 根据权利要求7所述的方法，其中，实施对音频对象量值的非负矩阵因式分解包括：利用均匀分布在零和一之间的随机值来初始化线性模型参数zk。，tlk和Vk]。9. 根据权利要求1到8所述的方法，其中，将空间协方差矩阵模型和所述线性量值模型合并包括：用由所述线性模型表示的量值包络乘以所述空间协方差矩阵模型。10. 根据权利要求1到9所述的方法，其中，确定至少一个合并参数包括：确定用于最小化所述观察空间协方差矩阵与所述空间协方差模型之间的差别的空间协方差模型参数。11. 根据权利要求10所述的方法，其中，确定所述空间协方差模型参数包括：实施基于复值非负矩阵因式分解的迭代式优化，从而使得表示所述至少一个音频对象的线性量值模型的参数被迭代地更新，直到所述线性量值模型参数在各个更新之间不显著改变，或者处理了所定义数量的迭代为止。12. 根据权利要求11所述的方法，其中，实施基于所述复值非负因式分解的迭代式优化包括：根据复数非负矩阵因式分解的优化框架来更新线性模型参数zk。，tlk和Vk];以及更新所述空间协方差矩阵模型量值。13. 根据权利要求12所述的方法，其中，更新所述空间协方差矩阵模型量值包括：更新对所述至少两个音频信号的估计量的相对量值差值。14. 根据权利要求8和11到13所述的方法，其中，基于所述至少一个合并模型参数对所述音频对象进行聚类以产生分离的音频源包括：根据所述至少一个音频对象和根据所估计的线性量值模型参数生成至少一个音频源。15. 根据权利要求1到14所述的方法，其进一步包括：基于与所述至少一个音频源相关联的所述至少一个合并模型参数来合成至少一个音频信号。16. -种装置，其包括：用于接收至少两个音频信号的构件；用于将所述至少两个音频信号变换为所述至少两个信号的频域表示的构件；用于根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵的构件；用于生成包括至少一个波束成形器内核的空间协方差矩阵模型的构件；用于生成音频对象的线性量值模型的构件；用于将所述空间协方差矩阵模型和所述线性量值模型合并的构件；用于确定至少一个合并参数，从而使得用于合并的所述至少一个参数尝试优化所述合并的构件；以及用于基于所述至少一个合并参数对所述音频对象进行聚类以产生分离的音频源的构件。17. -种包括至少一个处理器和至少一个存储器的装置，所述至少一个存储器包括用于一个或多个程序的计算机代码，所述至少一个存储器和所述计算机代码被配置为与所述至少一个处理器一起促使所述装置至少：接收至少两个音频信号；将所述至少两个音频信号变换为所述至少两个信号的频域表示；根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵；生成包括至少一个波束成形器内核的空间协方差矩阵模型；生成音频对象的线性量值模型；将所述空间协方差矩阵模型和所述线性量值模型合并；确定至少一个合并参数，从而使得用于合并的所述至少一个参数尝试优化所述合并；以及基于所述至少一个合并参数对所述音频对象进行聚类以产生分离的音频源。18. -种装置，其包括：输入端，其被配置为接收至少两个音频信号；频域变换器，其被配置为将所述至少两个音频信号变换为所述至少两个信号的频域表示；空间协方差处理器，其被配置为根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵；波束成形器，其被配置为生成包括至少一个波束成形器内核的空间协方差矩阵模型；矩阵因式分解器，其被配置为生成音频对象的线性量值模型，将所述空间协方差矩阵模型和所述线性量值模型合并，以及进一步被配置为确定至少一个合并参数，从而使得用于合并的所述至少一个参数尝试优化所述合并；以及
【专利摘要】一种装置，其包括：输入端，其被配置为接收至少两个音频信号；频域变换器，其被配置为将所述至少两个音频信号变换为所述至少两个信号的频域表示；空间协方差处理器，其被配置为根据所述至少两个音频信号的频域表示生成观察空间协方差矩阵；波束成形器，其被配置为生成包括至少一个波束成形器内核的空间协方差矩阵模型；矩阵因式分解器，其被配置为生成音频对象的线性量值模型，将所述空间协方差矩阵模型和所述线性量值模型合并，以及进一步被配置为确定至少一个合并参数，使得用于合并的所述至少一个参数尝试优化所述合并；以及分离器，其被配置为基于所述至少一个合并参数对所述音频对象进行聚类以产生分离的音频源。
【IPC分类】H04N7/15, H04S7/00, H04R1/40, H04N21/439, G10L21/028, H04N21/233, H04N3/00, H04R5/027
【公开号】CN105230044
【申请号】CN201380076395
【发明人】M·维勒尔莫, M·塔米, J·尼库恩, T·维尔塔宁
【申请人】诺基亚技术有限公司
【公开日】2016年1月6日
【申请日】2013年3月20日
【公告号】EP2976893A1, US20160073198, WO2014147442A1

完整全部详细技术资料下载

当前第6页1 2 3 4 5 6