空间音频装置的制造方法_2

文档序号:9476595阅读:来源:国知局
为:利用均匀分布在零和一之间的随机值对线性模 型参数zk。、tik和v 进行初始化。
[0058] 被配置为将所述空间协方差矩阵模型和所述线性量值模型进行合并的所述矩阵 因式分解器可被配置为:将所述空间协方差矩阵模型乘以由所述线性模型表示的量值包 络。
[0059] 被配置为确定至少一个合并参数的所述矩阵因式分解器可被配置为:确定空间协 方差模型参数,以便最小化所述观察空间协方差矩阵和所述空间协方差模型之间的差别。
[0060] 被配置为确定所述空间协方差模型参数的所述矩阵因式分解器可被配置为:基于 复值非负矩阵因式分解实施迭代式优化,从而使得表示所述至少一个音频对象的线性量值 模型的参数被迭代地更新,直到所述线性量值模型参数在各个更新之间不显著改变,或者 处理了所定义数量的迭代为止。
[0061] 被配置为基于所述复值非负因式分解实施迭代式优化的所述矩阵因式分解器可 被配置为:根据复数非负矩阵因式分解的优化框架更新线性模型参数zkci、tlk和v k];以及更 新所述空间协方差矩阵模型量值。
[0062] 被配置为更新所述空间协方差矩阵模型量值的所述矩阵因式分解器可被配置为: 更新所述至少两个音频信号的估计量的相对量值差别。
[0063] 被配置为基于所述至少一个合并模型参数对所述音频对象进行聚类以产生分离 的音频源的所述分离器可被配置为:根据所述至少一个音频对象和根据所估计的线性量值 模型参数生成至少一个音频源。
[0064] 所述装置可以进一步包括空间合成器,所述空间合成器被配置为:基于与所述至 少一个音频源相关联的所述至少一个合并模型参数,合成至少一个音频信号。
[0065] 一种存储在介质上的计算机程序产品可以促使一种装置实施如在本文中所描述 的方法。
[0066] -种电子设备可以包括如在本文中所描述的装置。
[0067] 一种芯片集可以包括如在本文中所描述的装置。
[0068] 本申请的实施例旨在解决关联于当前技术的问题。
【附图说明】
[0069] 为了更好地理解本申请,现在将作为示例参考附图,其中:
[0070] 图1示意性地示出了适于在某些实施例中采用的一种装置;
[0071] 图2示意性地示出了根据某些实施例的示例音频信号处理装置;
[0072] 图3示意性地示出了根据某些实施例在图2中所示的音频信号处理装置的操作的 流程图;
[0073] 图4示意性地示出了对根据某些实施例的装置的示例扩音器配置;
[0074] 图5示出了包括两个扩音器的装置的示例阵列几何形状;
[0075] 图6示出了对阵列周围的单位球体的近似均匀采样的示例波束方向;
[0076] 图7示意性地示出了根据某些实施例的参数估计的操作的流程图;
[0077] 图8示意性地示出了根据某些实施例的基于空间权重对CNMF分量进行聚类的一 般原理;
[0078] 图9示意性地示出了根据某些实施例被配置为生成双声道输出的如图2中所示的 空间合成器;
[0079] 图10示意性地示出了一流程图,该流程图示出了根据某些实施例被配置为生成 双声道输出的如图9中所示的空间合成器的操作;
[0080] 图11示出了从阵列上方描绘的某些实施例的示例而分析出的空间权重的图形, 其中,原始源定位处于方位角0度(左)和90度(下)的侧向平面上;
[0081] 图12示出了在某些实施例中使用的示例扩音器捕获阵列的图形,其中,扩音器由 圆形标记,而零角度参考轴由箭头标记;
[0082] 图13示出了实施例示例1中的源定位的图形;
[0083] 图14示出了实施例示例2中的源定位的图形;
[0084] 图15示出了实施例示例3中的源定位的图形;以及
[0085] 图16和图17示出了由根据某些实施例的源处理生成的示例输出的图形。
【具体实施方式】
[0086] 下面进一步详细描述了用于提供例如在音频-视频捕获装置内的音频记录的有 效声场定向处理的合适装置和可能的机制。在下面的示例中描述了音频信号和处理。然而 应当认识到,在某些实施例中,音频信号/音频捕获和处理是音频-视频系统的一部分。 [0087] 如在本文中所描述的,移动设备或装置更为普遍地配备了适于记录或捕获该移动 设备或装置周围的音频环境或音频场景的多扩音器配置或扩音器阵列。多扩音器配置实现 对立体声或环绕声信号的记录,并且扩音器的已知位置和方位进一步使得所述装置能够对 来自扩音器的已捕获或记录的音频信号进行处理,以便实施空间处理来相对于其它方向而 突出或聚焦于来自所定义方向的音频信号。
[0088] 一种实施空间处理的方式是在最初提取和操纵方向或声音源相关信息,以便在随 后的应用中使用该信息。这些应用例如可以包括空间音频编码(SAC)、3D声场分析和合成、 声音源分离和说话者提取,用于诸如语音识别的进一步处理。
[0089] 一般来说,研究所述空间声音处理的领域被称为针对同时发射的声音源的盲源分 离(BSS)。所述情况的经典示例被称为使得将每个单独的说话者从使用扩音器阵列记录的 聚会中分离的鸡尾酒会问题。已对BSS领域进行了集中的研究,但仍然被归类为未决问题。 捕获或记录装置或设备通常包括具有多个扩音器的小型手持设备。多个通道及其信息相关 性和关系于是可用于源分离以及到达方向估计。
[0090] 此外,使用所述分析(诸如3D声场分析)和合成的应用可以在对捕获场进行呈递 时采用已分离源的精确和详细的方向信息,其中通过使用以下方式来定位源从而对捕获场 进行呈递:借助于头部相关传输函数(HRTF)过滤的双声道合成,或者使用诸如矢量基幅值 相移(VBAP)这样的源定位技术在多通道和多维度扬声器阵列中的源定位。
[0091] 使用诸如通常在移动设备或装置上具有的小型和封闭式扩音器阵列记录的音频 捕获的盲声音分离(BSS)可包括下面的问题和困难,所述问题和困难在本文中由如在本文 中所描述的实施例解决。首先,因为设计体积和成本布置,扩音器的数量通常较少(大约 2-5个囊体(capsule)),这使得源到达方向(DoA)估计困难并且使得基于纯波束成形的分 离低效。
[0092] 针对源到达方向检测的波束成形和相关问题以及新近的球面阵列波束成形技术 已在声场捕获和分析中成功地使用,并且还被开发为诸如Eigenmike的最终产品。然而,伴 随球面阵列处理的问题在于:阵列结构和所使用的实际阵列的庞大体积阻碍了其被并入单 个移动设备中。此外,纯波束成形并不解决源分离的问题,但利用尽量窄的波束来分析设备 周围的空间场所。用于减小波束宽度的旁瓣相消一般需要增加阵列的扩音器计数,这如同 所讨论的那样在体积、设备复杂度和制造成本上较昂贵。
[0093] 此外,囊体之间小的几何距离减小了扩音器之间的时间延迟,其中,所述扩音器需 要使用高采样速率进行捕获以便观察到小的时刻差别。当使用了高采样频率时,基于频域 的BSS方法以空间假频的形式存在问题。换句话说,波长少于扩音器分离距离的两倍的音 频频率可导致具有短时傅立叶变换(STFT)之后的相位延迟形式的时间延迟解析上的模糊 性。
[0094] 例如,独立分量分析(ICA)可在频域中应用,以便从统计上估计每个频率处的 独立分量。频域ICA导致每个频率处任意的源排序。这种排列模糊性(permutation ambiguity)这些年来已通过以下不同手段解决:混合滤波器频率响应平滑、源信号的时间 结构、到达时间差(TDoA)和到达方向(DoA),以及ICA混合参数的解译。此外,还存在基于 ICA的方法,其通过统一跨频的源独立性来避免所述排列问题。然而,基于ICA的分离是对 于在排列校准(permutation alignment)和对频率上的源独立性进行统一时由空间假频所 导致的问题敏感的方法之一。
[0095] 此外,在多通道情况下已提出了基于非负矩阵因式分解(NMF)的分离。这包括例 如针对卷积混合物(convoluted mixtures)的多通道NMF,然而,用于参数估计的EM算法在 没有谕示初始化(oracle initialization)(换句话说,知道用于对算法进行初始化的源特 征)的情况下是低效的。已提出了具有乘法更新的复形多通道NMF(CNMF),其具有很好的分 离结果。所提出的CNMF算法对源空间协方差属性和量值模型进行估计。然而,空间协方差 矩阵是单独针对每个频率槽(bin)进行估计和更新,这使得该算法在具有空间假频的高频 率处易于出现估计误差。此外,所估计的协方差属性不与源的空间位置相连。
[0096] 另外,已提出了直接源量值包络和空间协方差矩阵估计。空间属性是在频率槽级 被估计的,再次导致排列模糊性,并且通过用于解决分量排序的分离算法,使其在高采样速 率捕获情况下是低效的。
[0097] 另外,所述问题包括解决和执行对于已分离源的3D声音合成。应当进一步理解, 在关于诸如3D音频合成这样的空间音频合成实施空间处理的情况下,对于已分离源或所 述源的一些部分的3D合成要求将分离算法与DoA分析进行配对,这使得该系统对于3D声 音场景分析-合成循环潜在地是不连续和较低效的。这样,封闭式扩音器阵列在未知每个 囊体的方向模式的情况下要求基于机器学习的算法来学习和补偿阵列的未知属性。
[0098] 因而,如在本文中进一步详细描述的概念是:音频记录系统提供用于对使用一个 设备中的几个扩音器的音频源进行分离的装置和/或方法。在所述实施例中,来自不同音 频源的声音在不同时间到达不同扩音器。此外,每个音频源具有单独的频谱特征。所述概 念因而在本文中讨论:所述装置和方法对扩音器信号进行分析以便确定时间差别和频谱特 征的组合。所述实施例的效果是从音频源的混合物中分离出的声音源。
[0099] 就此而言,首先参考图1,该图示出了可用于进行记录(或者操作为捕获装置)的 示例性装置或电子设备10的示意框图。
[0100] 电子设备10例如可以是当充当记录装置或收听装置时无线通信系统的移动终端 或用户设备。在某些实施例中,所述装置可以是音频播放器或音频记录器,例如MP3播放 器、媒体记录器/播放器(也称为MP4播放器)或者任何适于记录音频的合适便携式装置 或音频/视频摄像机/存储器音频或视频记录器。
[0101] 装置10在某些实施例中可以包括音频-视频子系统。该音频-视频子系统在某 些实施例中例如可以包括用于音频信号捕获的扩音器或扩音器阵列11。在某些实施例中, 所述扩音器或扩音器阵列可以是固态扩音器,换句话说,能够捕获音频信号和输出合适数 字格式的信号,换句话说,不需要模拟到数字转换器。在某些其它实施例中,扩音器或扩音 器阵列11可以包括任何合适的扩音器或音频捕获构件,例如电容式扩音器、电容扩音器、 静电式扩音器、介电电容式扩音器、动态扩音器、带式扩音器、碳粒式扩音器、压电式扩音器 或微机电系统(MEMS)扩音器。扩音器11或扩音器阵列在某些实施例中可以向模拟到数字 转换器(ADC) 14输出音频已捕获信号。
[0102] 在某些实施例中,所述装置可以进一步包括模拟到数字转换器(ADC) 14,该模拟到 数字转换器(ADC) 14被配置为从扩音器接收模拟的已捕获音频信号,并以合适的数字形式 输出音频已捕获信号。模拟到数字转换器14可以是任何合适的模拟到数字转换或处理构 件。在其中扩音器是"集成式"扩音器的某些实施例中,扩音器含有音频信号生成和模拟到 数字转化能力这两者。
[0103] 在某些实施例中,装置10音频-视频子系统进一步包括用于将来自处理器21的 数字音频信号转换为合适的模拟格式的数字到模拟转换器32。数字到模拟转换器(DAC)或 信号处理构件32在某些实施例中可以是任何合适的DAC技术。
[0104] 此外,音频-视频子系统在某些实施例中可以包括扬声器33。扬声器33在某些实 施例中可以接收来自数字到模拟转换器32的输出,并将模拟音频信号呈现给用户。在某些 实施例中,扬声器33可表示多扬声器布置的头戴式耳机,例如一组头戴式受话器或无绳头 戴式受话器。
[0105] 在某些实施例中,所述装置音频-视频子系统包括被配置为向处理器21提供图像 数据的照相机51或图像捕获构件。在某些实施例中,所述照相机可以被配置为随着时间的 推移提供多个图像,以便提供视频流。
[0106] 在某些实施例中,所述装置音频-视频子系统包括显示器52。该显示器或图像显 示构件可以被配置为输出视觉图像,所述视觉图像可以被装置的用户查看。在某些实施例 中,所述显示器可以是适于向所述装置提供输入数据的触摸屏显示器。所述显示器可以是 任何合适的显示技术,例如,所述显示器可以由包括IXD、LED、0LED单元的扁平面板实现, 或是"等离子体"显示实现。
[0107] 尽管装置10被示为具有音频/视频捕获和音频/视频呈现组件这两者,但是应当 理解,在某些实施例中,装置10可以仅包括音频子系统的音频捕获和音频呈现部件,从而 使得
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1