空间音频装置的制造方法_3

文档序号:9476595阅读:来源:国知局
在该装置的某些实施例中存在扩音器(用于音频捕获)或扬声器(用于音频呈现)。 类似地,在某些实施例中,装置10可以包括视频子系统的视频捕获和视频呈现部件中的一 个或另一个,从而使得在某些实施例中存在照相机51 (用于视频捕获)或显示器52 (用于 视频呈现)。
[0108] 在某些实施例中,装置10包括处理器21。处理器21耦合于音频-视频子系统,并 且特别在某些示例中耦合于模拟到数字转换器14用于接收表示来自扩音器11的音频信号 的数字信号、耦合于被配置为输出经处理的数字音频信号的数字到模拟转换器(DAC) 32、耦 合于照相机51用于接收表示视频信号的数字信号,以及耦合于被配置为输出经处理的来 自处理器21的数字视频信号的显示器52。
[0109] 处理器21可以被配置为执行各种程序代码。所实现的程序代码例如可以包括音 频-视频记录和音频-视频呈现例程。在某些实施例中,所述程序代码可以被配置为实施 音频信号处理。
[0110] 在某些实施例中,所述装置进一步包括存储器22。在某些实施例中,处理器耦合 于存储器22。存储器可以是任何合适的存储构件。在某些实施例中,存储器22包括用于 存储可在处理器21上实现的程序代码的程序代码段23。此外,在某些实施例中,存储器22 可以进一步包括用于存储数据的存储数据段24,所述数据例如是已根据应用进行编码的数 据或者将经由如稍后所描述的应用实施例进行编码的数据。存储在程序代码段23内的所 实现的程序代码以及存储在存储数据段24内的数据可以每当需要时由处理器21经由存储 器-处理器耦合而进行检索。
[0111] 在某些进一步的实施例中,装置10可以包括用户接口 15。用户接口 15在某些实 施例中可以耦合于处理器21。在某些实施例中,处理器可以控制用户接口的操作,并且从用 户接口 15接收输入。在某些实施例中,用户接口 15可以使得用户能够例如经由键板向电 子设备或装置10输入命令,和/或例如经由显示器从装置10获取信息,其中,显示器是用 户接口 15的一部分。用户接口 15在如本文中所描述的某些实施例中可以包括能够实现以 下二者的触摸屏或触摸接口 :使信息被输入到装置10以及进一步向装置10的用户显示信 息。
[0112] 在某些实施例中,所述装置进一步包括收发器13,该收发器在所述实施例中可以 耦合于处理器,并且被配置为使得能够例如经由无线通信网络与其它装置或电子设备进行 通信。收发器13或任何合适的收发器或者发射机和/或接收机构件在某些实施例中可以 被配置为经由电线或有线耦合与其它电子设备或装置进行通信。
[0113] 收发器13可以经由任何合适的已知通信协议与其它装置进行通信,例如,在某些 实施例中,收发器13或收发器构件可以使用合适的通用移动电信系统(UMTS)协议、诸如 IEEE 802. X的无线局域网(WLAN)协议、诸如蓝牙的合适短距离射频通信协议,或者红外数 据通信通路(IRDA)。
[0114] 在某些实施例中,所述装置包括被配置为估计装置10的位置的位置传感器16。位 置传感器16在某些实施例中可以是诸如GPS (全球定位系统)、GL0NASS或伽利略接收机这 样的卫星定位传感器。
[0115] 在某些实施例中,定位传感器可以是蜂窝ID系统或辅助GPS系统。
[0116] 在某些实施例中,装置10进一步包括方向或方位传感器。方位/方向传感器在某 些实施例中可以是电子罗盘、加速度计和陀螺仪,或者使用定位估计根据装置的运动来确 定。
[0117] 再次应当理解,电子设备10的结构可以通过许多方式进行补充和改变。
[0118] 关于图4,示出了示例装置实现,其中,装置10包括含有照相机51的前面301、后 面303以及顶部边缘或顶面305。在图4所示的示例中,所述装置包括四个扩音器:第一 (右前)扩音器1^,位于该装置的右前侧,其中,右是朝着该装置的前面的顶部边缘;左前 扩音器113,位于该装置的左前侧;右高扩音器112,位于该装置的顶部边缘或顶面那侧;以 及左后扩音器114,位于该装置的左后侧。
[0119] 关于图2,示出了根据某些实施例的示例音频信号处理装置。此外,关于图3,示出 了如图2中所示的音频信号处理装置的操作的流程图。
[0120] 在某些实施例中,所述装置包括扩音器或扩音器阵列,所述扩音器或扩音器阵列 被配置为捕获或记录声波,并生成针对每个扩音器的音频信号,所述音频信号被传递或输 入给所述音频信号处理装置。如在本文中所描述的,在某些实施例中,扩音器11被配置为 输出模拟信号,该模拟信号被模拟到数字转换器(ADC) 14转换为数字格式。然而,在本文中 的示例中示出的扩音器是集成式扩音器,其被配置为直接向短时傅立叶变换器(STFT) 101 输出数字格式信号。
[0121] 在本文所示的示例中,存在四个扩音器,这些扩音器在某些实施例中可以按照与 图4中所示的类似的方式来布置。应当理解,在某些实施例中,可以存在多于或少于四个的 扩音器,并且所述扩音器可以按照任何合适的方式来布置或放置在所述装置上。
[0122] 此外,尽管如图3中所示,扩音器是所述装置的一部分,但是应当理解,在某些实 施例中,扩音器阵列在物理上与所述装置分离,例如,扩音器阵列可以放置在头戴式耳机上 (其中,该头戴式耳机还具有捕获视频图像的关联视频照相机,如在本文中所描述的,所述 视频图像也可被传递给所述装置并且按照生成已编码视频信号的方式被处理,所述已编码 视频信号可以合并经处理的音频信号),该头戴式耳机无线地或以别的方式将音频信号传 递给所述装置进行处理。
[0123] 可以认为扩音器阵列在时域中捕获声音或音频源,其中,所述声音或音频源已与 其空间响应进行了卷积。这可以在数学上建模或描述为:
[0125] 其中,(?是由扩音器m = 1. · · Μ捕获的k = 1. · · K个源的混合物(换句话说, 扩音器m接收音频信号支M )。采样标引由t表示。
[0126] 在该"混合"模型中,来自源k的对扩音器m的空间响应由τ )表示,并且给定 源信号为%(〇。
[0127] 接收扩音器输入音频信号的操作在图3中由步骤201示出。
[0128] 在某些实施例中,所述装置包括短时傅立叶变换器(STFT) 101。短时傅立叶变换器 101被配置为对扩音器输入音频信号实施短时傅立叶变换。
[0129] "混合"模型在STFT域中可以近似为:
[0131] 其中,
F是阵列捕获⑷的短时傅立叶变换 (STFT),i = 1. . . I是频率标引,以及j = 1. . . J是帧标引。
[0132] 时域信号的该STFT在某些实施例中可以如下获取:
[0134] 其中,运算符FFT[. .. ^表示被进行短时傅立叶变换的输入信号的第i个频率元
素。
[0135] STFT 101对阵列扩音器信号和模型的运算用由 表示的频率响应来有效地替换空间响应hmk ( τ ),并且源k = 1. . . K的STFT由sl jk表示。如 由阵列所见的单一源信号(换句话说,与其空间脉冲响应进行了卷积的源信号)由y1]k = hlksljk表示。空间响应滤波器取决于捕获环境的混响时间而具有几百毫秒的长度, 但由于源空间响应的主混响部分之后的可忽略的能量,已发现在频域中使用数十毫秒的分 析窗口尺寸来按照hlk对空间响应滤波器进行近似在实际中是有效的。
[0136] 在某些实施例中,STFT被配置为将经变换的域信号输出给空间协方差处理器 103〇
[0137] 对时域信号应用STFT的操作在图3中由步骤301示出。
[0138] 在某些实施例中,所述装置包括空间协方差处理器103。空间协方差处理器103被 配置为接收音频信号的频域形式
并对其实施空间协方 差处理。
[0139] 为避免对每个通道的绝对相位进行估计和建模,空间协方差处理器生成针对每个 时间-频率点的空间协方差矩阵作为信号表示。在所述实施例中,空间协方差计算将绝对 相位转换为每个扩音器配对之间的相位延迟,所述相位延迟被用作如在本文中所描述的 BSS算法的信号表示输入。在某些实施例中,SCM的计算确定出阵列捕获的量值平方根版 本。对阵列捕获的量值平方根版本的确定确保了空间协方差矩阵(SCM)的对角线中的非负 部分含有STFT量值。
[0140] 在某些实施例中,捕获阵列输出的未修改的STFT可用于产生SCM的对角线上的功 率谱。
[0141] 在下面的示例实施例中,量值平方根STFT被用作针对由下面的方法导出的每个 时间-频率点的SCM的起始点。
[0142] 在某些实施例中,空间协方差处理器将针对时间-频率点(i,j)的捕获阵列表示 Xi_j= [X p . . . XM]的量值平方根版本确定为:
[0144] 其中,sign(z) = z/|z|是针对复数的符号函数。
[0145] 此外,在某些实施例中,空间协方差处理器103可被配置为将针对来自阵列捕获 向量交=...的单一时间-频率点的SCM确定为外积:
[0147] 其中,Η代表厄密转置。
[0148] 针对一个时间-频率点所确定的
可以看作是由对角线[Χ]ηη 上的观察量值|x| = [|x」,·..,|xM|]T组成,并且非对角线值[X] nm,η乒m表示扩音器配 对(n,m)之间的量值和相位差
[0149] 在某些实施例中,空间协方差处理器103可以被配置为计算针对每个时间频率点 i,j的SCM,并且其可被表示为具有尾随的次标引的矩阵
[0150] SCM域中的复值单声道源频谱图s1]k等于实值功率谱和并^,其中,g表示复数 c的复共辄。在某些实施例中,由于用于计算SCM的平方根STFT,在下文中,使用源的量值 频谱
来表示源。
[0151] 应当理解,通过使用由如上定义的等式所定义的扩音器阵列音频信号的SCM表 示,源的绝对相位从参数估计的角度来说并不重要,并且仅对所有扩音器配对之间的相位 延迟进行建模。因此,空间协方差信号表示由混合矩阵
来替换原始模型中 的混合向量hlk,其中,混合矩阵
.表示以协方差矩阵h#h^_形式表述的源空 间响应hlk。在该表示中,仍然针对每个STFT频率槽i来单独定义混合矩阵。在某些实施 例中并且使用上面的定义,先前定义的混合模型可以针对协方差观察值而被表述为:
[0153] 其中
i是并入了源量值详情和混合物的源空间协方差。
[0154] 在某些实施例中,可以使用近似真实但未知的SCM的厄密半正定矩阵来对每 个频率处的每个源的SCM (sl jk)进行建模。在所述实施例中,混合SCM和源量值仅被认识到, 但还未被估计。估计源量值详情土种和由H&表示的对应混合物在所述实施例中轮流可以 提供所需的BSS属性,然而,一般来说,通过以下方式来估计I^fc.是困难的:其在所有频率 上对应于单一源。针对每个STFT频率槽i来单独估计空间属性并不利用以下事实:协方差 属性由直接通路和早期反射的到达时间差(TDoA)来连接。所述实施例中的模型依赖于以 下事实:在本文中较为详细描述的非负矩阵因式分解(NMF)模型强制使1??对应于单一声 源,并且在时间上进行平均的每个频率i处的相位延迟迹象得出对真实空间属性的正确估 计。
[0155] 在某些实施例中,空间协方差处理器被配置为将经变换的SCM信号输出给复数非 负矩阵因式分解器105。
[0156] 生成STFT的空间协方差矩阵形式的操作在图3中由步骤303示出。
[0157] 在某些实施例中,所述装置包括波束成形器生成器107。该波束成形器在某些实施 例中被配置为生成至少一个波束成形矩阵,所述至少一个波束成形矩阵用于由非负矩阵因 式分解器105施加于空间协方差矩阵。
[0158] 在本文中描述的诸如独立分量分析(ICA)和复值非负矩阵因式分解(CNMF)这样 的对源空间响应进行建模的源搜索方法中,针对每个频率槽独立地对源参数进行估计和优 化。然而,在如本文中描述的某些实施例中,在到达方向(DoA)估计方法中,跨整个频带的 迹象被看作整体。在DoA估计方法中,假设无回声传播或者在混响条件仅考虑其直接通路 传播的情况下,单一源位置被链接到扩音器之间单一的到达时间差(TDoA)。该单一 TDoA统 一了频率上的相位延迟,使DoA方法能够整合所有频率上的迹象以便获取对整个频谱上的 DoA的估计,使源估计更稳健。然而,由于对估计算法进行公式化时的困难以及使得该过程 含糊不清的空间假频,对DoA概念的应用还未在盲源分离(BSS)参数估计中被广泛使用。
[0159] 在经由波束成形的DoA分析中,特定空间位置的TDoA用于校准接收信号和用于搜 索波束方向,换句话说,产生最高波束成形器输出能量的源DoA。这等效于做出对所有可能 的源位置的假设并搜索这样的TDoA,所述TDoA当将校准的信号一起求和时给出了生成
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1