根据室内脉冲响应处理音频信号的方法、信号处理单元、音频编码器、音频解码器及立体...的制作方法_3

文档序号:9816454阅读:来源:国知局
分到后期混响音的过渡必须已知。该过渡通过达到阈值的 相关性测量来确定,其中阈值根据从室内脉冲响应的早期部分中的早期反射音中所选择的 一个的相关性测量来设定。相关性测量可以描述关于室内脉冲响应的、在包括初期状态的 声能中的衰变的相似点以及在初期状态之后的任何时间开始的在预定义频率范围的声能 中的衰变的相似点。
[0085] 根据实施例,音频信号的单独处理包括在第一初期期间将音频信号和室内脉冲响 应的早期反射音部301,302-起处理,以及在第二处理期间将音频信号和室内脉冲响应的 扩散混响音304-起处理,第二处理不同于第一处理且与第一处理相分离。从第一处理到第 二处理的改变出现在过渡时间。根据进一步的实施例,在第二处理中扩散(后期)混响音304 可替换成合成混响音。在该情形中,所提供的室内脉冲响应可仅包括早期反射音部301,302 (参见图5),且不包括后期扩散混响音304。
[0086] 图6(A)显示根据本发明实施例的用于分别地与室内脉冲响应的早期部分和后期 混响音一起处理音频信号的第一示例性信号处理单元的方块图。可在上述的立体声渲染器 236中执行根据室内脉冲响应的不同部分的音频信号的处理。音频输入信号400可为非混响 音频素材,例如多声道音频输入信号,其与室内脉冲响应相卷积;或例如使用仿真头或耳道 式麦克风测量到的室内脉冲响应。卷积允许增益原始的非混响音频素材的空间印象,仿佛 是在与室内脉冲响应相关联的空间中聆听该音频素材。例如,在上述的立体声渲染器236 中,期望在室内脉冲响应中分别地将音频信号和直达声音301以及早期反射音一起处理,将 音频信号和后期混响音304-起处理。为了处理音频输入信号400,方块402用于处理直达声 音,方块404用于处理早期反射音以及方块406用于处理后期混响音。通过第一加法器412将 各个方块402至406的输出信号408至410相结合,以产生早期处理信号414。处理器406提供 的早期处理信号414以及混响信号416通过第二加法器418结合,以产生音频输出信号420, 其提供给听众仿佛音频信号在与该室内脉冲响应相关联的空间中聆听的印象。
[0087]将后期混响音302与直达声音以及早期反射音分开处理的优点在于减少计算复杂 度。更具体地,对全部脉冲响应使用卷积计算是非常昂贵的。因此,为了模拟后期混响音,通 常使用具有较低复杂度的混响音算法来处理音频信号。脉冲响应的直达声音部以及早期反 射音部通过,例如卷积计算,更精确地进行计算。进一步的优点在于对混响音控制的可能 性。后期混响音可取决于使用者的输入或音频信号的内容而修改测量的空间参数。为了达 成上述优点,必须已知早期反射音302结束且后期混响音304开始的过渡位置(例如时间 点)。当后期混响音处理开始的太早,则音频信号可能会有较低的质量而人听力能发现明显 消失的早期反射音。另一方面,如果过渡时间发现的太晚,则计算效率将不会被利用,造成 早期反射音处理通常比后期混响音处理更昂贵。例如,在时域取样的过渡可提供至立体声 渲染器作为输入参数,然后根据接收的过渡,该输入参数控制处理器402至406用于分别地 处理音频信号。
[0088]图6(B)显示根据本发明另一实施例的用于分别地与室内脉冲响应的早期部分和 后期混响音一起处理音频信号的另一信号处理单元的方块图。接收输入信号400,例如多声 道音频输入信号,并施加至第一处理器422用于处理早期部分,即根据图5所示的室内脉冲 响应300中的直达声音301以及早期反射音302处理音频信号。多声道音频输入信号400也施 加至第二处理器424用于根据室内脉冲响应的后期混响音304处理音频信号。在立体声渲染 器中,如上所述,主要因为降低计算复杂度,所以理想的是处理直达声音以及从后期混响音 区分出早期反射音。例如,直达声音以及早期反射音的处理可通过第一处理器422执行的卷 积方法留印至音频信号,而后期混响音可被替换成第二处理器424提供的合成混响音。整体 双声道输出信号420为处理器422提供的卷积结果428以及处理器424提供的合成混响信号 430的结合。根据实施例,加法器432结合信号428以及430以输出整体双声道输出信号420。 [0089] 如上所述,第一处理器422可将音频输入信号400与室内脉冲响应的直达声音以及 早期反射音进行卷积运算,可从具有多个纪录的双声道室内脉冲响应的外部数据库434中 提供该室内脉冲响应给第一处理器422。第二处理器或混响器424可基于混响器参数如混响 音RT60以及混响音能量进行操作,混响器参数可通过分析436从储存的双声道室内脉冲响 应获得。应注意的是,分析436并非渲染器的必要部分,相反地,表示各个混响音参数可从储 存在数据库434中的各个响应获得;此可在外部完成。可通过计算在八音度或1/3八音度滤 波器组分析中的能量以及RT60混响音时间来决定混响器参数;或者以多个脉冲响应分析的 结果的平均值来确定混响器参数。
[0090] 此外,处理器422以及424从数据库434直接接收或经由分析436接收输入参数,也 接收关于在室内脉冲响应中从早期部分到后期混响音的过渡的信息。以下将更详细地描述 确定过渡的方法。
[0091] 根据实施例,过渡分析可用于区别早期反射音以及后期混响音。其可提供至立体 声渲染器作为输入参数(例如,其可从有用于配置混响器的RT60数值以及能量数值的专用 文档/界面中读取)。分析可根据一组双声道室内脉冲响应(一组用于多个方位角以及仰角 的BRIR对)。分析可为预处理步骤,其针对每个脉冲响应分别地执行,然后获得所有过渡数 值的中位数作为该组BRIR的整体过渡数值。然后,整体过渡数值可用于在双声道输出信号 的计算中从后期混响音中分离早期反射音。
[0092] 有几个已知的方法用于确定过渡,然而,现在将描述这些方法的缺点。在现有技术 参考文献[1 ]中,所述的方法使用能量衰变救援(EDR)以及相关性测量来确定从早期反射音 到后期混响音的过渡时间。然而,现有技术参考文献[1]所述的方法有缺点。
[0093] 1.该方法强烈地取决于双声道脉冲响应的方位角以及直达声音与第一撞击反射 的振幅之间的关系。
[0094] 2.过渡时间在任意频带中进行计算。没有一般的知识有关于哪个频带可用于整体 脉冲响应的正确的过渡时间。
[0095] 3.没有信息有关于该方法的必要相关性步骤。
[0096] 另一已知的方法是通过空间中回音的散布来描述早期反射音,例如通过每秒反射 的平均数量,并且当该数量超过预定义的阈值(参见现有技术参考文献[2])时,确定为后期 混响音的开始。该方法依赖空间特性,即空间体积,但其通常是未知的。空间体积不能容易 地从测量的脉冲响应得出。因此,该方法并非适合应用于从测量的脉冲响应计算过渡。而 且,目前关于反射音必须多密才被称为后期混响音没有常识。
[0097] 另一可能性,在技术参考文献[3]中所描述的是比较在脉冲响应窗中一时间上的 实际分布与时域的高斯分布。假设后期混响音具有正态分布。在正态分布中大约1/3 (精确 地为Ι/e)的取样在平均值的标准偏差外,而大约2/3的取样在平均值的标准偏差内。明显 地,早期反射音有更多取样在一个标准偏差之内,而较少取样在一个标准偏差之外。在一个 标准偏差之外的取样对在一个标准偏差之内的取样之间的比率可用于定义过渡时间。然 而,该方法的缺点在于因为该比率有时在阈值附近波动所以该过渡也难以用此手段定义。 该手段也强烈地取决于用于计算比率的滑行窗的尺寸以及类型。
[0098] 除了上述方法,峰态(Kurtosis)(随机信号的更阶累积量)可用于确定过渡时间。 当向脉冲响应的后期部接近时,其可快速降低,如现有技术参考文献[4]所概述。然而,针对 过渡(使用当其第一次到达零时迅速降低或时间)的阈值的定义并非清楚。
[0099] 另有一方法,其不依赖测量的脉冲响应的分析,但是依赖空间体积,如同文献[2] 所描述。该方法假设过渡时间仅取决于体积,但是其不考虑边界的扩散属性。因此,当不需 要精确地确定过渡转换时间时,结果仅是过渡时间的近似值,并非为了避免上述缺点而所 需的精确值。进一步,空间的体积通常不是已知的且不容易地从测量的脉冲响应中得到。 [0100]其他已知的方法则完全地忽略环境且定义过渡时间为简单的80ms,例如,请参见 现有技术参考文献[5]。然而,该数值完全脱离空间特性或测量的脉冲响应,因此对于从脉 冲响应的提醒分隔出后期混响音的目的而言太不准确。
[0101]除了改良的音频信号处理之外,根据本发明的实施例也提供确定在室内脉冲响应 中早期反射音以及后期混响音之间的过渡时间的改良方法,以产生更精确的过渡时间的确 定。将于下面段落描述的实施例,提供简单且有效可能以使用FFT分析从测量的脉冲响应中 计算出过渡时间。
[0102] 图7显示根据本发明实施例的用于确定在室内脉冲响应中早期反射音和后期混响 音之间的过渡时间的方法的流程图。为了确定从早期反射音到后期混响音的过渡时间,在 第一步骤500中确定声能的时间-频率分布。例如,根据实施例,能量衰变救援(E (t,f ),EDR) 可在步骤500中计算。EDR可为直接从测量的(例如双声道)室内脉冲响应中计算,以及可解 释成共享能量衰变曲线(Schroeder integration EDC(d))的频域扩张,该曲线显示在时间 t.之后在脉冲响应中的剩余能量。取代使用宽带脉冲响应,EDR从时间-频率表示获得,且为 此目的,可使用许多不同时间-频率表示。一旦声能的时间-频率分布已经在步骤500所确 定,则在步骤502确定时间-频率分布的时间块上的声能以及在初期状态的整体声能之间的 相关性测量。在步骤504中确定相关性测量是否到达定义的阈值(例如,落在定义阈值的下 方)。如果未达到阈值,本方法进行步骤506,选择下一个时间块以及目前时间块的后续分 布,并针对下一个时间块重复进行步骤502以及504。如此,根据步骤502至506,相关性测量 用于计算步骤500确定的EDR的每个时间块和初期状态的整体能量之间的相关性数值。当相 关性测量达到定义的阈值(例如,落在定义阈值之下)时,则表示到达过渡时间。换句话说, 当在步骤504中对于目前时间块确定相关性测量低于阈值,则本方法进行步骤508将目前时 间块的时间输出作为过渡时间。
[0103] 以下将更详细地描述本发明方法的实施例。最初,可将测量的双声道脉冲响应作 为输入用于过渡时间的计算。然后,Page分布或Levin分布用于能量衰变救援(EDR)的计算。 Page分布是指参考过去执行光谱的衍生物,而时间反转信号的Page分布被称为Levin分布 (也参见现有技术参考文献[2])。该分布描述瞬间功率谱,以及脉冲响应h(t)(例如,参加图 5)的EDR如下所示计算:
[0105] 其中
[0106] E(t,ω)=能量衰变救援,
[0107] h(T)=室内脉冲响应,
[0108] ω =2Jif〇
[0109] 根据上述公式的计算在直达声音301(参见图5)处开始,而随着时间增加能量衰变 救援包括更不明显的反射以及更多随机混响音。根据所述的实施例,为了容易计算,能量衰 变救援以1毫秒长度的时间块进行计算。通过上述功能,确定声能的时间-频率分布,如图7 中已经描述的关于步骤500。
[0110] 接着,在图7中已经描述的关于步骤502至步骤506,根据Pearson积差相关(也称为 相关性系数)确定相关性测量p(t)。具体而言,根据如下所示的实施例,在初期状态时整体 能量中每个时间块的声能的相关性为:
[0112] 其中
[0113] Ε(1,ω)=在频率f的全部频率范
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1