用于通过装置进行音频渲染的方法与流程

文档序号:31545693发布日期:2022-09-17 01:05阅读:144来源:国知局
用于通过装置进行音频渲染的方法与流程
用于通过装置进行音频渲染的方法
1.发明的上下文和

背景技术:

2.本发明涉及一种用于通过包括至少一个音频渲染设备的装置进行音频渲染的方法。
3.音频渲染设备是接收音频数据并播放对应于所接收的音频数据的声音的设备。典型地,音频渲染设备是扬声器,即,将电音频信号转换成相对应的声音的电声换能器。
4.许多现代电子装备设置有嵌入式扬声器,以允许用户收听许多类型的内容。例如,该装置可以是笔记本电脑、平板电脑或智能手机。为了最小化这种装置的大小,制造商通常选择较小的扬声器,这导致低响度。制造商已经试图设计包含扬声器的盒并且实施其他声学优化以利用共振现象以便提高低频率的声级,但是这是不够的。此外,较高频率的声级往往是不够的。这导致声音的低响度和较差的平衡性。
5.嵌入式扬声器的低响度通常使用放大器来补偿。这通常导致扬声器压力过大,从而导致在所渲染的声音中诸如失真或蜂鸣的伪迹。通过使用多种效果(诸如均衡、压缩器或限幅器),可以提高所渲染的声音的响度和平衡性,同时限制对扬声器的约束。这些效果可以在硬件中实施(例如利用所谓的智能放大器);或者在软件中利用处理方法实施。附加地,智能放大器监控扬声器偏移和扬声器温度,以调适放大增益,并且因此避免压力过大。
6.此外,扬声器通常与其他组件(诸如当音频内容在扬声器上播放时可能振动的键盘按键)绝缘不良。这些振动是可听的,并且使得收听者对声音质量的整体感知劣化,即使在具有良好的响度和平衡性的情况下。智能放大器没有考虑扬声器的环境;它们只是为了解决扬声器的压力过大、响度和平衡性,并且因此无助于减少这种类型的声音劣化。
7.振动通常是由于音频内容的激励频率(例如,349hz、740hz)的有限列表导致的。简单的处理包含对涵括有问题频率的频带的声级施加固定的降低增益,例如通过应用陷波滤波器或频带切割器(具有非常窄的频带)。然而,这种方法可能使由收听者感知的声音的质量劣化。
8.专利us9762198描述了一种用于动态调节压缩机的阈值的方法。处理具有多个频带分量的输入音频信号。可以确定时变阈值。压缩器对每个频带分量执行具有相对应的时变阈值的压缩操作,以产生增益。每个增益被应用于延迟的相对应的频带分量,以产生经处理的频带分量,这些分量被求和以产生输出信号。在一些实施方式中,例如使用基于谐波的生成的失真可听度模型,确定输出信号的所感知的频谱的时变估计和由所感知的频谱估计引起的失真频谱的时变估计。这个模型可以通过预先在设备上进行测量来获得。然而,这种方法不能准确反映每个扬声器的行为。同一模型的样本之间存在太多差异,并且在同一设备上进行的两个测量之间也存在太多差异。也可以通过偏移更简单地估计模型,但是这导致太多近似。而且,失真的可听度是通过心理声学掩蔽的估计来计算的。此外,这种计算非常需要资源,并且因此需要近似来减轻计算。因此,很大程度地使这个结果劣化。此外,对其应用增益的频带与用于阈值的频带相同。然而,频带可以包含各种不同的声音,并且这种减少导致对音频内容的音调的明显影响。
9.专利申请us2019/075395描述了一种方法,其中音频信号的频谱倾斜被用于确定
扬声器是否将在音频信号的回放期间引入可感知的失真。频谱倾斜是指音频信号中能量如何在频谱上分布。可以通过确定产生失真的频带中的能量和掩蔽失真的频带中的能量之间的比率来指示频谱倾斜。基于所确定的频谱倾斜,可以使产生失真的频带衰减,以减少由扬声器引入的失真。更具体地,信号电平在输入音频信号的衰减频带中衰减,以基于输入音频信号的掩蔽失真的频带的信号电平和掩蔽失真的频带的信号电平之间的比率产生经修改的音频信号。


技术实现要素:

10.本发明提出在保持最佳可能响度和平衡性的同时(即通过最小化对所渲染的声音的影响),制造不可听伪迹,诸如振动、失真或蜂鸣。为此,该方法仅在必要时以取决于声音的内容的动态方式调适声音。
11.为此,本发明是一种用于通过包括至少一个音频渲染设备的装置进行音频渲染的方法,该方法包括:
12.a)接收输入音频信号,
13.b)从输入音频信号中提取多个频带分量,每个频带分量具有与频带相关联的声级,
14.c)根据多个所提取的频带分量确定表示掩蔽频率能量的至少一个指示符,掩蔽频率对应于高于频率阈值的频带,表示掩蔽频率能量的指示符仅根据高于频率阈值的频带确定,
15.d)根据表示掩蔽频率能量的所述至少一个指示符确定至少一个校正因子,
16.e)针对每个频带,通过利用校正因子修改与所述频带相关联的预定第一声级阈值来确定第二声级阈值,其中第一声级阈值独立于输入音频信号的内容,所述第一声级阈值指示该频带的可以由该装置播放而没有明显的伪迹的最高声级,并且其中第二声级阈值取决于输入音频信号,
17.f)针对每个频带,根据所述频带的所提取的频带分量的声级和与所述提取的频带相关联的第二声级阈值之间的比较来确定降低增益,以及
18.g)将降低增益应用于频带分量的声级,
19.h)将不同频带分量转换成输出音频信号,
20.i)由音频渲染设备对输出音频信号进行音频渲染。
21.该方法使得可以在场景允许其的情况下限制振动减少的使用。例如,当在感知上不必要时,即,当场景的音频水平与振动的所估计的音频水平相比足够高时,该方法将应用很少减少或不应用减少,并且因此可以从感知的视角将其掩蔽。以这样的方式,音频内容被较少地改变,具有更高的音频渲染保真度。
22.本发明方法的其它优选但非限制性的各方面如下是独立的或呈技术上可行的组合的形式:
[0023]-音频渲染设备具有预定的设备频率响应,并且表示掩蔽频率能量的指示符也根据设备频率响应进行确定;
[0024]-频率阈值高于或等于6khz,优选地高于或等于8khz,并且更优选高于或等于10khz;
[0025]-确定表示掩蔽频率能量的多个指示符,表示掩蔽频率能量的指示符根据对应于由不同频率阈值限定的不同频率子范围的频带确定;
[0026]-根据表示掩蔽频率能量的多个指示符确定几个校正因子,并且不同的校正因子被用于确定不同频带的第二声级阈值,所使用的校正因子取决于频带;
[0027]-至少一个频带与表示掩蔽频率能量的几个指示符相关联,并且用于确定与所述频带相关联的第二声级阈值的校正因子根据表示与所述频带相关联的掩蔽频率能量的几个指示符中的至少一个指示符确定;
[0028]-根据表示掩蔽频率能量的每个指示符确定校正因子,从而产生与所述频率子范围的频带相关联的多个校正因子;
[0029]-通过使用在从与关联于所述第二声级的至少一个频带相关联的多个校正因子当中选择的所选择的校正因子来确定第二声级阈值,所选择的校正因子被选择用于产生在将通过使用多个校正因子来确定的第二声级阈值当中的最低的第二声级阈值;
[0030]-两个频率子范围具有公共频带,从而产生表示掩蔽频率的两个指示符与公共频带相关联,表示掩蔽频率的两个指示符中不是所选择的指示符的一个指示符被设置为零、或者第一声级阈值不被修改;
[0031]-频带分量被提取为频带信号分量,并且频带信号分量的声级是频带信号分量的幅值,或者
[0032]-频带分量被提取为频带窗口分量,并且每个频带是频率窗口,并且其中步骤b)包括将输入音频信号转换为频域中的频带窗口分量,其中频带窗口分量的声级是频带窗口分量的幅值,并且其中步骤h)包括将频带窗口分量转换到时域中;
[0033]-在步骤c)中确定的表示掩蔽频率能量的指示符是高于频率阈值的频带分量的声级的总和的函数;
[0034]-在步骤c)中确定的表示掩蔽频率能量的指示符是频谱的统计特性(诸如方差)的函数;
[0035]-输入音频信号中的掩蔽频率能量越高,校正因子越低,并且相反地输入音频信号中的掩蔽频率能量越低,校正因子越高;
[0036]-校正因子受到独立于输入音频信号的内容的边界限制;
[0037]-每个第一声级阈值包括在0至-60db之间;
[0038]-在接收输入音频信号之前,第一声级阈值由自动校准过程或手动校准过程产生;
[0039]-输入音频信号是多声道输入音频信号,每个声道与音频渲染设备相关联,并且至少步骤b)到e)对于每个声道独立执行;
[0040]-频带分量被提取为频带窗口分量,并且每个频带是频率窗口,并且其中步骤g)包括:
[0041]-g1)针对每个频带,根据所述频带的所提取的频带分量的声级和与所述频带相关联的第二声级阈值之间的比较来确定初步增益,
[0042]-g2)检测频带分量中的频率的声级上的多个局部最小值,
[0043]-g3)将位于两个局部最小值之间的频带分组在一起,以形成多个频率分组,
[0044]-g4)对于每个分组,确定与所述分组的频带的初步增益中的最低初步增益相对应的分组的降低增益,
[0045]-g5)对所述分组的每个频带施加分组的降低增益;
[0046]-当输出音频信号由音频渲染设备渲染时,麦克风记录装置附近的麦克风信号,并且麦克风信号用于根据与装置附近的环境声音相对应的麦克风信号的一部分来修改指示符。
[0047]
根据另一方面,提供了一种包括至少一个音频渲染设备和处理单元的装置,该装置被配置为执行根据本发明的方法的步骤。
[0048]
根据另一方面,提供了一种包括存储在其上的程序指令的非暂时性计算机可读介质,这些程序指令在由计算机读取时使得计算机执行根据本发明的方法的步骤。
附图说明
[0049]
本发明的其它方面、目的和优点将在阅读其优选实施例的、作为非限制性示例给出并参考附图进行的下面的详细描述后变得更加明显,在附图中:
[0050]-图1是示出根据可能实施例的方法的步骤的示意图;
[0051]-图2是示出根据可能实施例的方法的步骤的详细视图的示意图;
[0052]-图3示出了当播放振动频率时具有可听振动的第一播放音频内容的频谱;
[0053]-图4示出了当播放振动频率时没有可听振动的第二播放音频内容的频谱;
[0054]-图5示出了根据本发明的可能的实施例的在应用增益函数之前和之后的第一播放音频内容的频谱;
[0055]-图6示出了根据本发明的可能的实施例的在应用增益函数之前和之后的第二播放音频内容的频谱;
[0056]-图7示出了根据表示不受振动影响的音频内容的掩蔽频率能量的指示符而确定的校正因子随时间演变的示例;
[0057]-图8示出了根据表示被振动污染的音频内容的掩蔽频率能量的指示符而确定的校正因子随时间演变的示例;
[0058]-图9示出了作为测试音频信号的声级的函数的、表示掩蔽频率能量的指示符的演变的示例,以及从中导出的第一声级阈值;
[0059]-图10示出了由校准过程产生的第一声级阈值的示例;
[0060]-图11示出了根据本发明的可能实施例的多频带后处理中的音频内容的频谱的分组的示例和相对应的自适应阈值。
具体实施方式
[0061]
该方法由包括至少一个音频渲染设备和处理单元的装置来执行。该装置例如可以是计算机、膝上型或平板计算机、智能电话、由连接在一起的几个物理元件构成的声音系统、或者任何其他类型的类似设备。音频渲染设备例如是扬声器或者能够生成可听声音的类似设备。
[0062]
参考图1,首先接收输入音频信号。输入音频信号可以具有任何类型的音频内容(音乐、歌曲、语音等),并且可以具有各种来源(数字音频,诸如mp3、音频cd、视频游戏、电影dvd、互联网等)。输入音频信号的内容旨在由诸如扬声器的音频渲染设备而渲染(即播放)给用户。输入音频信号可以是多声道输入音频信号,多声道输入音频信号的每个声道被分
配给诸如扬声器的音频渲染设备。
[0063]
输入音频信号由随时间变化的数据(通常是数字信号的二进制数的序列)构成。数据变化限定了输入音频信号的音频内容。数据变化根据可以分组成频带的各种频率而发生。因此,可以从输入音频信号中提取多个频带分量(步骤s10)。每个频带分量具有与频带相关联的声级。
[0064]
该方法可以在时域中实行。在这种情况下,频带分量被提取为频带信号分量,并且频带信号分量的声级是频带信号分量的幅值,其在此指代每个频带上的短时能量。可以通过使用滤波器组(即,将输入音频信号分成多个频带信号分量的带通滤波器阵列)来提取频带信号分量,每个频带信号分量携带原始输入音频信号的具有幅值的单个频率子带,该幅值对应于该特定频率子带中的输入音频信号的声级。
[0065]
该方法可以在频域中实行。在这种情况下,频带分量被提取为频带窗口分量,并且每个频带是频率窗口。为了提取频带窗口分量,该方法包括将输入音频信号转换成频域中的频带窗口分量,并且频带分量的声级是频带窗口分量的幅值。在频域中工作允许计算时间和精度之间的良好折衷,并且因此构成了优选实施例。以非限制性的方式,将结合在频域中实行的方法进行以下描述,但是该描述的任何教导可以应用于在时域中实行的方法。
[0066]
许多不同的数学变换可以用于从诸如输入音频信号的时域信号中提取频带窗口分量。最有效和最常用的变换中的一个是快速傅立叶变换(fast fourier transform,fft)。在优选实施例中,使用了称为短时傅立叶变换(short-time fourier transform,stft)的变体,其中对输入音频信号的连续片段实行fft。然后对连续存储在缓冲器中的每个片段实行该方法的后续步骤。任选地但优选地,可以实行几个附加过程来改善该方法的结果。
[0067]
对输入音频信号的两个连续片段完全分离地应用处理可能导致发送到音频渲染设备的输出音频信号中的两个片段之间的急剧变化。这种急剧变化可能导致可听伪迹(诸如失真),这可能使音频质量劣化。为了减轻片段的这个缺点,可以实施重叠相加技术,其中输入音频信号的每个所缓冲的片段(索引n)被处理两次:利用紧接在前的所缓冲的片段(索引n-1)的第一次,以及利用紧接在后的所缓冲的片段(索引n+1)的第二次。为了简化下面的描述,缓冲器索引将用于无差别地指代所缓冲的片段以及由重叠相加技术产生的缓冲器。
[0068]
提取后获得的频带窗口分量的幅值优选地被归一化以消除提取的任何偏差。实际上,通常使用的库中存在的许多快速傅立叶变换函数可能引入偏差,特别地因为变换被应用于音频信号的较短(例如,1024个样本)片段。
[0069]
归一化也可以用于使频带窗口分量的幅值适于扬声器的音量设置。实际上,该方法的主要目的是减少由扬声器播放声音产生的可听振动。由扬声器引起的振动很大程度上取决于由扬声器播放的声音的响度。因为所播放的声音的响度同样多地取决于音频内容和取决于装置的设置,所以考虑音量设置允许更准确地估计振动问题的可能性。在诸如计算机的许多装置上,在音频处理之后应用音量调节。因此,音量设置不会出现在输入音频信号中。因此,在归一化过程中使用音量设置允许预期音量设置对声音质量的影响。
[0070]
频带窗口分量的幅值的归一化可以遵循诸如以下的公式:
[0071][0072]
其中|s(n,k,c)|是由缓冲器索引n、频率窗口k和声道c限定的频带窗口分量的幅
值。volume是对应于音量设置的实数。coeff是用于补偿偏差的归一化系数,其取决于用于变换的软件函数库(例如,英特尔的集成性能原语ipp库)。归一化系数coeff也取决于分析窗口。系数coeff可以例如遵循诸如以下的公式:
[0073][0074]
其中α是实数,并且w是取决于分析窗口的大小的实数。α和w可以通过将750hz和0db满量程的正弦波作为输入音频信号并将对应于750hz的频率窗口的幅值的值限制为1来确定。
[0075]
也可以使用用于改善频带分量的提取的其他技术。例如,在将输入音频信号转换到频域之前,可以使用零填充。分析窗口中的信号数据利用零来完成,以便人为地增加转换到频域的频率分辨率。
[0076]
表示掩蔽频率能量的指示符
[0077]
一旦已经从输入音频信号中提取了频带分量,就确定了表示掩蔽频率能量的至少一个指示符。根据设备频率响应和多个所提取的频带分量来确定指示符。掩蔽频率对应于高于频率阈值并且因此能够掩蔽在频率阈值以上发生的振动的频率。通过仅使用高于频率阈值的频带来确定指示符。这意味着低于频率阈值的频带分量的声级不用于确定表示掩蔽频率能量的指示符。频率阈值在两个子范围分之间划分频率范围,即:低于频率阈值的、可能引起振动的第一频率子范围;以及高于频率阈值的、并且可以掩蔽或掩盖由第一频率子范围的频率引起的振动的第二频率子范围。因此,频率阈值的值取决于装置的配置(扬声器的环境等)和扬声器的特性(扬声器的频率范围等)。在大多数情况下,频率阈值优选地高于6khz,优选地高于8khz,以及更优选地高于10khz。为了说明的目的,将以非限制性的方式参照对应于相当高的频率(高于6khz)的掩蔽频率进行描述。应当注意的是,高于频率阈值的所有频带不一定用于确定表示掩蔽频率能量的指示符。例如,可以根据高于8khz但低于14khz频率阈值的频带来确定指示符。优选地,表示掩蔽频率能量的指示符根据范围在频率阈值以上至少4khz内的频带来确定,以及更优选地,根据范围在频率阈值以上至少6khz内的频带确定(例如12至20khz或10至16khz)。
[0078]
由扬声器产生的寄生振动导致了在整个可听范围(例如,10hz至20khz)上(但特别地存在于高频(即超过6或8khz))的谐波。虽然低频谐波存在于大多数普通声音(音乐、人声等)中,但高频谐波通常不包含在普通声音中。因此,寄生高频谐波比寄生低频谐波明显得多。尽管这种寄生高频谐波表现出比它们的基频低得多的声级(通常至少低60db),但是它们仍然是高度可听的,因为它们在声学上没有被基波或一次谐波所掩盖。此外,当装置的组件振动时(以及特别地当它接触其他组件时),会出现谐波间噪声。这种谐波间噪声更加明显,以至于其导致非自然声音。
[0079]
注意到的是,一些音乐曲调比其他音乐曲调更易于出现由振动导致的可听寄生声音。例如,利用装置播放古典音乐可能导致听到可听振动,而当利用同一装置播放流行音乐时,振动是不明显的。
[0080]
图3和图4示出了音频内容对振动生成的影响。图3示出了当播放振动频率时具有可听振动的所记录的第一播放音频内容的频谱30,以及图4示出了当以相同的声级播放相同的振动频率时没有可听振动的所记录的第二播放音频内容的频谱40。第一播放音频内容
是一段古典音乐,易于产生振动伪迹,而第二播放音频内容是一段流行音乐。这两个音频内容由同一膝上型计算机的同一扬声器播放、利用同一麦克风记录。图3和图4还示出了利用同一计算机单独播放和记录的、处于880hz的振动频率下的示例性纯音的频谱35,具有与处于880hz的振动频率下的所播放的内容相同的声级。如从示例性声音的频谱35可见,处于振动频率的音频内容生成振动,这导致在较高频率处出现寄生振动。
[0081]
在图3中,在高频31内(在此为高于6khz),示例性声音的频谱35非常接近于第一播放音频内容的频谱30。这意味着频谱30的高频31的幅值基本上是由第一播放音频内容内的振动频率下的声级引起的振动导致的。对于那些高频31,第一播放音频内容具有其自身的较低的其他幅值,并且因此振动在高频31内没有被掩盖。相反,在图4中,示例性声音的频谱35的幅值保持低于第二播放音频内容的频谱40的幅值。即使振动由处于880hz的振动频率下的第二播放音频内容引起,振动是不可听的,因为对于高频31,第二播放音频内容掩盖了振动。因此,高频31构成掩蔽频率。
[0082]
可以通过应用增益函数来减小该振动频率的播放内容的幅值,来减小振动频率的影响。在图5和图6的示例中,对于两个音频内容,将-12db的增益应用于振动频率(880hz)的幅值。图5示出了如图3中的第一播放音频内容的频谱30,以及应用增益后的第一播放音频内容的频谱32。如所预期的那样,频谱32示出了相对于原始频谱30的高频31内的幅值的显著降低。而且,收听者不再感知由振动导致的寄生噪声。图6示出了如图4中的第二播放音频内容的频谱40,以及应用增益后的第二播放音频内容的频谱42。与图5相反,两个频谱40、42之间没有显著差异,特别是对于包含在6khz至16khz之间的高频。这是因为高频下的声级不是主要由于振动,而是主要由于第二播放音频内容引起的。如前面那样,由振动导致的寄生噪声不会被收听者感知。
[0083]
在这两种情况下,在应用增益后,来自振动的寄生噪声就不会被感知。然而,在880hz处应用的增益已经修改了音频信号,两个频谱32、42在880hz处表现出明显较低的幅值33、43。结果,第二播放音频内容已经通过增益实质上被修改了,尽管不需要这样做:寄生噪声是不可感知的,它被高频内容掩盖了。
[0084]
实际上,如图3和图4所示,只有当引起这种振动的播放内容在高频范围内具有足够的能量来掩盖所生成的寄生噪声并因此掩蔽振动时,由振动生成的寄生噪声才是可听见的。因此,构思是分析高频带分量的能量,以确定高频寄生噪声是否会被掩盖。如果高频带分量具有足够的能量来掩盖高频寄生噪声,则不需要改变音频信号,因为高频寄生噪声是不可感知的。相反,如果高频带分量没有足够的能量来掩盖高频寄生噪声,则必须应用增益降低来抑制否则会是可听的高频寄生噪声。
[0085]
估计高频(即高于频率阈值的频率)中包含的能量是评估输入音频信号的掩盖容量的好方法。高频能量越高,振动引起的噪声就越可能被掩盖。音频信号的掩盖能力取决于两个主要方面:
[0086]-要播放的输入音频信号的高频中的能量,
[0087]-扬声器的设备频率响应中的高频中的能量。
[0088]
音频渲染设备的设备频率响应是所述渲染设备响应于刺激的输出频谱的定量度量,并且被用于表征音频渲染设备的动态特性。它是与输入相比,作为频率的函数的输出的幅值和相位的度量。估计物理系统的频率响应通常包括利用输入信号激励音频渲染设备、
测量输入和输出时间历史、并通过诸如快速傅立叶变换(fft)的过程来比较这两者。因此,可以利用常规技术(诸如正弦扫频技术或带有滤波器组的粉红噪声)预先确定设备频率响应。
[0089]
表示掩蔽频率能量的指示符优选地是高于频率阈值的频带分量的声级的总和的函数。表示掩蔽频率能量的指示符也可以是音频信号输入的频谱的统计特性(诸如方差)的函数,因此表示频谱的平坦度。确实有许多方法来建立表示掩蔽频率能量的指示符。下面的描述将这种指示符的确定呈现为频带分量的声级的总和的函数。
[0090]
优选地,指示符考虑了收听者将听到什么,因为是扬声器的音频输出将掩盖音频伪迹。收听者将听到的扬声器的音频输出的确切频谱事先是未知的,因为它取决于输入音频信号和扬声器两者。对于每个频带,音频输出的频谱通过频带内的扬声器的设备频率响应与所述频带的声级之间的乘积来估计:
[0091][0092]
其中n是缓冲器索引,k是频带索引,c是声道索引,并且fr(k,c)是装置对于频带k和声道c的设备频率响应。设备频率响应fr(k,c)更精确地是声道c被发送到的扬声器的频率响应的声级。
[0093]
然后,根据高频的音频输出s
out
的估计的平方和来估计高频能量e
hf

[0094][0095]
其中n是缓冲器索引,k是频带索引,c是声道索引,k
min
是高频带的较低索引,以及k
max
是被考虑用于确定指示符的高频带的较高索引。
[0096]
然后,指示符indic对应于声道c之间的平均值,其中c是声道的总数:
[0097][0098]
如果只有一个声道c,则指示符indic是高频能量估计e
hf

[0099]
对应于高频带的较高索引k
max
的频率可以由人类可听范围的上限粗略地限定,并且可以例如在16khz至20khz之间进行选择。对应于高频带的较高索引k
max
的频率也可以较低,以更好地限定要考虑振动的频率范围。例如,如果800hz下的激励频率产生低于12khz的振动,则可以选择较高的索引k
max
来对应于12khz的频带。
[0100]
高频带的较低索引k
min
对应于限定了用于确定高频能量指示符的频率的较低频率阈值。如上所解释那样,这个频率阈值优选地高于6khz、8khz,并且优选地高于10khz或更高。在考虑以下几点的情况下选择频率阈值的值:
[0101]-振动导致其频率通常高于几千赫兹的高次谐波;
[0102]-一般而言,低于10khz的计算机扬声器或类似音频渲染设备的设备频率响应没有显著降低;
[0103]-大多数音频内容具有低于10khz的能量,并且因此低于10khz的大多数失真或振动声音将被掩盖;
[0104]-如果音频内容在6khz至10khz之间没有能量,则10khz以上的能量是非常不可能的。
[0105]
可以通过使用由记录了装置附近的声音的麦克风生成的麦克风信号来考虑环境声音以用于确定表示掩蔽频率能量的指示符。麦克风信号的内容当然将由音频渲染设备渲染的源自输入音频信号的输出音频信号产生。然而,麦克风信号的内容的一部分也将独立于输出音频信号,并且然后将对应于环境声音。这个另一部分可以通过诸如使用声学回声消除器的处理来隔离。诸如中值滤波器的滤波器也可以用于改善环境声音的隔离。如果麦克风信号示出环境声音包含足够的高频能量来掩盖振动引起的伪迹,则可以修改表示掩蔽频率能量的指示符来反映这一点。因此,如果对应于环境声音的麦克风信号的该部分具有足够的高频能量(例如,高于与用于指示符的频率阈值相似的频率阈值),则可以将附加项添加到指示符以增加其值。相反,如果对应于环境声音的麦克风信号的该部分具有较低的高频能量,也可以降低指示符。
[0106]
校正因子
[0107]
根据指示符indic,然后确定校正因子(步骤s16)。校正因子意在修改确定必须如何校正每个频带的声级的校正阈值。校正因子可以通过乘以所述阈值来应用于阈值,或者可以作为指数应用于阈值。优选地,校正因子被限定为对于被认为易于受可听振动声音影响的输入音频信号达到1或更高的值,并且对于被认为不可能受可听振动声音影响的输入音频信号低于1。
[0108]
因此,校正因子可以对应于指示符indic,但是被加权并利用边界进行制约。例如,校正因子可以被限定为指示符的线性函数:
[0109]
factor(n)=a
×
indic(n)+b
[0110]
其中a和b为两个实数。校正因子应该具有与指示符的趋势相反的趋势:指示符越高,校正因子越低,反之亦然。校正因子优选地随着输入音频信号中的高频能量,即随着掩蔽频率能量而降低。结果,如果指示符优选地随着高频能量而增加,那么数字a因此优选地是负的。因此,校正因子是表示掩蔽频率能量的指示符的相反数的函数,即指示符的加法逆元的函数。
[0111]
数字a和b是固定的并且是预先确定的,例如通过取具有两种不同音频内容(具有较低的高频能量的至少一个(如图3所示),和具有较高的高频能量的至少另一个(如图4所示))的至少两个输入音频信号。搜索a和b的值,使得在有问题的内容(即,易于产生振动伪迹)对应于具有较低高频能量的音频内容的情况下,校正因子高于1,并且在无问题内容对应于具有较高高频能量的音频内容的情况下,校正因子低于0.8。可以使用线性回归来确定a和b的值。此外,可以进一步修改b的值,以保留音频内容的音调同时保持振动较小。
[0112]
典型地,a在-0.1至-0.005之间,以及b在-200至100之间,但是更优选地是负的并且在-100至0之间。
[0113]
校正因子的值优选地进一步受边界限制,以便不管指示值如何都引起可接受的校正。为此,这些值被受约于包括下边界和上边界之间的范围:
[0114]
factor(n)=min(max(a
×
indic(n)+b,lower boundary),higher boundary)
[0115]
为了给出示例,当校正因子被线性应用时,校正因子可以包括在0.1至3之间。因此,在这种情况下,下边界优选地高于或等于0.1,并且上边界低于或等于3。而且,下边界优
选地低于或等于0.5,以及上边界高于或等于1。如果在应用边界之前校正因子的计算是以分贝为单位进行的,那么边界的值当然会不同。
[0116]
为输入音频信号的每个片段计算校正因子,这意味着校正因子随着输入音频内容的频谱特性的演变而永久变化。
[0117]
图7示出了根据表示不受振动伪迹影响的音频内容的掩蔽频率能量的指示符而确定的校正因子随时间演变的示例。音频内容在此是2009年发行的电子流行音乐的热门歌曲的摘录。如同在图4的示例中,这段音乐在高频31中具有高声级。因此,该指示符较高,并且由此校正因子较低。校正因子几乎总是小于1,并且大多在0.5至0.8之间振荡。
[0118]
图8示出了根据表示易于受振动伪迹影响的音频内容的掩蔽频率能量的指示符而确定的校正因子随时间演变的示例。音频内容在此是其中伪迹是可听的一段古典音乐的摘录。如同在图5的示例中,这段音乐在高频31中具有低声级。因此,这个指示符较低,而校正因子由此较高,校正因子几乎总是大于1并且主要在1至1.2之间振荡。
[0119]
第一声级阈值
[0120]
校正因子用于校正独立于输入音频信号内容的第一声级阈值。多个频带中的每一个频带的第一声级阈值的预定集合是可用的。第一声级阈值是硬件相关的,也就是说,它们取决于装置并且独立于任何音频内容。如上已经解释那样,不管音频内容如何,当播放特定振动频率时,通常会出现诸如振动、失真或蜂鸣的伪迹。伪迹可能存在于与振动频率非常不同的频率下。
[0121]
如图3和图4所示,以振动频率(在此为880hz)播放纯音生成了诸如失真的伪迹。除了对应于880hz下的基频的峰值36之外,频谱还示出了尤其是对于高频31,谐波37和其他伪迹出现,这是由正在由装置播放的振动频率下的声音所引起的振动和其他失真所导致的。伪迹的出现还取决于正在在给定设备的振动频率下播放的声音的响度。响度越高,伪迹越强。
[0122]
每个频带的第一声级阈值指示可以由装置播放而没有明显的伪迹(如振动)的该频带的最高声级。与频带相关联的预定第一声级阈值对应于处于激励频率的频带分量的声级,所述激励频率对应于当利用处于激励频率的所述频带分量激励时不生成由音频渲染设备引起的声音的所估计的振动声级的所述频带。
[0123]
第一声级阈值可以通过自动校准过程或手动校准过程(手动调谐)来确定。对于多个频率中的每一个,由音频渲染设备播放纯音(正弦波)。对于手动调谐,操作者收听渲染的音频,并通过改变声级来确定低于其振动和失真是不可听的相对应的第一声级阈值。操作者还可以收听一些有问题的内容,并且可以利用频谱分析仪标识每个听到的振动的有问题的频率。通过在例如使用均衡器的情况下来改变所述有问题的频率的声级,可以确定低于其振动和失真是不可听的第一声级阈值。
[0124]
在自动校准过程中,激励音频信号在装置的扬声器上播放,并且所得到的声音由麦克风记录。激励音频信号包括旨在揭示装置的频率相关行为的刺激。典型地,激励音频信号包括包含多个激励频率下的并且具有变化的声级的频带分量的一系列刺激。更具体地说,刺激是多个激励频率下的孤立的纯正弦声音(即音调)。该系列刺激允许标识每个激励频率的设备的振动。因此,激励音频信号旨在标识在其上振动出现的频率和声级。刺激可以在激励音频信号内以各种方式布置。例如,可以选择扫描音调,即频率的线性变化(例如在
10hz至20khz之间)的音调。
[0125]
可以使用具有不同声级的一系列固定频率音调。激励音频信号可以包括具有时变声级的多个时间隔离的频带分量。
[0126]
必须进行关于要测试的激励频率的选择。例如,可以选择对应于常见音符的频率。所测试的范围可以通常在50hz至20hz之间扩展。
[0127]
当播放激励音频信号时由音频渲染设备渲染的声音被记录,并且表示掩蔽频率能量的指示符由此针对每个激励频率被构建、随着刺激的声级而变化。可以如上所解释那样构建指示符。在图9中,曲线50示出了作为激励音频信号的声级的函数的这种指示符的演变的示例。为了便于演示,已经以几秒的平滑常数将指示符的值平滑化。指示符随着激励音频信号的声级而增加,并且振动需要一定的声级才出现。
[0128]
然后将该指示符与校准阈值进行比较,该校准阈值对应于没有振动发生时该指示符的平均值(具有余量)。校准阈值的值由图9中的线51表示。在所描述的示例中,校准阈值是-85db(该值当然取决于计算指示符的方式)。在激励音频信号的声级较低,即低于约-20db的情况下,指示符的值低于-85db的校准阈值,这意味着没有明显的振动发生。在激励音频信号的声级较高的情况下,即高于约-20db时,指示符的值高于-85db的校准阈值,这意味着明显的振动开始出现。指示符的值的曲线50与校准阈值的线51相交的点52给出了激励频率的第一声级阈值的值,在所示的示例中为-20db。通过对每个激励频率进行相同的处理,初步的第一阈值可以与每个激励频率相关联。
[0129]
图10示出了针对对应于频率窗口的频率的多个激励频率而确定的并且是由校准过程产生的一组第一声级阈值的示例。曲线55在700hz以下和1700hz以上基本平坦,其中第一声级阈值的值为0db,并且包括700hz至1700hz之间的负峰值56,其中第一声级阈值的值显著低于零,甚至变为低于-17db。这指示被测试的设备对粗略地包括在700hz至1700hz之间的频率是敏感的,并且因此对这些频率内的声级可能会引起振动的该内容是敏感的。相反,对于低于700hz且高于1700hz的频率,被测试的设备将不会经历可听振动。
[0130]
第二声级阈值
[0131]
校正因子用于校正第一声级阈值,以获得第二声级阈值。作为第一声级阈值,第二声级阈值限定了可以被播放而没有振动或伪迹的每个频带的最高声级,但是这一次还通过考虑输入音频信号的内容。第一声级阈值独立于输入音频信号的内容,但是校正因子取决于输入音频信号。由校正产生的第二声级阈值也通过校正因子取决于输入音频信号,并且通过第一声级阈值而与硬件相关。
[0132]
通过利用校正因子修改(步骤s17)与所述频带相关联的第一声级阈值,为每个频带确定(步骤s20)第二声级阈值。校正因子被应用于第一声级阈值,例如通过将第一声级阈值乘以校正因子(在线性方法中):
[0133]
second threshold(n,k,c)=factor(n)
×
first threshold(k,c)
[0134]
其中n是缓冲器索引,k是频带索引,以及c是声道索引。
[0135]
校正因子也可以作为指数应用于第一声级阈值:
[0136]
second threshold(n,k,c)=first threshold(k,c)
factor(n)
[0137]
优选地,对于用于确定表示掩蔽频率能量的指示符的范围内的频率(例如,高于频率阈值的掩蔽频率,通常高于6khz、8khz或10khz),校正因子被设置为1,并且第二声级阈值
等于第一声级阈值。实际上,优选的是不通过对用于限定校正因子的非常频率分量应用校正因子来引入偏差。
[0138]
第二声级阈值对应于最高声级,对于该最高声级,由于振动引起的伪迹是不可听的,因为:
[0139]-振动引起的声音被音频内容掩盖,或
[0140]-没有发生振动。
[0141]
因为第一声级阈值的值可以用于掩蔽频率,所以可以只为低于频率阈值(例如,8khz或10khz)的频率确定第二声级阈值。
[0142]
比较
[0143]
在比较步骤中,将每个频带分量的声级与第二声级阈值进行比较(步骤s30),并由此确定增益。优选地,对每个声道c独立地实行比较。频带分量的声级可以是考虑了装置的设备频率响应的音频输出s
out
的估计的声级、或者归一化的声级、或者频带分量的原始声级。
[0144]
增益可以被确定为第二声级阈值和频带分量的声级之间的比率,并且例如:
[0145][0146]
其中n是缓冲器索引、f是频率、以及c是声道索引。所确定的增益可以被重新分组为增益向量。
[0147]
修正
[0148]
一旦已经为每个频带分量确定了增益,就执行校正,其中将增益应用于频带分量(步骤s40)。存在几种可能的方法来应用校正。通常通过频率掩蔽,增益向量可以直接应用于每个频带分量的声级。也可以应用峰值滤波器(在时间或频率上)。
[0149]
为了改善校正的结果,并且特别是为了减少处理伪迹的影响,优选的是对将要应用的减少增益进行后处理。对于每个声道,确定输入音频信号的频带分量的局部最小值。两个连续局部最小值之间的频带(例如频率窗口)被分组为频率分组bi。可以基于每个频带的中心频率来进行对频带的分组。在图11中,示出了第一(即,较低频率的)六个分组b1、b2、b3、b4、b5、b6,但是存在其他较高频率的分组bi,但是它们彼此太靠近而不能被清楚地辨认。六个分组b1、b2、b3、b4、b5、b6被限定在输入音频信号的频谱60的局部最小值之间。例如,五个频率窗口被分组到第五分组b5中。它们通过光谱60上的五个小圆圈来描绘。图11还示出了每个频带的第二声级阈值62。图11还示出了由第二声级阈值和每个频带的频带分量的声级之间的差导致的、每个频带的降低增益63(虚线)的值,即频谱60的值。
[0150]
然后,对于每个分组bi,在与分组bi的频带相关联的降低增益当中确定最低的相对应的降低增益。然后,这个最低降低增益与分组bi的所有频带相关联。
[0151][0152]
其中n是缓冲器索引,bi是频带的分组,以及c是声道。
[0153]
在图11的示例中,第五分组b5的五个频率窗口分别与0、-10、-8、0和0的降低增益相关联。实际上,只有两个频率窗口具有高于第二声级阈值的幅值,并且因此与非零降低增益相关联。结果,第五分组b5的五个频率窗口现在与-10db的公共降低增益相关联。
[0154]
可选地,可以通过使用潜在地具有不对称行为的递归、中值或均值滤波器在每个频带处进行滤波来对降低增益进行平滑化。例如,可以在应用之前平滑化频率掩蔽,以避免增益泵浦和/或失真效应。可以使用一阶低通滤波器、具有非常小的或零攻击,并且释放时间的范围例如从100ms至300ms。滤波涉及当前缓冲器的降低增益和前一缓冲器的降低增益。例如,低通滤波器可以是:
[0155]
gain(n,k,c)=(1-α)*gain(n-1,k,c)+α*gain
theoritical
(n,k,c)
[0156]
其中,n是缓冲器索引,k是频率窗口索引,c是声道索引,α是限定释放的调节参数,以及gain
theoretical
是在不进行平滑化的情况下将获得的降低增益。
[0157]
一旦将降低增益已经应用于频带分量的声级,就可以将不同的经校正的频带分量转换(步骤s50)成输出音频信号,例如在使用fft从输入音频信号中提取多个频带分量的情况下通过使用逆fft转换到时域中。输出音频信号然后由音频渲染设备渲染(步骤s60):声音由装置播放。
[0158]
如果所接收的输入音频信号是多声道输入音频信号,多声道输入音频信号的每个声道被分配给相应的音频渲染设备,诸如扬声器,则可以采用各种途径。整个方法可以为每个声道独立地复制,每个声道具有其自己的音频输入信号、设备频率响应和第一声级阈值。然后,关联到所述声道的音频渲染设备播放与所述声道相关联的结果输出音频信号。
[0159]
也可以在声道之间仅部分复制多声道输入音频信号的处理。这对于实施空间效果(诸如3d空间化效果(跨耳或双耳效果))特别有用。例如,可以对几个声道,通常是右声道和左声道应用相同的校正。为此,选择声道间的最低降低增益。还可以首先确定每个声道的初步降低增益,并且然后通过所述声道的初步降低增益和各种声道的初步降低增益当中的最小初步降低增益之间的加权平均来确定所述声道的每个所提取的频带的降低增益。加权可以由例如包含在0和1之间的控制参数来控制,以调节不同声道被组合到什么程度。
[0160]
可以为同一输入音频信号确定表示掩蔽频率能量的多个指示符。可以使用不同的频率阈值,通常针对每个指示符使用不同的频率阈值。更具体地,可以在输入音频信号的频谱内限定几个子范围,并且可以根据不同频率子范围的频带确定表示掩蔽频率能量的不同指示符。输入音频信号的频率范围可以根据限定第一子范围和第二子范围的不同分隔模式被划分为子范围,第二子范围由频率阈值限定为下边界。第一子范围确定表示掩蔽频率能量的指示符与其相关联的频带,并且第二子范围确定根据其确定表示掩蔽频率能量的所述指示符的频带。第一子范围涵括具有低于第二子范围的那些频带的频率。当激励频率引起多个频率子范围下的振动,或者两个激励频率引起例如两个不同频率子范围下的振动时,这是特别有用的。频率范围的划分不必是全部的,并且一些频带可以不是第一子范围或第二子范围的一部分。而且,子范围不一定是连续的。例如,第一子范围可以从200hz扩展到600hz,以及从1000hz扩展到4000hz。
[0161]
作为示例,第一分割模式可以包含基于8khz下的第一频率阈值,将0至20khz的频率范围划分为第一子范围0至8khz和第二子范围8khz至20khz。表示掩蔽频率能量的第一指示符是根据第二子范围8khz至20khz内(即,高于处于8khz的第一频率阈值)的频带确定的,并且与第一子范围0至8khz内的频带相关联。第二分割模式可以包括将0至20khz的频率范围划分为8khz至12k hz的第一子范围和12khz至20khz的第二子范围。所选择的第一子范围是可能的第一子范围(0至12khz)的一部分。表示掩蔽频率能量的第二指示符根据第二子范
围12khz至20khz内(即,高于处于12khz的第二频率阈值)的频带确定,并且与第一子范围8khz至12k hz内的频带相关联。
[0162]
分割模式是预先确定的,例如基于在校准过程期间的扬声器的先前测量的行为。根据表示与所述频带相关联的掩蔽频率能量的多个指示符中的至少一个来确定与所述频带相关联的校正因子。
[0163]
一些指示符可能无法使用。优选地,根据表示掩蔽频率能量的每个指示符来确定校正因子,从而产生与所述频率子范围的频带相关联的多个校正因子。
[0164]
在上面的示例中,在两个第一子范围之间没有重叠,并且因此每个频带仅与表示掩蔽频率能量的一个指示符相关联,即使它对于子范围0至8khz内的频带和子范围8khz至12khz内的频带不是相同的指示符。结果,当根据表示掩蔽频率能量的每个指示符确定校正因子时,第一校正因子与子范围0至8khz内的频带相关联,并且第二校正因子与子范围8khz至12khz内的频带相关联。
[0165]
与频带相关联的校正因子用于确定该频带的降低增益。如果通过使用校正因子来降低激励频带分量并且如果这个频带在另一指示符的第二频率子范围内(其确定了根据其确定所述另一指示符的频带),则必须在应用激励频带的潜在降低增益之后计算这个另一指示符。使用前面的示例,其中第一指示符根据8khz至20khz之间的频带确定,并且第二指示符根据12khz至20khz之间的频带确定并且用于8khz至12khz之间的频带。在基于8khz至20khz之间的频带计算第一指示符之前,首先计算第二降低增益并将其应用于8khz至12khz之间的所有频带。
[0166]
分割模式也可能导致重叠的子范围,从而导致频带与几个指示符相关联。例如,除了以上示例中的第一和第二分割模式之外,第三分割模式可以包括基于处于10khz的第三频率阈值将频率范围划分为第一子范围0至9khz和第二子范围10khz至20khz。表示掩蔽频率能量的第三指示符可以根据第二子范围10khz至20khz内(即高于处于10khz的第三频率阈值)的频带而确定,并且与第一子范围0至9khz内的频带相关联。结果,0至8khz之间的频带与第一指示符和第三指示符相关联,8khz至9khz之间的频带与第二指示符和第三指示符相关联,并且9khz至12khz之间的频带与第二指示符相关联。可以通过选择用于确定校正因子的指示符中的一个确定用于与几个指示符相关联的频带的仅一个校正因子。例如,用于索引k的频带的校正因子可以由以下公式确定:
[0167]
factor(n,k)=a*max(indic1(n,k),indic2(n,k))+b
[0168]
其中,indic1(n,k)和indic2(n,k)是表示与索引k的频带相关联的掩蔽频率能量的两个指示符。
[0169]
还可以确定用于表示掩蔽频率能量的每个指示符的校正因子,并且然后选择它们中的一个来计算第二声学阈值。按照上面的示例,第三校正因子被确定并与子范围0至9khz内的频带相关联。结果,0至8khz之间的频带与第一校正因子和第三校正因子相关联,8khz至9khz之间的频带与第二校正因子和第三校正因子相关联,以及9khz至12khz之间的频带与第二校正因子相关联。应当注意的是,对于高于12khz的频带,校正因子被视为等于1,因此不需要计算。第一声级阈值将用于确定降低增益。
[0170]
只有一个第二声级阈值将用于确定应用于频带的降低增益。可以预先确定将使用表示掩蔽频率能量的哪个指示符,例如基于指示符的相应值。否则,在与所述频带相关联的
多个校正因子当中选择校正因子。优选地,预定的多个校正因子当中的所选择的校正因子被选择用于产生将通过使用多个校正因子确定的第二声级阈值当中的最低第二声级阈值。在上面的示例中,对于低于8khz的给定频带,如果第一校正因子导致-10db的第二声级阈值,并且第三校正因子导致-20db的第二声级阈值,则第三校正因子将是所选择的校正因子,并且第二声级阈值将是-20db。通常,对校正因子的值进行选择。
[0171]
虽然已经针对某些优选实施例描述了本发明,但是显然本发明决不局限于此,并且本发明包括所描述的装置的所有技术等同物以及它们的组合。特别地,对于本领域技术人员来说显而易见的是,在不脱离所附权利要求限定的本发明的范围的情况下,可以进行各种变化和修改。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1