用于利用谐波锁定修改音频信号的装置和方法

文档序号:2832758阅读:299来源:国知局
专利名称:用于利用谐波锁定修改音频信号的装置和方法
技术领域
根据本发明的实施方式涉及音频处理,且具体地,涉及用于修改音频信号的装置和方法。
背景技术
数字信号处理技术能解决极值信号处理需求以将预先记录的例如取自数据库的音频信号匹配成新的音乐环境,对此种技术的需求在逐渐增加。为达成此项目的,需要调适高阶语义信号的特性,诸如音高、音乐音调及音阶模式。所有这些操作的共同之处在于其在针对实质上改变原始音频材料的音乐性质,同时仍尽可能良好地保留主观声音质量。换言之,这些编辑有力地改变了音频材料的音乐内容,但尽管如此,仍需保留处理后的音频样本的自然性并由此来維持可靠性。这理想上要求能广义应用至不同类别信号(包括复曲调混 合音乐内容)的信号处理方法。目前,已知有多种用于修改音频信号的概念。这些概念部分基于声码器kvocoderノ。例如,在“S. Disch and B. Edler, "An amplitude-and frequency modulationvocoder for audio signal processing, Proc. of the Int. Conf on Digital AudioEffects (DAFx),2008”、“S. Disch and B.Edler, "Multiband perceptual modulationanalysis, processing and Synthesis of audio signals, ^Proc. of the IEEE-ICASSP,2009” 或“S. Disch and B. Edler, 〃An iterative segmentation algorithm foraudio signal spectra depending on estimated local centers of gravity, ^12thInternational Conference on Digital Audio Effects (DAFx-09),2009” 中,已介绍了调制声码器(MODVOC)的概念,且已指出其对复曲调音乐内容执行有意义的选择性转调(transposition)的一般能力。这使得针对改变预先记录的PCM音乐样本的音调模式的应用变得可能(例如,參见 “S. Disch and B. Edler, ^Multiband perceptual modulationanalysis, processing and Syntnesis of audio signals, 〃Proc. oi the IEEE-丄しASSP,2009”)。也可购买可处理这种复曲调操作工作的第一市售软件(由西蒙尼公司(Celemony)出品的旋律聆(Melodyne)编辑器)。该软件实现了已有品牌且利用术语“直接音符存取(DNA)”上市的ー项技术。后来已公开了专利申请(由P. Neubacker于2009年9月提交的“用于复曲调声音记录的听觉对象取向分析和音符对象取向处理的方法”的第EP2099024号),推定其涵盖并由此公开了 DNA的必要功能。独立于用以修改音频信号的方法,其期望获得具有高感知质量的音频信号。

发明内容
本发明的目的是提供一种用于修改音频信号的改进型概念,其允许提高修改后的音频信号的感知质量。该目的由根据权利要求I所述的装置、根据权利要求14所述的方法或根据权利要求15所述的计算机程序来解決。本发明的实施方式提供了一种用于修改音频信号的装置,该装置包括滤波器组处理器、基音(fundamental)确定器、泛音(overtone)确定器、信号处理器和合成器。滤波器组处理器被配置为基于音频信号生成多个带通信号。此外,基音确定器被配置为选择多个带通信号中的ー个带通信号来获得基音带通信号。泛音确定器被配置为识别多个带通信号中满足有关所选基音带通信号的泛音标准的ー个带通信号来获得与所选基音带通信号相关联的泛音带通信号。此外,信号处理器被配置为基于预定修改目标来修改所选基音带通信号。另外,信号处理器被配置为根据所选基音带通信号的修改来修改与所选基音带通信号相关联的所识别的泛音带通信号。此外,合成器被配置为合成多个带通信号来获得修改后的音频信号。通过识别基音频率的泛音和以对应基音的相同方式修改泛音,可避免基音及其泛音的不同修改,使得相比原始音频信号,可更准确地保留修改后的音频信号的音质。以此方
式,修改后的音频信号的感知质量可被显著改善。例如,若期望选择性音高转调(例如,将给定音乐信号的曲调模式从C大调改成C小调),则所识别的泛音带通信号的修改与基音带通信号的修改相关。相比之下,与基音带通信号不同,已知方法修改了带通信号的表示泛音的频率区。換言之,通过使用所述概念,所识别的泛音带通信号被锁定为基音带通信号。在本发明的一些实施方式中,通过比较基音带通信号与多个带通信号中的带通信号的频率,通过比较基音带通信号与多个带通信号中的带通信号的能量含量和/或通过评估基音带通信号的时间包络与多个带通信号中的带通信号的时间包络的相关性,可识别泛音带通信号。以此方式,可定义ー项或多项泛音标准来最小化错误泛音的识别。根据本发明的一些实施方式与基音带通信号的迭代确定和从多个带通信号中对泛音带通信号的识别有夫。已选择的基音带通信号和已识别的泛音带通信号可从搜寻空间去除,或者換言之,可不考虑另一基音带通信号或另ー泛音带通信号的确定。以此方式,该多个带通信号的各个带通信号可被选用为基音带通信号(且由此可独立于其他基音带通信号而被修改)或泛音带通信号(且由此可根据相关联的所选基音带通信号来修改)。本发明的另ー实施方式提供了一种用于修改音频信号的装置,该装置包括包络形状确定器、滤波器组处理器、信号处理器、合成器和包络整形器。包络形状确定器被配置为基于表示时域输入音频信号的频域音频信号来确定包络形状系数。此外,滤波器组处理器被配置为基于频域音频信号来生成次频带域中的多个带通信号。信号处理器被配置为基于预定修改目标来修改多个次频带域带通信号中的一个次频带域带通信号。此外,合成器被配置为合成多个次频带域带通信号中的至少ー个子集来获得时域音频信号。另外,包络整形器被配置为基于包络形状系数来整形时域音频信号的包络,基于包络形状系数来整形包括修改后的次频带域带通信号的多个次频带域带通信号的包络,或者在次频带域带通信号被信号处理器修改之前,基于包络形状系数来整形多个次频带域带通信号的包络以获得整形音频信号。通过在多个次频带域带通信号中分离该频域音频信号之前确定该频域音频信号的包络形状系数,可保留有关该音频信号的频谱相干性(coherence)的信息,且可用于在ー个或多个次频带域带通信号的修改之后整形该时域音频信号的包络。以此方式,可更准确地保留该修改后的音频信号的频谱相干性,尽管只有ー些(或仅ー个)次频带域带通信号被修改或者次频带域带通信号被不同地修改,这可能干扰该音频信号的频谱相干性。以此方式,可显著改善修改后的音频信号的感知质量。根据本发明的一些实施方式与ー种被配置为基于第二预定修改目标来修改多个次频带域带通信号中的第二次频带域带通信号的信号处理器有夫。该预定修改目标与第二预定修改目标不同。尽管带通信号被不同地修改,但由于在带通信号的个别修改后进行包络整形,所以可更准确地保留修改后的音频信号的频谱相干性。


以下将參照附图详细描述根据本发明的实施方式,其中图I是用于修改音频信号的装置的框图;
图2是用于修改音频信号的装置的框图;图3是用于修改音频信号的方法的流程图;图4是使用谐波锁定的调制声码器的一部分的框图;图5是用于修改音频信号的方法的流程图;图6a、图6b、图6c、图6d是用于修改音频信号的装置的框图;图7是滤波器组处理器的框图;图8是包络整形器的框图;图9是具有包络整形的调制分析的示意性说明图;图10是具有包络整形的调制合成的示意性说明图;图11是用于修改音频信号的方法的流程图;图12是用于修改音频信号的装置的框图;图13是调制分析的示意性说明图;图14是调制分析的实现的示意性说明图;图15是调制合成的示意性说明图;图16是对调制声码器分量的选择性转调的示意性说明图;图17是用于生成评估处理选择性音高转调工作的调制声码器的主观质量的测试集合的程序的示意性说明图;图18是指示绝对MUSHRA分数和解决选择性音高转调的收听测试的95%置信区间的不意图;图19是指示有关调制声码器条件的差异MUSHRA分数和解决选择性音高转调的收听测试的95%置信区间的示意图;以及图20是指示有关DNA条件的差异MUSHRA分数和解决选择性音高转调的收听测试的95%置信区间的示意图。下文中,相同附图标记部分地用于具有相同或类似功能特性的物体及功能単元,且其关于一幅图的描述也将适用于其他图,以减少实施方式描述中的冗余。
具体实施例方式选择性频带修改也被称作选择性音高转调,其例如可由声码器或调制声码器来实现。
多频带调制分解(例如,參见“S.Disch and B. Edler, ^Multiband perceptualmodulation analysis, processing and Synthesis of auaio signals, Proc. oi theIEEE-ICASSP, 2009”)将音频信号分割成(分析)带通信号的分析适应性集合,其各自进ー步划分成正弦载波及其调幅(AM)和调频(FM)。带通滤波器的设置(set)可被计算为使得一方面,全频带频谱被无缝式覆盖,以及另一方面,例如,滤波器与总重心(COG)对准。此外,人类听觉可通过选择滤波器带宽以匹配感知音阶(例如,ERB音阶)来加以考虑(例如,參见“B. C. J. Moore and B. R. Giasoerg, A revision of zwicker s loudness moael ActaAcustica, vol. 82, pp. 335-345,1996”)。例如,局部COG与收听者因该频率区的频谱贡献而感知的平均频率相对应。此外,中心在局部COG位置的频带可与传统相位声码器的基于影响区的相位锁定相对应(例如,^jAL uJ. Laroche and M. Dolson, Improved phase vocoder timescale modification otaudio, 〃IEEE Transactions on Speech and Audio Processing, vol. 7, no. 3, pp. 323-332,1999,,或者“ C. Duxbury, M. Davies, and M. Sandler , "Improved timescaling of musicalaudio using phase locking at transients, 〃in 112th AES Convention, 2002,,)。带通信号包络表示型态和传统影响区相位锁定均保留带通信号的时间包络本质上或者在后述情况下,通过在合成期间确保局部频谱的相位相干性。至干与所估算的局部COG相对应的频率的正弦载波,AM和FM均分别被捕捉在分析带通信号的振幅包络和外差(heterodyne)相位中。专用合成方法允许从载波频率AM和FM呈现输出信号。信号分解成载波信号及其相关调制分量的可行实施1300的框图被示出在图13中。该图中示出了用于提取多频带分量(带通信号)中的一个的示意性信号流程。所有其他分量以类似方式获得。首先,宽带输入信号X被馈送至已指派信号来适应性产生输出信号的带通滤波器。其次,分析信号根据方程(I)由希尔伯特(Hilbert)变换导出。x{t) = W ( ) + jfi {X (t))/ j ')AM (调幅信号)由 的振幅包络给出,(t) = |£·( )|(2、而FM (调频信号)通过由具有角频率ω。的稳态正弦载波外差的该分析信号的相位导数来获得。载波频率被确定为局部COG的估值。因此,FM可被解释为在载波频率fc处的IF (瞬时频率)变化。i (t) = $ (t) * exp (-JWei)
_5] FM (t) = I-Il(Ht))⑴例如,在专属公开文献中描述了前端滤波器组的局部COG的估算和信号适应性设计(参见 “S. Disch and B. Edler, An iterative segmentation algorithm foraudio signal spectra depending on estimated local centers of gravity,^12thInternational Conference on Digital Audio Effects (DAFx-09),2009,,)。实际上,在离散时间系统中,可如图14所示对全部分量联合进行分量提取。该处理方案可支持实时计算。某个时间块的处理仅取决于之前块的参数。因此,无需前瞻来维持总处理延迟尽可能地低。该处理使用例如75%的分析块交叠和对各窗ロ信号块施加离散傅里叶变换(DFT)来以逐个块为基础计算。窗ロ可以是根据方程(4)的平顶窗ロ。这确保了用于利用50%交叠的后续调制合成而传送的中心的N/2样本不受分析窗ロ的裙裾影响。较高度的交叠可用于改善准确度,但以计算复杂度增大为代价。
权利要求
1.一种用于修改音频信号(102)的装置(100、200),包括 滤波器组处理器(110),其被配置为基于音频信号(102)来生成多个带通信号(112); 基音确定器(120),其被 配置为选择所述多个带通信号中的ー个带通信号(112)来获得基音带通信号(122); 泛音确定器(130),其被配置为识别所述多个带通信号中满足有关所选基音带通信号(122)的泛音标准的ー个带通信号(112)来获得与所述所选基音带通信号(122)相关联的泛音带通信号(132); 信号处理器(140),其被配置为基于预定修改目标来修改所述所选基音带通信号(122),且其被配置为根据所述所选基音带通信号(122)的修改来修改与所述所选基音带通信号(122)相关联的所识别的泛音带通信号(132);以及 合成器(150),其被配置为合成所述多个带通信号来获得修改后的音频信号(152)。
2.根据权利要求I所述的装置,其中,所述多个带通信号中的每个带通信号(112)包括载波频率,其中,所述泛音确定器(130)被配置为将所述多个带通信号中的ー个带通信号(112)的所述载波频率与所述所选基音带通信号(122)的所述载波频率相比较,其中,若在具有预定载波频率容差的情况下,所述带通(112)的所述载波频率是所述所选基音带通信号(122)的所述载波频率的倍数,则满足泛音标准。
3.根据权利要求I或2所述的装置,其中,所述泛音确定器(130)被配置为将所述多个带通信号中的ー个带通信号的能量含量与所述所选基音带通信号(122)的能量含量相比较,其中,若所述带通信号(112)的能量含量与所述所选基音带通信号(122)的能量含量的比在预定能量容差范围内,则满足泛音标准。
4.根据权利要求I至3中任一项所述的装置,其中,所述泛音确定器(130)被配置为计算指示所述多个带通信号中的ー个带通信号(112)的时间包络与所述所选基音带通信号(122)的时间包络的相关性的相关性值,其中,若所述相关性值高于预定相关性阈值,则满足泛音标准。
5.根据权利要求I至4中任一项所述的装置,其中,所述基音确定器(120)被配置为选择所述多个带通信号中的另ー带通信号(112)来获得另一基音带通信号(122),而不考虑全部已选基音带通信号(122 )和全部已识别泛音带通信号(132 )。
6.根据权利要求5所述的装置,其中,所述泛音确定器(130)被配置为识别所述多个带通信号中满足有关另一所选基音带通信号(122)的泛音标准的ー个带通信号(112)来获得与所述另一所选基音带通信号(122)相关联的泛音带通信号(132),而不考虑全部已识别泛音带通信号(132)。
7.根据权利要求5或6所述的装置,其中,所述信号处理器(140)被配置为基于另ー预定修改目标来修改所述另一所选基音带通信号(122)。
8.根据权利要求I至7中任一项所述的装置,其中,所述基音确定器(120)被配置为基于能量标准来选择所述带通信号(112)。
9.根据权利要求I至8中任一项所述的装置,其中,所述基音确定器(120)被配置为确定所述多个带通信号中的每个带通信号(112)的加权能量含量,以及被配置为选择包括最高加权能量含量的带通信号(112)来获得所述基音带通信号(122 )。
10.根据权利要求I至9中任一项所述的装置,包括载波频率确定器(260),其中,所述滤波器组处理器(110)包括滤波器组(212)和信号转换器(214),其中,所述滤波器组(212)被配置为基于所述音频信号(102)来生成带通信号,其中,所述信号转换器(214)被配置为将所生成的带通信号转换至次频带域来获得所述多个带通信号,其中,所述载波频率确定器(260)被配置为基于所述音频信号(102)来确定多个载波频率,其中,所述滤波器组处理器(110)的所述滤波器组(212)被配置为生成所述带通信号,使得每个带通信号包括含有所述多个载波频率中的不同载波频率的频率范围以获得与所述多个载波频率中的每个载波频率相关联的带通信号。
11.根据权利要求I至10中任一项所述的装置,其中,所述信号处理器(140)被配置为针对所述多个带通信号中的每个带通信号(112)生成调幅信号(AM)和调频信号(FM),其中,所述信号处理器(140)被配置为基于所述预定修改目标来修改所述所选基音带通信号(122)的调幅信号(AM)或调频信号(FM),以及其中,所述信号处理器(140)被配置为根据所述所选基音带通信号(122)的修改来修改与所述所选基音带通信号(122)相关联的所识别的泛音带通信号(132)的调幅信号(AM)或调频信号(FM)。
12.根据权利要求I至11中任一项所述的装置,其中,所述信号处理器(140)被配置为通过将所述所选基音带通信号(122)的载波频率与转调因子相乘或者通过将转调频率増加至所述所选基音带通信号(122)的所述载波频率来修改所述所选基音带通信号(122),其中,所述信号处理器(140)被配置为通过将所识别的泛音带通信号(132)的载波频率与具有10%容差的所述转调因子相乘或者通过将具有10%容差的所述转调频率的倍数増加至所识别的泛音带通信号(132)的所述载波频率来修改所识别的泛音带通信号(132)。
13.根据权利要求I至12中任一项所述的装置,包括包络形状确定器和包络整形器,其中,所述包络形状确定器被配置为基于所述音频信号(102)来确定包络形状系数,其中,所述音频信号(102)是表示时域输入音频信号的频域音频信号,其中,所述滤波器组处理器(110)被配置为基于所述频域音频信号来生成次频带域中的所述多个带通信号,其中,所述合成器被配置为合成所述多个带通信号中的至少ー个子集来获得表示时域音频信号的修改后的音频信号,其中,所述包络整形器被配置为基于所述包络形状系数来整形所述时域音频信号的包络,基于所述包络形状系数来整形包括修改后的次频带域带通信号的所述多个次频带域带通信号的包络,或者在次频带域带通信号被所述信号处理器修改之前,基于所述包络形状系数来整形所述多个次频带域带通信号的包络以获得整形音频信号。
14.一种用于修改音频信号的方法(300),包括 基于音频信号来生成(310)多个带通信号; 选择(320)所述多个带通信号中的ー个带通信号来获得基音带通信号; 识别(330)所述多个带通信号中满足有关所选基音带通信号的泛音标准的ー个带通信号来获得与所述所选基音带通信号相关联的泛音带通信号; 基于预定修改目标来修改(340)所述所选基音带通信号; 根据所述所选基音带通信号的修改来修改(350)与所述所选基音带通信号相关联的所识别的泛音带通信号;以及 合成(360)所述多个带通信号来获得修改后的音频信号。
15.ー种具有程序代码的计算机程序,当所述计算机程序在数字信号处理器、计算机或微控制器上运行时,所述程序代码用于执行根据权利要求14所述的方法。
全文摘要
一种用于修改音频信号的装置,包括滤波器组处理器、基音确定器、泛音确定器、信号处理器和合成器。滤波器组处理器基于音频信号生成多个带通信号,以及基音确定器选择多个带通信号中的一个带通信号来获得基音带通信号。此外,泛音确定器识别多个带通信号中满足有关所选基音带通信号的泛音标准的一个带通信号来获得与所选基音带通信号相关联的泛音带通信号。信号处理器基于预定修改目标来修改所选基音带通信号。此外,信号处理器根据所选基音带通信号的修改来修改与所选基音带通信号相关联的所识别的泛音带通信号。此外,合成器合成多个带通信号来获得修改后的音频信号。
文档编号G10H1/20GK102870153SQ201180021219
公开日2013年1月9日 申请日期2011年2月25日 优先权日2010年2月26日
发明者萨沙·迪施 申请人:弗兰霍菲尔运输应用研究公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1