用于选择声音算法的方法和装置的制作方法

文档序号:7750162阅读:147来源:国知局
专利名称:用于选择声音算法的方法和装置的制作方法
技术领域
本发明涉及按照权利要求1和28的前序部分的特征的、用于选择处理音频信号的声音算法的方法和装置。
现代的Hifi设备配备了不同的声音程序,这些程序允许将立体声的音频信号分配到多于两个的扬声器上或另外产生立体声。因此例如在音频信号被解码之后,所述音频信号被分解成5个单个的音频信道,并且通过所谓的“虚拟器”而被用于只经过两个扬声器的放音。此外还公开了特殊的“虚拟器”,其将音频信号转化以便特殊地通过耳机而放音。
为此,最熟悉的方法之一是所谓的“杜比定向逻辑(Dolby ProLogic)”方法,在电影资料中基本上采用这种方法以便能够影响声音的定位。因此通常将语音映射到中央信道上,而噪声只能来自后置扬声器。
此外有一整类被用于模拟建筑声学的方法。这类方法经常会遇到的名称是“室内的音乐厅”、“露天体育场”、“爵士乐”、“俱乐部”等等。在这些针对音乐信号而优化的方法中,只从中央扬声器中听到语音信号(歌曲)或只从后置扬声器中输出音乐信号都是不理想的,但这在使用“杜比定向逻辑”方法的情况下是可能的。
在杜比定向逻辑的继承方法、被称为杜比定向逻辑II的方法中,除了电影模式之外,为音乐规定了考虑所述区别的模式。
在EP 0 481 374 B1中公开了一种用于语音编码的方法。在此,进行语音窗的离散变换,以便得到系数的离散频谱。在大量的子带的每一个中,离散频谱的近似包络线被计算并且被用于每个子带的被定义的包络线的数字编码。在子带之内,每个被比例缩放的系数利用不同比特长度的量化器中的至少一个被换算成多个比特。对于每个语音窗,当一些比特大于或等于零时,通过计算比特的分配并依赖于对子带的功率密度评估和对语音窗的失真误差评估来确定每个子带所使用的量化器。
在EP 0 587 733 B1中公开了用于对代表一个或多个信号的输入采样值进行滤波的信号分析系统。该系统配备了用于对在时域信号采样值块中的输入采样值进行分类的输入缓冲工具。所述输入采样值是经分析窗加权过的采样值。此外,存在产生作为对所述时域信号采样值块的响应的频谱信息的分析工具;其中该频谱信息包括频谱系数,其基本上对应于被应用于时域信号采样值块的偶数次堆叠时域-混叠消除-变换。所述频谱系数基本上涉及修正离散余弦变换的系数或修正离散正弦变换的系数。所述分析工具包括用于产生被修正的采样值块的正向-预变换工具和用于产生频域变换系数的正向变换工具。
在EP 0 664 943 B1中公开了为了编码、传输或存储以及重新获得而对音频信号进行适应性处理的编码装置,其中噪声电平随着信号振幅电平而波动。存在一个处理设备,其这样对输入信号作出反应,使得其或者输出第一和第二信号或者输出第一和第二信号的和以及差。所述第一和第二信号对应于4×2音频信号矩阵的两个被矩阵编码的音频信号,其中该处理设备也产生控制信号,该控制信号表明是否输出第一和第二信号或第一和第二信号的和以及差。
在EP 0 519 055 B1中公开了一种解码器,该解码器由以下部分组成用于接收大量由传送信道格式化了的信息的接收工具,用于响应接收工具并依赖于每个传送信道而产生去格式化描述的去格式化工具,以及用于依赖于去格式化描述而产生输出信号的合成工具。在去格式化工具和合成工具之间布置了分配工具,其对去格式化工具产生响应并且产生一个或多个中间信号,其中通过两个或多个去格式化描述的信息组合产生至少一个中间信号。所述合成工具产生作为对每个中间信号的响应的各自的输出信号。
在EP 0 520 068 B1中公开了用于对两个或多个音频信道进行编码的编码器。该编码器具有用于产生子带信号的子带装置,用于产生一个或多个组合信号的混合装置,以及产生用于相应的组合信号的控制信息的工具。此外,所述编码器具有通过将比特分配给一个或多个组合信号而产生编码信息的编码装置。另外还存在用于将编码信息和控制信息组合成输出信号的格式化装置。
在EP 0 208 712 B1中公开了一种语音编码器。该语音编码器包含对到达的语音信号进行离散傅立叶变换以产生系数的离散变换频谱的傅立叶变换装置,用于修正变换频谱以产生标准化的、更平坦的频谱以及用于对被用来修正离散频谱的函数进行编码的标准化装置。此外,存在对至少一部分频谱进行编码的装置。所述标准化装置具有用于在系数的多个子带的每一个子带中定义离散频谱的近似包络线以及对系数的每个子带的已定义的包络线进行编码的装置(44),以及用于相对于系数的有关子带的已定义的包络线而对每个频谱系数进行比例放缩的装置。
但是所有已公开发明的缺点是,必须手动地设置声音算法的选择。如果例如经杜比定向逻辑II解码器处理当前所设置的电视频道的电视伴音,并且多次在音乐电视台和电影或新闻报道之间转换电视频道,则在每次改变时,必须手动地在各个处理音频数据的音频声音算法之间、例如在音乐模式和电影模式之间转换。
本发明的任务是给出一种为音频信号单独地分配声音算法的方法和装置。
本发明通过权利要求1和28的特征来解决所述任务。本发明的优选扩展方案和改进方案由从属权利要求、包括附图
在内的附属的描述给出。
本发明通过以下方式来解决所述任务,即识别音频信号的类型,并且根据音频信号的类型识别来分配声音算法的自动设置。
为识别音频信号的类型,定义并分析不同的量度。
作为第一个量度,确定在音频信号中当前存在哪种动态。如下进行动态的确定将左和右音频信道的采样值进行平方,相加并且通过低通滤波器来滤波由此产生的信号。所述低通滤波器优选地具有约3Hz的截止频率。经过一个已定义的持续时间、优选地例如为5秒,在这个时间帧内测定音频信号的最小值和最大值。于是当前存在的分贝形式的动态范围对应于两个值的对数差的10倍。
在本发明的另一个优选扩展方案中,分别计算右和左音频信道的动态。在进一步观察时,只继续使用具有较大动态范围的音频信道。
也存在以下可能性,即取绝对值以代替取平方,以及在短的持续时间内、例如经过三分之一秒的持续时间实现电平的确定,然后在这些电平值中获得用于动态计算的最大值和最小值来代替低通滤波和紧接着的最大值寻找。
因为例如在语音停顿中信号电平大大下降,所以在电影资料中存在大的电平跳越并因此具有大的动态范围。但是通常音乐信号只有大约20dB或更小的动态范围。通过将计算出的动态范围和阈值进行比较,可以用惊人的简单方法获得一种相应的量度。如果动态范围大于阈值,那么所述量度被置为值-1(电影模式),否则为值1(音乐模式)。此外,确定一种滑动的量度来代替这种严格的划分。为此,通过一个函数将动态范围映射到值域[-1.0..1.0]上。为此,简单的函数能够从阈值中减去计算出来的动态范围,将结果除以阈值,然后再将该值限制在值域[-1.0..1.0]上。下面将该值称为M1。如果动态范围为0,那么M1计算出来为1,在对应于阈值的动态范围中,M1计算出来为0,这也可以被认为是中性的,以及在动态范围大于或等于阈值的两倍时,M1计算出来为-1.0。
为了避免在较长的信号停顿时这个量度起作用,此外假定一个例如位于最大值以下30dB的最低电平,所述的最大值出现在以前一定的时间间隔内、在优选的扩展方案中大约为5分钟之内。在此,使用在动态检测时发现的最大值作为比较电平。如果这个值位于最低电平之下,那么从动态范围计算出来的量度M1被置为-1.0。对于滑动的音量调节,可以考虑从最大电平以下40dB到最大电平以下20dB的值域。当值在最大电平以下大于40dB时,于是M1被置为-1,当值在最大电平以下小于20dB时,M1保持不变,当值在此之间时,相应地进行在这两个边界情况之间的线性插值。
考虑将音频信号的周期性、此外也被称为M2作为另一个量度。在标准文献中已公开了许多用于确定音频信号的周期性的方法。一个非常简单的方法在于,将左和右信道的采样值取平方,相加并且通过截止频率约为50Hz的低通滤波器来滤波由此所得的信号。然后在该信号中找出最大值。如果确定电平的最大值以对于音乐来说典型的在1/3秒到1整秒之间的时间间隔周期性地出现,那么所述量度M2被置为1,否则为-1。
根据音乐信号的频谱分布本身也可以识别音乐信号。因为例如管乐器和弦乐器具有非常有特点的可容易地被检测的频谱。如果检测到这种频谱分布,那么将量度M3置为1,否则置为0。在此,不使用值-1,因为频谱的不存在并不是自动地表示没有音乐信号。因此这个量度只能导致在音乐检测方向上的确定。
如果乐器被多声部地演奏,也就是说可以同时听到多于一个的声音,那么即使未知的乐器也能在频谱上被识别出。在这种情况下,在不同的频率时将多次存在对于乐器来说典型的频谱。在此,不可能混淆语音,因为不同说话人的频谱是有区别的,并且一个人在某一时刻只能以一个音调高度说话。在检测这种频谱状况时,将量度M4置为值1,否则如前面为量度M3所描述的将M4置为0。通过比较这些声音的频率还可以得出更精确的结论。如果涉及音乐,那么这些声音以大概率而相互有音乐的关联,因此只需通过相当于2的12次方根的整数次幂的因子来区分。如果检测这种声音,那么也可以根据旋律的识别、也就是根据对这个乐器在时间上的音调高低的观察来检测音乐。
因为在音乐信号中通常多个乐器在演奏,其频率特性这样协调这些乐器,使得这些乐器互相补充并且不互相遮盖,所以可以在音乐信号中观察到相对平坦的频率响应。同样地,频率响应的平坦性被用作为音乐存在的量度。为此,在不同的频带中、尤其是在从20Hz到200Hz、从200Hz到2kHz以及从2kHz到20kHz的频带中,计算输入信号的电平、尤其是左和右音频信道的和。从每个这种电平中计算出最大电平,并且用频带数量乘上这个值。从中减去各个频带的电平。在此得出一个大值,因此这表明功率谱集中在少数频带上,因此很有可能不涉及音乐。为了找到这个此外被称为M5的量度,将从最大值到最小值的值域线性地映射到值域[-1.0..1.0]上。在这个范围之外的值被映射到界限值上。
可以从具有一定的最低电平的频谱最大值的数量中推导出相似的量度。在存在许多乐器的情况下,也存在许多这种最大值。可以直接地将存在的最大值的数量线性地映射到值域[-1.0..1.0]上以确定另一个量度M6。
除了分析声音资料之外,信号源也允许对声音资料作出推断。因此,例如在播放广播节目或CD时,涉及音乐信号的概率非常高。反之,在播放以AC3编码的DVD时,更确切地说将涉及电影。因此为每个信号源分配了一个特殊的量度,那么可以例如为信号源CD分配值0.5以及为DVD分配值-0.3。这个量度被称为M7。
从单个的量度M1至M7中计算出总量度MG。为此,所有的量度M1至M7用专门的因子来加权和相加。因为M1有非常重要的意义,所以与其他的量度M2至M7相比,用一个最大的因子来评价它。在本发明的另一描述中,量度M1用因子1,M2用因子0.5,M3、M4、M5、M6和M7分别只用因子0.2来加权。于是,小于0的总量度MG值对应于没有音乐的信号,该信号应以电影模式来播放,以及大于0的值归类为音乐信号,为此应使用音乐模式。所述值负的或正的越厉害,分类越明确。
为了避免在边界情况下、也就是在MG的值接近0时经常进行转换,使用滞后。这意味着当MG超过一个大于0的值(例如0.3)时,才进行从电影模式到音乐模式的转换。当超过一个小于0的值(例如-0.3)时才进行从音乐模式到电影模式的转换。
利用通过用户可调节的延迟时间以及惯性实现在电影模式和音乐模式之间的转换。在相应于延迟时间的持续时间内,信号类型必须是不变的,否则不改变放音模式。于是在这个延迟时间之后,用相应于惯性的时间常数实现模式之间的切换,由此可以避免在其他情况下也许可听到的信号跳越,并且可以不显眼地完成从一个模式到另一模式的过渡。在正常情况下,这些时间常数大约为10秒。在时间常数很小的情况下,尝试在信号停顿期间实现转换。在有些情况下,例如直接在转换电视机的频道并播放电视机的音频信号之后,应进一步减小由用户预先选择的延迟时间以及惯性的时间常数。当在电视机中使用了相应的音频处理或者电视机向其他相连的设备发送相应的消息时,可以简单地确定这种情况。也可以从突然出现的信号停顿识别出这种转换过程,在转换过程中,所述的信号停顿在设备内部总是具有对该设备来说典型的持续时间。
此外,可以依据图像信号检测频道转换,因为通常在转换时丧失了同步。因此从同步损失也可以推断出频道转换。在检测频道转换时,就将延迟时间置为0,并且把时间常数减小到例如3秒的时间。在接着的第一次确定了声音资料之后,以及在经过相应的用于切换到所期望的模式上的长时间之后,于是可以重新转换到正常的延迟时间和大的时间常数。
延迟时间和惯性也依赖于MG的绝对值而被改变。很大的绝对值对应于非常明确的分类,因此在这些情况下可以更早地实现转换。
为播放声音信号,可以使用不同的声音程序。例如可以向后置扬声器输出左和右输入信号之间的差值信号并且不影响前面的信道。还可以附加地为两个信道专门地预先处理该差值信号,为此通常使用全通滤波器。因此实现后置扬声器的去相关。在为音乐信号的情况下,可以可选地使用通常被称为“回声”的声音程序。在这个程序中,除了所述差值信号之外,在所有的扬声器上还输出原始信号以及差值信号的回声部分。所有的这种适合音乐信号的声音程序的共同点是,尽最大可能保持立体声宽度,也就是在前置中央扬声器上不输出信号或只输出少量的信号,以及不产生有效的转换,也就是当输入信道的差值信号与它们的和相比较大时,不降低前置信道的电平。
在其他不同于音乐的信号情况下,使用例如杜比定向逻辑或相似的方法。在此如果与和信号相比,输入的差值信号采用大的电平,那么一方面降低前置信道的电平。如果差值信号很小,那么前置右和左信道的信号此外改道至前置中央信道以实现在扬声器处的中间定位。
代替5-扬声器-分布,还可以使用更多的扬声器,使得例如在3个后置扬声器上输出所述差值信号。
此外,根据一个具体的实施例来详细描述本发明。该实施例示出了一个本发明装置。
本发明装置V具有一个信号输入端E,一个信号源信息输入端Q以及一个信号输出端A。音频数据经所述输入端E被输入所述装置V。尤其立体声-音频信号、也就是音频数据以双信道方法被输入。如果以模拟的形式输入数据,那么在前接装置中实现音频信号的信道分离和数字化。然后将数字数据输入所述装置V。但是用以下方式扩展了装置V,即其可以处理例如AC3格式的多信道的音频数据。如果在使用滤波器组以代替FFT的情况下通过相应的模拟的变量来实现装置V8、V4、V5、V6和V7或放弃对这些特征的分析时,纯模拟实现也是可能的。
经输入端E输入装置V的音频信号被同时输入到各种不同的其他装置V1至V10。
所述装置V1至V7对输入端的音频信号作出评价,并且将该信号分别输入到另一个被用于映射到一个量度的装置VM1至VM6。在此,装置VM1被用于到量度1的映射,装置VM2被用于到量度2的映射,等等。
此外,装置V1被用于动态检测,装置V2被用于电平确定,装置V3被用于周期性检测,装置V4被用于尤其是乐器的频谱计算,装置V5被用于确定音频信号的频率响应的平坦性,装置V6被用于计算频谱中最大值的数量,装置V7被用于计算频谱中相似频谱结构的份额,装置V8被用于将时域的音频信号变换到频域,装置V9被用于音乐信号的处理,装置V10被用于其他信号的处理,装置V11被用于转换过程的检测以及装置V12被用于到一个因子的映射以控制转换速度。
用加权因子G1至G7来加权从装置MV1到MV7获得的量度。用这种方法获得的总量度通过装置V11和V12被再次加权,并且经滞后装置H而被输入。所述滞后装置H防止当总量度超过或未超过预先确定的值时,才进行从电影模式到音乐模式的转换或相反的转换。紧接着,总量度被输入到优选地用于限制在范围[-0.5..1.5]上的积分器I,然后被输入到用于限制在范围
上的装置B。
用来自装置V9和V10的音频信号来加权和相加所述的经积分器I和装置B输入的总量度。用这种方式来选择相应的音频处理模式。
参考符号列表A输出端(5-信道)B用于限制到范围
的装置G1,G2,G3,G4,G5,G6,G7加权因子H滞后装置I积分器VM1用于映射到量度1的装置VM2用于映射到量度2的装置VM3用于映射到量度3的装置VM4用于映射到量度4的装置VM5用于映射到量度5的装置VM6用于映射到量度6的装置VM7用于映射到量度7的装置V1用于动态检测的装置V2用于确定电平的装置V3用于周期性检测的装置V4用于计算乐器频谱的装置V5用于确定频率响应的平坦性的装置V6用于计算频谱中最大值的数量的装置V7用于计算频谱中相似频谱结构的份额的装置V8用于变换到频域的装置V9用于处理音乐信号的装置V10用于处理其他信号的装置V11用于检测转换过程的装置V12用于到一个因子的映射以便控制转换速度的装置
权利要求
1.用于选择处理音频信号的声音算法的方法,其特征在于分析音频信号并且基于所述分析来确定音频信号的类型,其中所述音频信号被分类为音乐信号或其他的信号,并且依赖于所述的分类而使用不同的声音算法以进一步处理并且此后输出所述音频信号。
2.如权利要求1所述的方法,其特征在于所述音频信号是立体声音频信号。
3.如权利要求1至3之一所述的方法,其特征在于所述音频信号由至少两个音频信道组成。
4.如权利要求1至3之一所述的方法,其特征在于在音乐信号的情况下,选择尽最大可能地或完全地保持立体声宽度的声音程序。
5.如权利要求1至3之一所述的方法,其特征在于在音乐信号的情况下,选择不降低前置信道的电平或只降低前置信道的少量电平的声音程序。
6.如权利要求1至3之一所述的方法,其特征在于在其他不同于音乐的信号情况下,选择以类似于杜比定向逻辑方法工作的声音程序。
7.如权利要求1至6之一所述的方法,其特征在于依赖于音频信号的分类,为音乐和电影资料自动地选择需设置的参数。
8.如权利要求7所述的方法,其特征在于进行前置中央信道到前置左和右信道的偏转,并且专门地实现偏转度。
9.如上述权利要求之一所述的方法,其特征在于为对音频信号进行分类,从音频信号和/或音频信号的信号源(M7)中确定不同的量度(M1至M6),对所确定的量度(M1至M7)进行不同的加权并且计算出总量度(MG),根据所述总量度对音频信号进行分类。
10.如权利要求9所述的方法,其特征在于为对音频信号进行分类,考虑将输入信号的动态范围和/或其电平作为第1个量度(M1)。
11.如权利要求9或10所述的方法,其特征在于为对音频信号进行分类,考虑将所述音频信号的周期性作为第2个量度(M2)。
12.如权利要求9至11之一所述的方法,其特征在于为对音频信号进行分类,考虑把存在音乐中典型的信号频谱来作为第3个量度(M3)。
13.如权利要求12所述的方法,其特征在于识别管乐器和弦乐器的典型的信号频谱。
14.如权利要求9至13之一所述的方法,其特征在于为对音频信号进行分类,考虑将音频信号的频率响应的平坦性作为第4个量度(M4)。
15.如权利要求9至14之一所述的方法,其特征在于为对音频信号进行分类,考虑将频谱中具有一定的最低电平的、需观察的最大值的数量作为第5个量度(M5)。
16.如权利要求9至15之一所述的方法,其特征在于为对音频信号进行分类,考虑将在频谱中在不同的频率时存在相似频谱结构作为第6个量度(M6)。
17.如权利要求9至16之一所述的方法,其特征在于为对音频信号进行分类,考虑将音频信号的信号源的类型作为第7个量度(M7)。
18.如权利要求17所述的方法,其特征在于所述音频信号的信号源有CD,DVD,数据文件,广播信号接收机,音频广播信号接收机,卫星广播信号接收机,有线广播信号接收机,电视发射台接收机。
19.如权利要求18所述的方法,其特征在于所述数据文件为MP3文件。
20.如权利要求1至19之一所述的方法,其特征在于通过单个量度(M1至M7)的加权地相加计算出用于所述音频信号的总量度(MG)。
21.如权利要求1至20之一所述的方法,其特征在于在分析所述总量度(MG)时,使用滞后,由此避免在轻微的波动时在阈值处的频繁转换。
22.如权利要求1至21之一所述的方法,其特征在于只有当所述音频信号的分类在可设置的持续时间内不变时,才进行到另一声音算法的转换。
23.如权利要求22所述的方法,其特征在于所述声音算法互相切换,并且切换的时间可以通过用户来设置。
24.如权利要求22或23之一所述的方法,其特征在于如果所述总量度(MG)提供了明确的分类,那么依赖于所述总量度(MG)降低确定所述音频信号的分类的持续时间以及降低用于从一种声音算法切换到另一声音算法的时间。
25.如权利要求22至24之一所述的方法,其特征在于识别所述源信号的转换过程,并且在这些情况下降低用于将所述音频信号分类的持续时间以及降低用于从一种声音算法切换到另一声音算法的时间。
26.如权利要求25所述的方法,其特征在于从突然出现的信号停顿识别出转换过程。
27.如权利要求25所述的方法,其特征在于从图像信号的同步损失识别出转换过程。
28.用于执行如上述权利要求之一或几个所述的方法的装置。
全文摘要
本发明涉及一种用于选择处理音频信号的声音算法的方法。分析所述音频信号并且基于所述的分析来确定所述音频信号的类型。所述音频信号被分类为音乐信号或其他的信号,并且依赖于所述的分类而使用不同的声音算法以便进一步处理以及此后输出所述音频信号。
文档编号H04S5/02GK1689372SQ02823779
公开日2005年10月26日 申请日期2002年9月30日 优先权日2001年9月29日
发明者D·舒尔茨 申请人:格伦迪希多媒体公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1