音频处理方法和音频处理装置的制作方法

文档序号:2820597阅读:149来源:国知局
专利名称:音频处理方法和音频处理装置的制作方法
技术领域
本发明涉及处理音频数据的方法和装置,尤其涉及在重现音频数据时能减小音频数据的噪声的技术。
背景技术
近年来,高压缩比的数字音频数据的编码已经历了认真的研究和开发,并且它的应用领域正在拓宽。特别是随着便携式音频重现设备的广泛使用,现在一般记录在诸如CD(压缩磁盘)盘上的线性PCM信号都被压缩并记录在诸如小型半导体存储器或小型磁盘之类的记录媒质上。同样,在充满信息的现代社会,数据压缩技术是绝对不可缺少的,并且希望通过压缩需要记录的数据来节省记录的容量,即使是采用大容量的记录媒介,诸如,HD(硬盘),CD-R,或DVD。这种压缩编码可以采用目前的多种技术来完成,这些技术包括根据人耳听觉的特性放映不必要的信号、量化位分配的优化以及赫夫曼(Huffman)编码。在该领域中,具有较高音频质量和较高压缩比的音频数据压缩技术每天都被作为重要的项目进行着研究。
在对所压缩数据的重现过程中,压缩比越高,量化误差就越大,其结果是,出现重现的音频数据超过音频数据的原始动态范围。例如,当以高压缩比对16比特PCM信号进行压缩并随后解压缩或展开时,在计算中会出现展开数据超过16比特的情况。在这种情况下,通常采用称之为剪辑的技术,由此将超过16比特的数据替换成以16比特表示的最大值。
以通常实践中所需的压缩比,很少会出现剪辑效果可在听觉上感觉到的情况。但是,以现在所需的高压缩比,由远大于以前的量化误差所引起的剪辑导致经常出现耳朵所讨厌的噪声。随着未来压缩比的进一步提高,这类噪声问题也会进一步增加。因此,我们认为仅仅在重现一边依靠设备来剪辑是不能充分满足对于这类问题的解决。以下是在分析剪辑和噪声之间关系中的实验数据。
图1示出了在剪辑数量和噪声存在或不存在之间的关系,这时音频数据在固定的压缩条件进行压缩并随后由重现装置展开并重现。这些是实验的结果,在实验中准备500,000采样×2通道作为声源。如图1所示,采样1至采样3是对来自大容量声源的音频数据进行压缩的实验数据,而采样4和采样5是对来自小容量声源的音频数据进行压缩的实验数据。关于剪辑的数量,可将九次连续的剪辑看成一次。在表中可以很明显地看到在重现采样1至采样3时会发生剪辑和噪声,而在重现采样4和采样5时就不会发生剪辑和噪声。该实验的结果表明,在同样的压缩条件下,声源的容量越大,剪辑和噪声就发生得越多。
图2显示了在剪辑的数量和有无噪声之间的关系,在试验中准备500,000采样×2通道作为声源,使之产生图1中使用采样1至采样3时所出现的剪辑,并且在不同的压缩条件下压缩音频数据,随后通过一再现装置进行展开并重现。关于剪辑的次数,九次连续的剪辑计为一次。压缩时的频带与压缩结束后的频带相比更窄,这表明数值越小,压缩比越高。采用这样的方式完成压缩可除去进行时间—频率转换的数据的高频分量。例如,可以将采样6的8KHz的频带理解成在除去了8KHz以上的高频分量之后0至8KHz的频带。
该表显示了,使用采样6至采样10都会产生剪辑,而且使用采样6至采样8会产生噪声,使用采样9和采样10不会产生噪声。因此,该实验结果表明,噪声的产生取决于压缩时的频带而不是剪辑的次数。
图3显示了当采用5KHz正弦波的声源时进行重现的频谱。该实验的结果表明,存在发生在1KHz至9KHz的噪声分量。这里要注意的是,在15KHz和大于15KHz处的噪声分量人耳基本上是听不到的。因此,可以认为在重现音频数据时9KHz附近不会出现音频,由5KHz正弦波引起的在9KHz处的噪声分量,作为人耳所讨厌的噪声被检测到。例如,在0到8KHz的频带上完成压缩的图2中使用采样6,在其它声音之后可以隐藏掉1KHz的噪声分量,但是9KHz的噪声分量却可以被人耳听到。本发明的发明者考虑到了,发生图2试验结果所示噪声的一个原因是无法通过除去音频数据的高频分量并在压缩时使频带变窄来隐藏其它声音的噪声分量。

发明内容
基于以上通过实验所获得的知识,发明者构思了一种新颖的压缩音频数据的方法,以这种方式可减少重现信号的噪声。因此,本发明的一个目的是提供能够解决上述讨论问题的处理音频数据的方法和装置。
根据本发明的较佳实施例,为解决上述问题并实现目的,提供了一种音频处理的方法,该方法包括输入音频数据,其中音量的幅值由数据值的幅值来表示;以及量化所输入的音频数据,其中在音量被减小到所述输入音频数据的预定等级之后或量化输入的音频数据之后,继续进行随后的处理。根据本较佳实施例的音频处理方法,通过在所述量化结束之前的阶段前降低音量的等级,可以减小所量化的音频数据在展开时以超过最大比特数的方式来解码的概率。可通过使数据值变小来完成对降低音量等级的处理。音频数据是指诸如乐声和声音之类的声音数据。
根据本发明的另一实施例,提供了一种音频处理装置,它包括输入音频数据的输入单元,其中音量的幅值由数据值的幅值来表示;对所输入的音频数据进行时间—频率转换的转换单元;量化由频率表示的音频数据并对所量化的音频数据进行编码的量化编码单元;以及音量调整单元,它将音量降低到输入单元、变换单元或量化编码单元所处理的预定等级。根据本较佳实施例的音频处理装置,通过在量化结束之前的步骤前降低音量的等级,可以减小所量化的音频数据在展开时采用超过最大比特数目的方式来解码的概率。可通过使数据值变小来完成对降低音量等级的处理。
较佳的是音量调整单元根据音频处理装置所要实现的音频数据压缩的条件来降低音量。此外,音量调整单元可以根据压缩的频带来降低音量。该音频处理装置还可包括音量检测器,该检测器预先检测出超过音频数据预定部分的音频数据的音量,并且音量调整单元可以根据音量检测器所检测到的音量来确定音量降低的程度。
要注意的是,上述结构部件的任何任意的组合,以及在方法、装置、系统、记录媒介等之间变化的表示都是有效的且被本实施例所包含。
此外,本发明的上述内容并不需要描述所有必需的特征,从而本发明也可以是这些所讨论特征的子组合。


图1显示了音频数据在固定压缩条件下进行压缩并随后被解压缩和重现时剪辑数和噪声存在与否之间的关系。
图2显示了音频数据在各种压缩条件下进行压缩且随后被解压缩和重现时剪辑数和噪声存在与否之间的关系。
图3显示了当声源为5KHz正弦波时重现的频谱。
图4显示了根据本发明实施例的音频处理装置的结构。
具体实施例方式
将基于较佳实施例来讨论本发明,但这并不旨在限制本发明的范围而只是用于解释本发明。在实施例中所讨论的所有特征和组合并不一定是本发明所必需的。
图4显示了根据本发明较佳实施例的音频处理装置100的结构。该音频处理装置100包括数据输入单元110、时间—频率转换单元112、缩放比例单元114、音质分析单元116、比特分配单元118、量化编码单元120、比特流发生器122、音量调整单元130、音量检测器132以及输出单元134。就硬件部件而言,音频处理装置100由CPU、存储器、存储器所下载的程序等任意音频装置的部分来实现。这里较佳实施例的描述涉及与这种部件一起实现的功能块。音频处理装置100的功能可以整体或部分地集成于LSI。因此,业内的专业人士应该理解到,可以采用只使用硬件、只使用软件、或两者的组合等多种形式来实现这些功能块。
首先在这里,将讨论根据本实施例的音频处理装置100的基本操作。首先将音频数据施加到数据输入单元110。这些音频数据是表示音量各个电平的数据值。也就是说,音量的幅值可以用数据值的幅值来表示。更具体的说,这些音频数据被数字化成时间序列的信号,比如,存储于CD上的音频数据是在44.1kHz上具有16比特量化比特数的线性PCM信号。数据输入单元110可以是暂时存储音频数据的缓冲器或简单接收或传输音频数据的终端或类似端口。数据输入单元110将音频数据输入到音频处理装置100中。
时间—频率变换单元112通过对音频数据进行时间—频率转换将音频数据分成预定数量的子频带并且输出每个子频带的频谱信号分量。例如,时间—频率转换单元112对1024个16比特信号进行时间—频率转换,产生它们的频谱信号,并将这些频谱信号分成32个子频带,对这些子频带分配预定的频带。时间—频率转换单元112是由多个子频带滤波器或类似的器件构成的。
缩放比例单元114缩放从时间—频率转换单元112发送的频谱信号分量并对每个子频带计算和固定一缩放比例因数。具体地说,缩放比例单元114对每个子频带检测频谱信号分量的最大幅值并计算大于和最接近于该最大幅值的缩放比例因数。该缩放比例因数是对应缩放因数的值,通过该因数可以在解码时将音频数据标准化成原始波形,并且该缩放比例因数表示量化数据可以采取的范围。缩放比例单元114在缩放之后向量化编码单元120提供频谱频率分量和缩放比例因数。
音质分析单元116计算屏蔽电平,该电平表示通过使用音质模型人耳听力的阈值电平。人耳感觉到听力的特性是,它听得见的电平具有一个取决于频率的极限(可听见的最低极限),并且它难以听见在更高电平的频谱信号分量附近的信号(屏蔽效应)。因此,利用人耳的听觉特性,音质分析单元116计算每个子频带的屏蔽电平M,该电平表示将由可听见最低极限和屏蔽效应决定的听觉屏蔽的极限值,并计算信号S和屏蔽电平M的比率SMR(信号与屏蔽的比率)。
比特分配单元118利用上述的SMR来确定分配给每个子频带的量化比特的量。对频谱频率分量低于屏蔽电平的子频带来说,比特分配单元118选择0作为要分配的量化比特的量。
量化编码单元120根据由缩放比例单元114提供的缩放比例因数和由比特分配单元118提供的量化比特的分配量对每个子频带的频谱信号分量进行量化。随后,量化编码单元120利用Huffman编码或类似技术进行量化数据的可变长度编码。比特流发生器122将量化编码的数据变换成比特流,耳输出单元134向用于记录的记录媒介或类似设备提供该比特流。
接下来在这里将讨论本实施例的部分特性。音量调整单元130具有降低音频数据音量的功能。这些音频数据可以是诸如PCM信号之类以时间轴表示的数据,或者是以频率轴表示的数据。通过对降低音量的数据进行编码,可以在重现侧的装置处减少编码超出最大比特数的概率,并从而减小在重现时的噪声。相应地,音量调整单元130必须在量化编码单元120量化处理结束前的时间里降低音频数据的音量。如上所述,通过数据输入单元110、时间—频率转换单元112和缩放比例单元114,向量化编码单元120提供音频数据。因此,音量调整单元130降低了数据输入单元110和量化编码单元120之间间隔内的音频数据以及在两个单元内所包含的音频数据的音量。
作为第一种选择,音量调整单元130可以直接在数据输入单元110处对时间—序列的音频数据进行音量调整。该音量的调整是通过将音频数据与小于1的音量调整系数相乘来完成的。通过降低原始的音频数据值,可使需要编码的音频数据的幅值变小。
作为第二种选择,音量调整单元130可以在时间—频率转换单元112处对音频数据进行音量调整。例如,由于时间—频率转换单元112包括QMF(正交镜象滤波器)单元(它是频带分段滤波器)以及MDCT(改进型离散余弦变换)单元,音量调整单元130可以通过调整从QMF单元向MDCT单元提供的音频数据来实现音量的调整。根据本发明的发明者所进行的实验,如图2所示,采样6到采样8所产生的所有噪声在实际中都能通过将音频数据与0.8125的音量调整系数相乘得以消除。
作为第三种选择,音量调整单元130可以调整在缩放比例单元114处计算的缩放比例因数的值。由于该缩放比例因数用于量化,所以音量调整能够通过调整缩放比例因数的值来实现。
作为第四种选择,音量调整单元130可以在量化编码单元120中进行量化操作的时候,通过将音频数据与小于1的音量调整系数相乘来进行音量调整。因此,音量调整可以直接通过将量化数据变得更小来实现。
压缩的条件,诸如音频处理装置100所要实现的压缩比,是为要输入的音频数据而设置的,并且要求音量调整单元130能根据上述的压缩条件来降低其音量。音量调整单元130能够从压缩的条件中获得压缩时的频带和音频数据的音量。再参照图2,当压缩的频带为10KHz或低于10KHz时,重现就会发生噪声,而当为11KHz或大于11KHz时重现就不会发生噪声。因此,当压缩的频带为10KHz或低于10KHz时,音量调整单元130就可以—例如—通过使用小于1的音量调整系数来进行音量调整。另一方面,当压缩的频带为11KHz或大于11KHz时,就不需要对音频数据进行音量调整。在表中已记录了这些与压缩有关的条件和特性。采用这样的方式,就可以利用压缩的频带来实现有效的音量调整。
音量检测器132对数据的预定部分事先检测音频数据的音量。例如,当由CD提供音频数据时,就通过对CD所包含的部分或全部音频数据进行高速分析来检测具有的电平可能需要剪辑处理的音频数据。如果没有音量大到需要进行剪辑的音频数据,则不一定要降低它的音量,从而向音量调整单元130报告这种数据的不存在。一旦接收到了这样的报告,音量调整单元130就停止它的音量调整功能,并且,如果需要,可以通过输出1作为音量调整系数来保持音频数据的原始值。
另一方面,如果在重现侧装置存在着可能需要剪辑处理的音频数据,则音量调整单元130就从音量检测器132接收检测结果并设置对应于由此检测到音量的音量调整系数。采用这种方式,在进行量化之前通过音量检测器132检测音量,可以实现有效的音量调整,其中,在音量调整之前,音量调整单元130设置了优化的音量调整系数。
已根据一些实施例描述了本发明,但这些实施例只是用于解释的目的,本发明的技术范围并不局限于上述实施例所讨论的范围。业内的专业人士应该理解的是,存在着对上述所讨论的各个部件和处理的其它各种修改,并且这些修改都包括在本发明的范围内。
虽然已经借助于典型的实施例讨论了本发明,但应该理解的是,业内专业人士可以在不脱离所附权利要求所定义的本发明的范围内进一步作出许多变化和替换。
权利要求
1.一种音频处理方法,包括输入音频数据,其中音量的幅值由数据值的幅值来表示;以及量化所输入的音频数据,其中,在音量减小到所述输入音频数据的预定等级或量化所述输入音频数据之后,继续随后的处理。
2.一种音频处理装置,包括输入音频数据的输入单元,其中,音量的幅值由数据值的幅值表示;转换单元,用于对所输入的音频数据进行时间—频率转换;量化编码单元,用于量化频率表示的音频数据并对量化的音频数据进行编码;以及,音量调整单元,用于减小在所述输入单元、所述变换单元或所述量化编码单元处理的预定级的音量。
3.根据权利要求2所述的音频处理装置,其特征在于,所述音量调整单元根据音频处理装置所实现的音频数据的压缩条件来减小音量。
4.根据权利要求2所述的音频处理装置,其特征在于,所述音量调整单元根据压缩的频带来减小音量。
5.根据权利要求4所述的音频处理装置,其特征在于,如果压缩频带基本为10KHz或小于10KHz,则所述的音量调整单元通过利用小于1的音量调整系数来减小音量。
6.根据权利要求5所述的音频处理装置,其特征在于,如果压缩的频带基本为11KHz或大于11KHz,则所述的音量调整就不减小音量。
7.根据权利要求2所述的音频处理装置,其特征在于还包括,音量检测器,它预先检测超过音频数据预定部分的音频数据的音量,其中,所述音量调整单元根据所述音量检测器所检测的音量来确定音量重现的程度。
8.根据权利要求2所述的音频处理装置,其特征在于,所述音量调整单元减小所述输入单元中时间序列音频数据的音量。
9.根据权利要求2所述的音频处理装置,其特征在于,所述转换单元包括括频带划分滤波器和离散余弦转换单元,其中,所述音量调整单元减小由频带划分滤波器提供给离散余弦转换单元的音频数据的音量。
10.根据权利要求2所述的音频处理装置,其特征在于,所述音量调整单元通过在所述量化编码单元中将小于1的音频调整系数与音频数据相乘来减小音频数据的音量。
全文摘要
本发明涉及音频处理方法和音频处理装置。音量调整单元减小音频数据的音量。通过对预先减小音量的音频数据的编码,减小了在重现侧装置以超过最大比特数的方式进行解码的概率。于是,音量调整单元需要根据压缩比在数据输入单元至量化编码单元的处理过程中(即在量化结束之前)减小音频数据的音量。
文档编号G10L19/00GK1447332SQ0310764
公开日2003年10月8日 申请日期2003年3月19日 优先权日2002年3月19日
发明者大山達史, 山内英樹 申请人:三洋电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1