瞬态音频信号的判别方法

文档序号：2818943阅读：987来源：国知局

专利名称：瞬态音频信号的判别方法
技术领域：
本发明涉及一种瞬态音频信号的判别方法，特别涉及一种在音频编码过程中瞬态音频信号的判别方法。
背景技术：
感知音频编码是一种有损熵约束变换域编码，时域数字音频信号组成一帧(一定长度的向量)后分别进入分析滤波器组和心理声学模型，分析滤波器组对信号加上一定长度和形状的窗函数(即与一定长度的向量逐点相乘)后，进行一定块长的域变换操作，获得音频信号的变换域频谱；心理声学模型则获得用于编码控制的信息；信号的变换域频谱送到量化器中，依据编码控制信息进行熵约束；经过量化的变换域频谱和控制信息进过码流合成打包成所需要的格式后输出，就完成了一帧信号的编码。音频信号的信息量降低是在感知音频编码的量化环节实现的。编码器对在变换域不同频带的音频信号使用不同的量化精度，获得最终的整体信息量降低，同时各频带也引入了不同大小的量化噪声。通过心理声学模型的指导，引入的量化噪声可以控制在人可以感知的程度以下，使得编码重建后的音频质量在听觉上没有明显地降低。在分析滤波器组中，对音频信号加不同形状和长度的窗函数，得到的变换域频谱有着不同的时间分辨率和频谱分辨率，它们有着不同的编码效率。一般情况下使用长块编码(加较长的窗函数)获得较高的频谱分辨率，获得较高的音频编码质量，但由于频谱的时间分辨率较低，编码后量化噪声在时域上将扩散在整个变换块长的范围内，在面对瞬态信号时，扩散的量化噪声很容易将能量较小的信号掩盖，引起瞬态失真。为消除这个效应，块切换机制被引入到音频编码器中，它允许编码器对信号加不同的窗，进行长块编码或短块编码，以应对不同情况下时间分辨率和频谱分辨率的需求。虽然块切换增加了编码的延迟和复杂度，但因为它在抑制量化噪声扩散，消除瞬态失真方面的较好效果，包括先进音频编码(Advanced audio coding，AAC)，MPEG audio layer III (MP3)等在内的主流音频编码标准均有这一可选机制。为获得高效率编码，块切换的判断需要依据输入信号自适应地运作。块切换的判断有两种主要的分类基于量化的后验算法和基于信号分析的先验算法。基于量化的后验算法同时做两种块长的量化编码并比较它们的效率，这样信号所加的窗函数类型将作为量化参数的一部分进入多维优化，多维优化问题由量化失真控制算法处理，这种块切换判断算法有最高的理论性能，但它极大增加了编码算法的复杂度，通常实现的编码器中几乎没有采用。基于信号分析的先验算法在编码前分析输入信号，通过建立准则来进行块长切换判断，这种方法自然有较低的复杂度，也被广泛使用。美国专利5，285, 498便提供了一种基于感知熵的块切换判断方法，它将心理声学模型输出的参数感知熵作为主要的比较参数，设立阈值用于判断信号是否瞬态，目前部分MP3和AAC编码器便使用这种算法，并将其集成在心理声学模型PAMII中。美国专利5，701，389提供了另一种判别方法，它用信号频谱的高频能量和低频能量的比值作为主要的比较参数，设立阈值用于判断信号是否为瞬态信号。除此以外，瞬态信号还可以通过时域能量检测来判断。块切换判断算法本质上是对信号瞬态特性的判断，而判断方法必然有着一定的错过率和误判率，错过率便是没有检测出瞬态信号的几率，误判率是非瞬态信号判断为瞬态信号的几率，前者容易引起较大的瞬态失真，后者则一定程度降低音频编码质量。基于感知熵判断和高低频能量比判断的方法，实际的检测瞬态信号的效果并不好，开启块切换以后音频编码器的音频质量提高很有限；基于时域能量检测的方法则仅利用了时域的信息，它对于时域能量有明显变化的瞬态信号有很好的检测效果，但如果信号的能量保持稳定，而在频率上发生剧烈变化，这种方法便无法检测。

发明内容
本发明的目的在于提供一种瞬态音频信号的判别方法，用以解决在现有技术中由于瞬态信号无法准确检测出或者检测错误率过高，从而降低音频编码质量的问题。为解决上述问题，本发明提供的瞬态音频信号的判别方法包括如下步骤步骤一，获取对数域时频分量矩阵y ；步骤二，按照投影的原理，计算时频分量矩阵视平面投影或视线投影的最小面积 D ·
1^area ，步骤三，通过该视平面投影或视线投影的最小面积Dara，利用判别公式ACXDarea> DCXThr判别瞬态信号与稳态信号，其中公式中DC为直流分量的能量值或幅度值，而AC为交流分量的能量值或幅度值，Thr为判别阈值，如果上述判别公式成立，则信号为瞬态信号，否则为稳态信号。较佳地，在上述方法中是先将音频信号转换成二维的时频信号，通过直接对非均勻的短时时频变换或者子带滤波器组输出的非均勻时频分量(绝对值或能量)取对数变换获得，或者通过对均勻的短时时频变换或者子带滤波器组所获得的均勻时频分量矩阵做映射变换获得对数域时频分量矩阵y ；所述的对数域时频分量矩阵y由下式表示
权利要求
1.一种瞬态音频信号的判别方法，其特征在于该方法包括如下步骤步骤一，获取对数域时频分量矩阵y ；步骤二，按照投影的原理，计算时频分量矩阵视平面投影或视线投影的最小面积Darea ；步骤三，通过该视平面投影或视线投影的最小面积，利用判别公式ACXDa_ > DCXThr判别瞬态信号与稳态信号，其中公式中DC为直流分量的能量值或幅度值，而AC为交流分量的能量值或幅度值，Thr为判别阈值，如果上述判别公式成立，则信号为瞬态信号，否则为稳态信号。
2.如权利要求1所述的瞬态音频信号的判别方法，其特征在于，所述的对数域时频分量矩阵y由下式表示yia ."Λ ··· Λ况y2,2 · “ ^2, “.* y2、Ny-,2 ·y η.· Υ η,Ν少W,2 · * yMjn *其中，m= 1，2，...，M，代表第m频带，η = 1，2，...，N，代表第η时间块，M代表它具有M个频带，N代表它有N线的时间分辨率；对数域时频分量矩阵y的时间轴要求是均勻的，即Ym^，ym,n，yffl,n+i有着相同的时间间隔，而频率轴是非均勻的，要求Yn^n，ym,n，ym+1,n所代表的频带带宽逐渐递增。
3.如权利要求1所述的瞬态音频信号的判别方法，其特征在于，所述的对数域时频分量矩阵y直接通过对非均勻的短时时频变换或者子带滤波器组输出的非均勻时频分量的绝对值或能量取对数变换获得。
4.如权利要求1所述的瞬态音频信号的判别方法，其特征在于，所述的对数域时频分量矩阵y通过对均勻的短时时频变换或者子带滤波器组所获得的均勻时频分量矩阵X做映射变换并取对数变换获得，所述的均勻的短时时频变换或者子带滤波器组所获得的均勻时频分量矩阵X为xIa ·"xU · * XUL太2，1X2’2 ·“xU · · X2,LXk,\Xk、2 ··· xkJ · · Xm’Lxsca · ‘ xKJ ‘.* xKJ. _X的大小为KXL，K代表着它具有K条频线，对应短时变换具有的K条谱线或子带滤波的K条子带，L代表着它有L线的时间分辨率，对应短时变换具有的L块或子带滤波的L次输出。
5.如权利要求4所述的瞬态音频信号的判别方法，其特征在于，所述的映射变换对于时间轴的映射是均勻的，对于频率轴的映射是非均勻的。
6.如权利要求4所述的瞬态音频信号的判别方法，其特征在于，所述的映射变换便是将均勻时频分量矩阵X中一部分Xsub合并为点ym,n，xsub由下式表示
7.如权利要求6所述的瞬态音频信号的判别方法，其特征在于，所述的合并的方法是能量和、能量均值、绝对幅度和、绝对幅度均值、绝对幅度最大值中的一种或者这几种方法在行列间交替使用。
8.如权利要求1所述的瞬态音频信号的判别方法，其特征在于，时频分量矩阵y的最小视平面投影或者视线投影的面积计算采用点到投影线距离的最小平方和近似表示。
9.如权利要求1所述的瞬态音频信号的判别方法，其特征在于，如果所有投影线的斜率相同，则计算视平面投影的最小面积。
10.如权利要求1所述的瞬态音频信号的判别方法，其特征在于，如果投影线各自的斜率不同，则计算视线投影的最小面积。
11.如权利要求9所述的瞬态音频信号的判别方法，其特征在于，所述的视平面投影的最小面积的计算方法如下Lm为一系列具有相同斜率的投影线，表示为ax+y+bm = 0，其中a是斜率，bm是偏置；点 (n, yffl,n)到L1Jg离的平方和为
12.如权利要求10所述的瞬态音频信号的判别方法，其特征在于，所述的视线投影的最小面积的计算方法如下LmS—系列不同斜率的投影线，对于第m频带上的N点(n，ym, n)，最佳拟合直线y = f(x)，可以使得点到Lm距离的平方和，即平方误差I f (n) _yn 12最小，该直线的代数方程为
13.如权利要求12所述的瞬态音频信号的判别方法，其特征在于，如果在对均勻时频分量矩阵做映射变换时使用的合并方法是能量和或能量均值，那么所述的加权是对能量进行的，最大值为对数域的最大能量值。
14.如权利要求12所述的瞬态音频信号的判别方法，其特征在于，如果在对均勻时频分量矩阵做映射变换时实用的合并方法是绝对幅度和、绝对幅度均值或绝对幅度最大值，所述的加权是对幅度值进行的，最大值为对数域的最大幅度值。
15.如权利要求1所述的瞬态音频信号的判别方法，其特征在于，所述的判别阈值Thr 为一预先设定的值。
16.如权利要求2所述的瞬态音频信号的判别方法，其特征在于，所述的判别阈值Thr 的设置参考M，N的大小以及对时频信号取对数时用的底数，具体计算方法为计算时频信号矩阵y中所有元素平方和的长期平均ya，即通过对多帧y获得的所有元素平方和取平均； ^在固定的M，N的大小、取对数的底数和输入信号的幅度范围的共同约定下也可以视为一个常数，即判断阈值Thr = Yya，系数Y —般设为到5%之间并依据实际需要做微调优化，系数Y代表稳态信号允许波动能量超过整体能量的百分数上限。
17.如权利要求1所述的瞬态音频信号的判别方法，其特征在于，如果在对均勻时频分量矩阵做映射变换时使用的合并方法是能量和或能量均值时，则判别公式使用直流分量和交流分量的能量值。
18.如权利要求1所述的瞬态音频信号的判别方法，其特征在于，如果在对均勻时频分量矩阵做映射变换时使用的合并方法是绝对幅度和、绝对幅度均值或绝对幅度最大值时，则判别公式使用直流分量和交流分量的幅度值。
全文摘要
本发明公开了一种瞬态音频信号的判别方法，旨在提供一种在音频编码过程中瞬态音频信号的判别方法。其技术方案的要点是将音频信号转换成二维的时频信号，通过计算最小视平面投影或视线投影，以提取用于判别的参数，最后判别出瞬态信号。本发明通过更准确的判别出瞬态信号，配合多种音频编码器使用以提高音频编码的质量。
文档编号G10L11/00GK102419977SQ20111000706
公开日2012年4月18日申请日期2011年1月14日优先权日2011年1月14日
发明者吴晟, 张本好, 徐晶明, 李昙, 林福辉申请人:展讯通信(上海)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴晟;张本好;林福辉;李昙;徐晶明
技术所有人：展讯通信(上海)有限公司
我是此专利的发明人

上一篇：音频异常事件检测系统及其标定方法
上一篇：一种数字音频编码、解码方法及装置的制作方法