一种音频编码方法和音频编码器的制作方法

文档序号:2831088阅读:353来源:国知局
专利名称:一种音频编码方法和音频编码器的制作方法
技术领域
本发明涉及音频编解码技术领域,具体涉及一种音频编码方法和音频编码器。
背景技术
在音频编码技术中,有失真的音频编码技术通常可以获得更高的压縮比,但是为 了得到很好的音频质量,需要控制音频编码技术中编码失真的程度。心理声学模型是一种 普遍用于控制编码失真程度的数学模型。心理声学模型是人们在研究人类听觉系统基础上 抽象出来的反映人类听觉感知特性的数学模型,它反映了人类听觉系统对音频及噪声的感 知和掩蔽能力。在音频编码技术中具体利用到的心理声学模型中的参数通常为掩蔽门限, 该参数是编码器接收到信号在频域上每个频率处受到其它所有频率分量掩蔽的值的和,该 参数在频域上是条曲线。处于该曲线下方的频率分量不能被人耳感觉到,则该频率分量可 以用零比特编码;另一方面,选择量化阶时若能保证量化噪声低于掩蔽曲线,也不被人耳察 觉,所以掩蔽门限越大的频率分量量化阶可以越大。因此用掩蔽阈值作为量化编码的依据, 就能够保证压縮后的声音质量。所以,借助心理声学模型,在对音频信号进行编码中,可以 有效地去除包含在原始音频中与人类听觉不相关的信号成分,从而可以在获取高压縮比的 同时保证音频信号的质量。 参见图1所示,为心理声学模型在音频编码技术中的应用。其中,该音频编码技术 为感知音频编码技术。如图la所示,在音频编码器中,输入音频信号一部分进入时频分析 模块,在该模块中编码器对音频信号进行变换处理得到音频的频域参数;输入音频信号还 有一部分进入心理声学模型,在该模块中编码器对输入信号做处理得到掩蔽门限,将掩蔽 门限输入给比特分配模块,编码器的比特分配模块根据掩蔽门限获取对感知编码的比特分 配信息;量化和编码模块根据获取的比特分配信息,对从时频分析模块输出的频域参数进 行量化和压縮编码;合路模块将来自量化与编码模块的编码信息和来自比特分配模块的、 作为边信息进行传输的比特分配信息进行合路处理,形成编码比特流输出。
在音频解码器中,参见图lb,分路模块对接收到的编码比特流实施分路处理,分别 得到编码信息和比特分配边信息;解码与反量化模块根据得到编码信息和比特分配边信息 进行解码并进行反量化处理,从而得到重构的频域参数;最后时频合成模块将重构频域参 数进行反变换处理,得到重构的音频时域信号输出。 在现有技术中编码器根据获取的掩蔽门限进行对语音信号的编码的过程中,为获 取掩蔽门限而建立的心理声学模型,需要进行非常复杂的计算,且不易实现,对硬件设备要 求高,消耗功率大。

发明内容
本发明实施例提供一种音频编码方法及相应装置,本发明实施例提供的技术方案 能够减少建立心理声学模型的复杂度,但是可以到达与现有技术相似的技术效果,即准确 度相似。
5
本发明实施例提供了一种音频编码方法,该方法包括 接收时域音频信号; 对所述音频信号进行采样; 对采样后的音频信号进行线性预测; 根据所述线性预测的结果,获取线性预测滤波器的幅频响应曲线;
对采样后的音频信号进行巻曲线性预测; 根据所述巻曲线性预测的结果,获取巻曲线性预测滤波器的幅频响应曲线;
根据所述线性预测滤波器的幅频响应曲线和所述巻曲线性预测滤波器的幅频响 应曲线,获取局部掩蔽曲线; 根据所述获取的局部掩蔽曲线和绝对掩蔽曲线的特性,获取全局掩蔽曲线;
根据所述获取的全局掩蔽曲线和临界频带的信息,获取全局掩蔽门限;
根据所述获取的全局掩蔽门限,对所述音频信号进行编码。
本发明实施例还提供了一种音频编码器,包括
接收单元,用于接收时域音频信号;
采样单元,用于对所述音频信号进行采样; 线性预测LP单元,用于对采样后的音频信号进行线性预测LP ; 获取LP滤波器幅频响应单元,用于根据所述线性预测的结果,获取线性预测LP滤
波器的幅频响应曲线Cw(f); 巻曲线性预测WLP单元,用于对采样后的音频信号进行巻曲线性预测WLP ;
获取WLP滤波器幅频响应单元,用于根据所述巻曲线性预测的结果,获取WLP滤波 器的幅频响应曲线Cip(f); 获取局部掩蔽曲线单元,用于根据所述LP滤波器的幅频响应曲线Cw(f)和所述 WLP滤波器的幅频响应曲线Cip(f),获取局部掩蔽曲线Cp(f) 获取全局掩蔽曲线单元,用于根据所述获取的局部掩蔽曲线和绝对掩蔽曲线的特 性,获取全局掩蔽曲线Cg(f); 获取掩蔽门限单元,用于根据所述获取的全局掩蔽曲线Cg(f)和预置的临界频带 的信息,获取全局掩蔽门限; 音频编码单元,用于根据获取掩蔽门限对所述接收到的音频信号进行编码。
本发明实施例还提供了一种音频水印嵌入装置,其特征在于,包括
接收单元,用于接收时域音频信号;
采样单元,用于对所述音频信号进行采样; 线性预测LP单元,用于对采样后的音频信号进行线性预测LP ; 获取LP滤波器幅频响应单元,用于根据所述线性预测的结果,获取线性预测LP滤
波器的幅频响应曲线Cw(f); 巻曲线性预测WLP单元,用于对采样后的音频信号进行巻曲线性预测WLP ;
获取WLP滤波器幅频响应单元,用于根据所述巻曲线性预测的结果,获取WLP滤波
器的幅频响应曲线Cip(f); 获取局部掩蔽曲线单元,用于根据所述LP滤波器的幅频响应曲线Cw(f)和所述 WLP滤波器的幅频响应曲线ip(f),获取局部掩蔽曲线Cp(f)
获取全局掩蔽曲线单元,用于根据所述获取的局部掩蔽曲线和绝对掩蔽曲线的特 性,获取全局掩蔽曲线Cg(f); 获取掩蔽门限单元,用于根据所述获取的全局掩蔽曲线Cg(f)和预置的临界频带 的信息,获取全局掩蔽门限; 水印嵌入单元,用于根据所述获取的全局掩蔽门限,将水印编码嵌入到输入音频 信号中。 本发明实施例利用线性预测LP和巻曲线性预测WLP的频率分辨特性非常接近人
类听觉特性中的临界频带和掩蔽特性的特点,建立的心理声学模型,获取掩蔽门限,根据获
取的掩蔽门限进行音频编码的方法,降低了建立心理声学模型的复杂度,易于实现,降低了 心理声学模型在硬件实现的成本,降低了硬件的功率消耗。


图la是现有技术中音频编码器的组成示意简图; 图lb是现有技术中音频解码器的组成示意简图; 图2是本发明实施例一提供的一种建立心理声学模型的方法流程示意简图; 图3是本发明实施例一中巻曲线性预测中获取相关函数的运算示意简图; 图4a是输入编码器的音频信号幅频响应图; 图4b是滤波器幅频响应曲线(f) 、WLP滤波器幅频响应曲线(f)和音频信号 的功率谱密度示意图; 图5是局部掩蔽曲线与绝对掩蔽曲线图; 图6a是绝对掩蔽门限在对数域的轨迹图; 图6b是绝对掩蔽门限在线性域的轨迹图; 图7是全局掩蔽曲线图; 图8a是折线型全局掩蔽门限示意图; 图8b是阶梯型全局掩蔽门限示意图; 图9是本发明实施例二提供的一种音频编码方法流程示意简图; 图10是本发明实施例三提供的一种音频编码器的逻辑组成示意图。
具体实施例方式
本发明实施例提供一种音频编码方法,本发明实施例还提供相应的音频编码器。
以下分别进行详细说明。 实施例一 本实施例提供了一种音频编码方法,该方法是利用巻曲线性预测(WLP, Warped Linear Prediction)和传统线性预测(LP, Linear Prediction)分析的频率分辨率特性非 常接近人类听觉特性中的临界频带和掩蔽特性的特性,最终获取掩蔽门限。参见图2所示, 该方法包括 步骤1 :编码器接收时域音频信号; 编码器接收到的时域音频信号可以是语音信号、音频信号或者各种人耳可以听到 的各种声音信号的混合信息,该音频信号的频带宽度通常为人耳可以听到频率范围(即0Hz到24000Hz)。编码器接收到的音频信号通常是帧的格式, 一帧的长度一般为5毫秒到 30毫秒之间。
步骤2 :编码器对接收到的音频信号进行采样,得到采样后的音频信号X(n);
在本实施例中,步骤2中编码器通常对接收到的时域音频信号采用的采样频率包 括48kHz、44. 1kHz、32kHz、 16kHz或8kHz中任一项。
步骤3 :编码器对采样后的音频信号进行线性预测LP ; 其中,步骤3中编码器对音频信号的进行线性预测的结果是获取到了较佳线性滤 波器系数。需要理解的是,线性预测LP利用过去若干个采样信号来预测当前采样信号,即 通常是利用当前时刻之前的N个采样信号的线性组合来估计输入的时域音频信号x(n) , n =1,2,...,L,其中,L为帧的长度。用公式表示如下 = Z c^x(w - A:) (1)。 其中,ak, k= 1,2, ..., N为LP滤波器系数,N为线性预测阶数。在ak,k二l, 2, . . . , N为已知的情况下,LP滤波器的系统函数则为可知,如下公式所示 = E "J—* ] Z(z) (2)。 因此,滤波器系数ak是实现LP滤波器组的关键。在步骤3中获取较佳线性滤波 器系数的具体操作包括 步骤A1 :获取输入信号x(n)的自相关函数r(l), 步骤A2 :根据原始信号采样后的音频信号x (n)与线性预测滤波器预测结果到")之 间的差值(即预测误差e)最小的原则,获取LP的正则方程; 其中,步骤Al用公式表示为LP滤波器系数ak的最优取值为
一w
e二五[lx(") —S^x("-"卩]最小,即只需对于k = 1,2,... ,N,使3e/^ =o由此,可以
yfc=1 & 。
获得LP滤波器的正则方程,表达式如下
TVr(/)=-J>^(/-" (3)。 步骤A3 :根据步骤Al中获取的自相关函数r (1),利用莱文森_杜比 LevinsonDurbin算法求解公式(3),获取LP滤波器系数ak,该LP滤波器系数ak为较佳LP 滤波器系数。 步骤4 :编码器根据线性预测的结果,获取LP滤波器的幅频响应曲线Cw(f);
其中,步骤3中编码器根据获取的采样后的音频信号进行线性预测的结果,获取 幅频响应曲线Cw(f)具体可以是结论性公式 、 ' ,f 4 (4)°
1-》J 其中,Gw是输入信号的能量。将获取的A—、z)用曲线表示,即为幅频响应曲线 CIP(f)。
8
步骤5 :编码器对步骤2中得到采样后音频信号进行巻曲线性预测WLP ; 其中,需要理解的是,巻曲线性预测WLP是根据线性预测LP的原理,而总结出的一
种更接近与人耳听觉特性的预测方法。编码器根据步骤2中获取的音频信号样点进行巻曲
线性预测的结果是获取到较佳的滤波器系数。 其中,采用巻曲线性预测WLP是利用当前时刻之前的N个采样信号的线性组合来 估计输入的时域音频信号x(n) , n = 1,2, . . . , L,采用公式表示如下f (z) = [t ]X(z) ( 5 )。
/fc=l 其中,D(z)为全通滤波器的系统函数,D(z)相当于WLP滤波器中的延迟模块,该模 块与LP中的延迟模块有相似的作用。WLP中使用到的全通滤波器具有幅度响应为常数,相 位响应决定频域的映射情况的特性,其幅频响应的数据表达式如下
a , ,+ ,义sin(w) w = w+2 arctan(- ) (6)
1 —义cos(w) 其中,为了保证WLP滤波器对频率的映射情况尽可能的接近人类的听觉特性,参 数A需要满足一定的条件,该条件可以具体参考以下公式 ........"2
示如下
A -1.0674(二 arctan(0.06583, ))1 /2 — 0.1916
: (7 )。
其中,fs是输入信号的采样频率。
由以上对全通滤波器的说明,可以获取该全通滤波器的系统函数D(z),用公式表
其脉冲响应函数的表达式如下
… f —义, "=0-
一)4d-");r',其它. (9)° 其中,A是滤波器参数。还需要说明的是该系统函数D(z)可以是根据以上说明 预置在该编码器中,当编码器在进行线性预测时可以由D (z)来获取更佳的WLP滤波器系数
ak2° 由以上对D(z)和WLP滤波器的中实际输入和预测输出之间的关系(如公式(5)),
该WLP滤波器的K阶全通滤波器的输出在时域上的表达式如下 dk[x(n)]三h(n)*h(n)*. *h(n)*x(n) (10)。 其中,h(n)为D(z)的脉冲响应,"*"表示巻积运算,dk[x(n)]即为k阶全通滤波
器的输出。 因此,步骤5中对采样后音频信号进行巻曲线性预测WLP具体操作包括
步骤B1 :获取WLP滤波器的各阶输出与输入信号之间的相关函数r(k), k = 0, 1, . . . , N-l, N与K都是WLP滤波器的阶数,通常WLP滤波器的阶数是10。
其中,步骤B1中巻曲线性预测中相关函数可以使用图3所示的自相关网络结构得
9到。其中,x(n)表示输入音频信号,D(z)是一阶全通滤波器;输入音频信号x(n)通过级联 的一阶全通滤波器D(z)的处理,分别得到各级联全通滤波器的输出信号dk[x(n)], k = 0, 1, ...N-l。然后,通过乘加和运算来计算输入音频信号x(n)与各级联阶全通滤波器D(z) 的输出信号dk[X(n)] , k = 0, 1, . . . N-l的相关函数,即获取r (k) , k = 0, 1, . . . , N_l。
步骤B2 :与步骤Al相似,根据原始信号采样后的音频信号x(n)与线性滤波器预 测结果^0)之间的差值(即预测误差e)最小的原则,获取WLP正则方程;
其中,步骤Al用公式说明为根据WLP的预测误差均方值最小的原则,即
<formula>formula see original document page 10</formula>
如下
其中,为了使6为最小,则可知&/3、=()因此,可以获取WLP正则方程,其表达式

<formula>formula see original document page 10</formula> 步骤B3 :根据步骤B1中获取相关函数r(k)和步骤B2中获取的正则方程,利用 Levinson Durbin算法求解正则方程,获取WLP滤波器系数ak2。 步骤6 :编码器根据对采用后的音频信号进行巻曲线性预测WLP,获取WLP滤波器
的幅频响应曲线Cip(f); 其中,步骤6中编码器根据对采样后的音频信号进行线性预测,获取幅频响应曲 线CM(f)具体可以是根据现有技术中已经发现的结论性公式
<formula>formula see original document page 10</formula> 其中,ak2是WLP滤波器的系数,D (z)是一阶全通滤波器的传输函数,GM为输入信 号的能量。图4b给出了 一个WLP滤波器的幅频响应曲线(f)的实例。
以上步骤3至步骤6分别为采用线性预测和巻曲线性预测的操作方法,通过以上 的预测,可以分别获取幅频响应曲线C"f)和幅频响应曲线Cip(f)。参见图4所示,其中, 图4a显示是一帧采样速率为48kHz,长度为512个点的音频信号;图4b显示了图4a所示 的音频信号对应的LP滤波器幅频响应曲线Cw(f) 、WLP滤波器幅频响应曲线C^p(f)和音频 信号的功率谱密度。由图可以看出,采用线性预测获取的滤波器具有较好的高频特性,采用 巻曲线性预测WLP获取的滤波器具有较好的低频特性。 步骤7 :根据步骤4中获取的LP滤波器的幅频响应曲线Cw(f)和WLP滤波器幅频
响应曲线Cip(f),获取局部掩蔽曲线; 其中,步骤7中根据获取(f)和CM (f),获取局部掩蔽曲线的具体方法可以是根 据如下公式Cp(f) = CLP, (f)+CWLP, (f) = CLP(f)KLP(f, Cqb)+CWLP(f)KWLP(f, Cqb)+BXLP(Cqb) (dB) [o川](14)
其中,Cp(f)为局部掩蔽曲线,Kw(f, Cqb)和K亂p(f, Cqb)分别为Cw(f)和C亂p(f)的 频率补偿函数。其中,控制信息C,b是可选的,与音频编码质量设定值或编码速率设定值相 关,所以K"f, cqb)、KWU)(f, Cqb)也与设定音质或编码速率要求相关,但Kw(f, C,b)、K^p(f, Cqb)有所不同;Kw(f,C,b)主要用于加强Cw(f)的低频特性、Kip(f,C,b)主要用于加强Cip(f) 的高频特性,在实际应用中可以由经验值得到。B,(Cqb)为相对偏差系数,它的主要目的是 用来按照音频编码质量设定值或编码速率设定值整体调整局部掩蔽曲线的幅度;比如音频 编码质量设定值或编码速率设定较高时,B^(C,b)可以降低局部掩蔽曲线幅度,而当音频编 码质量设定值或编码速率设定较低时,B,(Cqb)可以提高局部掩蔽曲线幅度。Kw(f, Cqb)、 KwLP(f,Cqb)和B,(C,b)可以在实际应用中由经验值得到。图5给出了局部掩蔽曲线的示意 图,图中KLP(f, Cqb) = KWLP(f, Cqb) = 0. 5, BXLP(Cqb) = 0. 0。即取CLP(f)和C野(f)在每个频 率上的平均值作为局部掩蔽曲线。 通过以上对步骤7的说明,可以看出获取局部掩蔽曲线的具体方法可以是先对 获取的LP滤波器的幅频响应曲线Cw(f)和WLP滤波器幅频响应曲线CWU)(f)分别进行频率 补偿,即分别获取Cw(f)K"f, Cqb)和Cip(f)IWp(f, Cqb);根据频率补偿的结果和预置的信 息,获取局部掩蔽曲线。其中,预置的信息可以是按照音频编码质量设定值或编码速率设定 值整体调整局部掩蔽曲线的幅度的信息,如相对偏差系数B^(C,b)。 步骤8 :根据步骤7中获取局部掩蔽曲线和预置的绝对掩蔽曲线的特性,获取全局 掩蔽曲线Cg(f); 其中,绝对掩蔽门限(Absolute Threshold)表示在无噪声环境下单音信号能被人 耳感知所需要的能量,通常用声压级dB表示。绝对掩蔽门限也与频率相关,它的幅值可以 由如下表达式近似得到7^(/) = 3.64(//1000"8-6.5,6(//誦—33)2 +1(T3C/71000)4(必)(15) 其中,Uf)是绝对掩蔽门限,它是频率的函数,参见图6a所示绝对掩蔽门限在对 数域的轨迹;参见图6b所示,为绝对掩蔽门限在线性域的轨迹。两种轨迹虽然表示形式不 同,但实质是相同的。 由以上的说明可以理解,如果音频信号的能量低于局部掩蔽曲线和绝对掩蔽曲线 任一项,则该音频信号则不被人耳察觉,因此,全局掩蔽曲线是在每个频率上的局部掩蔽曲 线和绝对掩蔽曲线中最大值连成的曲线。用公式表达如下
Cg (f) = max {Cp (f) , Y (Cqb) TAT (f)} (dB) (20) 其中,1.0<= Y(Cqb) <= O.O为绝对掩蔽门限匹配系数,它是与反映音质或编
码速率要求的控制信息C,b相关的。用于局部掩蔽曲线Cp(f)同绝对掩蔽门限TM(f)的声
压级的匹配处理。其中,C,b在本发明实施例中一直是可选的预置在编码器中参数。如果不
用C,b则Y (Cqb)取值为1。图7所示对应的全局掩蔽曲线Cg(f)。同时参考图5所示的局
部掩蔽曲线和绝对掩蔽门限,从而更容易理解图7中显示的全局掩蔽曲线Cg(f)。 步骤9 :根据步骤8中获取的全局掩蔽曲线和预置的临界频带的信息,获取全局掩
蔽门限。 其中,需要说明的是临界频带(Critical Band)反映的是人耳的另一种听觉特性,
即频率分析能力。人耳对频率的分析能力可以用一系列高度重叠的带通滤波器表征,带通
滤波器的幅频响应是非对称和非线性的,其频带宽度是随着频率的提高而增加,正对同一
11临界频带内的不同频率,人耳有几乎相同的感知特性。临界频带就是用一个频率函数定量 描述听觉带通滤波器的特性。在巴克Bark域内,一个临界频带的频带宽度通常为一个巴克 Bark,以下表达式可以将临界频带由线性频域到Bark域的转换 = 13 arctan(0.00076/) + 3.5 arctan
7500
(21) 通过以下表达式可以获得临界频带的频带宽度的近似值
BWc(f) = 25+75[l+l. 4(f/1000)2] 0 69 (Hz) (22) 还需要说明的是人耳的临界频带可以是通过实验或者其它已有的经验获得的,预 置在编码器中的。 在步骤9中根据获取的全局掩蔽曲线和预置的临界频带的信息,获取全局掩蔽 门限的具体执行方法可以是获取每个Bark内临界频带端点和频带中点在全局掩蔽曲线 Cg(f)的幅度取值,将所述获取的所有幅度取值按照频率顺序用直线连接起来形成的全局 掩蔽门限T口(f)。参见图8a所示,该全局掩蔽门限T^(f)是折线的形式,可以将该全局掩 蔽门限TpsY(f)称为折线型全局掩蔽门限。 在步骤9中根据获取的全局掩蔽曲线和预置的临界频带的信息,获取全局掩蔽门 限的具体执行方法也可以是通过在每个Bark上临界频带内获取全局掩蔽曲线Cg(f)的最 小值,每个临界频带内的幅度取值是该频带内全局掩蔽曲线Cg(f)中的最小值,得到的幅频 响应为全局掩蔽门限Uf)。参见图8b所示,该全局掩蔽门限T^(f)在图中是阶梯型。该 全局掩蔽门限T^(f)可以成为阶梯型全局掩蔽门限T^(f)。由于人耳对语音或音频信号 在低频的辨别能力好于在高频的辨别能力,因此,从图上可以看出,在低频处临界频带宽度 较窄,在高频出临界频带宽度较宽。事实上,折线型全局掩蔽门限也有此特点。
还需要理解的是,步骤9中根据获取的全局掩蔽曲线和预置的临界频带的信息, 获取全局掩蔽门限的具体执行方法不止局限于以上描述的两种,以上两种方法是比较简单 的近似获取全局掩蔽门限TPSY(f),当然还可以在每个临界频带上选取多个频点,来获取全 局掩蔽门限TPSY(f)。 以上步骤1至步骤9的说明实现了一种建立心理声学模型的方法,编码器可以获 取到全局掩蔽门限作为量化的依据。该方法根据线性预测LP和巻曲线性预测WLP的频率 分辨特性非常接近人类听觉特性中的临界频带和掩蔽特性的特点,对接收到的采样音频信 号分别进行线性预测LP和巻曲线性预测WLP,获取LP滤波器的幅频响应和WLP滤波器的幅 频响应,根据获取的LP滤波器的幅频响应和WLP滤波器的幅频响应,获取到局部掩蔽曲线; 根据获取的局部掩蔽曲线、预置的绝对掩蔽门限和临界频带带宽,获取全局掩蔽门限。
步骤10 :根据获取的全局掩蔽门限,对音频信号进行编码。 本实施例提供的利用线性预测LP和巻曲线性预测WLP的频率分辨特性非常接近 人类听觉特性中的临界频带和掩蔽特性的特点,建立心理声学模型的方法,获取全局掩蔽 门限,根据获取的全局掩蔽门限对音频信号进行编码,降低了建立心理声学模型的复杂度, 易于实现,降低了心理声学模型在硬件实现的成本,降低了硬件的功率消耗。
实施例二 本发明实施例提供了一种音频编码方法,参见图9所示,且参考图1所示的音频编
12码器。该音频编码方法中获取心理声学模型全局掩蔽门限的方法,是利用了实施例一中提 供的一种建立心理声学模型的方法。本发明实施例提供了一种音频编码方法包括
步骤H1 :编码器接收时域音频信号; 其中,编码器接收的时域音频信号是与实施例一中的步骤1中执行的同一个步 骤。 步骤H2 :编码器根据接收到的时域音频信号,建立心理声学模型,获取全局掩蔽 门限; 其中,步骤H3的具有执行方法可以参考实施例一中的说明。 步骤H3 :编码器根据步骤2中获取的全局掩蔽门限,对接收到的时域音频信号进 行编码。 其中,需要理解的该实施例中提供的一种音频编码方法,该音频编码方法,利用线 性预测LP和巻曲线性预测WLP的频率分辨特性非常接近人类听觉特性中的临界频带和掩 蔽特性的特点,建立的心理声学模型,降低了建立心理声学模型的复杂度,易于实现,降低 了心理声学模型在硬件实现的成本,降低了硬件的功率消耗。 因此,实施例一中建立心理声学模型的方法可以应用在不同环境,以上实施例二 是其中一种应用环境,即应用在音频编码中。该心理声学模型还可以应用在音频水印系统 中,即一种音频水印嵌入方法中利用到实施例一提供的建立心理声学模型。采用实施例一 提供的建立心理声学模型方法的音频水印系统,也具有降低建立心理声学模型的复杂度, 易于实现,降低了心理声学模型在硬件实现的成本,降低了硬件的功率消耗的特点。
实施例三 本实施例提供了一种音频编码器,参见图IO所示,包括接收单元10、采样单元 20、线性预测LP单元30、获取LP滤波器幅频响应单元40、巻曲线性预测WLP单元50、获取 WLP滤波器幅频响应单元60、获取局部掩蔽曲线单元70,获取全局掩蔽曲线单元80、获取掩 蔽门限单元90和音频编码单元100。 其中,接收单元10接收时域音频信号,该接收到的时域音频信号可以是语音信 号、音频信号或者各种人耳可以听到的各种声音信号的混合信息,该音频信号的频带宽度 通常为人耳可以听到频率范围(即OHz到24000Hz),音频信号通常是帧的格式, 一帧的长度 一般为5毫秒到30毫秒之间。 采用单元20对接收到的音频信号进行采用,采用的频率可以是48kHz、44. lkHz、 32kHz、 16kHz、8kHz等其中任一一种。线性预测LP单元30对获取的采样语音信号进行线性 预测LP,也可以说是根据获取的采用语音信号获取LP滤波器的系数。 其中。LP单元30还可以具体包括第一获取自相关函数单元301、第一获取正则 方程单元302和第一获取线性预测滤波器系数单元303。其中第一获取自相关函数单元 301,用于获取采样后的音频信号的自相关函数;第一获取正则方程单元302根据原始信号 采样后的音频信号与线性滤波器预测结果之间的差值最小的原则,获取LP的正则方程;第 一获取LP滤波器系统单元303根据第一获取自相关函数单元301中获取的自相关函数,利 用Levinson Durbin算法求解正则方程,获取LP滤波器系数。 第一获取LP幅频响应单元40根 LP单元30中获取LP滤波器系数,获取LP滤 波器的幅频响应曲线;其中,获取LP幅频响应单元40中获取LP滤波器的幅频响应曲线是根据结论性公式(4)得到的。 巻曲线性预测WLP单元50对获取的采样后的语音信号进行巻曲线性预测WLP,也 可以说是根据获取的采用语音信号获取WLP滤波器的系数。 其中,巻曲线性预测WLP单元50与LP单元30相似,还可以具体包括第二获取自 相关函数单元501、第二获取正则方程单元502和第二获取巻曲线性预测滤波器系数单元 503。其中第二获取自相关函数单元501,用于获取采用音频信号的自相关函数;第二获取 正则方程单元502根据原始信号采样后的音频信号与巻曲线性滤波器预测结果之间的差 值最小的原则,获取WLP正则方程;第二获取WLP滤波器系统单元503根据第二获取自相关 函数单元501中获取的自相关函数,利用Levinson Durbin算法求解正则方程,获取WLP滤 波器系数。 获取WLP滤波器幅频响应单元60根据WLP单元50中获取WLP滤波器系数,获取 WLP滤波器的幅频响应曲线;其中,获取WLP幅频响应单元60中获取WLP滤波器的幅频响 应曲线是根据结论性公式(13)得到的。 获取局部掩蔽曲线单元70根据获取LP滤波器幅频响应单元40中获取的LP滤波 器的幅频响应曲线,和获取WLP滤波器幅频响应单元60中获取的WLP滤波器的幅频响应曲 线,获取局部掩蔽曲线。该获取局部掩蔽曲线单元70具体可以包括频率补偿单元701和 计算局部掩蔽曲线单元702。 其中,频率补偿单元701用于根据预置的控制信息加强LP滤波器的幅频响应曲线 Cw(f)的低频特性、和加强WLP滤波器的幅频响应Cip(f)的高频特性;计算局部掩蔽曲线 单元702根据频率补偿单元701中获取的频率补偿后的幅频特性和预置的相对偏差系数, 获取局部掩蔽曲线,可以参考公式(14)。 获取全局掩蔽曲线单元80根据获取局部掩蔽曲线单元70中获取的局部掩蔽曲线 和预置的绝对掩蔽曲线,获取全局掩蔽曲线,具体可以参考公式(20)。 获取掩蔽门限单元90根据获取的全局掩蔽曲线和预置的临界频带的信息,获取 全局掩蔽门限。 音频编码单元IOO,该音频编码单元用于根据获取掩蔽门限对接收到的信号进行 编码。 本发明实施例提供的一种音频编码器中的接收单元10、采样单元20、线性预测LP 单元30、获取LP滤波器幅频响应单元40、巻曲线性预测WLP单元50、获取WLP滤波器幅频 响应单元60、获取局部掩蔽曲线单元70,获取全局掩蔽曲线单元80和获取掩蔽门限单元90 共同来实现获取全局掩蔽门限,可以包含在一种音频水印嵌入装置中。该水印嵌入装置还 包括水印嵌入单元。 其中,该水印嵌入单元根据获取的全局掩蔽门限,将水印编码嵌入到输入音频信 号中。 通过以上的对本实施例提供的一种音频编码器的说明,该音频编码器利用线性预 测LP和巻曲线性预测WLP的频率分辨特性非常接近人类听觉特性中的临界频带和掩蔽特 性的特点,建立心理声学模型,降低了建立心理声学模型的复杂度,易于实现,降低了心理 声学模型在硬件实现的成本,降低了硬件的功率消耗。 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储 介质可以包括R0M、RAM、磁盘或光盘等。 以上对本发明实施例所提供的一种音频编码方法以及相应装置进行了详细介绍, 本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用 于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的 思想,在具体实施方式
及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为 对本发明的限制。
权利要求
一种音频编码方法,其特征在于,包括接收时域音频信号;对所述音频信号进行采样;对采样后的音频信号进行线性预测;根据所述线性预测的结果,获取线性预测滤波器的幅频响应曲线;对采样后的音频信号进行卷曲线性预测;根据所述卷曲线性预测的结果,获取卷曲线性预测滤波器的幅频响应曲线;根据所述线性预测滤波器的幅频响应曲线和所述卷曲线性预测滤波器的幅频响应曲线,获取局部掩蔽曲线;根据所述获取的局部掩蔽曲线和绝对掩蔽曲线的特性,获取全局掩蔽曲线;根据所述获取的全局掩蔽曲线和临界频带的信息,获取全局掩蔽门限;根据所述获取的全局掩蔽门限,对所述音频信号进行编码。
2. 根据权利要求1所述的方法,其特征在于,所述对采样后的音频信号进行线性预测 LP,具体包括获取所述采样后的音频信号的自相关函数;根据原始信号采样后的音频信号与线性预测LP滤波器预测结果之间差值的取值,获 取线性预测LP正则方程;求解所述LP正则方程,所述LP正则方程的解为所述滤波器系数。
3. 根据权利要求1所述的方法,其特征在于,所述对采样后的音频信号进行巻曲线性 预测WLP,具体包括获取所述采样后的音频信号的自相关函数;根据原始信号采样后的音频信号与WLP滤波器预测结果之间差值的取值,获取WLP正 则方程;求解所述WLP正则方程,所述WLP正则方程的解为所述WLP滤波器系数。
4. 根据权利要求3所述的方法,其特征在于,所述获取所述采样后的音频信号的自相 关函数,具体包括所述采样后的音频信号通过预置的级联的一阶全通滤波器,获取到各级联全通滤波器 的输出信号dk[x(n)],k二O,l,...N-l ;根据所述采样后的音频信号与各级联阶全通滤波器的输出信号dk[X(n)], k = 0, l,...N-l获取相关函数。
5. 根据权利要求1所述的方法,其特征在于,所述根据所述LP滤波器的幅频响应曲线 (f)和所述WLP滤波器的幅频响应曲线CM (f),获取局部掩蔽曲线Cp (f),具体包括根据预置的控制信息,分别对所述获取的LP滤波器的幅频响应曲线和所述巻曲线性 预测滤波器的幅频响应曲线进行频率补偿;根据所述频率补偿后的结果和预置的控制信息,获取局部掩蔽曲线。
6. 根据权利要求1所述的方法,其特征在于,所述根据所述LP滤波器的幅频响应曲线 和所述巻曲线性预测滤波器的幅频响应曲线,获取局部掩蔽曲线,具体包括将所述LP滤波器的幅频响应曲线和所述WLP滤波器的幅频响应曲线C^p(f)在相同频 率上的幅度求平均值,获取的所述平均值的曲线为局部掩蔽曲线Cp(f)。
7. 根据权利要求1所述的方法,其特征在于,所述根据获取的局部掩蔽曲线和绝对掩 蔽曲线的特性,获取全局掩蔽曲线,具体包括获取局部掩蔽曲线与绝对掩蔽曲线在相同频率上幅度最大的值,所述最大值在频率上 形成的曲线即为全局掩蔽曲线Cg(f)。
8. 根据权利要求1所述的方法,其特征在于,所述根据获取的局部掩蔽曲线和绝对掩 蔽曲线的特性,获取全局掩蔽曲线Cg (f),具体包括根据预置的绝对掩蔽门限匹配系数、局部掩蔽曲线和绝对掩蔽曲线的特性,获取全局 掩蔽曲线Cg(f)。
9. 根据权利要求1至8任一项所述的方法,其特征在于,所述根据获取的全局掩蔽曲线Cg(f)和预置的临界频带的信息,获取全局掩蔽门限,具体包括获得临界频带端点和频带中点在全局掩蔽曲线Cg(f)上的幅度取值,将所述获取的幅 度取值按照频率顺序用直线连接形成的全局掩蔽门限曲线。
10. 根据权利要求1至8任一项所述的方法,其特征在于,所述根据获取的全局掩蔽曲线Cg(f)和预置的临界频带的信息,获取全局掩蔽门限,具体包括从临界频带内获取全局掩蔽曲线Cg(f)上幅度的最小值,以每个Bark上临界频带内全 局掩蔽曲线Cg(f)上幅度的最小值作为全局掩蔽门限。
11. 一种音频编码器,其特征在于,包括 接收单元,用于接收时域音频信号; 采样单元,用于对所述音频信号进行采样;线性预测LP单元,用于对采样后的音频信号进行线性预测LP ;获取LP滤波器幅频响应单元,用于根据所述线性预测的结果,获取线性预测LP滤波器的幅频响应曲线Cw(f);巻曲线性预测WLP单元,用于对采样后的音频信号进行巻曲线性预测WLP ;获取WLP滤波器幅频响应单元,用于根据所述巻曲线性预测的结果,获取WLP滤波器的 幅频响应曲线Cip(f);获取局部掩蔽曲线单元,用于根据所述LP滤波器的幅频响应曲线Cw(f)和所述WLP滤 波器的幅频响应曲线CWU)(f),获取局部掩蔽曲线Cp(f)获取全局掩蔽曲线单元,用于根据所述获取的局部掩蔽曲线和绝对掩蔽曲线的特性, 获取全局掩蔽曲线Cg(f);获取掩蔽门限单元,用于根据所述获取的全局掩蔽曲线Cg(f)和预置的临界频带的信 息,获取全局掩蔽门限;音频编码单元,用于根据获取掩蔽门限对所述接收到的音频信号进行编码。
12. 根据权利要求11所述的音频编码器,其特征在于,所述线性预测LP单元具体包括第一获取自相关函数单元,用于获取所述采样后的音频信号的自相关函数; 第一获取正则方程单元,用于根据原始信号采样后的音频信号与线性预测LP滤波器预测结果之间的差值的取值,获取线性预测LP正则方程;第一获取线性预测滤波器系数单元,用于根据所述自相关函数,求解所述LP正则方程,所述LP正则方程的解为所述LP滤波器系数。
13. 根据权利要求11所述的音频编码器,其特征在于,所述巻曲线性预测WLP单元具体 包括第二获取自相关函数单元,用于获取所述采样后的音频信号的自相关函数; 第二获取正则方程单元,用于根据原始信号采样后的音频信号与WLP滤波器预测结果之间的差值的取值,获取WLP正则方程;第二获取线性预测滤波器系数单元,用于根据所述自相关函数,求解所述WLP正则方程,所述WLP正则方程的解为所述WLP滤波器系数。
14. 根据权利要求11所述的音频编码器,其特征在于,所述获取局部掩蔽曲线单元具 体包括频率补偿单,用于根据预置的控制信息,分别对所述获取的LP滤波器的幅频响应曲线C"f)和所述WLP滤波器的幅频响应曲线Cip(f)进行频率补偿;计算局部掩蔽曲线单元,用于根据所述频率补偿后的结果和预置的控制信息,获取局 部掩蔽曲线Cp(f)。
15. —种音频水印嵌入装置,其特征在于,包括接收单元,用于接收时域音频信号;采样单元,用于对所述音频信号进行采样;线性预测LP单元,用于对采样后的音频信号进行线性预测LP ;获取LP滤波器幅频响应单元,用于根据所述线性预测的结果,获取线性预测LP滤波器的幅频响应曲线Cw(f);巻曲线性预测WLP单元,用于对采样后的音频信号进行巻曲线性预测WLP ;获取WLP滤波器幅频响应单元,用于根据所述巻曲线性预测的结果,获取WLP滤波器的 幅频响应曲线Cip(f);获取局部掩蔽曲线单元,用于根据所述LP滤波器的幅频响应曲线Cw(f)和所述WLP滤 波器的幅频响应曲线CWU)(f),获取局部掩蔽曲线Cp(f)获取全局掩蔽曲线单元,用于根据所述获取的局部掩蔽曲线和绝对掩蔽曲线的特性, 获取全局掩蔽曲线Cg(f);获取掩蔽门限单元,用于根据所述获取的全局掩蔽曲线Cg(f)和预置的临界频带的信 息,获取全局掩蔽门限;水印嵌入单元,用于根据所述获取的全局掩蔽门限,将水印编码嵌入到输入音频信号中。
全文摘要
本发明公开了一种音频编码方法和音频编码器方法。本发明实施例还提供相应的音频编码器。本发明技术方案由于利用线性预测LP和卷曲线性预测WLP的频率分辨特性非常接近人类听觉特性中的临界频带和掩蔽特性的特点,建立心理声学模型,获取到掩蔽门限,根据获取的掩蔽门限对音频信号进行编码,降低了建立心理声学模型的复杂度,易于实现,降低了心理声学模型在硬件实现的成本,降低了硬件的功率消耗。
文档编号G10L19/14GK101740033SQ200810181909
公开日2010年6月16日 申请日期2008年11月24日 优先权日2008年11月24日
发明者宋少鹏, 李倩, 柳巍, 许丽净, 马鸿飞 申请人:华为技术有限公司;西安电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1