一种基于先进音频编码器的心理声学模型的处理方法

文档序号:2837326阅读:285来源:国知局

专利名称::一种基于先进音频编码器的心理声学模型的处理方法
技术领域
:本发明涉及先进音频编码器,具体地说涉及一种基于先进音频编码器的心理声学模型的处理方法。
背景技术
:先进音频编码(AdvancedAudioCoding,AAC)属于一种变换域有损感知音频编码。有损感知音频编码可以获得很高的压縮比,但它的编码误差(量化噪声)不可避免的较高。为了降低量化噪声的影响,有损感知音频编码通过研究人耳的心理声学效应来控制编码误差的分布,从而使得由量化误差产生的噪声难以被察觉。这一过程在有损感知编码里通过心理声学模型来实现。心理声学模型控制量化误差的分布利用了人耳的听觉掩蔽现象。掩蔽现象是一种常见的心理声学现象,它是由人耳对声音的频率分辨机制和时间分辨机制决定的,指的是在一个较强的声音附近,相对较弱的声音将不被人耳察觉,即被强音掩蔽,这时的强音称作掩蔽者(Masker),弱音叫被掩蔽者(Maskee)。掩蔽效应分为同时掩蔽(SimultaneousMasking,SM)和异时掩蔽(HeterochronousMasking,歷)。同时掩蔽是指掩蔽现象发生在掩蔽者和被掩蔽者同时存在时,也称作频域掩蔽;异时掩蔽的掩蔽效应发生在掩蔽者和被掩蔽者不同时存在时,也称作时域掩蔽。异时掩蔽根据掩蔽者发生的前后顺序又分为前掩蔽(ForwardMasking,FM)和后掩蔽(BackwardMasking,BM)。若掩蔽效应发生在掩蔽者开始之前的某个时间,则为前掩蔽,之后发生则称之为后掩蔽。传统心理声学模型为编码器提供两个重要的参数,一个是感知熵,它代表信号考虑人耳的听觉掩蔽效应,去除了人的感知冗余后的信息量的大小,它可以用来估计编码的比特分配,也可以用以判断编码的块类型;另一个是编码器阈值,它是每个编码子带最大可容忍噪声,可用以进行量化器的失真控制。使用传统心理声学模型的AAC编码器一般采用的量化算法是基于编码器阈值的速率失真控制算法(Rate-Distortion,R-D),这种算法有双嵌套循环搜索算法(TwoLo叩Search,TLS),格形框架算法(Trellis-Based)和级联格形框架算法(CascadedTrellis-Based),其中后两种是双嵌套循环搜索算法的衍生。AAC编码器中的量化器是非均匀的量化器,它的熵编码是变长霍夫曼编码。但因为非均匀量化器的使用,使得编码器无法根据感知容忍噪声来指定足够优化的编码器参数,并且因为变长熵编码导致比特消耗数只能通过量化结果计算获得,这些因素使得传统心理声学模型所提供的参数并不能很好的用以控制信号的量化和编码,这造成了目前的码率失真控制算法的复杂与低效。抛弃传统的两层内嵌迭代的比特分配和失真控制算法,利用子带比特分配比例预测同时完成码率控制和失真控制的码率失真控制,可以得到更高的计算效率,其编码音质将取决于子带比特分配比例预测的足够优化。子带比特消耗预测数可由公式子带比特消耗预测数二子带感知熵X当前帧可用的比特数/所有子带感知熵和获得。其中,如编码是定比特率编码(CBR),那么当前帧可用的比特数是一个定值,等于比特率X1024/采样率;如果是随着使用情况变化,那么就是可变比特率编码(VBR),这种情况下的当前帧可用的比特数一般由帧间比特控制算法提供。可以看出,子带比特消耗预测数仅仅是通过归一化的感知熵与当前帧可用比特数的乘积得到,准确性不高,进而影响到码率失真控制的效率。并且,由于传统心理声学模型仅考虑了人耳的同时掩蔽效应,忽视了异时掩蔽效应,编码器不能够利用异时掩蔽来提高编码质量,一旦前掩蔽失效,量化噪声不可掩蔽而发生预回声时,音质会大幅降低。虽然AAC标准中提供了瞬时噪声整形(TemporalNoiseShaping,TNS)以削弱预回声的影响,但实际的测试表明使用该模块会更加恶化音质。
发明内容本发明就是为了解决上述技术问题,提出了一种基于先进音频编码器的心理声学模型的处理方法,充分考虑了时域掩蔽和频域掩蔽,从而输出准确的编码子带比特消耗预测数,提高了编码器进行量化编码的编码质量和效率。为了实现上述目的,本发明采用了如下技术方案一种基于先进音频编码器的心理声学模型的处理方法,包含如下处理过程A、由待编码码流的心理声学子带谱能量,通过掩蔽扩散矩阵计算获得编码子带的感知熵和掩蔽阈值;B、通过编码子带的感知熵和掩蔽阈值,应用时频掩蔽修正与预回声修正,计算获得子带比特消耗预测数;C、心理声学模型输出子带比特消耗预测数作为码率失真控制的参数以进行编码处理。所述步骤B包含如下处理过程Bl、比较编码子带的当前掩蔽阈值与长期平均掩蔽阈值获得时频掩蔽修正因子;B2、通过时域掩蔽判断预回声是否失掩蔽,如是,修正时频掩蔽修正因子;B3、使用时频掩蔽修正因子修正感知熵计算获得子带比特消耗预测数。步骤Bl中的所述长期平均掩蔽阈值通过如下公式得到Argmask功=orArgmask"+(1—a)mask砂其中,Argmask"(yt)是上一帧的编码子带长期平均掩蔽阈值,Argmask砂("是当前帧的编码子带长期平均掩蔽阈值,mask^("是当前帧编码子带掩蔽阈值,"是衰减指数;所述时频掩蔽修正因子通过如下公式得到應k,),若壶>4,brustw=minfL5,,d)Argmask她(A:)''一'「2,a=0.98;若cM20.5,此时brust"A:):0.95,a=0.4;若cM〈0.5,此时brusts,(yt)-0.90,a=0.4;其中,cM为能量比值,bms^(;t)为时域掩蔽修正因子。步骤B2中所述通过时域掩蔽判断预回声是否失掩蔽包含如下步骤B21、将一帧时域信号分割成8段,求得每一段的时域绝对幅度和并放在分段绝对幅度abamp的中间8个元素中256mabamp(m+l)=Z|xf.(w)|,w=1,2,".,8"=256(m—l)十l其中,abamp为10xl的向量,其第一个元素abarap(l)继承上一帧8段的均方幅度和abamp,.(lh玄abamp,一(m)2,最后一个元素继承该帧的最后一段的绝、m=2对幅度abamp(10)=abamp(9);B22、由步骤B21得到的分段绝对幅度通过下式计算得到时域掩模Tmask()w):^+Tmask(m)二Tnorm(m)Zabamp(w)Ratermasfc()w—w+3)其中时域扩散衰减系数Rate^为Raterm。Sil=时域扩散归一化系数Tnorm(附)为Tnorm(m)=^——^-,m=1,2,.,,8B23、当1.3Tmask(l)〈Tmask(8)且Tmask(8)〉2000时,判断为预回声失掩蔽°当判断为预回声失掩蔽时,按如下原则对连续两帧时频掩蔽修正因子进行修正bniSt;W=bmS^W,其中,bmst;("为经过预回声修正的时频掩蔽修正因子,bms^(/r)为原时域掩蔽修正因子,第一帧修正时c/mSn^=3,第二帧修正时c/m5n^=2。步骤B3通过如下步骤实现B31、使用时频掩蔽修正因子修正感知熵得到子带比特消耗预测比例,B32、根据实际比特消耗进行帧间负反馈比特控制,得到当前帧的可用比特数;B33、由子带比特消耗预测比例和当前帧的可用比特数计算获得子带比特消耗预测数。步骤B31中所述子带比特消耗预测比例通过下式得到PE(A)sfbBitRatio("=49^brust;(A:),其中,sfbBitRatio(it)为子带比特消耗预测比例,bnist^("为时域掩蔽修正因子,PE^("为编码子带的感知熵。步骤B32中所述当前帧的可用比特数由下式得到Zz.^4雨7aWe(/)=cow/ra/i加o(ZzL4verage+tov4vaz7"6/e(z'—1)-toC/s^),其中,为帧间修正因子,6z'","^为根据平均码率得消耗的比特数,所述帧间修正因子通过如下原则确定-若6"i加'o>1.06,cow的/ia"'o=-^-,若1.0626"iario>1.05,cow^o/ia"o=0.9,若1.052>1.02,cow^"o/iario=0.95,若1.022歸a"o20.98,画的/too=1,若toifl"o<0.98,co"froW加o=1.2,其中=————,为当前平均每帧比特数和可用平均比特数的比值。步骤B33中所述子带比特消耗预测数由下式得到sftBits(A:)=tov4vaz7a6/e(/)sfbBitRatio(yt),其中,sfbBits("为子带比特消耗预测数,^"则7a6/e(0为当前帧可用比特数,sfbBitRatio(/t)为子带比特消耗预测比例。步骤A包含如下步骤-Al、由待编码码流的心理声学子带的谱能量相加得到心理声学子带能A2、由心理声学子带能量计算子带能量峰谷值;A3、通过二阶线形方程将子带能量峰谷值映射为掩蔽信号比;A4、利用掩蔽信号比和心理声学子带能量计算子带的自掩蔽能量;A5、通过扩散矩阵由自掩蔽能量得到心理声学子带的掩蔽阈值-,A6、由心理声学子带能量和掩蔽阈值计算心理声学子带的感知熵;A7、将心理声学子带的感知熵和掩蔽阈值分别映射成编码子带的感知熵和掩蔽阈值。步骤A5中所述扩散矩阵为稀疏扩散矩阵,对扩散矩阵的稀疏化是通过将归一化扩散矩阵中小于预定分贝阈值的元素置为0实现的,所述归一化扩散矩阵的归一化因子通过下式获得70sprdngN(6)=Zsprdngf[bavl(Z>)-bval(66)],其中,sprdngN(6)为归一化因子,bavl(6)和bval(M)为巴克频率,sprdngf是扩散方程;所述扩散方程由以下原则确定■spr=sprdngf(A/c)—A/c<=-3.3333=015.811389+7.5(1.5iVi+0.474)-17.5x/l+(1.54/;+0'474)2-3.3333<A,0,,=10^15.811389+7.5(34/;+0.474)-17.5^/1+(3仏+0.474)20<A/C<=0.5,^r=10^,其中,8[(3A/C-1.5)2-1]+15.8"389+7.5(3仏+0.474)-17.50+(34/;+0.474)20.5<A,<=2,5,,=1015.811389+7.5(3A/c+0.474)-17.5^/l+(34/;+0.474)22.5<A/c<=7.3333,wr=10^A/c>7.3333,w=0为扩散方程的值。步骤A2中所述子带能量峰谷值通过下式得到卯R辟):E^L匪K(H),E^其中卯Rate(6)为子带能量峰谷值,E"6)为当前心理声学子带能量,Eps#-l),E,("l)分别为上一心理声学子带和下一心理声学子带能量。步骤A3中所述二阶线形方程为MSRpsy(6)=0.17453ppRate(6)2+0.08325ppRate(6),其中,MSRpsy(6)为掩蔽信号比,ppRate(6)为子带能量峰谷值。步骤A4中所述自掩蔽能量通过下式获得Eseltoask(6)=Epsy(6).MSRpsy(6),其中,Ew(6)为自掩蔽能量,E,(6)为心理声学子带能量,MSRpsy(6)为掩蔽信号比。步骤A5中所述掩蔽阈值通过下式得到maSkpsy(Z>)=EselfmaskxSprdiigMN,其中,masl^y(6)为心理声学子带的掩蔽阈值,sprdngMN为扩散矩阵。步骤A6中所述心理声学子带感知熵通过下式得到mask,(6)bw附(6)为心理声学子带带宽,E附(W为心理声学子带能量,maskpsy(6)为心理声学子带的掩蔽阈值。步骤A7中所述心理声学子带感知熵通过下式映射成编码子带的感知13PE^(6)=bWpsy(6)toglO,其中,PE^(6)为心理声学子带感知熵,熵PE""=£PE,(w),其中,PE一"为编码子带感知熵,psyLow(6)SpsyHigh(6),psyHigh(6),psyLow(6)分别为心理声学子带6的上界和下界;sfblow(6),sfbhigh(6)分别为编码子带6的上界和下界;PE,(W)=^^,bw附^为心理声学子带带宽,PE附^为心理声学子带感知熵;所述心理声学子带掩蔽阈值通过下式映射成编码子带的掩蔽阈值masksyJ(A:)=bwsyJ("min(mask,(6)),WS6S62,其中,mask^("为编码子带的掩蔽阈值,61满足psyLow(M)Ssfblow(A:)Spsyhigh(61),62满足masU)丄、TmpsyLow(&2)"fbhigh(A:)Spsyhigh(62),mask啊W-"、/,maskpsy(W为心理声学子带掩蔽阈值;psyHigh(W),psyLow(W)分别为心理声学子带61的上界和下界;psyHigh(W),psyLow(62)分别为心理声学子带62的上界和下界;sfblow(/t),sfbhighOfc)分别为编码子带yfc的上界和下界。bw^(A:)为编码子带带宽°本发明通过当前帧的参数与以往帧长期平均的参数的比较,以及通过时域掩蔽判断预回声进行修正,实现了充分考虑时域掩蔽和频域掩蔽(时频掩蔽)的心理声学模型的处理方法,从而更准确地通过感知熵得到子带比特消耗预测数,以该预测数作为编码器进行码率失真控制的参数,大大提高了编码器进行量化编码时的编码效率和质量。通过计算掩蔽扩散矩阵来获得感知熵,在计算过程中对掩蔽扩散矩阵进行稀疏处理,从而能够更快速地得到感知熵,降低了计算感知熵的运算量。图1是使用了本发明实施例的MegalAAC编码器的结构框架图;图2是本发明实施例的处理方法的流程图;图3是掩蔽信号比在不同子带上的约束子带上界和约束子带下界示意图;图4是预回声失掩蔽的判断示意图;图5是几种编码器的0DG指标比较示意图;图6是几种编码器的丽R指标的比较示意图;图7是几种编码器的0DG分布示意图;图8是几种编码器的丽R分布示意图。具体实施方式下面结合附图对本发明的具体实施方式进行详细的说明。本发明的处理方法的具体实施方式参看图2,其具体处理步骤如下1、由待编码码流的心理声学子带谱能量,通过掩蔽扩散矩阵计算获得编码子带的感知熵和掩蔽阈值la)将当前帧每个心理声学子带的MDCT(改进的离散余弦变换)谱能量相加得到心理声学子带能量E^lb)计算子带能量峰谷值ppRate(6)其中b代表当前子带索引,b-l和b+l分别代表上一子带和下一子带。得到子带能量峰谷值之后,将其约束在[lower(外upper(6)]之间IfppRate(6)〉upper(Z),ppRate(6)=upper(6)IfppRate(6)<1ower(6),ppRate(6)=1ower(6)艮卩ppRate(6)=max(lower(6),min(upper(6),ppRate(6))),其中,1ower(6)=tan(1'5—0.5),6=2,…,69lower(l)=1ower(2)+0.1,1ower(70)=1ower(69)(2)upper(6)=1ower(6)+0.7lc)通过二阶线形方程完成子带能量峰谷值向掩蔽信号比MSRpsy(6)的映射MSRpsy(6)=0.17453ppRate(6)2+0.08325ppRate(6)(3)其中,方程的一次项和二次项系数为经过大量测试获取的较优值。掩蔽信号比在不同的心理声学子带上的约束情况参看图3,从图中可以看到,掩蔽信号比位于约束上界和约束下界之间。ld)利用心理声学子带能量与掩蔽信号比计算出子带的自掩蔽能量Eseiftnask(6)Eseltaask(6)=Epsy(Z>).MSRpsy(6)(4)le)利用归一化扩散矩阵计算掩蔽阈值maskpsy(6)maskpsy(6)=EselfimskxsprdngMN(5)其中,归一化扩散矩阵sprdiigMN由下式确定<formula>formulaseeoriginaldocumentpage16</formula>式(6)中,bavl()是子带序号向巴克(bark)频率的映射函数,巴克频率是模拟人耳听觉特性的一种频率划分原则,在20到20000Hz的频率范围内,不均匀地划分了25个bark,频率到bark常用一个复杂的非线性函数表示,通常把有限的用得到的bark值实现算出来做成表,用来查找简化计算,bavl()即该简化计算表,由巴克频率查找表预先算出归一化因子sprdngN(。。sprdngf()是扩散方程,其取值由下式得到<formula>formulaseeoriginaldocumentpage16</formula>将sprdngMN中小于-100dB的元素都置为0,sprdngMN将是一个稀疏扩散矩阵,其非零项为sprdngMN[l,l],sprdngMN[2,l],sprdngMN[3,1]sprdngMN[l,2],sprdngMN[2,2〗sprdngMN[l,3],sprdngMN[2,3]sprdngMN[l,4],sprdngMN[2,4]■sprdngMN[l,5],sprdngMN[2,5]sprdngMN[l,6],sprdngMN[2,6]sprdngMN[l,7],sprdngMN[2,7]-sprdngMN[2,8],sprdngMN[3,8]sprdng廳[4,2]sprdngMN[5,3].sprdngMN[6,4]'sprdngMN[8,5]sprdngMN[9,6]sprdngMN[10,7]sprdngMN[l1,8](8)sprdngMN[3,9],sprdngMN[4,9]……sprdngMN[l2,9]sprdngMN[60,67],sprdngMN[61,67]sprdngMN[61,68],sprdngMN[62,68].sprdngMN[62,69],sprdngMN[63,69].sprdngMN[63,70],sprdngMN[64,70].sprdngMN[69,67]sprdngMN[70,68].sprdngMN[70,69].sprdngMN[70,70]sprdngMN总共有672个非零项,可以使用672次乘加运算完成掩蔽阈值的计算。计算出掩蔽阈值后,对其进行约束,使其在静音听觉阈值之上,如下式maskpsy(6)=max[maskpsy(6),qthr(6)](9)式中,qthr(6)为静音听觉阈值。lf)由心理声学子带能量和掩蔽阈值计算出感知熵PE,⑨PEwy(6)=bW^(6)lOgl0E0).mask,(6)其中,bw^(6)为心理声学子带带宽。lg)获得感知熵和掩蔽阈值的编码子带映射计算心理声学子带内每个频谱的感知熵映射到编码子带w=sfbHigh(6)PE砂(一J]PE,(10)(11)(12)其中psyLow(6)^w^psyHigh(&),psyHigh(&),psyLow(6)分别为心理声学子带6的上界和下界;sfblow(6),sfbhigh(W分别为编码子带6的上界和下界。计算心理声学子带内每个频谱的掩蔽阈值<formula>formulaseeoriginaldocumentpage18</formula>映射到编码子带mask讲("=bw妙(A)min(mask啊(6)),61S"62(14)其中M满足psyLow洲Ssftlow(A:)Spsyhig,)(15)62满足psyLow(&2)Ssfbhigh(/r)5psyhigh(W)(16)psyHigh(W),psyLow(61)分别为心理声学子带61的上界和下界;psyHigh(62),psyLow(62)分别为心理声学子带62的上界和下界;sfblow(Q,sfbhighW分别为编码子带/t的上界和下界。bw^("为编码子带带宽。2、比较当前掩蔽阈值与长期平均掩蔽阈值获得时频掩蔽修正因子根据当前帧的编码子带掩蔽阈值更新编码子带长期平均掩蔽阈值Argmask^(A)="Argmask"+(1-a)raask砂(A)(17)Argmask"(/c)是上一帧的编码子带长期平均掩蔽阈值,Argmask""是当前帧的编码子带长期平均掩蔽阈值,mask""是当前帧编码子带掩蔽阈值,其中a是衰减指数,它根据掩蔽情况的不同而不同,具体取值由式(18)确比较编码子带掩蔽能量和编码子带长期平均掩蔽能量,获得能量比值cM=,k""(18)Argmask砂(&)进行比较<table>tableseeoriginaldocumentpage18</column></row><table>3、通过时域掩蔽判断预回声,修正时频掩蔽修正因子可以通过时域掩蔽判断预回声失掩蔽,若发生则对时域掩蔽修正因子进行修正以便进一步提高利用时频掩蔽修正因子进行后续处理步骤的准确性。具体步骤是将一帧时域信号分割成8段,求得每一段的时域绝对幅度和,放在分段绝对幅度abamp的中间8个元素中256mabampO+1)=£|x(柳=1,之,…,8(19)w=256(m—1)+1abamp是一个10xl的向量,它的第一个元素abamp(l)继承上一帧8段的均方幅度和abampi.(l)二」^]abamp,一"m)2(20)最后一个元素继承该帧的最后一段的绝对幅度abamp(10)-abamp(9)。时域掩模Tmask(m)是一个8x1的向量,通过下式计算得到m+2Tmask(m)=Tnorm(m)Zabamp(w)Rate^。^(附一w+3)其中时域扩散衰减系数RateM为Rater—=时域扩散归一化系数Tnorm(附)为Tnorm(—二~^——^-,m=1,2,…,8(21)咖(23)2>一当1.3Tmask(1)<Tmask(8)且Tmask(8)>2000时,判断为预回声失掩蔽,其判断效果见图4。当判断预回声失掩蔽时,对连续两帧的时频掩蔽修正因子进行预回声修正'bmsCbmW(24)其中,bnist;("为经过预回声修正的时频掩蔽修正因子,第一帧修正时第二帧修正时c/m肠W=2。4、使用时频掩蔽修正因子修正感知熵得到子带比特消耗预测比例sfbBitRatio("sfbBitRatio("=49^、brusC)(25)5、根据实际比特消耗进行帧间负反馈比特控制,由子带比特消耗预测比例计算得到编码子带比特消耗预测数,具体步骤为5a)负反馈帧间比特修正令当前使用的比特总数为当前已处理帧数为《,上一帧实际消耗的比特数为^仏erf,根据平均码率得到的每帧可用的平均比特数为to^4verage,上一帧可用比特数为W"wnto6/e(z'-l),当前平均每帧比特数为W虛/K,它和平均比特数的比值toi加o=^^^。若秘ia"o>1.06,帧间4彦正因子coWra/ia"o=-+0.2若1,062ZnYia"o>1.05,coM^o/ia"'o=0.9若1.0526"ifl"o>1.02,coWro/ia/zo=0.95若1.0226幽"o20.98,=1若6欣a"'o<0.98,cowfra/及""'o=1.2当前帧的可用比特数&"柳7W/e(/)为6z'L4ra/to6/e(z')=cow的/itoz'o(6/L4verage+toy4w7a6/e(z.-1)-tot/set/)(26)将其约束在一定的范围内-.&A4verageSto^4葡7a6/e(/)Sor.6"Jverage(27)其中,0<"<1,/>1,一般设"=0.95,/=1.2比较合适。5b)计算编码子带比特消耗预测数sfbBits(A)sfbBits("=^"vm7a6/eO〕sfbBitRatio("(28)6、心理声学模型输出子带比特消耗预测数作为码率失真控制的参数以进行编码处理得到编码子带比特消耗预测数后,心理声学模型输出该预测数作为码率失真控制的参数,码率失真控制进行熵编码和码流合成,完成编码处理。以上本实施例中所给出的各阈值、参数和系数,均为实验所获的较优值,本发明并不限定仅取前述公开的数值,在本发明的构思下,本领域技术人员可以理解,可根据实际的信号情况对以上数值进行一定的调整以达到更好的效果。本发明的心理声学模型称为熵分配心理声学模型(Entropy—allocationpsychoacousticmodel,EAPAM),与在多禾中音步员编码如MP3中采用,MPEG-4MC标准提供的传统心理声学模型2(PAMII)进行对比。MegalAACEncoder(Megal)是一种利用子带比特比例预测指导码率失真控制的AAC编码器,其结构框架如图l所示。有关算法复杂度评估通过比较使用PAMII的FreeAdvancedAudioCoder(FAAC)和使用EAPAM的MegalAACEncoder,在对44100Hz采样,16位量化的立体声音频进行平均比特率为128Kbps编码的情况下进行,参考指标为每秒百万操作数。表1心理声学模型类型的计算量与编码算法的计算量<table>tableseeoriginaldocumentpage21</column></row><table>从表1可见,EAPAM算法的计算量相对于PAMII降低了48.478M0PS,这一模块占总计算量的比重从57%降低到了17%,R-D算法因为使用了子带比特比例预测指导分配,计算量从35M0PS降低到12.8M0PS,总体计算量降低了69.6M0PS,幅度达76.7%。编码器的音质评估使用EAQUAL1.3,这是使用感知音频客观评价标准PEAQ的客观评价程序,PEAQ提供的音质评价指标名称及其描述见表2表2eaqual软件输出的评价指标及意义<table>tableseeoriginaldocumentpage22</column></row><table>这里选择总体指标(ODG)和两个重要的单项指标(BandwidthTest和丽R)作为主要参考指标。音质评估使用四种编码器参照进行,对它们进行横向评估,这四个编码器分别为使用本发明的EAPAM模型和传统的PAMII模型的Megal,NCTUAACEncoder(以下简称NCTU)和FAAC。其中NCTU是台湾交通大学感知音频小组开发的AAC编码器,FAAC是德国FraunhoferIIS开发的AAC编码器,FraunhoferIIS是Mpeg标准的主要制定者,其FMC编码器是AAC标准的验证编码器。音质评估源使用美国惠威公司提供的音响试音碟的第一张和第二张,剔除了重复的曲目,选取了其中37支音乐剪辑,这些剪辑包含了乐曲的基本类型,它们的名称以及描述见表3表3测试曲目<table>tableseeoriginaldocumentpage23</column></row><table>测试结果见表4表4测试结果<table>tableseeoriginaldocumentpage24</column></row><table><table>tableseeoriginaldocumentpage25</column></row><table>从图5和图6可见,NCTU的平均0DG相对Faac提高0.163,而使用本发明的Megal的平均0DG相对NCTU又提高了0.187,使用PAMII方法的megal基本与Faac相当;NCTU的平均NMR相对Faac降低了1.06dB,而使用本发明的Megal的平均醒R相对NCTU又降低了1.08dB,使用PAMII方法的megal平均丽R要高于Faac。类似的结论可以在测试剪辑的图7的0DG分布图与图8的丽R分布图中得到。计算量评估与音质客观评价都说明,本发明可以使AAC编码器以大幅降低的计算量获得大幅提高的音质。本发明通过当前帧的参数与以往帧长期平均的参数的比较,以及时域预回声判断,实现了充分考虑时域掩蔽和频域掩蔽(时频掩蔽)的心理声学模型,最终输出准确的编码子带比特分配比例预测,能够提高量化编码算法的编码质量,同时与传统心理声学模型算法相比运算量也有大幅度降低。权利要求1、一种基于先进音频编码器的心理声学模型的处理方法,其特征在于,包含如下处理过程A、由待编码码流的心理声学子带谱能量,通过掩蔽扩散矩阵计算获得编码子带的感知熵和掩蔽阈值;B、通过编码子带的感知熵和掩蔽阈值,应用时频掩蔽修正与预回声修正,计算获得子带比特消耗预测数;C、心理声学模型输出子带比特消耗预测数作为码率失真控制的参数以进行编码处理。2、如权利要求1所述的基于先进音频编码器的心理声学模型的处理方法,其特征在于,所述步骤B包含如下处理过程Bl、比较编码子带的当前掩蔽阈值与长期平均掩蔽阈值获得时频掩蔽修正因子;B2、通过时域掩蔽判断预回声是否失掩蔽,如是,修正时频掩蔽修正因子;B3、使用时频掩蔽修正因子修正感知熵,计算获得子带比特消耗预测数。3、如权利要求2所述的基于先进音频编码器的心理声学模型的处理方法,其特征在于,步骤B1中所述长期平均掩蔽阈值通过如下公式得到Argmask彿<formula>formulaseeoriginaldocumentpage2</formula>其中,Argmask"W是上一帧的编码子带长期平均掩蔽阈值,Argmask"A:)是当前帧的编码子带长期平均掩蔽阈值,mask^(yt)是当前帧编码子带掩蔽阈值,"是衰减指数;所述时频掩蔽修正因子通过如下公式得到<formula>formulaseeoriginaldocumentpage2</formula>若cM20.5,此时brust砂("-0.95,a=0.4;若cM〈0.5,此时brust砂(A:)-0.90,a=0.4;其中,cM为能量比值,brust^("为时域掩蔽修正因子。4、如权利要求2所述的基于先进音频编码器的心理声学模型的处理方法,其特征在于,步骤B2中所述通过时域掩蔽判断预回声是否失掩蔽包含如下步骤-B21、将一帧时域信号分割成8段,求得每一段的时域绝对幅度和并放在分段绝对幅度abamp的中间8个元素中<formula>formulaseeoriginaldocumentpage3</formula>其中,abamp为10xl的向量,其第一个元素abamp(l)继承上一帧8段的均方幅度和abamp,控abamp,—2,最后一个元素继承该帧的最后一段的绝对幅度abamp(10)=abamp(9);B22、由步骤B21得到的分段绝对幅度通过下式计算得到时域掩模Tmask(w):附+2Tmask(m)=Tnorm(附)Zabamp(w)Raterm。5;t(m—w+3)其中时域扩散衰减系数RateKg为Rate歸=时域扩散归一化系数Tiionn(m)为Tnorm(附)=^~^-,m=1,2,.,8B23、当1.3Tmask(l)〈Tmask(8)且Tmask(8)〉2000时,判断为预回声失掩蔽。5、如权利要求2所述的基于先进音频编码器的心理声学模型的处理方法,其特征在于,当判断预回声失掩蔽时,步骤B2按如下原则对连续两帧时频掩蔽修正因子进行修正bniSt;W=brUS』W赠,其中,brust^Ot)为经过预回声修正的时频掩蔽修正因子,briist^W为原时域掩蔽修正因子,第一帧修正时c/m^nw^3,第二帧修正时c/m5n^二2。6、如权利要求2所述的基于先进音频编码器的心理声学模型的处理方法,其特征在于,步骤B3通过如下步骤实现B31、使用时频掩蔽修正因子修正感知熵得到子带比特消耗预测比例;B32、根据实际比特消耗进行帧间负反馈比特控制,得到当前帧的可用比特数;B33、由子带比特消耗预测比例和当前帧的可用比特数计算获得子带比特消耗预测数。7、如权利要求6所述的基于先进音频编码器的心理声学模型的处理方法,其特征在于,步骤B31中所述子带比特消耗预测比例通过下式得到PEfit)sfbBitRatio("=49砂、,brust;(A:),其中,sfbBitRatio("为子带比特消耗预Zw测比例,brust^W为时域掩蔽修正因子,PE^(Q为编码子带的感知熵。8、如权利要求6所述的基于先进音频编码器的心理声学模型的处理方法,其特征在于,步骤B32中所述当前帧的可用比特数由下式得到6/L4vaz7flWe(Z)=awZra/ifl,/(9(6z.L4verage+6/L4va亍/"We(7-1)-6zYL^ec/),其中,ccm加W她'o为帧间修正因子,W"verage为根据平均码率得到的每帧可用的平均比特数,W"濯7祝e(卜l)为上一帧可用比特数,为上一帧实际消耗的比特数,所述帧间修正因子通过如下原则确定若6zYia"'o>1.06,cow的/i油'o=-^-,若1.06》6"/ario>1.05,co"o/ia"o=0.9,若1.052>1.02,画的脂zo=0.95,若1.02>6aiario20.98,cow"o/Wario=1,若6幽rio<0.98,画的/ia"o=1.2,其中磁加'o=--,为当前平均每帧比特数和可用平均比特数的比值。9、如权利要求6所述的基于先进音频编码器的心理声学模型的处理方法,其特征在于,步骤B33中所述子带比特消耗预测数由下式得到sfbBits("=Z7/"vaz7a6/e(z')sfbBitRatio(A),其中,sfbBits(A:)为子带比特消耗预领U数,W"油/W/e(z')为当前帧可用比特数,sfbBitRatio("为子带比特消耗预测比例。10、如权利要求1至9任一所述的基于先进音频编码器的心理声学模型的处理方法,其特征在于,步骤A包含如下步骤Al、由待编码码流的心理声学子带的谱能量相加得到心理声学子带能A2、由心理声学子带能量计算子带能量峰谷值;A3、通过二阶线形方程将子带能量峰谷值映射为掩蔽信号比;A4、利用掩蔽信号比和心理声学子带能量计算子带的自掩蔽能量;A5、通过扩散矩阵由自掩蔽能量得到心理声学子带的掩蔽阈值;A6、由心理声学子带能量和掩蔽阈值计算心理声学子带的感知熵;A7、将心理声学子带的感知熵和掩蔽阈值分别映射成编码子带的感知熵和掩蔽阈值。11、如权利要求10所述的基于先进音频编码器的心理声学模型的处理方法,其特征在于,步骤A5中所述扩散矩阵为稀疏扩散矩阵,对扩散矩阵的稀疏化是通过将归一化扩散矩阵中小于预定分贝阈值的元素置为0实现的,所述归一化扩散矩阵的归一化因子通过下式获得<formula>formulaseeoriginaldocumentpage5</formula>)为归一化因子,bavl(6)和bval(M)为巴克频率,sprdngf是扩散方程;所述扩散方程由以下原则确定-<formula>formulaseeoriginaldocumentpage5</formula>为扩散方程的值。12、如权利要求10所述的基于先进音频编码器的心理声学模型的处理方法,其特征在于,步骤A2中所述子带能量峰谷值通过下式得到卯腕,=5^,—1),E,其中,卯Rate(w为子带能量峰谷值,E柳(6)为当前心理声学子带能量,E阿(6-1),Ep,+1)分别为上一心理声学子带和下一心理声学子带能量。13、如权利要求10所述的基于先进音频编码器的心理声学模型的处理方法,其特征在于,步骤A3中所述二阶线形方程为MSRpsy(6)=0.17453ppRate(6)2十0.08325ppRate(6),其中,MSR附(6)为掩蔽信号比,ppRate(6)为子带能量峰谷值。14、如权利要求10所述的基于先进音频编码器的心理声学模型的处理方法,其特征在于,步骤A4中所述自掩蔽能量通过下式获得Eselfinask(6)=Epsy(6).MSRpsy(6),其中,Es麵sk(6)为自掩蔽能量,E附(6)为心理声学子带能量,MSR^(6)为掩蔽信号比。15、如权利要求10所述的基于先进音频编码器的心理声学模型的处理方法,其特征在于,步骤A5中所述掩蔽阈值通过下式得到maskpsy(6)=Ese,fmaskxsprdngMN,其中,maskpsy(6)为心理声学子带的掩蔽阈值,sprdngMN为扩散矩阵。16、如权利要求10所述的基于先进音频编码器的心理声学模型的处理方法,其特征在于,步骤A6中所述心理声学子带感知熵通过下式得到其中,PE^(6)为心理声学子带感知熵,b,JW为心理声学子带带宽,E^(。为心理声学子带能量,maskp砂(。为心理声学子带的掩蔽阈值。17、如权利要求10所述的基于先进音频编码器的心理声学模型的处理方法,其特征在于,步骤A7中所述心理声学子带感知熵通过下式映射成编码子带的感知熵<formula>formulaseeoriginaldocumentpage6</formula>其中,PE""为编码子带感知熵,psyLow(6)Sw《psyHigh(6),psyHigh(6),psyLow(6)分别为心理声学子带6的上界和下界;sfblow(6),sfbhigh(6)分别为编码子带6的上界和下界;<formula>formulaseeoriginaldocumentpage6</formula>6)为心理声学子带带宽,PE阿(W为心理声学子带感知熵;所述心理声学子带掩蔽阈值通过下式映射成编码子带的掩蔽阈值mask砂(A:)-bw砂(A:)min(mask啊(6)),WS6《62,其中,mask^(A:)为编码子带的掩蔽阈值,W满足psyLow(61)^sfblow("Spsyhigh(61),62满足masD)丄、TrapsyLow(62)"fbhigh("^psyhigh(W)'mask啊(6h";;~mask附(W为七、理声学子带掩蔽阈值;psyHigh(M),psyLow(M)分别为心理声学子带W的上界和下界;psyHigh(62),psyLow(W)分别为心理声学子带W的上界和下界;sfblow(/t),sfbhigh(/t)分别为编码子带;t的上界和下界,bw^(;t)为编码子带带宽。全文摘要本发明公开了一种基于先进音频编码器的心理声学模型的处理方法,包含如下处理过程A.由待编码码流的心理声学子带谱能量,通过掩蔽扩散矩阵计算获得编码子带的感知熵和掩蔽阈值;B.通过编码子带的感知熵和掩蔽阈值,应用时频掩蔽修正与预回声修正,计算获得子带比特消耗预测数;C.心理声学模型输出子带比特消耗预测数作为码率失真控制的参数以进行编码处理。本发明能够更准确地通过感知熵得到子带比特消耗预测数,以该预测数作为编码器进行码率失真控制的参数,大大提高了编码器进行量化编码时的编码效率和质量。文档编号G10L19/02GK101308659SQ200710127660公开日2008年11月19日申请日期2007年6月20日优先权日2007年5月16日发明者晟吴,邱小军,强陈,黎家力申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1