一种高效感知音频比特分配方法

文档序号:2831025阅读:276来源:国知局
专利名称:一种高效感知音频比特分配方法
技术领域
本发明属于音频编码技术领域,具体涉及一种数字音频感知编码的比特分配方法。
背景技术
近些年来,CD音质的数字音频己经足以取代模拟音频。网络、无线以及多媒体计算 系统等新出现的应用面临着一系列的限制,如信道带宽的降低、存储容量的限制以及低 成本的要求。这些新的应用也产生了低码率下传输高质量数字音频的需要。针对这一需 求,己经有很多研究致力于高保真(CD音质)数字音频的感知透明编码。
目前的主流音频编码技术都是基于人耳感知模型的有损编码系统,利用感知无关和 统计冗余来获得编码增益。感知音频编码器的通用结构如图1所示。通用的感知音频编 码器由滤波器组、心理声学模型、比特分配与量化、熵编码以及码流格式化模块组成。
输入信号被分段成持续时间2到50ms之间的为平稳帧,然后时间-频率分析模块计 算每帧的时间和频率分量。通常时-频映射要尽量与人耳听觉系统的分析特性相匹配,从 而由输入音频提取出一套在感知失真尺度下易于量化与编码的时-频参数。
心理声学模型对输入音频信号进行分析,根据人耳听觉模型的听觉阈值和掩蔽效应 去除信号中感知无关的分量,并进一歩确定编码输入信号所需的比特数。心理声学研究 认为人耳能否听见声音取决于声音的频率,幅度是否高于这种频率下的听觉阈值,低 频区的频率分辨率高于高频区。如果信号频率中有低于绝对听觉阈值的部分,那么这部 分信号可舍弃而不被人耳觉察;如果某一频率的声音幅度小于另一声音的听觉阈值,并 在其掩蔽范围内,则该声音被掩蔽;同样,某噪声幅度在某一声音的听觉阈值内,该噪 声也被掩蔽。有关掩蔽曲线模型详细内容可参见朱丽,郭从良发表的论文"心理声学模 型在数字音频中的应用"(出处《电声技术》2002年第8期总第206期)。
比特分配模块根据心理声学模型确定的比特需求为需要编码的输入信号分配比特量 化器使用比特分配模块分配的比特数来量化表示输入信号。
熵编码模块对量化信息采用Huffman编码、算术编码等算法降低统计冗余度。
码流格式化模块将一帧输入信号的编码表示按照一定的语法规范进行格式化,提供 码流信息、帧内辅助信息、帧数据和用户数据等。
实际的编码系统通常被限制于一定的输出码率,即每帧音频输入信号的编码表示的 码字是受限的。为了在给定的码率限制下达到较好的编码质量,通常需要多次的比特分 配和量化编码尝试来决定合适的比特分配与量化编码。通常的比特分配与量化是以双层 循环叠代来实现的,内层循环负责对码率进行控制,外层循环负责对质量进行控制。比 特分配的双层循环叠代结构如图2所示。因此,在音频编码技术中,比特分配算法是整个编解码系统的核心部分,比特分配算法的性能直接影响着音频编码系统的性能,也是 最消耗计算资源的处理过程。
衡量循环迭代性能的两个因素是精度和效率。目前关于高效比特分配的算法也主 要有两种,第一种是以牺牲精度为代价换取比特分配的高效率;第二种是利用相邻帧之 间信号的相关性预测比特分配信息,从而降低循环的运算量,在不损失精度的前提下提 高比特分配效率。如果目标码率足够高,那么牺牲精度的算法可能是可以接受的,但是 在必须对码率进行严格限制的情况下它是不可接受的。而第二种算法是基于帧间较好的 相关性,而对于经常出现的剧烈变化的序列,效率明显降低。

发明内容
本发明的目的在于克服现有技术的不足,提供一种高效的感知音频比特分配方法。 该方法基于人耳的感知模型,通过对比特分配参数与信号掩蔽比之间的定量分析,精确 计算比特分配参数的初值(一次逼近),然后再经过临界收敛控制的叠代循环确定最佳
比特分配参数。具体步骤如下
第一步建立基于心理声学的人耳听觉模型,根据它计算频谱包络的掩蔽特性,从 而确定比特分配的掩蔽曲线;
第二步根据下列公式, 一次逼近比特分配参数的初值,式中,bitleft是比特剩余 数,nbin是量化谱线的个数
5Woj^e/ = Z /f/e// / wZ)/w x 128 ,
第三步由比特分配的掩蔽曲线与比特分配参数共同计算出噪声容限,计算得到比
特分配指针。
第四步,采用循环迭代的方式对比特分配参数进行SNRoffset步长调节将允许的
最大限度的比特数分配给所有的声道,如果当前分配的比特数超过允许分配的比特数,
下一次计算时减小SNRoffset的值;否则增加SNRoffset的值,如此反复计算直到比特 池中的可用比特数得到最大限度的利用。
第四步的歩长调节按下列步骤执行
(1) 给定第一迭代次数N1,第二迭代次数N2以及初始调节步长S1,设当前处于 初歩概略态;
(2) 如果处于初步概略态,统计迭代次数,当迭代次数超过第一迭代次数N1时, 设定步长为最大调节步长S2,进入超快速收敛态。
(3 ) 根据噪声门限进行比特分配;
(4) 当处于初歩概略态时,以初始调节步长S1,并根据bitleft/bitref來修正 步长,从而调整SNRoffset;当处于超快速收敛态时,以最大调节步长S2调整 SNRoffset;当处于临界收敛搜索态时,以最小调节歩长S3调整SNRoffset。(5) 判断bitleft与bitref是否异号,若是,则判断步长是否最小,若已经为 最小,则比特分配完成并退出迭代,若步长并不是最小,则将调节步长设为最小 调节步长S3进入临界收敛搜索态;
(6) 返回歩骤(2)继续执行迭代循环。
本发明提供了一种新的高效的感知音频比特分配方法。该方法基于人耳的感知模型, 通过对比特分配参数与信号掩蔽比之间的定量分析,精确计算比特分配参数的初值(一 次逼近),然后再经过临界收敛控制的叠代循环确定最佳比特分配参数。由于每帧信号 进行一次精确的比特分配参数初值的计算,因此可以很好的逼近最优值,保证后面的迭 代过程快速收敛,有效地降低了迭代循环次数;同时,由于每帧只计算一次比特分配参 数初值,因而计算开销也很小。因此该方法在保证比特分配精度的同时有效的降低了比 特分配叠代的次数,从而实现了一种高效的感知音频比特分配。


图l是感知音频编码器结构框图2是现有技术中双层循环比特分配结构框图3是本发明的感知音频比特分配流程图4是本发明应用于AC-3音频编码器的比特剩余与其他方法的对比; 图5是本发明应用于AC-3音频编码器的平均迭代次数与其他方法的对比; 图6是本发明应用于AC-3音频编码器的最大迭代次数与其他方法的对比。
具体实施例方式
本发明是一种通过定量分析与计算一次逼近比特分配参数的初值再经过临界收敛控 制的迭代循环确定最佳比特分配参数的高效感知音频比特分配方法。主要步骤如下:
第一步计算掩蔽曲线它包含一个基于人耳听觉的参数模型,根据它计算频谱包
络的掩蔽特性来确定比特分配的掩蔽曲线。 第二步 一次逼近比特分配参数的初值。
第三歩计算噪声门限。由比特分配得到的掩蔽曲线与比特分配参数共同计算出噪 声门限,计算得到比特分配指针。
第四步编码器循环迭代对比特分配参数进行粗步长调节,将允许的最大限度的比 特数分配给所有的声道。(图中的N1, N2均为迭代步长的门限,可以依实际情况设定)。 如果当前分配的比特数超过允许分配的比特数,下一次计算时减小SNRoffset的值;否 则增加SNRoffset的值,这种反复计算直到比特池中的可用比特数得到最大的利用。
下面结合附图和实施例对本发明做进一步详述。
实施例h
本实施例是基于PC机matlab7.0环境下的。PC机主处理器为Pentium4 2. 8GHz,内存为256M。实施例所用的编码器版本为AC-3立体声双声道编码器。选取的三类音频文件击 掌,钢琴,以及流行音乐,均为双声道wav文件,帧长为4464比特。参见图3,本实施例 预设图3中的三个参数N1, N2, S分别为IO, 10, 1024。
定义l:初步概略态——从根本上说,初歩概略态是基于对snroffset定量分析公式, 进行一次逼近snroffset估算之后的状态。
定义2:超快速收敛态——这种状态也发生在初歩概略态,但是当迭代次数超过N1时, 需要将歩长调大以便迅速收敛。(此处,我们规定附=10)。
定义3:临界收敛搜索态——进过初步概略态的计算,snroffset的值已经非常逼近 最佳值,此状态的最大特点是所耗用的比特数刚刚超过可用比特数并且歩长没有达到最 小,此时只需要采用二分法继续縮短歩长,在小范围内局部迭代搜索,则可以找到最佳 值。
第一步通过snroffset的定量分析公式641og2(37 2x22"x丄+ ^^) = 128" + Q>wr
2 2
(i)
(这里的n为量化比特数,Const为一常数),从式(1)我们得出了信噪比偏移量与 量化比特数之间的关系是128倍的线性关系,之后我们得到相应的snroffset的具体计算 公式
swroj^e/1 = 6//7e/〃《6/w x 128 (2)
(这里bitleft是比特剩余数,nbin是量化谱线的个数)然后,对比特分配参数进行 一次逼近计算,之后进入初步概略态。
第二步在初步概略态进行无条件的循环以确定步长,并且统计迭代次数,看其是 否超过N1,即10次并且仍然未找到合适歩长,此时要使迭代迅速收敛,故使其进入超快 速收敛态。
第三步处于初步概略态时,以初始调节歩长S1,并根据bitleft/bitref来修正歩 长,从而调整SNRoffset;当处于超快速收敛态时,以最大调节歩长S24024调整 SNRoffset;当处于临界收敛搜索态时,以最小调节步长S3-4调整SNRoffset。(这里的 bitref是参考比特数)
第四步经过数次迭代后,如果bitleft与bitref异号,表明此时比特分配数已经超 过了系统可用的比特分配数,需要判断步长是否最小,若已经为最小,则比特分配完成 并退出迭代,若步长并不是最小,则进入临界收敛搜索态。当迭代次数过多(此实施例 中设定为10次)bitleft与bitref仍然同号或者bitleft仍然还很大时,再一次的调大歩 长。
第五歩当进入临界收敛搜索态,此实施例中,采用定长法调整歩长以至最后找到 最佳的比特分配参数,完成此算法。在每次迭代结束前,判断若处于在初步概略态,且迭代次数大于N240,对歩长进一步修订,此实施例中步长加倍;若bitleft大于阈值T,
则加大步长修正程度,此实施例中步长加倍。 实施例2:
实验环境以及步骤均与实施例l相同,所不同的是在实施例2的第五步中,当进入临
界收敛搜索态,采用二分法逐歩降低步长以至最后找到最佳的比特分配参数,完成此算 法。
实验结果与原始迭代方法的比较如图4,图5,图6所示。(其中方案一是采用定长 法进行局部搜索,方案二是采用二分法进行局部搜索)。
权利要求
1. 一种高效感知音频比特分配方法,包括下列步骤第一步建立基于心理声学的人耳听觉模型,根据它计算频谱包络的掩蔽特性,从而确定比特分配的掩蔽曲线;第二步根据下列公式,一次逼近比特分配参数的初值,式中,bitleft是比特剩余数,nbin是量化谱线的个数snroffset=bitleft/nbin×128;第三步由比特分配的掩蔽曲线与比特分配参数共同计算出噪声容限,计算得到比特分配指针。第四步,采用循环迭代的方式对比特分配参数进行SNRoffset步长调节将允许的最大限度的比特数分配给所有的声道,如果当前分配的比特数超过允许分配的比特数,下一次计算时减小SNRoffset的值;否则增加SNRoffset的值,如此反复计算直到比特池中的可用比特数得到最大限度的利用。
2. 根据权利要求l所述的高效感知音频比特分配方法,其特征在于,第四歩的歩长调节 按下列步骤执行(1) 给定第一迭代次数N1,第二迭代次数N2以及初始调节步长S1,设当前处于 初步概略态;(2) 如果处于初步概略态,统计迭代次数,当迭代次数超过第一迭代次数N1时, 设定歩长为最大调节歩长S2,进入超快速收敛态。(3 ) 根据噪声门限进行比特分配;(4) 当处于初步概略态时,以初始调节歩长S1,并根据bitleft/bitref来修正 步长,从而调整SNRoffset;当处于超快速收敛态时,以最大调节步长S2调整 SNRoffset;当处于临界收敛搜索态时,以最小调节步长S3调整SNRoffset。(5) 判断bitleft与bitref是否异号,若是,则判断步长是否最小,若已经为 最小,则比特分配完成并退出迭代,若歩长并不是最小,则将调节步长设为最小 调节步长S3进入临界收敛搜索态;(6) 返回步骤(2)继续执行迭代循环。
3. 根据权利要求2所述的高效感知音频比特分配方法,其特征在于,当进入临界收敛搜 索态时,采用定长法调整步长或采用二分法搜索歩长。
4. 根据权利要求2所述的高效感知音频比特分配方法,其特征在于,步骤(5)之后步 骤(6)之前,若处于在初步概略态,且迭代次数大于第二迭代次数N2,对步长进一 步修订;若bitleft大于阈值T,则加大步长修正程度。
全文摘要
本发明属于音频编码技术领域,涉及一种高效感知音频比特分配方法,包括下列步骤建立基于心理声学的人耳听觉模型,根据它计算频谱包络的掩蔽特性,确定比特分配的掩蔽曲线;根据SNRoffset公式,一次逼近比特分配参数的初值,由比特分配的掩蔽曲线与比特分配参数共同计算出噪声容限,计算得到比特分配指针;采用循环迭代的方式对比特分配参数进行SNRoffset步长调节将允许的最大限度的比特数分配给所有的声道,如果当前分配的比特数超过允许分配的比特数,下一次计算时减小SNRoffset的值;否则增加SNRoffset的值,如此反复计算直到比特池中的可用比特数得到最大限度的利用。本发明在保证比特分配精度的同时有效的降低了比特分配叠代的次数,从而实现种高效感知音频比特分配。
文档编号G10L19/00GK101425293SQ20081015174
公开日2009年5月6日 申请日期2008年9月24日 优先权日2008年9月24日
发明者刘宝琦, 涛 张, 海 李, 强 要, 陈存彪 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1