编码数字音频信号的方法

文档序号：2819748阅读：771来源：国知局

专利名称：编码数字音频信号的方法
技术领域：
本发明涉及一种编码数字音频信号的方法，且更具体地，涉及一种改进的根据在频率及时间掩蔽效应方面的人的听觉感知编码包括多个帧的数字音频信号的方法。
数字音频信号的传输与紧致磁盘及/或数字录音磁带的传输相比可传送高质量的音频信号。当音频信号以数字形式表示时，需要传输大量的数据，特别是在高清晰度电视系统中。然而，由于分配给这些数字音频信号的可用频带宽度是有限的，为了通过有限的例如大约128KHz的音频宽度传输大量的，例如对于48KHz采样频率的16比特PCM(脉冲码调制)音频信号每秒768K比特的数字数据，必须对数字音频数据进行压缩。
在各种音频压缩装置或技术中，采用一音质算法的所谓的MPEG(运动画面专家组)音频算法已被建议用于HDTV中。
在采取以上MPEG音频技术的音频编码系统中，四个主要部分，即分波段滤波，音质模型化，量化及编码，和帧格式化被采用以压缩数字音频数据。分波段滤波是一将输入PCM数字音频信号从时域映射至频域的处理。可采用带有B(例如32)个分波段的一滤波波段，在各分波段中，12或32个取样被组合用于其处理；且来自所述B个分波段被成组的采样，即N×12或36构成作为用于音频信号的编码，传输及解码的处理单元的“帧”。音质模型化通过利用频率掩蔽效应建立一组用于各分波段或分波段组的数据，例如SMR(信号一掩蔽比)数据，从而控制对其的量化和编码，其中频率掩蔽效应代表由频域中另一个(即掩蔽)同时的声音的存在所引起的声音的可听限度或可听度的阈值的提高。然后参照SMR，在量化及编码分波段采样的过程中可利用的比特被自适应地分配给帧的各分波段。帧格式化器以一适当的形式对该帧数据连同其它所需要的附带信息进行格式化以用于传输。
尽管这种技术通过使用频率掩蔽效应可提高编码效率，但它不能反映代表一现象的时间掩蔽效应，在该现象中，由于时域中另一个暂时相邻的声音的存在而使声音的可听限度或可听度的阈值被提高，从而不能提供充分改善编码效率的音频信号编码。
因此，本发明的主要目的是提供一种改进的根据频率及时间掩蔽效应编码包括多个帧的数字音频信号，从而提高其编码效率的方法。
根据本发明，提供有一种自适应地编码被数字取样的包括有多个帧的音频信号的方法，包括有以下步骤(a)将数字音频信号的频带划分成B个分波段，其中B为大于1的整数且分波段的带宽实质上对应临界于人的听觉系统的波段带宽；(b)响应于包括在数字音频信号中的第i个帧的各分波段中的数字信号取样估算各分波段的第一信号一对掩蔽比，i为帧的下标；(c)存储第i个帧的第一信号—掩蔽比经过一预定的时段并生成与第一信号—掩蔽比保持同步的预存在其中的第i-1个帧的延迟的信号-掩蔽比；(d)根据第一信号-对掩蔽比及延迟的信号—掩蔽比，提供第二信号—掩蔽比；(e)根据第二信号—掩蔽比自适应地确定用于各分段段的比特，并生成相应于被确定的各分波段的比特的比特分配信息；(f)响应生成的各分波段的比特分配信息量化各分波段中的数字信号取样；及(g)对量化的数字信号取样连同生成的比特分配信息一起进行格式化。
本发明的上述及其它目的和特征通过对以下结合附图
的描述而变得明显，附图为一概略地例示根据本发明的用于编码输入数字音频信号的装置的方框图。
参照附图，示有一概略地例示根据本发明的用于编码数字音频信号的装置的方框图。
数字音频编码装置100包括一分波段滤波单元110，第一及第二感知参数估算器120及140，一延迟电路130，一比特分配及量化单元150，及一格式化电路160。
包括有N个取样即n＝0，1，…，N-1的第i个帧的数字取样的输入音频信号X(n)，被提供给第一感知参数估算器120和适于执行输入数字音频信号的分波段滤波操作的分波段滤波单元110，其中N为一正整数。在此使用的“帧”表示相应于固定数量的声频取样的一部分数字音频信号并是一用于数字音频信号的编码及解码的处理单元。
分波段滤波单元110接收第i个帧的输入数字声频信号并通过采用一现有技术中众所周知的分波段滤波技术，例如在ISO/IEC JTCI/SC2/WG11，“部分3，音频建议”，CD-11172-3(1991)中所描述的所谓的MPEG音频算法中公开的方法将该输入数字音频信号的频带划分成B个，例如32个分波段，其中分波段的带宽实质上对应临界于人的听觉系统的带宽。各分波段中的数字信号采样然后被从分波段滤波单元110提供给比特分配及量化单元150。
在另一方面，第一感知参数估算器120接收第i个帧的数字取样的输入音频信号并通过使用音质模型，例如在上述的MPEG音频算法中所讨论的一种估算第i个帧的第一信号—掩蔽比。该在现有技术中众所周知的第i个帧的各分波段的第一信号—掩蔽比可由下式导出SMR1(j，i)＝p(j，i)－M(j，i)式(1)其中i为帧下标，j为分波段角标，j＝0，1，…B-1，B为一帧中分波段的总数；SMR1(j，i)为第i个帧的分波段j中的第一信号—掩蔽比；P(j，i)为自FFT(快速傅里叶变换)技术被估算的第i个帧的分波段j中的声压级；M(j，i)为第i个帧的分波段j中的频率掩蔽阈值；且所述SMR1(j，i)，P(j，i)及M(j，i)都采用dB(分贝)为单位。
该频率掩蔽阈值代表一作为固有的可听限度或声音阈值与一由该音频信号的其它的音调及非音调分量的存在所引起的增量的总和的可听限度。第i个帧的第一信号—掩蔽比然后被馈送给延迟电路130及第二感知参数估算器140。
在延迟电路130中，第i个帧的第一信号—掩蔽比被存入它的一存储器(未示出)中并被延迟一预定的时段；并且预存在该存储器中的第i-1个帧的延迟的信号—掩蔽比与被加到其上的第一信号—掩蔽比同步地被提供给第二感知参数估算器140。延迟电路130可通过采用现有技术中众所周知的通常的电子电路而容易地实现。预定的时段，即，延迟电路130的延迟时间通过考虑代表一现象的时间掩蔽效应而被确定，在该现象中，由于时域中另一个暂时相邻的声音的存在而使声音的可听限度或可听度的阈值被提高。在本发明的一优选实施例中，该预定的延迟时间等于数字音频信号的一帧处理时间。第i-1个帧的延迟的信号—掩蔽比及第i个帧的第一信号—掩蔽比被同时馈送给第二感知参数估算器140，以下式计算第i个帧的第二信号—掩蔽比SMR2(j，i)＝MIN[K×DSMR1(J，i-1)，SMR1(j，i)]式(2)其中SMR1(j，i)，j及i具有与先前定义相同的含意；SMR2(j，i)为第i个帧的分波段j中的第二信号—掩蔽比；DSMR1(j，i-1)为第i-1个帧的分波段j中的延迟的信号—掩蔽比；且k为一大于0并小于1的常数。
在本发明的优选实施例中，常数值K可根据人的听觉感知的时间掩蔽效应被确定，并最好设为0.5，所述值0.5为一反映时间掩蔽效应的适当的值。
来自第二感知参数估算器140的第i个帧的各分波段的第二信号—掩蔽比然后被提供给比特分配及量化单元150。在比特分配及量化单元150中，根据第i个帧的各分波段的第二信号—掩蔽比自适应地确定各分波段的比特并生成对应于确定的各分波段的比特的比特分配信息。然后，响应于生成的各分段的比特分配信息，各分波段中的数字信号取样被量化且量化的第i个帧的各分波段的数字信号取样及比特分配信息被同时提供给格式化电路160。在格式化电路160，来自比特分配及量化单元150的量化的数字信号取样和比特分配信息被格式化并传输给一发射机(未示出)供发射。比特分配及量化单元150和各格式化电路的原理和功能与在MPEG音频算法中可找到的基本相同。
虽然结合具体实施例对本发明进行了展示与描述，但对熟悉本领域的人员而言，显然可以在不超出由所附权利要求所限定的本发明的精神和范围的前提下做出许多变化和修改。
权利要求
1.一种自适应地编码被数字取样的包括有多个帧的音频信号的方法，包括有以下步骤(a)将数字音频信号的频带划分成P个分波段，其中所述P为一大于1的整数且所述分波段的带宽实际上对应临界于人的听觉系统的带宽；(b)响应于包括在数字音频信号的第i个帧中的各分波段中的数字信号取样估算各分波段的第一信号—掩蔽比，所述i为帧下标；(c)存储第i个帧的第一信号—掩蔽比经过一预定的时段并生成与第一信号—掩蔽比保持同步的预存在其中的第i-1个帧的延迟的信号—掩蔽比；(d)根据第一信号—掩蔽比及延迟的信号—掩蔽比，提供第二信号—掩蔽比；(e)根据第二信号—掩蔽比自适应地确定用于各分波段的比特，并生成相应于被确定的各分波段的比特的比特分配信息；(f)响应生成的各分波段的比特分配信息量化各分波段中的数字信号取样；及(g)对量化的数字信号取样连同生成的比特分配信息进行格式化。
2.根据权利要求1所述的方法，其中第i个帧的分波段j中的第二信号—掩蔽比SMR2(j，i)由下式确定SMR2(j，i)＝MIN[K×DSMR1(j，i-1)，SMR1(j，i)]其中j是分波段下标，j＝0，1，…p-1，p为一帧中分波段的总数；i是帧下标；DSMR1(j，i1-1)是第i-1个帧的分波段j中的延迟的信号—掩蔽比；SMR1(j，i)是第i个帧的分波段j中的信号—掩蔽比；并且K是一大于0并小于1的常数。
3.根据权利要求2所述所述的方法，其中常数K为0.5。
全文摘要
一种通过利用频率及时间掩蔽效应自适应地编码被数字取样的音频信号的方法包括有以下步骤将数字音频信号的频带划分成P个分波段；估算各分波段的第一信号-掩蔽比；生成与第一信号-掩蔽比保持同步的预存在其中的第i-1个帧的延迟的信号-掩蔽比；提供第二信号-掩蔽比；自适应地确定用于各分波段的比特及其比特分配信息；量化各分波段中的数字信号取样；对量化的数字信号取样连同生成的比特分配信息进行格式化。
文档编号G10L19/00GK1128438SQ9511750
公开日1996年8月7日申请日期1995年11月9日优先权日1994年11月9日
发明者権纯健申请人:大宇电子株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：**纯健
技术所有人：大宇电子株式会社
我是此专利的发明人

上一篇：语音编码和解码设备及其方法
上一篇：卡拉ok系统的字幕/伴音处理装置及其方法