用于编码和解码信号的设备和方法

文档序号:2830409阅读:161来源:国知局
专利名称:用于编码和解码信号的设备和方法
技术领域
本发明涉及编码和解码设备与编码和解码方法,并且更具体地, 涉及可以根据信号的特性以最佳位率编码或解码信号的编码和解码设 备与编码和解码方法。
背景技术
常规音频编码器可以以48kbps或更大的高位率提供高质量音频信
号,但对于处理语音信号来说是低效率的。另一方面,常规语音译码
器可以以12kbps或更小的低位率高效地编码语音信号,但对于编码各 种音频信号来说是低效率的。

发明内容
本发明提供可以以最佳位率编码或解码具有不同特性的信号(例 如,语音和音频信号)的编码和解码设备与编码和解码方法。
技术方案
根据本发明的一个方面,提供了一种解码方法,包括从输入位 流提取多个编码信号和所述编码信号的分割信息;确定多个解码方法 中的哪一个将用于解码每个编码信号;使用所确定的解码方法解码编 码信号;和参考所述分割信息合成所述解码信号。
根据本发明的另一方面,提供了一种解码设备,包括位解包模 块,它从输入位流提取多个编码信号和所述编码信号的分割信息;解 码器确定模块,它确定多个解码单元中的哪一个将用于解码每个编码 信号;解码模块,它使用所确定的解码单元解码所述编码信号;和合
成模块,它参考所述分割信息合成所述解码信号。
根据本发明的另一方面,提供了一种编码方法,包括将输入信 号分割为多个分割信号;根据所述分割信号的特性将所述分割信号分 类为一个或多个类别;使用所确定的编码方法编码分割信号;和基于
已编码的分割信号产生位流。
根据本发明的另一方面,提供了一种编码设备,包括分类模块, 它将输入信号分割为多个分割信号,并且根据所述分割信号的特性将 所述分割信号分类为一个或多个类别;编码模块,它使用所确定的编 码方法编码分割信号;和位封包模块,它基于已编码的分割信号产生 位流。
有利效果
因此,通过根据信号的特性将信号分类为一个或多个类别并使用 可最佳满足相应信号所属的类别的编码单元编码每个信号,能够以最 佳位率编码具有不同特性的信号。此外,可以高效地编码包括音频和 语音信号的各种信号。


图1是根据本发明的实施例的编码设备的框图2是图1中示出的分类模块的实施例的框图3是图2中示出的预处理单元的实施例的框图4是根据本发明的实施例的用来计算输入信号的感知熵的设备
的框图5是图1中示出的分类模块的另一实施例的框图; 图6是图5中示出的信号分割单元的实施例的框图; 图7和8是用来说明根据本发明的实施例的合并多个分割信号的 方法的视图9是图5中示出的信号分割单元的另一实施例的框图IO是用来说明根据本发明的实施例的将输入信号分割为多个分
割信号的方法的视图11是图5中示出的确定单元的实施例的框图; 图12是图1中示出的编码单元的实施例的框图; 图13是图1中示出的编码单元的另一实施例的框图; 图14是根据本发明的另一实施例的编码设备的框图; 图15是根据本发明的实施例的解码设备的框图; 图16是图15中示出的合成单元的实施例的框图。
具体实施例方式
下面将参考附图更充分地描述本发明,在附图中示出了本发明的 示例性实施例。
图1是根据本发明的实施例的编码设备的框图。参考图1,编码设 备包括分类模块100、编码模块200和位封包模块300。
编码模块200包括执行不同编码方法的第一编码单元210至第m 编码单元220的多个编码单元。
分类模块100将输入信号分割为多个分割信号,并且将分割信号 的每一个匹配到第一编码单元210至第m编码单元220中的一个。第 一编码单元210至第m编码单元220中的一些可匹配两个或更多个分 割信号或根本不匹配分割信号。
分类模块100可分配位量以编码每个分割信号或确定要编码分割 信号的次序。
使用第一编码单元210至第m编码单元220中的任何一个编码每 个分割信号的编码模块200被匹配到相应的分割信号。分类模块100 分析每个分割信号的特性,并选择第一编码单元210至第m编码单元 220中可最高效地根据分析结果来编码每个分割信号的一个。
可最高效地编码分割信号的编码单元可被认为能够实现最高的压 縮效率。
例如,可容易地建模为系数和余量的分割信号可由语音译码器高 效地编码,而不能容易地建模为系数和余量的分割信号可由音频编码 器高效地编码。
如果通过建模分割信号而获得的余量的能量对分割信号的能量的 比率小于预定义的阈值,则分割信号可认为是可容易地建模的信号。
由于在时间轴上呈现高冗余的分割信号可使用其中基于先前信号 预测当前信号的线性预测方法被良好地建模,因此,使用线性预测译 码方法的语音译码器可最高效地编码该分割信号。
位封包模块300基于由编码模块200提供的已编码的分割信号和
关于已编码的分割信号的附加编码信息而产生要被传输的位流。位封
包模块300可使用位无格式(bit-plain)方法或位片(bit sliced)算术
编码方法而产生具有可变位率的位流。
由于位率限制而没有编码的分割信号或带宽可从由使用内插、外 插或复制方法的解码器提供的解码信号或带宽恢复。而且,关于没有 被编码的分割信号的补偿信息可包括在要被传输的位流中。
参考图l,分类模块IIO可包括第一分类单元110至第n分类单元 120的多个分类单元。第一分类单元110至第n分类单元120中的每一 个可将输入信号分割为多个分割信号、转换信号的域、提取输入信号 的特性、根据输入信号的特性对输入信号进行分类或将输入信号匹配 到第一编码单元210至第m编码单元220中的一个。
第一分类单元no至第n分类单元120中的一个可以是预处理单 元,该预处理单元对输入信号执行预处理操作使得输入信号可被转换 为可被高效地编码的信号。预处理单元可将输入信号分割为多个分量, 例如系数分量和信号分量,并且可在其它分类单元执行它们的操作之 前对输入信号执行预处理操作。
可根据输入信号的特性、外部环境因素和目标位率,选择性地预 处理输入信号,并且仅仅可选择性地预处理从输入信号获得的多个分 割信号中的一些。
分类模块100可根据由心理声学建模模块400提供的输入信号的 感知特性信息而对输入信号进行分类。感知特性信息的例子包括掩蔽 阈值、信噪比(SMR)和感知熵。
换句话说,根据输入信号的感知特性信息,例如输入信号的掩蔽 阈值和SNR,分类模块100可将输入信号分割为多个分割信号或可将 每个分割信号匹配到第一编码单元210至第m编码单元220中的一个 或多个。
此外,分类模块100可接收诸如输入信号的音调、零交叉率(ZCR) 和线性预测系数的信息和先前帧的分类信息,并且可根据所接收的信 息而对输入信号进行分类。
参考图1,由编码模块200输出的已编码的结果信息可被反馈到分 类模块100。
一旦输入信号被分类模块100分割为多个分割信号并且确定了将 要由第一编码单元210至第m编码单元220中的哪一个、使用什么位 量、以什么次序来编码分割信号,就根据所确定的结果来编码分割信 号。实际上用于编码每个分割信号的位量可以不必相同于由分类模块100分配的位量。
详细说明实际使用的位量和所分配的位量之间的差异的信息可被
反馈到分类模块100,使得分类模块IOO可为其它分割信号增加所分配 的位量。如果实际位量大于所分配的位量,则分类模块100可为其它
分割信号减小所分配的位量。
实际编码分割信号的编码单元可以不必相同于由分类模块100匹
配到分割信号的编码单元。在这种情况下,信号可被反馈到分类模块
100,指示实际编码分割信号的编码单元不同于由分类模块100匹配到 分割信号的编码单元。然后,分类模块100可将分割信号匹配到除了
先前匹配到分割信号的编码单元之外的编码单元。
分类模块100根据反馈到其的已编码的结果信息可再次将输入信 号分割为多个分割信号。在这种情况下,分类模块100可获得具有与
先前获得的分割信号的结构不同的结构的多个分割信号。
如果分类模块ioo所选择的编码操作不同于实际执行的编码操作,
则关于它们之间的差异的信息可反馈到分类模块100,使得分类模块 100可再次完全确定编码操作相关的信息。
图2是图1中示出的分类模块100的实施例的框图。参考图2,第
一分类单元可以是预处理单元,该预处理单元对输入信号执行预处理 操作,使得输入信号可被高效地编码。
参考图2,第一分类单元110可包括执行不同预处理方法的第一预 处理器111至第n预处理器112的多个预处理器。第一分类单元110 可使用第一预处理器111至第n预处理器112中的一个以根据输入信 号的特性、外部环境因素和目标位率来对输入信号执行预处理。而且, 第一分类单元110可使用第一预处理器111至第n预处理器112对输
入信号执行两个或更多个预处理操作。
图3是图2中示出的第一预处理器111至第n预处理器112的实 施例的框图。参考图3,预处理器包括系数提取器113和余量提取器 114。
系数提取器113分析输入信号并从输入信号提取代表输入信号的 特性的系数。余量提取器114从输入信号提取已使用所提取的系数从 其去除冗余分量的余量。
预处理器可对输入信号执行线性预测译码操作。在这种情况下, 系数提取器113通过对输入信号执行线性预测分析而从输入信号提取 线性预测系数,并且余量提取器114使用由系数提取器113提供的线 性预测系数从输入信号提取余量。从其已去除冗余的余量可具有与白 噪音相同的格式。
下面将详细描述根据本发明的实施例的线性预测分析方法。
通过线性预测分析而获得的预测信号可由先前的输入信号的线性 组合组成,如方程(1)所表示的 数学图形1
A P
其中,^表示线性预测阶数,,到p表示通过最小化输入信号和估
计信号之间的均方差(MSE)而获得的线性预测系数。
用于线性预测分析的传递函数P(z)可由方程(2)表示 数学图形2
参考图3,预处理器可使用巻曲线性预测译码(WLPC)方法从输
入信号提取线性预测系数和余量,该巻曲线性预测译码方法是另一类
型的线性预测分析。通过替换具有关于单位延迟Z-'的传递函数^z)的 全通滤波器,可实现WLPC方法。传递函数^(z)可由方程(3)表示 数学图形3
其中,A表示全通系数。通过改变全通系数,可以改变要分析的 信号的分辨率。例如,如果要被分析的信号高度集中在某一频带,例 如,如果要被分析的信号是高度集中在低频带的音频信号,则通过设 定全通系数使得低频带信号的分辨率能够得以增加而可以高效地编码 要被分析的信号。
在WLPC方法中,与高频信号相比,以较高的分辨率分析低频信 号。这样,WLPC方法对于低频信号可实现高的预测性能并且可更好 地对低频信号进行建模。
全通系数可根据输入信号的特性、外部环境因素和目标位率而沿 时间轴变化。如果全通系数随时间变化,则通过解码而获得的音频信 号可能显著失真。这样,当全通系数变化时,修匀方法可应用到全通 系数使得全通系数可逐渐地变化,并且使得信号失真可最小化。可确 定为当前全通系数值的值的范围可通过先前全通系数值来确定。
代替原始信号,掩蔽阈值可用作用来估计线性预测系数的输入。 更具体地,掩蔽阈值可转换为时域信号,并且可使用时域信号作为输 入来执行WLPC。还可使用余量作为输入来执行线性预测系数的预测。 换句话说,线性预测分析可执行超过一次,因此获得进一步白化的余
参考图2,第一分类单元110可包括第一预处理器lll,它执行
上面参考方程(1)和(2)描述的线性预测分析;和第二预处理器(未 示出),它执行WLPC。第一分类单元100可选择第一处理器111和 第二预处理器中的一个,或者可根据输入信号的特性、外部环境因素 和目标位率来决定不对输入信号执行线性预测分析。
如果全通系数的值为0,则第二预处理器可以与第一预处理器111
相同。在这种情况下,第一分类单元110可仅仅包括第二预处理器, 并且根据全通系数的值来选择线性预测分析方法和WLPC方法中的一 个。而且,第一分类单元110可执行线性预测分析,或者线性预测分 析方法和WLPC方法中的任何方法在帧单元中被选择。
指示是否执行线性预测分析的信息以及指示线性预测分析方法和 WLPC方中的哪一个被选择的信息可包括在要被传输的位流中。
位封包模块300从第一分类单元110接收线性预测系数、指示是 否执行线性预测译码的信息和识别实际使用的线性预测编码器的信 息。然后,位封包模块300将所有接收的信息插入要被传输的位流。
用来将输入信号编码为音质与原始输入信号的音质几乎不能被区 分的信号所需的位量可通过计算输入信号的感知熵而被确定。
图4是根据本发明的实施例的用来计算感知熵的设备的框图。参 考图4,该设备包括滤波器组115、线性预测单元116、心理声学建模 单元117、第一位计算单元118和第二位计算单元119。
输入信号的感知熵/^可使用方程(4)来计算 数学图形4
尸£ =丄fmax 2d
其中,x(e。表示原始输入信号的能量级,r(,)表示掩蔽阈值。
O,log:
r(,)
在涉及使用全通滤波器的wlpc方法中,可使用输入信号的余量 的能量和余量的掩蔽阈值的比率来计算输入信号的感知熵。更具体地,
使用wlpc方法的编码设备可使用方程(5)来计算输入信号的感知熵
尸五
数学图形5
.max
2;r
A 1 餘;"
其中,i (e。表示输入信号的余量的能:阈值。
r'(e。表示余量的掩蔽
掩蔽阈值r(e。可由方程(6)表示 数学图形6
其中,r(,)表示原始信号的掩蔽阈值,//(e。表示用于wlpc的 传递函数。心理声学建模单元320使用传递函数/z(e。和比例因子带域
中的掩蔽阈值r(^)可计算掩蔽阈值r(,)。
参考图4,第一位计算单元118接收由线性预测单元116所执行的
wlpc获得的余量和由心理声学建模单元in输出的掩蔽阈值。滤波
器组116可对原始信号执行频率转换,并且频率转换的结果可输入到 心理声学建模单元117和第二位计算单元119。滤波器组115可对原始 信号执行傅立叶变换。
第一位计算单元118可使用被wlpc合成滤波器的传递函数的谱 除的原始信号的掩蔽阈值和余量的能量的比率来计算感知熵。
分割成60个或更多个具有不同带宽的不均匀分隔带的信号的巻曲 感知熵『7w可使用wlpc被计算出,如方程(7)所示 数学图形7
6醒 ^0)、
,=-Z K妙(6) - w,。w (州 logll
6=1
J)~刺=Z
其中,6表示使用心理声学模型获得的分隔带的指数,^^)表示 分隔带6中的余量的能量的和,W-/0H<6)和分别表示分隔带6中
的最低和最高频率,"^^(w)表示线性映射的分隔带的掩蔽阈值,A—)2 表示帧的线性预测译码(LPC)能量谱,w^(—表示对应于余量的线性 掩蔽阈值。
另一方面,分割成60个或更多个具有相同带宽的均匀分隔带的信 号的巻曲感知熵『尸五^可使用WLPC被计算出,如方程(8)所示 数学图形8
、 60),
固w = - ") - l。g10
A (—S )
》—)2
其中,S表示线性分隔的子带的指数,^^—和S^(W)分别表示线 性分隔的子带S中的最低和最高频率,"&^)表示线性分隔的子带S的 掩蔽阈值, 6("表示线性分隔的子带^的能量,即线性分隔的子带^中 的频率的和。掩蔽阈值" 6(5)是线性分隔的子带5中的多个掩蔽阈值的
最小值。
对于具有相同带宽且具有高于输入频谱的和的阈值的带,不能计
算感知熵。这样,方程(8)的巻曲感知熵『/^^可低于为低频带提供 高分辨率的方程(7)的巻曲感知熵『/W。
使用WLPC可以为具有不同带宽的比例因子带计算巻曲感知熵 『i^5/,如方程(9)所表示的 数学图形9
#)= min (喊'證(w))<formula>formula see original document page 18</formula>其中,/表示比例因子带的指数,《~(/)表示比例因子带/的最小
掩蔽阈值,『尸A,表示比例因子带/的输入信号和比例因子带/的掩蔽 阈值的比率,^("表示比例因子带/中的所有频率的和,即比例因子 带/的能量。
图5是图1中示出的分类模块100的另一实施例的框图。参考图5, 分类模块包括信号分割单元121和确定单元122。
更具体地,信号分割单元121将输入信号分割为多个分割信号。 例如,信号分割单元121可使用子带滤波器将输入信号分割为多个频 带。频带可具有相同的带宽或不同的带宽。如上所述,通过可最佳满 足分割信号的特性的编码单元,分割信号可被与其它分割信号分离地 编码。
信号分割单元121可将输入信号分割为多个分割信号,例如,多 个带信号,使得带信号之间的干扰可最小化。信号分割单元121可具 有双滤波器组结构。在这种情况下,信号分割单元121还可分割每个 分割信号。
关于由信号分割单元121获得的分割信号的分割信息,例如分割 信号的总数目和每个分割信号的带信息,可包括在要被传输的位流中。 解码设备可分离地解码分割信号并参考分割信息合成解码信号,由此 恢复原始输入信号。
分割信息可存储为表格。位流可包括用于分割原始输入信号的表 格的标识信息。 可以确定每个分割信号(例如,多个频带信号)对音质的重要性, 并且可以根据所确定的结果为每个分割信号调节位率。更具体地,分 割信号的重要性可定义为固定值或根据每个帧的输入信号的特性而变 化的非固定值。
如果语音和音频信号混合入输入信号,则信号分割单元121可根 据语音信号的特性和音频信号的特性将输入信号分割为语音信号和音 频信号。
确定单元122可确定编码模块200中的第一编码单元210至第m 编码单元220中的哪一个可以最高效地编码每个分割信号。
确定单元122将分割信号分类为若干组。例如,确定单元122可 将分割信号分类为N个类别,并且通过将N个类别的每一个类别匹配 到第一编码单元210至第m编码单元220中的一个,确定第一编码单 元210至第m编码单元220中的哪一个将用于编码每个分割信号。
更具体地,假定编码模块200包括第一编码单元210至第m编码 单元220,则确定单元122可将分割信号分割为第一至第m类别,该 第一至第m类别可以分别由第一编码单元210至第m编码单元220最 高效地编码。
为此,可由第一编码单元210至第m编码单元220中的每一个最 高效地编码的信号的特性可被预先确定,并且根据该确定的结果可限 定第一至第m类别的特性。此后,确定单元122可提取每个分割信号
的特性,并且根据所提取的结果而将每个分割信号分类为与相应的分 割信号共享相同特性的第一至第m类别中的一个类别。
第一至第m类别的例子包括浊音语音类别、清音语音类别、背景 噪音类别、无声类别、音调音频类别、非音调音频类别和浊音语音/音
频混合类别。
通过参考由心理声学建模模块400提供的关于分割信号的感知特
性信息,例如分割信号的掩蔽阈值、SMR或感知熵级,确定单元122 可确定第一编码单元210至第m编码单元220中的哪一个将用于编码 每个分割信号。
通过参考关于分割信号的感知特性信息,确定单元122可确定位 量以便编码每个分割信号,或者确定要编码分割信号的次序。
要被传输的位流内可包括由确定单元122执行的确定所获得的信 息,例如,指示通过第一编码单元210至第m编码单元220中的哪一 个和要被编码的每个分割信号具有的位量的信息以及指示编码分割信 号的次序的信息。
图6是图5中示出的信号分割单元121的实施例的框图。参考图6, 信号分割单元包括分割器123和合并器124。
分割器123可将输入信号分割为多个分割信号。合并器124可将 具有类似特性的分割信号合并为单个信号。为此,合并器124可包括 合成滤波器组。
例如,分割器123可将输入信号分割为256个带。256个带中,具 有类似特性的这些带可由合并器124合并为单个带。
参考图7,合并器124可将彼此邻近的多个分割信号合并为单个合 并信号。在这种情况下,合并器124可根据预定义的规则将多个相邻 的分割信号合并为单个合并信号,而不考虑相邻的分割信号的特性。
可选地,参考图8,合并器124可将具有类似特性的多个分割信号
合并为单个合并信号,而与分割信号是否彼此相邻无关。在这种情况 下,合并器124可将可由相同的编码单元高效地编码的多个分割信号 合并为单个合并信号。
图9是图5中示出的信号分割单元121的另一实施例的框图。参 考图9,信号分割单元包括第一分割器125、第二分割器126和第三分 割器127。
更具体地,信号分割单元121可分级地分割输入信号。例如,输 入信号可由第一分割器125分割为两个分割信号,两个分割信号中的 一个可由第二分割器126分割为三个分割信号,并且三个分割信号中 的一个可由第三分割器127分割为三个分割信号。以这种方式,输入 信号可分割为总共6个分割信号。信号分割单元121可分级地将输入 信号分割为具有不同带宽的多个带。
在图9示出的实施例中,根据3级分级分割输入信号,但本发明 不限于此。换句话说,根据2级或者4级或更多级分级,输入信号可 分割为多个分割信号。
信号分割单元121中的第一到第三分割器125到127中的一个可 将输入信号分割为多个时域信号。
图10说明信号分割单元121将输入信号分割为多个分割信号的实 施例。
在短的帧长度周期期间,语音或音频信号通常是稳态的。然而, 有时,例如在过渡周期期间,语音或音频信号可具有非稳态特性。
为了高效地分析非稳态信号并提高编码这种非稳态信号的效率, 根据本实施例的编码设备可使用小波或经验模式分解(EMD)方法。
换句话说,根据本实施例的编码设备可使用不固定的变换函数来分析 输入信号的特性。例如,信号分割单元121可使用不固定的频带子带 滤波方法将输入信号分割为具有可变带宽的多个带。
下面将详细描述通过EMD将输入信号分割为多个分割信号的方法。
在EMD方法中,输入信号可分解为一个或多个固有模式函数 (IMF) 。 IMF必须满足下列条件极值数目和零交叉数目必须相等或 至多相差一个;由局部最大值确定的包迹和由局部最小值确定的包迹 的平均值为零。
IMF代表类似于简单调和函数中的分量的简单振荡模式,因此使 其可以使用EMD方法高效地分解输入信号。
更具体地,为了从输入信号^)提取IMF,通过连接由输入信号s(O 的局部最大值使用三次样条内插方法确定的所有局部极值可产生上包 迹,并且通过连接由输入信号s(O的局部最小值使用三次样条内插方法 确定的所有局部极值可产生下包迹。输入信号^")可具有的所有值可处 于上包迹和下包迹之间。
此后,可计算上包迹和下包迹的平均值m(O。此后,通过从输入 信号W)减去平均值附W可计算第一分量A(O,如方程(10)所示 数学图形10
如果第一分量^(0不满足上述IMF条件,则第一分量/^")可被确 定为与输入信号W)相同,并且可再次执行上述操作直到获得满足上述 IMF条件的第一IMF C々)为止。
一旦获得第一IMF C々),就通过减去第一IMF C,(0获得余量"0:
如方程(11)所示
数学图形11
刚—c,柳
此后,可使用余量n《)作为新的输入信号再次执行上述IMF提取 操作,从而获得第二IMF C^)和余量W0。
如果在上述IMF提取操作期间获得的余量r"(O具有常数值或者是 单调增加函数或仅有一个极值或根本没有极值的单周期函数,则可终 止上述IMF提取操作。
作为上述IMF提取操作的结果,输入信号^)可由多个IMF Co(t) 到Q(0和最终余量^(0的和表示,如方程(12)所示 数学图形12
其,M表示提取的IMF的总数目。最终余量/;(0可反映输入信号 s(0的总特性。
图10示出通过使用EMD方法分解原始输入信号而获得的十一个 IMF和最终余量。参考图IO,在IMF提取的早期从原始输入信号获得 的IMF的频率高于在IMF提取的晚期从原始输入信号获得的IMF的频率。
使用先前余量4(w)和当前余量&之间的标准偏差可简化IMF 提取,如方程(13)所示 数学图形13
<formula>formula see original document page 23</formula>
如果标准偏差SD小于例如0.3的参考值,则当前余量l可看作
IMF。
同时,信号x(O可通过希尔伯特变换而变换为解析信号,如方程 (14)所示
数学图形14
z(O =雄)+州柳=a(,)e厕')
其中,(0表示瞬时幅值,(O表示瞬时相位,并且ifU表示希尔伯
特变换。
作为希尔伯特变换的结果,输入信号可转换为由实分量和虚分量 组成的解析信号。
通过将希尔伯特变换应用到平均值为0的信号,可获得可以为时 域和频域提供高分辨率的频率分量。
下面将详细描述图4中示出的确定单元122如何确定多个编码单 元中的哪一个将用于编码通过分解输入信号而获得的多个分割信号中 的每一个。
确定单元122可确定语音译码器和音频编码器的哪一个可更高效 地编码每个分割信号。换句话说,确定单元122可决定对使用第一编 码单元210至第m编码单元220中的任何一个的语音译码器可高效地 编码的分割信号进行编码的是语音译码器,并且决定对使用第一编码 单元210至第m编码单元220中的任何一个的音频编码器可高效地编 码的分割信号进行编码的是音频编码器。
下面将详细描述确定单元122如何确定语音译码器和音频编码器 的哪一个可更高效地编码分割信号。
确定单元122可测量分割信号中的变化,并且如果测量的结果大 于预定义的参考值,则确定语音译码器可以比音频编码器更高效地编 码分割信号。
可选地,确定单元122可测量包括在分割信号的某一部分中的音
调分量,并且如果测量的结果大于预定义的参考值,则确定语音译码 器可以比音频编码器更高效地编码分割信号。
图11是图5中示出的确定单元122的实施例的框图。参考图11, 确定单元包括语音编码/解码单元500、第一滤波器组510、第二滤波器 组520、确定单元530和心理声学建模单元540。
图11中示出的确定单元可确定语音译码器和音频编码器的哪一个 可更高效地编码每个分割信号。
参考图ll,输入信号由语音编码/解码单元500编码,并且编码信 号由语音编码/解码单元500解码,从而恢复原始输入信号。语音编码/ 解码单元500可包括自适应多速率宽带(AMR-WB)语音编码器/解码 器,并且AMR-WB语音编码器/解码器可具有代码激励线性预测(CELP)结构。
输入信号可在输入到语音编码/解码单元500之前被欠采样 (down-sampled)。语音编码/解码单元500输出的信号可被过采样 (up-sampled),由此恢复输入信号。
输入信号可通过第一滤波器组510进行频率变换。
由语音编码/解码单元500输出的信号被第二滤波器组520转换为 频域信号。第一过滤器组510或第二过滤器组520可对输入到它的信 号执行余弦变换,例如,修正离散余弦变换(MDCT)。
第一滤波器组510输出的原始输入信号的频率分量和第二滤波器
组520输出的恢复的输入信号的频率分量都被输入到确定单元530。确 定单元530可基于输入到它的频率分量确定语音译码器和音频编码器 的哪一个可更高效地编码输入信号。
更具体地,基于输入到确定单元的频率分量,通过使用方程(15) 来计算每个频率分量的感知熵/^,.,确定单元530可确定语音译码器和 音频编码器的哪一个可更高效地编码输入信号
数学图形15
其中
<formula>formula see original document page 26</formula>
其中,x(j')表示频率分量的系数,y'表示频率分量的指数,Z表示 量化步长,"int^是将最接近的整数返回到其自变量的函数,人—.)和 分别是比例因子带的开始频率指数和结束频率指数。
确定单元530可使用方程(15)计算原始输入信号的频率分量的 感知熵和恢复的输入信号的频率分量的感知熵,并且基于计算的结果 来确定对于用来编码输入信号而言音频编码器和语音译码器的哪一个 更高效。
例如,如果原始输入信号的频率分量的感知熵小于恢复的输入信 号的频率分量的感知熵,则确定单元530可确定音频编码器可以比语 音译码器更高效地编码输入信号。另一方面,如果恢复的输入信号的 频率分量的感知熵小于原始输入信号的频率分量的感知熵,则确定单 元530可确定语音译码器可以比音频编码器更高效地编码输入信号。
图12是图1中示出的第一编码单元210至第m编码单元220中 的一个的实施例的框图。图12中示出的编码单元可以是语音译码器。
通常,语音译码器可在帧单元内对输入信号执行LPC,并且使用 Levinson-Durbin算法从输入信号的每个帧提取LPC系数,例如16阶 LPC系数。通过自适应码本搜索或固定码本搜索,可量化激励信号。 使用代数码激励的线性预测方法,可量化激励信号。使用具有共轭结 构的量化表格,可对激励信号的增益执行矢量量化。
图12中示出的语音译码器包括线性预测分析单元600、音高估计 单元610、码本搜索单元620、线谱对(LSP)单元630和量化单元640。
线性预测分析单元600使用自相关系数对输入信号执行线性预测 分析,该自相关系数通过使用不对称窗而获得。如果导前(look-ahead) 周期,即不对称窗,具有30ms的长度,则线性预测分析单元600可使 用5ms导前周期执行线性预测分析。
自相关系数使用Levinson-Durbin算法转换为线性预测系数。对于 量化和线性内插,LSP单元630将线性预测系数转换为LSP。量化单元 640量化LSP。
音高估计单元610估计开环音高,以便减小自适应码本搜索的复 杂性。更具体地,音高估计单元610使用每个帧的加权的语音信号域 来估计开环音高周期。此后,使用所估计的开环音高构造谐波噪音成 形滤波器。此后,使用谐波噪音成形滤波器、线性预测合成滤波器和 共振峰感知加权滤波器来计算脉冲响应。脉冲响应可用于产生用来量 化激励信号的目标信号。
码本搜索单元620执行自适应码本搜索和固定码本搜索。通过闭 环音高搜索且通过过去的激励信号的内插,计算自适应码本矢量,在
子帧单元中可执行自适应码本搜索。自适应码本参数可包括音高周期 和音高滤波器的增益。通过线性预测合成滤波器可产生激励信号,以 便简化闭环搜索。
固定码本结构基于交织单脉冲置换(ISSP)设计而形成。将包括
分别定位64个脉冲的64个位置的码本矢量分割成四个轨道,每个轨 道包括16个位置。根据传输速率,预定数目的脉冲可位于四个轨道的
每一个。由于码本指数指示轨道部位和脉冲符号,因此不需要存储码 本,并且可以仅使用该码本指数产生激励信号。
图12中示出的语音译码器可在时域中执行上述译码过程。而且, 如果由图1中示出的分类模块100使用线性预测译码方法编码输入信 号,则线性预测分析单元600可以是任选的。
本发明不限于图12中示出的语音译码器。换句话说,在本发明的 范围内可以使用除了图12中示出的语音译码器外、可高效地编码语音 信号的各种语音译码器。
图13是图1中示出的第一编码单元210至第m编码单元220中 的一个的另一实施例的框图。图13中示出的编码单元可以是音频编码 器。
参考图13,音频编码器包括滤波器组700、心理声学建模单元710 和量化单元720。
滤波器组700将输入信号转换为频域信号。滤波器组700可对输 入信号执行余弦变换,例如,修正离散余弦变换(MDCT)。
心理声学建模单元710计算输入信号的掩蔽阈值或输入信号的 SMR。量化单元720使用由心理声学建模单元710计算出的掩蔽阈值
来量化由滤波器组700输出的MDCT系数。可选地,为了在给定位率 范围内最小化听觉失真,量化单元720可使用输入信号的SMR。
图13中示出的音频编码器可在频域中执行上述编码过程。
本发明不限于图13中示出的音频编码器。换句话说,在本发明的 范围内可以使用除了图13中示出的音频编码器外、可高效地编码音频 信号的各种音频编码器(例如,高级音频译码器)。
高级音频译码器执行瞬时噪音成形(TNS)、强度/耦合、预测和 中/侧(M/S)立体声译码。TNS是在滤波器组窗中适当分布时域量化 噪音使得量化噪音可以变得听不见的操作。强度/耦合是一种操作,通 过编码音频信号并且仅仅基于高带中声音方向的感知主要取决于能量 的时间尺度这一事实来传输音频信号的能量,该操作能够减小要传输 的空间信息的量。
预测是通过使用帧的谱分量之间的相关性从统计特性不变化的信 号去除冗余的操作。M/S立体声译码是传输立体声信号而不是左和右 通道信号的标准化的和(即,中)和差(即,侧)的操作。
进行TNS、强度/耦合、预测和M/S立体声译码的信号由量化器量 化,该量化器使用从心理声学模型获得的SMR执行合成分析(AbS)。
如上所述,由于音频编码器使用诸如线性预测译码方法的建模方 法编码输入信号,因此图5中示出的确定单元122可根据预定的一组 规则来确定输入信号是否可被容易地建模。此后,如果确定输入信号 可被容易地建模,则确定单元122可决定使用语音译码器编码输入信 号。另一方面,如果确定输入信号不能被容易地建模,则确定单元122 可决定使用音频编码器编码输入信号。
图14是根据本发明的另一实施例的编码设备的框图。在图1到14 中,相同的附图标记代表相同的要素,并且因此,将跳过其详细描述。
参考图14,分类模块100将输入信号分割为第一至第n分割信号 的多个分割信号并确定多个编码单元230、 240、 250、 260和270中的
哪一个将用于对第一至第n分割信号中的每一个进行编码。
参考图14,编码单元230、 240、 250、 260和270可顺序地分别对 第一至第n分割信号进行编码。并且,如果输入信号被分割为多个频 带信号,则可以按照从最低频带信号到最高频带信号的次序对该频带 信号进行编码。
在顺序编码分割信号的情况下,先前信号的编码误差可用于编码 当前信号。结果,可以使用不同的编码方法编码分割信号,如此以防 止信号失真并提供带宽伸縮性。
参考图14,编码单元230编码第一分割信号,解码已编码的第一 分割信号,并将解码信号和第一分割信号之间的误差输出到编码单元 240。编码单元240使用编码单元230输出的误差来编码第二分割信号。 以这种方式,考虑它们各自的先前分割信号的编码误差,编码第二至 第m分割信号。因此,可以实现无误差编码并提高音质。
图14中示出的编码设备通过逆向地执行图1到14中示出的编码 设备所执行的操作可从输入位流恢复信号。
图15是根据本发明的实施例的解码设备的框图。参考图15,解码 设备包括位解包模块800、解码器确定模块810、解码模块820和合成 模块830。
位解包模块800从输入位流提取一个或多个编码信号以及解码该
编码信号所需的附加信息。
解码模块820包括执行不同解码方法的第一解码单元821至第m 解码单元822的多个解码单元。
解码确定模块810确定第一解码单元821至第m解码单元822中 的哪一个可最高效地解码每个编码信号。解码器确定模块810可使用 与图1中示出的分类模块100的方法类似的方法来确定第一解码单元 821至第m解码单元822中的哪一个可最高效地解码每个编码信号。 换句话说,解码器确定模块810可基于每个编码信号的特性来确定第 一解码单元821至第m解码单元822中的哪一个可最高效地解码每个 编码信号。优选地,解码器确定模块810可基于从输入位流提取的附 加信息来确定第一解码单元821至第m解码单元822中的哪一个可最 高效地对每个编码信号进行解码。
附加信息可包括类别信息,通过编码设备标识被分类的编码的 信息所属的类别;编码单元信息,标识用于产生该编码信号的编码单 元;和解码单元信息,标识要用于解码该编码信号的解码单元。
例如,解码器确定模块810可基于附加信息而确定编码信号属于 哪个类别,并且为编码信号选择第一解码单元821至第m解码单元822 中对应于编码信号的类别的任何一个解码单元。在这种情况下,所选 定的解码单元可具有一种结构使得它可最高效地解码属于与编码信号
的类别相同的类别的信号。
可选地,解码器确定模块810可基于附加信息来识别用于产生编 码信号的编码单元,并且为编码信号选择第一解码单元821至第m解 码单元822中对应于所识别的编码单元的任何一个解码单元。例如, 如果已经由语音译码器产生了编码信号,则解码器确定模块810可以 为编码信号选择第一解码单元821至第m解码单元822中是语音解码
器的任何一个解码单元。
可选地,解码器确定模块810可基于附加信息来识别可解码编码 信号的解码单元,并且为编码信号选择第一解码单元821至第m解码 单元822中对应于所识别的解码单元的任何一个解码单元。
可选地,解码器确定模块810可从附加信息获得解码信号的特性, 并选择第一解码单元821至第m解码单元822中可最高效地解码具有 与编码信号的特性相同的特性的信号的任何一个解码单元。
以这种方式,从输入位流提取的每个编码信号由第一解码单元821 至第m解码单元822中确定为能够最高效地解码相应的编码信号的任 何一个解码单元编码。解码信号由合成模块830合成,由此恢复原始 信号。
位解包模块800提取关于编码信号的分割信息,例如编码信号的 数目和每个编码信号的带信息,并且合成模块830可参考分割信息合 成解码模块S20提供的解码信号。
合成模块830可包括第一合成单元831至第n合成单元832的多 个合成单元。第一合成单元831至第n合成单元832中的每一个都可 合成解码模块820所提供的解码信号,或者对解码信号中的一些或全 部执行域转换或附加的解码。
第一合成单元831至第n合成单元832中的一个可对合成的信号 执行后处理操作,该后处理操作是编码设备执行的预处理操作的逆操 作(inverse)。可从输入位流提取指示是否要执行后处理操作的信息和 用于执行后处理操作的解码信息。
参考图16,第一合成单元831至第n合成单元832中的一个,具
体地,第二合成单元833,可包括第一后处理器834至第n后处理器 835的多个后处理器。第一合成单元831将多个解码信号合成为单个信 号,并且第一后处理器834至第n后处理器835中的一个对通过合成 而获得的单个信号执行后处理操作。
指示第一后处理器834至第n后处理器835中的哪一个要对通过 合成而获得的单个信号执行后处理操作的信息可包括在输入位流中。
第一合成器831至第n合成器832中的一个可使用从输入位流提 取的线性预测系数对通过合成而获得的单个信号执行线性预测解码, 从而恢复原始信号。
本发明可实现为写在计算机可读取记录介质上的计算机可读取代 码。计算机可读取记录介质可以是以计算机可读取的方式存储数据的 任何类型的记录装置。计算机可读取记录介质的例子包括ROM、 RAM、 CD-ROM、磁带、软盘、光学数据存储器和载波(例如,通过因特网 的数据传输)。计算机可读取记录介质可分布在连接到网络的多个计 算机系统上,使得计算机可读取代码被写到其上并以分散的方式从其 执行。本领域技术人员可以容易地构造实现本发明所需的函数程序、 代码和代码段。
虽然已经参考本发明的示例性实施例具体地示出并描述了本发 明,但本领域技术人员将理解,这里可以作出形式和细节的各种改变 而不偏离如权利要求所限定的本发明的精神和范围。
工业实用性
如上所述,根据本发明,通过根据信号的特性将信号分类为一个 或多个类别并使用可最佳满足相应信号所属的类别的编码单元来对每 个信号进行编码,能够以最佳位率编码具有不同特性的信号。因此, 可以高效地对包括音频和语音信号的各种信号进行编码。
权利要求
1.一种解码方法,包括从输入位流提取多个编码信号和所述编码信号的分割信息;确定多个解码方法中的哪一个将用于解码所述编码信号的每一个;使用所确定的解码方法解码所述编码信号;和参考所述分割信息合成所述解码信号。
2. 根据权利要求l所述的解码方法,其中所述分割信息包括若干 所述编码信号或所述编码信号的频带信息。
3. 根据权利要求l所述的解码方法,其中所述编码信号包括多个 频带信号。
4. 根据权利要求3所述的解码方法,其中所述频带是可变的。
5. 根据权利要求l所述的解码方法,其中所述编码信号包括可由 语音解码器高效地解码的多个信号和可由音频解码器高效地解码的多 个信号。
6. 根据权利要求1所述的解码方法,还包括从所述输入位流提取 所述编码信号的类别信息,其中所述确定包括基于所述类别信息来确定将通过所述解码方法 中的哪一个来解码所述编码信号。
7. 根据权利要求6所述的解码方法,其中,所述类别信息包括标 识用于产生所述编码信号的编码方法的编码方法信息、标识要用于解 码所述编码信号的解码方法的解码方法信息和关于所述编码信号的特 性的信息中的至少一个。
8. 根据权利要求6所述的解码方法,其中所述类别信息包括指示 语音解码方法和音频解码方法的哪一个可最高效地解码所述编码信号 的信息。
9. 根据权利要求6所述的解码方法,其中所述类别信息包括指示 所述编码信号是否可被容易地建模的信息。
10. 根据权利要求1所述的解码方法,其中,所述确定包括如 果所述编码信号可被容易地建模,则确定将使用语音解码方法来解码 编码信号;如果所述编码信号不能被容易地建模,则确定将使用音频解码方法来解码所述编码信号。
11. 根据权利要求8到IO中的任一项所述的解码方法,其中,所 述语音解码方法解码时域中的编码信号,所述音频解码方法解码频域中的所述编码信号。
12. 根据权利要求1所述的解码方法,其中,所述确定包括基于所述编码信号的每一个的变化量和所述编码信号的每一个的音调, 确定将通过所述解码方法中的哪一个来解码所述编码信号。
13. 根据权利要求l所述的解码方法,其中,所述合成包括 将所述解码信号中的至少一个分割为多个信号;和将所述多个信号中的两个或更多个合并为单个信号。
14. 根据权利要求1所述的解码方法,其中,所述合成包括-将所述解码信号中的两个或更多个合成为单个信号;和 将所述解码信号中的至少一个和所述单个信号合成。
15. —种解码设备,包括 位解包模块,它从输入位流提取多个编码信号和所述编码信号的 分割信息;解码器确定模块,它确定多个解码单元中的哪一个将用于解码所 述编码信号的每一个;解码模块,它使用所确定的解码单元解码所述编码信号;和 合成模块,它参考所述分割信息合成所述解码信号。
16. 根据权利要求15所述的解码设备,其中所述分割信息包括若 干编码信号或所述编码信号的频带信息。
17. 根据权利要求15所述的解码设备,其中所述位解包模块从所 述输入位流提取所述编码信号的解码单元信息。
18. 根据权利要求15所述的解码设备,其中,所述解码模块包括 语音解码器和音频解码器,如果所述编码信号可被容易地建模,则确 定所述编码信号将由所述语音解码器解码,如果所述编码信号不能被 容易地建模,则确定所述编码信号将由所述音频解码器解码。
19. 一种编码方法,包括 将输入信号分割为多个分割信号;根据所述分割信号的特性,将所述分割信号的每一个分类为多个 类别中的一个类别;使用所确定的编码方法编码所述分割信号;和 基于已编码的分割信号产生位流。
20. 根据权利要求19所述的编码方法,其中,所述分割包括将所 述输入信号分割为多个分割信号,每个分割信号满足以下条件极值 数目和零交叉数目必须相等或至多相差一个;由局部最大值确定的包 迹和由局部最小值确定的包迹的平均值为零。
21.根据权利要求19所述的编码方法,其中所述分割包括将所述输入信号分割为使用语音编码方法可被高效地编码的多个分割信号和 使用音频编码方法可被高效地编码的多个分割信号。
22.根据权利要求19所述的编码方法,其中所述分割包括: 将所述输入信号分割为多个分割信号;和 将所述分割信号中的两个或更多个合并为单个信号。
23.根据权利要求22所述的编码方法,其中所述合并包括将彼此 不相邻并具有类似特性的两个或更多个分割信号合并为单个信号。
24.根据权利要求19所述的编码方法,其中所述分割包括 将所述输入信号分割为多个分割信号;和将所述分割信号中的至少一个分割为两个或更多个子分割信号。
25.根据权利要求19所述的编码方法,其中所述分类包括确定语 音编码方法和音频编码方法的哪一个可最高效地编码所述分割信号的 每一个。
26. —种编码设备,包括分类模块,它将输入信号分割为多个分割信号,并且根据所述分 割信号的特性将所述分割信号的每一个分类为多个类别中的一个类 别;编码模块,它使用所确定的编码方法编码所述分割信号;和 位封包模块,它基于已编码的分割信号产生位流。
27.根据权利要求26所述的编码设备,其中所述分类模块包括 分割单元,它将所述输入信号分割为多个分割信号;和 合并单元,它将所述分割信号中的两个或更多个合并为单个信号。
28. 根据权利要求26所述的编码设备,其中所述分类模块包括-第一分割单元,它将所述输入信号分割为多个分割信号;和 第二分割单元,它将所述分割信号中的至少一个分割为两个或更多个子分割信号。
29. 根据权利要求26所述的编码设备,其中,所述编码模块包括 语音编码器和音频编码器,并且所述分类模块确定所述语音编码器和 所述音频编码器的哪一个可最高效地编码所述分割信号的每一个。
30. —种计算机可读取记录介质,其上记录有用来执行根据权利 要求1到14中的任一项所述的解码方法或根据权利要求19到25中的 任一项所述的编码方法的程序。
全文摘要
提供编码和解码设备与编码和解码方法。解码方法包括从输入位流提取多个编码信号和所述编码信号的分割信息;确定多个解码方法中的哪一个将用于解码每个编码信号;使用所确定的解码方法解码编码信号;和参考所述分割信息合成所述解码信号。因此,通过根据信号的特性将信号分类为一个或多个类别并使用可最佳满足相应信号所属的类别的编码单元来编码每个信号,能够以最佳位率编码具有不同特性的信号。此外,可以高效地编码包括音频和语音信号的各种信号。
文档编号G10L19/00GK101371295SQ200780002662
公开日2009年2月18日 申请日期2007年1月18日 优先权日2006年1月18日
发明者吴贤午, 姜泓求, 崔升钟, 李东锦, 李在晟, 郑亮源, 金孝镇 申请人:Lg电子株式会社;延世大学工业学术合作社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1