用于编码和解码信号的设备和方法

文档序号:2830411阅读:260来源:国知局
专利名称:用于编码和解码信号的设备和方法
技术领域
本发明涉及编码和解码设备与编码和解码方法,并且更具体地, 涉及可以根据信号的特性以最佳位率编码或解码信号的编码和解码设 备与编码和解码方法。
背景技术
常规音频编码器可以以48kbps或更大的高位率提供高质量音频信 号,但对于处理语音信号来说是低效率的。另一方面,常规语音译码 器可以以12kbps或更小的低位率高效地编码语音信号,但对于编码各 种音频信号来说是低效率的。

发明内容
技术问题
本发明提供可以以最佳位率编码或解码具有不同特性的信号(例 如,语音和音频信号)的编码和解码设备与编码和解码方法。
技术方案
根据本发明的一个方面,提供了一种解码方法,包括从输入位 流中提取多个编码信号;确定多个解码方法中的哪一个将用于解码每 个编码信号;使用所确定的解码方法解码编码信号;将解码信号合成 为单个信号;和通过对单个信号执行后处理操作恢复原始信号。
根据本发明的另一方面,提供了一种解码设备,包括位解包模 块,它从输入位流提取多个编码信号;解码器确定模块,它确定多个 解码单元中的哪一个将用于解码每个编码信号;解码模块,它包括解 码单元,并使用所确定的解码单元解码编码信号;合成模块,它合成
解码信号;和后处理模块,它通过对单个信号执行后处理操作恢复原 始信号。
根据本发明的另一方面,提供了一种编码方法,包括对输入信 号执行预处理操作,使得输入信号可转换为可被高效地编码的信号; 将预处理后的信号分割为多个分割信号;基于分割信号的每一个的特 性,确定多个编码方法中的哪一个将用于编码每个分割信号;使用所 确定的编码方法编码分割信号;和基于己编码的分割信号产生位流。
根据本发明的另一方面,提供了一种编码设备,包括预处理模 块,它对输入信号执行预处理操作,使得输入信号可转换为可被高效 地编码的信号;信号分割模块,它将已预处理的信号分割为多个分割 信号;编码器确定模块,它基于分割信号的每一个的特性,确定多个 编码单元中的哪一个将用于编码每个分割信号;编码模块,它包括编
码单元,并使用所确定的编码单元编码分割信号;和位封包模块,它 基于已编码的分割信号产生位流。
有利效果
因此,通过根据信号的特性将信号分类为一个或多个类别并使用 可最佳满足相应信号所属的类别的编码单元编码每个信号,可以以最 佳位率编码具有不同特性的信号。此外,可以高效地编码包括音频和 语音信号的各种信号。


图1是根据本发明的实施例的编码设备的框图; 图2是图1中示出的分类模块的实施例的框图; 图3是图2中示出的预处理单元的实施例的框图; 图4是根据本发明的实施例的用来计算输入信号的感知熵的设备 的框图5是图1中示出的分类模块的另一实施例的框图6是图5中示出的信号分割单元的实施例的框图; 图7和8是用来说明根据本发明的实施例的合并多个分割信号的 方法的视图9是图5中示出的信号分割单元的另一实施例的框图io是用来说明根据本发明的实施例的将输入信号分割为多个分
割信号的方法的视图11是图5中示出的确定单元的实施例的框图12是图1中示出的编码单元的实施例的框图13是图1中示出的编码单元的另一实施例的框图14是根据本发明的另一实施例的编码设备的框图15是根据本发明的实施例的解码设备的框图;以及
图16是图15中示出的合成单元的实施例的框图。
具体实施例方式
下面将参考附图更充分地描述本发明,在附图中示出了本发明的 示例性实施例。
图1是根据本发明的实施例的编码设备的框图。参考图1,编码设
备包括分类模块100、编码模块200和位封包模块300。
编码模块200包括执行不同编码方法的第一编码单元210至第m 编码单元220的多个编码单元。
分类模块100将输入信号分割为多个分割信号,并且将分割信号 的每一个匹配到第一编码单元210至第m编码单元220中的一个。第 一编码单元210至第m编码单元220中的一些可匹配两个或更多个分 割信号或根本不匹配分割信号。
分类模块100可分配位量以编码每个分割信号或确定要编码分割 信号的次序。
使用第一编码单元210至第m编码单元220中的任何一个来编码 每个分割信号的编码模块200被匹配到相应的分割信号。分类模块100 分析每个分割信号的特性,并选择第一编码单元210至第m编码单元 220中可最高效地根据分析结果来编码每个分割信号的一个。
可最高效地编码分割信号的编码单元可被认为能够实现最高的压 縮效率。
例如,可容易地建模为系数和余量的分割信号可由语音译码器高 效地编码,而不能容易地建模为系数和余量的分割信号可由音频编码 器高效地编码。
如果通过建模分割信号而获得的余量的能量对分割信号的能量的 比率小于预定义的阈值,则分割信号可认为是可容易地建模的信号。
由于在时间轴上呈现高冗余的分割信号可使用其中基于先前信号 预测当前信号的线性预测方法被良好地建模,因此,使用线性预测译 码方法的语音译码器可最高效地编码该分割信号。
位封包模块300基于由编码模块200提供的已编码的分割信号和 关于已编码的分割信号的附加编码信息而产生要被传输的位流。位封 包模块300可使用位无格式(bit-plain)方法或位片(bit sliced)算术
编码方法而产生具有可变位率的位流。
由于位率限制而没有编码的分割信号或带宽可从由使用内插、外 插或复制方法的解码器提供的解码信号或带宽恢复。而且,关于没有 被编码的分割信号的补偿信息可包括在要被传输的位流中。
参考图l,分类模块IIO可包括第一分类单元110至第n分类单元
120的多个分类单元。第一分类单元110至第n分类单元120中的每一 个可将输入信号分割为多个分割信号、转换信号的域、提取输入信号 的特性、根据输入信号的特性对输入信号进行分类或将输入信号匹配 到第一编码单元210至第m编码单元220中的一个。
第一分类单元IIO至第n分类单元120中的一个可以是预处理单 元,该预处理单元对输入信号执行预处理操作使得输入信号可被转换 为可被高效地编码的信号。预处理单元可将输入信号分割为多个分量, 例如系数分量和信号分量,并且可在其它分类单元执行它们的操作之 前对输入信号执行预处理操作。
可根据输入信号的特性、外部环境因素和目标位率,选择性地预 处理输入信号,并且仅仅可选择性地预处理从输入信号获得的多个分
割信号中的一些。
分类模块100可根据由心理声学建模模块400提供的输入信号的 感知特性信息而对输入信号进行分类。感知特性信息的例子包括掩蔽 阈值、信噪比(SMR)和感知熵。
换句话说,根据输入信号的感知特性信息,例如输入信号的掩蔽 阈值和SNR,分类模块100可将输入信号分割为多个分割信号或可将 每个分割信号匹配到第一编码单元210至第m编码单元220的一个或 多个。
此外,分类模块100可接收诸如输入信号的音调、零交叉率(ZCR) 和线性预测系数的信息和先前帧的分类信息,并且可根据所接收的信 息而对输入信号进行分类。
参考图1,由编码模块200输出的已编码的结果信息可被反馈到分 类模块100。
一旦输入信号被分类模块ioo分割为多个分割信号并且确定了将 要由第一编码单元210至第m编码单元220中的哪一个、使用什么位 量、以什么次序来编码分割信号,就根据所确定的结果来编码分割信 号。实际上用于编码每个分割信号的位量可以不必相同于由分类模块 100分配的位量。
详细说明实际使用的位量和所分配的位量之间的差异的信息可被 反馈到分类模块100,使得分类模块100可为其它分割信号增加所分配 的位量。如果实际位量大于所分配的位量,则分类模块100可为其它 分割信号减小所分配的位量。
实际编码分割信号的编码单元可以不必相同于由分类模块100匹
配到分割信号的编码单元。在这种情况下,信号可被反馈到分类模块 100,指示实际编码分割信号的编码单元不同于由分类模块100匹配到 分割信号的编码单元。然后,分类模块100可将分割信号匹配到除了 先前匹配到分割信号的编码单元之外的编码单元。
分类模块100根据反馈到其的已编码的结果信息可再次将输入信 号分割为多个分割信号。在这种情况下,分类模块100可获得具有与 先前获得的分割信号的结构不同的结构的多个分割信号。
如果分类模块100所选择的编码操作不同于实际执行的编码操作, 则关于它们之间的差异的信息可反馈到分类模块100,使得分类模块 100可再次完全确定编码操作相关的信息。
图2是图1中示出的分类模块100的实施例的框图。参考图2,第 一分类单元可以是预处理单元,该预处理单元对输入信号执行预处理
操作,使得输入信号可被高效地编码。
参考图2,第一分类单元110可包括执行不同预处理方法的第一预
处理器111至第n预处理器112的多个预处理器。第一分类单元110 可使用第一预处理器111至第n预处理器112中的一个以根据输入信 号的特性、外部环境因素和目标位率来对输入信号执行预处理。而且, 第一分类单元no可使用第一预处理器111至第n预处理器112对输
入信号执行两个或更多个预处理操作。
图3是图2中示出的第一预处理器111至第n预处理器112的实 施例的框图。参考图3,预处理器包括系数提取器113和余量提取器 114。
系数提取器113分析输入信号并从输入信号提取代表输入信号的 特性的系数。余量提取器114从输入信号提取已使用所提取的系数从 其去除冗余分量的余量。
预处理器可对输入信号执行线性预测译码操作。在这种情况下, 系数提取器113通过对输入信号执行线性预测分析而从输入信号提取 线性预测系数,并且余量提取器114使用系数提取器113提供的线性 预测系数从输入信号提取余量。从其已去除冗余的余量可具有与白噪 音相同的格式。
下面将详细描述根据本发明的实施例的线性预测分析方法。
通过线性预测分析而获得的预测信号可由先前的输入信号的线性 组合组成,如方程(1)所表示的 数学图形1
<formula>formula see original document page 12</formula>
其中,p表示线性预测阶数,,到p表示通过最小化输入信号和估 计信号之间的均方差(MSE)而获得的线性预测系数。 用于线性预测分析的传递函数P(力可由方程(2)表示 数学图形2
参考图3,预处理器可使用巻曲线性预测译码(WLPC)方法从输 入信号提取线性预测系数和余量,该巻曲线性预测译码方法是另一类 型的线性预测分析。通过替换具有关于单位延迟Z-'的传递函数^(z)的 全通滤波器,可实现WLPC方法。传递函数X(z)可由方程(3)表示
数学图形3
其中,^表示全通系数。通过改变全通系数,可以改变要分析的 信号的分辨率。例如,如果要被分析的信号高度集中在某一频带,例 如,如果要被分析的信号是高度集中在低频带的音频信号,则通过设 定全通系数使得低频带信号的分辨率能够得以增加而可以高效地编码 要被分析的信号。
在WLPC方法中,与高频信号相比,以较高的分辨率分析低频信 号。这样,WLPC方法对于低频信号可实现高的预测性能并且可更好 地对低频信号进行建模。
全通系数可根据输入信号的特性、外部环境因素和目标位率而沿 时间轴变化。如果全通系数随时间变化,则通过解码而获得的音频信 号可能显著失真。这样,当全通系数变化时,修匀方法可应用到全通 系数使得全通系数可逐渐地变化,并且使得信号失真可最小化。可确 定为当前全通系数值的值的范围可通过先前全通系数值来确定。
代替原始信号,掩蔽阈值可用作用来估计线性预测系数的输入。 更具体地,掩蔽阈值可转换为时域信号,并且可使用时域信号作为输 入来执行WLPC。还可使用余量作为输入来执行线性预测系数的预测。
换句话说,线性预测分析可执行超过一次,因此获得进一步白化的余
参考图2,第一分类单元110可包括第一预处理器lll,它执行 上面参考方程(1)和(2)描述的线性预测分析;和第二预处理器(未 示出),它执行WLPC。第一分类单元100可选择第一处理器111和 第二预处理器中的一个,或者可根据输入信号的特性、外部环境因素 和目标位率决定不对输入信号执行线性预测分析。
如果全通系数的值为0,则第二预处理器可以与第一预处理器111
相同。在这种情况下,第一分类单元110可仅仅包括第二预处理器, 并且根据全通系数的值来选择线性预测分析方法和WLPC方法中的一 个。而且,第一分类单元110可执行线性预测分析,或者线性预测分 析方法和WLPC方法中的任何方法在帧单元中被选择。
指示是否执行线性预测分析的信息以及指示线性预测分析方法和 WLPC方中的哪一个被选择的信息可包括在要被传输的位流中。
位封包模块300从第一分类单元110接收线性预测系数、指示是 否执行线性预测译码的信息和识别实际使用的线性预测编码器的信 息。然后,位封包模块300将所有接收的信息插入要被传输的位流。
用来将输入信号编码为音质与原始输入信号的音质几乎不能被区 分的信号所需的位量可通过计算输入信号的感知熵而被确定。
图4是根据本发明的实施例的用来计算感知熵的设备的框图。参 考图4,该设备包括滤波器组115、线性预测单元116、心理声学建模 单元117、第一位计算单元118和第二位计算单元119。
输入信号的感知熵/^可使用方程(4)来计算
数学图形4
<formula>formula see original document page 15</formula>其中,X(e^)表示原始输入信号的能量级,r(e。表示掩蔽阈值。
在涉及使用全通滤波器的WLPC方法中,可使用输入信号的余量 的能量和余量的掩蔽阈值的比率来计算输入信号的感知熵。更具体地, 使用WLPC方法的编码设备可使用方程(5)来计算输入信号的感知熵 尸E:
数学图形5
<formula>formula see original document page 15</formula>其中,J (e。表示输入信号的余量的能量,T'(e。表示余量的掩蔽阈值。
掩蔽阈值r'(e。可由方程(6)表示 数学图形6
<formula>formula see original document page 15</formula>
其中,r(,)表示原始信号的掩蔽阈值,//(e。表示用于WLPC的 传递函数。心理声学建模单元320使用传递函数7/(e,和比例因子带域
中的掩蔽阈值)可计算掩蔽阈值r'(,)。
参考图4,第一位计算单元118接收由线性预测单元116所执行的 WLPC获得的余量和由心理声学建模单元117输出的掩蔽阈值。滤波 器组116可对原始信号执行频率转换,并且频率转换的结果可输入到 心理声学建模单元117和第二位计算单元119。滤波器组115可对原始 信号执行傅立叶变换。
第一位计算单元118可使用被WLPC合成滤波器的传递函数的谱 除的原始信号的掩蔽阈值和余量的能量的比率来计算感知熵。
分割成60个或更多个具有不同带宽的不均匀分隔带的信号的巻曲 感知熵『尸£可使用WLPC被计算出,如方程(7)所示
数学图形7
<formula>formula see original document page 16</formula>
其中,6表示使用心理声学模型获得的分隔带的指数,^w表示
分隔带6中的余量的能量的和,和(6)分别表示分隔带6中 的最低和最高频率,W,^r(w)表示线性映射的分隔带的掩蔽阈值,A(vv)2 表示帧的线性预测译码(LPC)能量谱,"t(w)表示对应于余量的线性 掩蔽阈值。
另一方面,再分割成60个或更多个具有相同带宽的均匀分隔带的 信号的巻曲感知熵『i^^可使用WLPC被计算出,如方程(S)所示 数学图形8
.e》)
『尸&"6 二一艺(A妙("-^。w")).log,
》—)2
其中,^表示线性分隔的子带的指数,^ivv)和s^(—分别表示线
性分隔的子带s中的最低和最高频率," 力)表示线性分隔的子带s的
掩蔽阈值,e^(力表示线性分隔的子带s的能量,即线性分隔的子带^中 的频率的和。掩蔽阈值wZ^("是线性分隔的子带s中的多个掩蔽阈值的
最小值。
对于具有相同带宽且具有高于输入谱的和的阈值的带,不能计算 感知熵。这样,方程(8)的巻曲感知熵『/^^可低于为低频带提供高 分辨率的方程(7)的巻曲感知熵『/W。
使用WLPC可以为具有不同带宽的比例因子带计算巻曲感知熵 .,如方程(9)所表示的 数学图形9 "~(力= min
匿,,=_ 2>%A(/)"w(/)).iogl0
《砂w
其中,/表示比例因子带的指数,"^(/)表示比例因子带/的最/J
掩蔽阈值,『pj^表示比例因子带/的输入信号和比例因子带/的掩蔽 阈值的比率,^w表示比例因子带/中的所有频率的和,即比例因子 带/的能量。
图5是图1中示出的分类模块100的另一实施例的框图。参考图5, 分类模块包括信号分割单元121和确定单元122。
更具体地,信号分割单元121将输入信号分割为多个分割信号。 例如,信号分割单元121可使用子带滤波器将输入信号分割为多个频 带。频带可具有相同的带宽或不同的带宽。如上所述,通过可最佳满 足分割信号的特性的编码单元,分割信号可被与其它分割信号分离地 编码。
信号分割单元121可将输入信号分割为多个分割信号,例如,多 个带信号,使得带信号之间的干扰可最小化。信号分割单元121可具 有双滤波器组结构。在这种情况下,信号分割单元121还可分割每个 分割信号。
关于由信号分割单元121获得的分割信号的分割信息,例如分割 信号的总数目和每个分割信号的带信息,可包括在要被传输的位流中。 解码设备可分离地解码分割信号并参考分割信息合成解码信号,由此
恢复原始输入信号。
分割信息可存储为表格。位流可包括用于分割原始输入信号的表 格的标识信息。
可以确定每个分割信号(例如,多个频带信号)对音质的重要性, 并且可以根据所确定的结果为每个分割信号调节位率。更具体地,分 割信号的重要性可定义为固定值或根据每个帧的输入信号的特性而变 化的非固定值。
如果语音和音频信号混合入输入信号,则信号分割单元121可根 据语音信号的特性和音频信号的特性将输入信号分割为语音信号和音 频信号。
确定单元122可确定编码模块200中的第一编码单元210至第m 编码单元220中的哪一个可以最高效地编码每个分割信号。
确定单元122将分割信号分类为若干组。例如,确定单元122可 将分割信号分类为N个类别,并且通过将N个类别中的每一个类别匹 配到第一编码单元210至第m编码单元220中的一个,确定第一编码 单元210至第m编码单元220中的哪一个将用于编码每个分割信号。
更具体地,假定编码模块200包括第一编码单元210至第m编码 单元220,则确定单元122可将分割信号分类为第一至第m类别,该 第一至第m类别可以分别由第一编码单元210至第m编码单元220最 高效地编码。
为此,可由第一编码单元210至第m编码单元220中的每一个最 高效地编码的信号的特性可被预先确定,并且根据该确定的结果可限 定第一至第m类别的特性。此后,确定单元122可提取每个分割信号
的特性,并且根据所提取的结果将每个分割信号分类为与相应的分割
信号共享相同特性的第一至第m类别中的一个类别。
第一至第m类别的例子包括浊音语音类别、清音语音类别、背景
噪音类别、无声类别、音调音频类别、非音调音频类别和浊音语音/音 频混合类别。
通过参考由心理声学建模模块400提供的关于分割信号的感知特 性信息,例如分割信号的掩蔽阈值、SMR或感知熵级,确定单元122 可确定第一编码单元210至第m编码单元220中的哪一个将用于编码 每个分割信号。
通过参考关于分割信号的感知特性信息,确定单元122可确定位 量以便编码每个分割信号,或者确定要编码分割信号的次序。
要被传输的位流内可包括由确定单元122执行的确定所获得的信 息,例如,指示通过第一编码单元210至第m编码单元220的哪一个 和要被编码的每个分割信号具有的位量的信息以及指示编码分割信号 的次序的信息。
图6是图5中示出的信号分割单元121的实施例的框图。参考图6, 信号分割单元包括分割器123和合并器124。
分割器123可将输入信号分割为多个分割信号。合并器124可将 具有类似特性的分割信号合并为单个信号。为此,合并器124可包括 合成滤波器组。
例如,分割器123可将输入信号分割为256个带。256个带中,具 有类似特性的这些带可由合并器124合并为单个带。
参考图7,合并器124可将彼此邻近的多个分割信号合并为单个合 并信号。在这种情况下,合并器124可根据预定义的规则将多个相邻 的分割信号合并为单个合并信号,而不考虑相邻的分割信号的特性。
可选地,参考图8,合并器124可将具有类似特性的多个分割信号
合并为单个合并信号,而与分割信号是否彼此相邻无关。在这种情况
下,合并器124可将可由相同的编码单元高效地编码的多个分割信号 合并为单个合并信号。
图9是图5中示出的信号分割单元121的另一实施例的框图。参 考图9,信号分割单元包括第一分割器125、第二分割器126和第三分 割器127。
更具体地,信号分割单元121可分级地分割输入信号。例如,输 入信号可由第一分割器125分割为两个分割信号,两个分割信号中的 一个可由第二分割器126分割为三个分割信号,并且三个分割信号中 的一个可由第三分割器127分割为三个分割信号。以这种方式,输入 信号可分割为总共6个分割信号。信号分割单元121可分级地将输入 信号分割为具有不同带宽的多个带。
在图9示出的实施例中,根据3级分级分割输入信号,但本发明 不限于此。换句话说,根据2级或者4级或更多级分级,输入信号可 分割为多个分割信号。
信号分割单元121中的第一分割器125至第三分割器127中的一 个可将输入信号分割为多个时域信号。
图10说明信号分割单元121将输入信号分割为多个分割信号的实 施例。
在短的帧长度周期期间,语音或音频信号通常是稳态的。然而, 有时,例如在过渡周期期间,语音或音频信号可具有非稳态特性。
为了高效地分析非稳态信号并提高编码这种非稳态信号的效率, 根据本实施例的编码设备可使用小波或经验模式分解(EMD)方法。 换句话说,根据本实施例的编码设备可使用不固定的变换函数来分析 输入信号的特性。例如,信号分割单元121可使用不固定的频带子带 滤波方法将输入信号分割为具有可变带宽的多个带。
下面将详细描述通过EMD将输入信号分割为多个分割信号的方法。
在EMD方法中,输入信号可分解为一个或多个固有模式函数 (IMF) 。 IMF必须满足下列条件极值数目和零交叉数目必须相等或 至多相差一个;由局部最大值确定的包迹和由局部最小值确定的包迹 的平均值为零。
IMF代表类似于简单调和函数中的分量的简单振荡模式,因此使 其可以使用EMD方法高效地分解输入信号。
更具体地,为了从输入信号^)提取IMF,通过连接由输入信号^) 的局部最大值使用三次样条内插方法确定的所有局部极值可产生上包 迹,并且通过连接由输入信号力)的局部最小值使用三次样条内插方法 确定的所有局部极值可产生下包迹。输入信号40可具有的所有值可处 于上包迹和下包迹之间。
此后,可计算上包迹和下包迹的平均值m(O。此后,通过从输入 信号W)减去平均值mW可计算第一分量&W,如方程(10)所示 数学图形10
如果第一分量/^(/)不满足上述IMF条件,则第一分量A(/)可被确 定为与输入信号力)相同,并且可再次执行上述操作直到获得满足上述
IMF条件的第一IMF C々)为止。
一旦获得第一IMF C々),就通过减去第一 IMF C々)获得余量"f), 如方程(11)所示 数学图形11
此后,可使用余量吖O作为新的输入信号再次执行上述IMF提取 操作,从而获得第二IMF Q(/)和余量r^)。
如果在上述IMF提取操作期间获得的余量^;(0具有常数值或者是 单调增加函数或仅有一个极值或根本没有极值的单周期函数,则可终 止上述IMF提取操作。
作为上述IMF提取操作的结果,输入信号^)可由多个IMF C。W 到Q^)和最终余量^(0的和表示,如方程(12)所示 数学图形12
<formula>formula see original document page 22</formula>其中,M表示提取的IMF的总数目。最终余量^(0可反映输入信 号^)的总特性。
图10示出通过使用EMD方法分解原始输入信号而获得的十一个 IMF和最终余量。参考图10,在IMF提取的早期从原始输入信号获得 的IMF的频率高于在IMF提取的晚期从原始输入信号获得的IMF的频 率。
使用先前余量/^—D和当前余量^之间的标准偏差^)可简化IMF
提取,如方程(13)所示: 数学图形13
f=0
如果标准偏差SD小于例如0.3的参考值,则当前余量&可看作
IMF。
同时,信号x(O可通过希尔伯特变换而变换为解析信号,如方程 (14)所示
数学图形14
zO) = ;c(,) + _/7/{柳=
其中,(O表示瞬时幅值,(O表示瞬时相位,^U表示希尔伯特变换。
作为希尔伯特变换的结果,输入信号可转换为由实分量和虚分量 组成的解析信号。
通过将希尔伯特变换应用到平均值为0的信号,可获得可以为时 域和频域提供高分辨率的频率分量。
下面将详细描述图4中示出的确定单元122如何确定多个编码单 元中的哪一个将用于编码通过分解输入信号而获得的多个分割信号中 的每一个。
确定单元122可确定语音译码器和音频编码器的哪一个可更高效 地编码每个分割信号。换句话说,确定单元122可决定对使用第一编 码单元210至第m编码单元220的任何一个的语音译码器可高效地编 码的分割信号进行编码的是语音译码器,并且决定对使用第一编码单 元210至第m编码单元220中的任何一个的音频编码器可高效地编码 的分割信号进行编码的是音频编码器。
下面将详细描述确定单元122如何确定语音译码器和音频编码器 的哪一个可更高效地编码分割信号。
确定单元122可测量分割信号中的变化,并且如果测量的结果大 于预定义的参考值,则确定语音译码器可以比音频编码器更高效地编 码分割信号。
可选地,确定单元122可测量包括在分割信号的某一部分中的音
调分量,并且如果测量的结果大于预定义的参考值,则确定语音译码 器可以比音频编码器更高效地编码分割信号。
图11是图5中示出的确定单元122的实施例的框图。参考图11, 确定单元包括语音编码/解码单元500、第一滤波器组510、第二滤波器 组520、确定单元530和心理声学建模单元540。
图ll中示出的确定单元可确定语音译码器和音频编码器的哪一个 可更高效地编码每个分割信号。
参考图ll,输入信号由语音编码/解码单元500编码,并且编码信 号由语音编码/解码单元500解码,从而恢复原始输入信号。语音编码/ 解码单元500可包括自适应多速率宽带(AMR-WB)语音译码器/解码 器,并且AMR-WB语音编码器/解码器可具有代码激励线性预测(CELP)结构。
输入信号可在输入到语音编码/解码单元500之前被欠采样 (down-sampled)。语音编码/解码单元500输出的信号可被过采样 (up-sampled),由此恢复车俞入信号。
输入信号可通过第一滤波器组510进行频率变换。
由语音编码/解码单元500输出的信号被第二滤波器组520转换为 频域信号。第一滤波器组510或第二滤波器组520可对输入到它的信 号执行余弦变换,例如,修正离散余弦变换(MDCT)。
第一滤波器组510输出的原始输入信号的频率分量和第二滤波器 组520输出的恢复的输入信号的频率分量都被输入到确定单元530。确 定单元530可基于输入到它的频率分量确定语音译码器和音频编码器 的哪一个可更高效地编码输入信号。
更具体地,基于输入到确定单元的频率分量,通过使用方程(15) 来计算每个频率分量的感知熵P《,确定单元530可确定语音译码器和 音频编码器的哪一个可更高效地编码输入信号
数学图形15
尸《=
其中
log2
0,</) = 0
力') 5
2wint
+ 1
其中,w)表示频率分量的系数,y表示频率分量的指数,z'表示
量化步长,"int()是将最接近的整数返回到其自变量的函数,人,和 分别是比例因子带的开始频率指数和结束频率指数。
确定单元530可使用方程(15)计算原始输入信号的频率分量的 感知熵和恢复的输入信号的频率分量的感知熵,并且基于计算的结果 来确定对于用于编码输入信号而言音频编码器和语音译码器的哪一个 更高效地。
例如,如果原始输入信号的频率分量的感知熵小于恢复的输入f号的频率分量的感知熵,则确定单元530可确定音频编码器可以比语 音译码器更高效地编码输入信号。另一方面,如果恢复的输入信号的 频率分量的感知熵小于原始输入信号的频率分量的感知熵,则确定单
元530可确定语音译码器可以比音频编码器更高效地编码输入信号。
图12是图1中示出的第一编码单元210至第m编码单元220中 的一个的实施例的框图。图12中示出的编码单元可以是语音译码器。
通常,语音译码器可在帧单元内对输入信号执行LPC,并且使用 Levinson-Durbin算法从输入信号的每个帧提取LPC系数,例如16阶 LPC系数。通过自适应码本搜索或固定码本搜索,可量化激励信号。 使用代数码激励的线性预测方法,可量化激励信号。使用具有共轭结 构的量化表格,可对激励信号的增益执行矢量量化。
图12中示出的语音译码器包括线性预测分析单元600、音高估计 单元610、码本搜索单元620、线谱对(LSP)单元630和量化单元640。
线性预测分析单元600使用自相关系数对输入信号执行线性预测 分析,该自相关系数通过使用不对称窗而获得。如果导前(look-ahead) 周期,即不对称窗,具有30ms的长度,则线性预测分析单元600可使 用5ms导前周期执行线性预测分析。
自相关系数使用Levinson-Durbin算法转换为线性预测系数。对于 量化和线性内插,LSP单元630将线性预测系数转换为LSP。量化单元 640量化LSP。
音高估计单元610估计开环音高,以便减小自适应码本搜索的复 杂性。更具体地,音高估计单元610使用每个帧的加权的语音信号域 来估计开环音高周期。此后,使用所估计的开环音高来构造谐波噪音 成形滤波器。此后,使用谐波噪音成形滤波器、线性预测合成滤波器
和共振峰感知加权滤波器来计算脉冲响应。脉冲响应可用于产生用来 量化激励信号的目标信号。
码本搜索单元620执行自适应码本搜索和固定码本搜索。通过闭 环音高搜索且通过过去的激励信号的内插计算自适应码本矢量,在子 帧单元中可执行自适应码本搜索。自适应码本参数可包括音高周期和
音高滤波器的增益。通过线性预测合成滤波器可产生激励信号,以便 简化闭环搜索。
固定码本结构基于交织单脉冲置换(ISSP)设计而形成。将包括
分别定位64个脉冲的64个位置的码本矢量分割成四个轨道,每个轨 道包括16个位置。根据传输速率,预定数目的脉冲可位于四个轨道的 每一个。由于码本指数指示轨道部位和脉冲符号,因此不需要存储码 本,并且可以仅使用该码本指数产生激励信号。
图12中示出的语音译码器可在时域中执行上述译码过程。而且, 如果由图1中示出的分类模块100使用线性预测译码方法编码输入信 号,则线性预测分析单元600可以是任选的。
本发明不限于图12中示出的语音译码器。换句话说,在本发明的 范围内可以使用除了图12中示出的语音译码器外、可高效地编码语音 信号的各种语音译码器。
图13是图1中示出的第一编码单元210至第m编码单元220中 的一个的另一实施例的框图。图13中示出的编码单元可以是音频编码 器。
参考图13,音频编码器包括滤波器组700、心理声学建模单元710 和量化单元720。
滤波器组700将输入信号转换为频域信号。滤波器组700可对输
入信号执行余弦变换,例如,修正离散余弦变换(MDCT)。
心理声学建模单元710计算输入信号的掩蔽阈值或输入信号的 SMR。量化单元720使用由心理声学建模单元710计算出的掩蔽阈值 来量化由滤波器组700输出的MDCT系数。可选地,为了在给定位率 范围内最小化听觉失真,量化单元720可使用输入信号的SMR。
图13中示出的音频编码器可在频域中执行上述编码过程。
本发明不限于图13中示出的音频编码器。换句话说,在本发明的 范围内可以使用除了图13中示出的音频编码器外、可高效地编码音频 信号的各种音频编码器(例如,高级音频译码器)。
高级音频译码器执行瞬时噪音成形(TNS)、强度/耦合、预测和 中/侧(M/S)立体声译码。TNS是在滤波器组窗中适当分布时域量化 噪音使得量化噪音可以变得听不见的操作。强度/耦合是一种操作,通 过编码音频信号并且仅仅基于高带中声音方向的感知主要取决于能量 的时间尺度这一事实来传输音频信号的能量,该操作能够减小要传输 的空间信息的量。
预测是通过使用帧的谱分量之间的相关性从统计特性不变化的信 号去除冗余的操作。M/S立体声译码是传输立体声信号而不是左和右 通道信号的标准化的和(即,中)和差(即,侧)的操作。
进行TNS、强度/耦合、预测和M/S立体声译码的信号由量化器量 化,该量化器使用从心理声学模型获得的SMR执行合成分析(AbS)。
如上所述,由于音频编码器使用诸如线性预测译码方法的建模方 法编码输入信号,因此图5中示出的确定单元122可根据预定的一组
规则来确定输入信号是否可被容易地建模。此后,如果确定输入信号 可被容易地建模,则确定单元122可决定使用语音译码器编码输入信 号。另一方面,如果确定输入信号不能被容易地建模,则确定单元122 可决定使用音频编码器编码输入信号。
图14是根据本发明的另一实施例的编码设备的框图。在图l到14
中,相同的附图标记代表相同的要素,并且因此,将跳过其详细描述。
参考图14,分类模块100将输入信号分割为第一至第n分割信号 的多个信号并确定多个编码单元230、 240、 250、 260和270中的哪一 个将用于编码第一至第n分割信号中的每一个。
参考图14,编码单元230、 240、 250、 260和270可顺序地分别对 第一至第n分割信号进行编码。并且,如果输入信号被分割为多个频 带信号,则可以按照从最低频带信号到最高频带信号的次序对该频带 信号进行编码。
在顺序编码分割信号的情况下,先前信号的编码误差可用于编码 当前信号。结果,可以使用不同的编码方法编码分割信号,如此以防 止信号失真并提供带宽伸縮性。
参考图14,编码单元230编码第一分割信号,解码已编码的第一 分割信号,并将解码信号和第一分割信号之间的误差输出到编码单元 240。编码单元240使用编码单元230输出的误差来编码第二分割信号。 以这种方式,考虑它们各自的先前分割信号的编码误差,编码第二至 第m分割信号。因此,可以实现无误差编码并提高音质。
图14中示出的编码设备通过逆向地执行图1到14中示出的编码 设备所执行的操作可从输入位流恢复信号。
图15是根据本发明的实施例的解码设备的框图。参考图15,解码
设备包括位解包模块800、解码器确定模块810、解码模块820和合成 模块830。
位解包模块800从输入位流提取一个或多个编码信号以及解码该 编码信号所需的附加信息。
解码模块820包括执行不同解码方法的第一解码单元821至第m 解码单元822的多个解码单元。
解码确定模块810确定第一解码单元821至第m解码单元822中 的哪一个可最高效地解码每个编码信号。解码器确定模块810可使用 与图1中示出的分类模块100的方法类似的方法来确定第一解码单元 821至第m解码单元822中的哪一个可最高效地解码每个编码信号。 换句话说,解码器确定模块810可基于每个编码信号的特性来确定第 一解码单元821至第m解码单元822中的哪一个可最高效地解码每个 编码信号。优选地,解码器确定模块810可基于从输入位流提取的附 加信息来确定第一解码单元821至第m解码单元822中的哪一个可最 高效地解码每个编码信号。
附加信息可包括类别信息,通过编码设备来标识被分类的编码 的信息所属的类别;编码单元信息,标识用于产生该编码信号的编码 单元;和解码单元信息,标识要用于解码该编码信号的解码单元。
例如,解码器确定模块810可基于附加信息而确定编码信号属于 哪个类别,并且为编码信号选择第一解码单元821至第m解码单元822 中对应于编码信号的类别的任何一个解码单元。在这种情况下,所选 定的解码单元可具有一种结构使得它可最高效地解码属于与编码信号
的类别相同的类别的信号。
可选地,解码器确定模块810可基于附加信息来识别用于产生编
码信号的编码单元,并且为编码信号选择第一解码单元821至第m解 码单元822中对应于识别的编码单元的任何一个解码单元。例如,如 果己经由语音译码器产生了编码信号,则解码器确定模块810可以为 编码信号选择第一解码单元821至第m解码单元822中是语音解码器 的任何一个解码单元。
可选地,解码器确定模块810可基于附加信息来识别可解码编码 信号的解码单元,并且为编码信号选择第一解码单元821至第m解码 单元822中对应于所识别的解码单元的任何一个解码单元。
可选地,解码器确定模块810可从附加信息获得解码信号的特性, 并选择第一解码单元821至第m解码单元822中可最高效地解码具有 与编码信号的特性相同的特性的信号的任何一个解码单元。
以这种方式,从输入位流提取的每个编码信号由第一解码单元821 至第m解码单元822中确定为能够最高效地解码相应的编码信号的任 何一个解码单元编码。解码信号由合成模块830合成,从而恢复原始 信号。
位解包模块800提取关于编码信号的分割信息,例如编码信号的 数目和每个编码信号的带信息,并且合成模块830可参考分割信息合 成解码模块820提供的解码信号。
合成模块830可包括第一合成单元831至第n合成单元832的多 个合成单元。第一合成单元831至第n合成单元832中的每一个都可 合成解码模块820所提供的解码信号,或者对解码信号中的一些或全 部执行域转换或附加的解码。
第一合成单元831至第n合成单元832中的一个可对合成的信号
执行后处理操作,该后处理操作是编码设备执行的预处理操作的逆操 作(inverse)。可从输入位流提取指示是否要执行后处理操作的信息和 用于执行后处理操作的解码信息。
参考图16,第一合成单元831至第n合成单元832中的一个,具 体地,第二合成单元833,可包括第一后处理器834至第n后处理器 835的多个后处理器。第一合成单元831将多个解码信号合成为单个信 号,并且第一后处理器834至第n后处理器835中的一个对通过合成 而获得的单个信号执行后处理操作。
指示第一后处理器834至第n后处理器835中的哪一个要对通过 合成而获得的单个信号执行后处理操作的信息可包括在输入位流中。
第一合成器831至第n合成器832中的一个可使用从输入位流提 取的线性预测系数对通过合成而获得的单个信号执行线性预测解码, 从而恢复原始信号。
本发明可实现为写在计算机可读取记录介质上的计算机可读取代 码。计算机可读取记录介质可以是以计算机可读取的方式存储数据的 任何类型的记录装置。计算机可读取记录介质的例子包括ROM、RAM、 CD-ROM、磁带、软盘、光学数据存储器和载波(例如,通过因特网 的数据传输)。计算机可读取记录介质可分布在连接到网络的多个计 算机系统上,使得计算机可读取代码被写到其上并以分散的方式从其 执行。本领域技术人员可以容易地构造实现本发明所需的函数程序、 代码和代码段。
虽然己经参考本发明的示例性实施例具体地示出并描述了本发 明,但本领域技术人员将理解,这里可以作出形式和细节的各种改变 而不偏离如权利要求所限定的本发明的精神和范围。
工业实用性
如上所述,根据本发明,通过根据信号的特性将信号分类为一个 或多个类别并使用可最佳满足相应信号所属的类别的编码单元来对每 个信号进行编码,可以以最佳位率编码具有不同特性的信号。因此, 可以高效地对包括音频和语音信号的各种信号进行编码。
权利要求
1.一种解码方法,包括从输入位流提取多个编码信号;确定多个解码方法中的哪一个将用于解码所述编码信号的每一个;使用所确定的解码方法解码所述编码信号;将解码信号合成为单个信号;和通过对所述单个信号执行后处理操作来恢复原始信号。
2. 根据权利要求l所述的解码方法,其中所述后处理操作的所述 执行包括对所述单个信号执行线性预测解码。
3. 根据权利要求1所述的解码方法,还包括从所述输入位流提取 对所述单个信号执行所述后处理操作所需的后处理信息。
4. 根据权利要求3所述的解码方法,其中所述后处理信息包括关 于线性预测系数的信息。
5. 根据权利要求3所述的解码方法,其中所述后处理信息包括关 于全通滤波器系数的信息。
6. 根据权利要求5所述的解码方法,其中所述全通滤波器系数是 可变的。
7. 根据权利要求5所述的解码方法,其中所述全通滤波器系数根 据所述编码信号的能量级被确定。
8. 根据权利要求1所述的解码方法,还包括从所述输入位流提取 后处理方法信息,该后处理方法信息标识将用于对所述单个信号执行 所述后处理操作的后处理方法,其中所述后处理操作的所述执行包括参考所述后处理方法信息选 择多个后处理方法中的一个。
9.根据权利要求l所述的解码方法,其中所述确定包括选择所述 解码方法中可最高效地解码所述编码信号的每一个的任何一个解码方 法。
10 —种解码设备,包括位解包模块,它从输入位流提取多个编码信号;解码器确定模块,它确定多个解码单元中的哪一个将用于解码所 述编码信号的每一个;解码模块,它包括所述解码单元,并使用所确定的解码单元解码 所述编码信号;合成模块,它合成所述解码信号;和后处理模块,它通过对单个信号执行后处理操作而恢复原始信号。
11. 根据权利要求IO所述的解码设备,其中所述后处理模块对所 述单个信号执行线性预测解码。
12. 根据权利要求IO所述的解码设备,其中所述位解包模块从所 述输入位流提取与线性预测系数和全通滤波器系数的至少一个相关的{曰息。
13. 根据权利要求IO所述的解码设备,其中,所述位解包模块从所述输入位流提取后处理方法信息,该后处理方法信息标识将用于对 所述单个信号执行所述后处理操作的后处理方法,其中,所述后处理模块包括多个后处理器,并且参考所述后处理方法信息选择所述后处理器中的一个。
14. 一种编码方法,包括对输入信号执行预处理操作,使得所述输入信号可转换为可被高 效地编码的信号;将已预处理的信号分割为多个分割信号;基于所述分割信号的每一个的特性,确定多个编码方法中的哪一 个将用于编码所述分割信号的每一个;使用所确定的编码方法编码所述分割信号;和 基于已编码的分割信号产生位流。
15. 根据权利要求14所述的编码方法,其中所述预处理操作的所 述执行包括对所述单个信号执行线性预测译码。
16. 根据权利要求14所述的编码方法,其中所述预处理操作的所 述执行包括使用包括全通滤波器的预处理函数。
17. 根据权利要求14所述的编码方法,还包括基于余量的能量级 和掩蔽阈值或目标位率来计算位量以编码所述分割信号的每一个,所 述余量通过所述预处理操作的所述执行而获得。
18. 根据权利要求14所述的编码方法,其中所述预处理操作的所 述执行包括基于所述输入信号的特性、外部环境信息和目标位率中的至少一 个来选择多个预处理方法中的一个;和使用所选择的预处理方法对所述输入信号执行所述预处理操作。
19. 一种编码设备,包括预处理模块,它对输入信号执行预处理操作,使得所述输入信号 可转换为可被高效地编码的信号;信号分割模块,它将已预处理的信号分割为多个分割信号; 编码器确定模块,它基于所述分割信号的每一个的特性,确定多 个编码单元中的哪一个将用于编码所述分割信号的每一个;编码模块,它包括所述编码单元,并使用所确定的编码单元编码所述分割信号;和位封包模块,它基于已编码的分割信号产生位流。
20. 根据权利要求19所述的编码设备,其中所述预处理模块对所 述输入信号执行线性预测译码。
21. 根据权利要求19所述的编码设备,其中所述预处理模块包括 全通滤波器。
22. 根据权利要求19所述的编码设备,其中,所述预处理模块包 括多个预处理器,并且基于所述输入信号的特性、外部环境信息和目 标位率中的至少一个来选择所述预处理器中的一个。
23. —种计算机可读取记录介质,具有用来执行根据权利要求1 到9中的任一项所述的解码方法或根据权利要求14到18中的任一项 所述的编码方法的程序。
全文摘要
提供编码和解码设备与编码和解码方法。解码方法包括从输入位流提取多个编码信号;确定多个解码方法中的哪一个将用于解码每个编码信号;使用所确定的解码方法来解码编码信号;合成解码信号;和通过对单个信号执行后处理操作来恢复原始信号。因此,通过根据信号的特性将信号分类为一个或多个类别并使用可最佳满足相应信号所属的类别的编码单元来编码每个信号,能够以最佳位率编码具有不同特性的信号。此外,可高效地编码包括音频和语音信号的各种信号。
文档编号G10L19/12GK101371297SQ200780002682
公开日2009年2月18日 申请日期2007年1月18日 优先权日2006年1月18日
发明者吴贤午, 姜泓求, 崔升钟, 朴荣喆, 李东锦, 李在晟, 郑亮源, 金孝镇 申请人:Lg电子株式会社;延世大学工业学术合作社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1