音频编码器、音频解码器、提供编码及解码音频信息的方法、计算机程序及使用信号适应...的制作方法

文档序号：9510214阅读：387来源：国知局

音频编码器、音频解码器、提供编码及解码音频信息的方法、计算机程序及使用信号适应 ...的制作方法
【技术领域】
[0001] 根据本发明的实施例为关于一种用于基于输入音频信息来提供编码音频信息的音频编码器。
[0002] 根据本发明的其他实施例为关于一种用于基于编码音频信息来提供解码音频信息的音频解码器。
[0003] 根据本发明的其他实施例为关于一种用于基于输入音频信息来提供编码音频信息的方法。
[0004] 根据本发明的其他实施例为关于一种用于基于编码音频信息来提供解码音频信息的方法。
[0005] 根据本发明的其他实施例为关于一种用于执行该方法中的一个的计算机程序。
[0006] 根据本发明的其他实施例为关于一种表示音频信息的编码音频表示。
[0007] 根据本发明的一些实施例为关于一种将信号适应性旁侧信息速率用于极低比特率音频写码的一般音频带宽扩展。
【背景技术】
[0008] 近年来，已显现对音频内容的编码及解码的增加需求。虽然用于编码音频内容的传输及储存的可用比特率及储存容量实质上已增加，但仍存在对在合理质量下的音频内容 (尤其在通信情形中为语音信号）的比特率有效编码、传输、储存及解码的需求。
[0009] 同期语音写码系统能够以低达6kbps的比特率编码宽带（WB)数字音频内容，亦艮P，具有高达7至8kHz的频率的信号。最广泛论述的实例为ITU-T标准G. 722. 2 (例如，参见参考案[1])以及最近开发的G. 718 (例如，参见参考案[4]及[10])及MPEG统一语音及音频编码解码器xHE-AAC (例如，参见参考案[8])。亦称为AMR-WB的G. 722. 2与G. 718两者使用在6. 4kHz与7kHz之间的带宽扩展（BWE)技术，以允许基础ACELP核心写码器"专注"于感知上更相关的较低频率（尤其为人类听觉系统为相位敏感情况下的频率），且藉此达成足够质量，尤其在极低比特率下。在xHE-AAC中，将增强型频带复制（eSBR)用于带宽扩展（BWE)。可一般将带宽扩展程序分成两个概念性方法：
[0010] ?"盲"或"人工"BWE，其中单独地自解码低频（LF)核心写码器信号（亦即，不需要自编码器传输的旁侧信息）重建构高频（HF)分量。此方案由AMR-WB及G. 718在16kbps 及低于16kbps下使用，以及一些回溯兼容带宽扩展后处理系统对传统窄频带电话语音操作（例如，参见参考案[5]及[9])。
[0011] 鲁"导引式"BWE，其与盲带宽扩展的不同之处在于，将用于高频（HF)内容重建构的参数中的一些作为旁侧信息传输至解码器，而非自解码核心信号估计该参数。AMR-WB、 G. 718、xHE-AAC以及一些其他编码解码器（例如，参见参考案[2]、[7]及[11])使用此方法，但并非在极低比特率下使用。
[0012] 然而，业已发现，难以在低比特率下提供适当带宽扩展，低比特率在音频内容的重建构时提供足够良好的质量。
[0013] 因此，存在对带来比特率与音频质量之间的改良取舍的带宽扩展概念的需要。

【发明内容】

[0014] 根据本发明的实施例建立一种用于基于输入音频信息来提供编码音频信息的音频编码器。该音频编码器包括低频编码器，被配置为编码该输入音频信息的低频部分以获得该低频部分的编码表示。该音频编码器亦包含带宽扩展信息提供器，被配置为基于该输入音频信息来提供带宽扩展信息。该音频编码器被配置为以信号适应性方式选择性地将带宽扩展信息包括至该编码音频信息中。
[0015] 根据本发明的此实施例基于以下发现：对于一些类型的音频内容，且甚至对于连续音频内容片段的一些部分，可在不使用任何带宽扩展旁侧信息或仅使用少量带宽扩展旁侧信息（例如，包括至该编码音频信息中的少量带宽扩展参数）的情况下基于该低频部分的该编码表示来达成一良好质量的带宽扩展。然而，该概念亦基于以下发现：因为解码器侧带宽扩展不提供令人满意的音频质量，所以对于其他类型的音频内容，且甚至对于连续音频内容片段的其他部分，可能有必要（或至少非常需要）将带宽扩展旁侧信息（例如，专用带宽扩展参数）或增加量的带宽扩展旁侧信息（例如，当与先前提及的状况相比时）包括至编码音频信息中。
[0016] 藉由选择性地将带宽扩展信息包括至编码音频信息中（例如，藉由选择性地使包括至编码音频信息中的带宽扩展信息或带宽扩展参数的量变化，或藉由选择性地在带宽扩展信息至编码音频信息中的包括与带宽扩展信息至编码音频信息中的该包括的省略之间切换），可避免在解码器侧带宽扩展事实上不需要带宽扩展信息的状况下，"不必要的"带宽扩展信息消耗宝贵的比特率，且仍可确保在解码器侧带宽扩展实际上需要带宽扩展信息的情况下，亦即，对于音频内容的解码器侧重建构，将带宽扩展信息（或增加量的带宽扩展信息）包括至编码音频信息中。
[0017] 因此，藉由以信号适应性方式选择性地将带宽扩展信息包括至编码音频信息中，亦即，当带宽扩展信息实际上为达成解码音频信号表示的足够良好质量所需的时，可减小平均比特率，同时仍维持获得良好音频质量的可能性。
[0018] 换言之，音频编码器可（例如）在带宽扩展信息的提供（其允许在音频解码器侧获得参数导引式带宽扩展）与带宽扩展信息的提供的省略（其使在音频解码器侧使用盲带宽扩展成为必要）之间切换。
[0019] 因此，可使用上述概念获得比特率与音频质量之间的尤其良好的取舍。
[0020] 在较佳实施例中，音频编码器包括侦测器，被配置为识别输入音频信息的不能基于低频部分的编码表示且使用盲带宽扩展以足够或所要的质量（例如，就预定质量度量而言）解码的部分。在此状况下，音频编码器被配置为针对输入音频信息的由侦测器识别的部分而选择性地将带宽扩展信息包括至编码音频信息中。藉由判定或估计（例如，基于输入音频信息的特征，或基于音频信息在音频编码器侧上的部分或完整重建构）输入音频信息的哪些部分不能基于低频部分的编码表示且使用盲带宽扩展以足够（或所要的）质量解码，获得有意义的准则以针对输入音频信息的部分（例如，帧）（或等效地，针对编码音频信息的帧或部分）决定是否将带宽扩展信息包括至编码音频信息中。换言之，藉由侦测器评估的上文所提及的准则允许可藉由解码编码音频信息达成的收听印象与编码音频信息的比特率之间的良好取舍。
[0021] 在较佳实施例中，音频编码器包括侦测器，被配置为识别输入音频信息的不能以足够或所要的准确度来基于低频部分估计带宽扩展参数的部分。在此状况下，音频编码器被配置为针对输入音频信息的由侦测器识别的部分而选择性地将带宽扩展信息包括至编码音频信息中。根据本发明的此实施例基于以下发现：关于是否可以足够或所要的准确度来基于低频部分估计带宽扩展参数的判定构成可以适度计算努力来评估且仍构成用于决定是否将带宽扩展信息包括至编码音频信息中的良好准则的准则。
[0022] 在较佳实施例中，音频编码器包括侦测器，被配置为根据输入音频信息的部分是否为时间上稳定的部分且根据该部分是否具有低通性质而识别该部分。此外，音频编码器被配置为针对输入音频信息的由侦测器识别为具有低通性质的时间上稳定的部分的部分而选择性地省略带宽扩展信息至编码音频信息中的包括。
[0023] 根据本发明的此实施例基于以下发现：对于输入音频信息的在时间上稳定且包含低通性质的部分，通常不必将带宽扩展信息包括至编码音频信息中，这是因为盲带宽扩展 (其不依赖于来自比特流的带宽扩展信息或参数）通常允许此等信号部分的足够良好的重建构。因此，存在可以计算有效方式评估且仍实现良好结果（就比特率与音频质量之间的取舍而言）的准则。
[0024] 在较佳实施例中，侦测器被配置为根据输入音频信息的部分是否包含有声语音及 /或根据该部分是否包含环境（例如，汽车）噪声及/或根据该部分是否包含无打击乐器声的音乐而识别该部分。已发现，可通常以足够音频质量使用盲带宽扩展来重建构包含有声语音或包含环境噪声或包含无打击乐器声的音乐的此等部分，使得对于此等部分，可推荐省略带宽扩展信息至编码音频信息中的包括。
[0025] 在较佳实施例中，音频编码器包括侦测器，被配置为根据低频部分的频谱包络与高频部分的频谱包络之间的差是否大于或等于预定差度量而识别输入音频信息的部分。在此状况下，音频编码器被配置为针对输入音频信息的由侦测器识别的部分而选择性地将带宽扩展信息包括至编码音频信息中。
[0026] 已发现，通常可能不可使用盲带宽扩展来良好地重建构输入音频信息的包含低频部分的频谱包络与高频部分的频谱包络之间的大差值的部分，这是因为在与各别低频部分相比时，盲带宽扩展常常在高频部分中（亦即，在带宽扩展信号中）提供类似频谱包络。因此已发现，对低频部分的频谱包络与高频部分的频谱包络之间的差的评定构成用于决定是否将带宽扩展信息包括至编码音频信息中的良好准则。
[0027] 在较佳实施例中，侦测器被配置为根据输入音频信息的部分是否包含无声语音及 /或根据该部分是否包含打击声而识别该部分。已发现，包含无声语音的部分及包含打击声的部分通常包含以下频谱：其中低频部分的频谱包络实质上不同于高频部分的频谱包络。因此，已发现对无声语音及/或打击声的侦测为用于决定是否将带宽扩展信息包括至编码音频信息中的良好准则。
[0028] 在较佳实施例中，音频编码器包括侦测器，被配置为判定输入音频信息的部分的频谱倾斜量，且根据所判定的频谱倾斜量是否大于或等于固定或可变的倾斜量阈值而识别输入音频信息的部分。在此状况下，音频编码器被配置为针对输入音频信息的由侦测器识别的部分而选择性地将带宽扩展信息包括至编码音频信息中。已发现，可藉由适度计算努力来导出频谱倾斜量，且该频谱倾斜量仍提供用于关于是否将带宽扩展信息包括至编码音频信息中的决策的良好准则。举例而言，若频谱倾斜量达到或超过倾斜量阈值，则可推断频谱具有高通性质且不可藉由盲带宽扩展来良好地建构。详言之，盲带宽扩展通常不可以良好准确度来重建构包含正倾斜量（其中相比于低频部分，着重强调高频部分）的频谱。此外，由于在正倾斜量的状况下，高频部分具有特定感知相关性，因此在此等状况下可推荐将带宽扩展信息包括至编码音频表示中。
[0029] 在较佳实施例中，侦测器被进一步配置为判定输入音频信息的部分的过零率，且还根据所判定的过零率是否大于或等于固定或可变的过零率阈值而识别输入音频信息的部分。已发现，过零率亦为用以侦测输入音频信息的不可使用盲带宽扩展来良好地重建构使得将带宽扩展信息包括至编码音频信息中有意义（就达成比特率与音频质量之间的良好取舍而言）的部分的良好准则。
[0030] 在较佳实施例中，侦测器被配置为应用滞后以用于识别输入音频信息的信号部分，以减少在所识别的信号部分（对于该部分，将带宽扩展信息包括至编码音频表示中）与未识别的信号部分（对于该部分，不将带宽扩展信息包括至编码音频表示中）之间的转变的数目。已发现，避免以下两者之间的过多切换系有利的：带宽扩展信息至编码音频信息中的包括，及带宽扩展信息至编码音频表示中的包括的省略，这是因为此等转变可带来一些伪讯（artifact)，尤其在转变的数目极高的情况下系如此。因此，使用可（例如）应用于倾斜量阈值（其接着为可变倾斜量阈值）或过零率阈值（其接着为可变过零率阈值）的滞后，可达成此目标。
[0031] 在较佳实施例中，音频编码器被配置为以信号适应性方式选择性地将表示输入音频信息的高频部分的频谱包络的参数作为带宽扩展信息包括至编码音频信息中。此实施例基于以下想法：表示高频部分的频谱包络的参数在参数导引式带宽扩展中尤其重要，使得包括表示输入音频信息的高频部分的频谱包络的该参数允许在不引起高比特率的情况下达成良好质量的带宽扩展。
[0032] 在较佳实施例中，低频编码器被配置为编码输入音频信息的低频部分，该低频部分包含高达位于6kHz与7kHz之间的范围中的最大频率的频率。此外，音频编码器被配置为选择性地将描述具有在300Hz与500Hz之间的带宽的高频信号部分或子部分（例如，具有高于大约6至7kHz的频率的信号部分）的强度的三个至五个参数包括至编码音频表示中。已发现，此概念导致良好音频质量而实质上不损害比特率努力。
[0033] 在较佳实施例中，音频编码器被配置为选择性地将描述四个高频信号部分（或子部分）的强度的3至5个标量量化参数包括至编码音频表示中，该高频信号部分（或子部分）涵盖高于低频部分的频率范围。已发现，使用描述四个高频信号部分的强度的3至5 个标量量化参数通常足以达成参数导引式带宽扩展，该参数导引式带宽扩展胜过可由盲带宽扩展针对相同信号部分而获得的相对较低音频质量。因此，无关于经重建构音频信号系使用盲带宽扩展或导引式带宽扩展来重建构，经重建构音频信号部分之间不存在大的质量差异。因此，上文所提及的概念良好地适于允许盲带宽扩展与参数导引式带宽扩展之间的切换的概念。
[0034] 在较佳实施例中，音频编码器被配置为选择性地将描述频谱相邻的频率部分的能量之间的关系的多个参数包括至编码音频表示中，其中，该参数中的一个描述第带宽扩展高频部分与低频部分的能量之间的比率，且其中，该参数中的其他参数描述（多对）其他带宽扩展高频部分的能量之间的比率。已发现，描述不同（较佳相邻）频率部分的能量（或等效地，强度）之间的比率（或差）的此概念允许带宽扩展信息的有效编码。亦已发现，可通常藉由仅少量比特来量化描述频谱相邻的频率部分的能量之间的关系的此等参数，而实质上不损害可由带宽扩展达成的音频质量。
[0035] 根据本发明的另一实施例建立一种用于基于编码音频信息来提供解码音频信息的音频解码器。该音频解码器包括低频解码器，被配置为解码（音频内容的）低频部分的编码表示以获得低频部分的解码表示。音频解码器亦包含带宽扩展，被配置为针对音频内容的无带宽扩展参数包括于编码音频信息中的部分而使用盲带宽扩展来获得带宽扩展信号，且针对音频内容的有带宽扩展参数包括于编码音频信息中的部分而使用参数导引式带宽扩展来获得带宽扩展信号。
[0036] 此音频编码器基于以下想法：若甚至在连续音频内容片段内仍有可能在盲带宽扩展与参数导引式带宽扩展之间切换，则可达成音频质量与比特率之间的良好取舍，这是因为已

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：萨沙·迪施;克里斯蒂安·赫尔姆里希;约翰内斯·希尔珀特;朱利安·罗比利亚德;康斯坦丁·施密特;斯特凡·维尔德;
技术所有人：弗劳恩霍夫应用研究促进协会;
我是此专利的发明人

上一篇：分层音频编码和传输的制作方法
上一篇：用于码激励线性预测类编码器的无边信息的噪声填充的制作方法