用于语音/音频发送器和接收器的方法和设备的制作方法

文档序号：2837024阅读：648来源：国知局

专利名称：用于语音/音频发送器和接收器的方法和设备的制作方法
技术领域：
本发明涉及语音/音频发送器和接收器。特别地，本发明涉及提供了
改进编码效率的改进语音/音频编解码器(codec)。
背景技术：
传统的语音/音频编码由核心编解码器执行。编解码器的意思是编码器和解码器。核心编解码器适于对信号频带的核心频带进行编码/解码，由此，核心频带包括信号的上至(upto)截止频率的必要频率，例如，在窄带语音的情况下截止频率为3400 Hz。核心编解码器能够与带宽扩展(BWE)相结合，后者处理核心频带之上且超出截止频率的高频。BWE 指的是一种在核心带宽的频镨上增加接收器处频语(带宽)的方法。BWE 的好处是其通常能够在除核心编解码器比特率之外增加很少的额外比特率或不增加比特率的情况下实现。标明核心频带与带宽扩展所处理的高频之间的界限的频点在本说明书中被称为交越频率或截止频率。
超频(overclocking)是一种例如可用于以3GPP TS 26.290扩展的适应性多速率宽带(AMR-WB+)编解码器形式的适应性多速率宽带+
(AMR-WB+)-音频编解码器中的方法；代码转换(transcoding)功能，其允许以经修改的内部采样频率来操作编解码器，即使其最初是针对 25.6 KHz的固定内部采样频率而设计的。如下所述，改变内部釆样频率考虑到以超频因数来缩放(scale)比特率、带宽和复杂度。这考虑到根据比特率、带宽和复杂度方面的要求、以非常灵活的方式来操作编解码器。例如，如果需要非常低的比特率，则能够使用低超频因数(-降频
(underclocking))，这同时意味着经编码的音频带宽和复杂度得以降低。另一方面，如果需要非常高质量的编码，则使用高超频因数，从而允许以增加比特率和复杂度为代价来对大音频带宽进行编码。
在编码器侧的超频是通过在编码器前端使用灵活的重采样器
(resampler)来实现的，其将输入信号的原始音频采样率(例如44.1 KHz)转换为任意内部采样频率，所述任意内部采样频率偏离标称内部采样频率的程度为超频因数。实际编码算法通常对以内部采样频率采样
7的固定信号帧(包含预定义数目的样本)进行操作，因此，原则上其未察觉任何超频。尽管如此，以给定的超频因数对各种编解码器属性进行缩放，例如比特率、复杂度、带宽和交越频率。
所期望的是使用上述超频方法来获得增加的编码效率。这会引起在相同比特率或更低比特率处的改进的信号质量且同时保持相同的质量水平。
专利US 7050972描述了一种用于音频编码系统的方法，该系统适应性地随着时间而调整用于对较低频带进行编码的核心编解码器与较高频带的高频再生系统(其在本说明书中也被称为带宽扩展)之间的交越频率。该专利还描述了能够响应于核心编解码器的能力而进行适配以适当地对低频带进行编码。
但是US 7050972没有提供用于改进核心编解码器的编码效率的手段，即以较低采样频率操作之。该方法的目的仅在于通过对将被核心编解码器编码的带宽进行适配以确保核心编解码器能够适当地对其频带进行编码、来改进总体编码系统的效率。因此，其目的是实现核心频带和带宽扩展频带之间的最优性能折衷，而不是尝试着使核心解码器更为高效。
专利申请(WO-2005096508 )描述了另一种方法，该方法包括频带扩展模块、重采样模块和包含心理声学分析模块的核心编解码器、时频映射模块、量化模块、熵编码模块。频带扩展模块分析整个带宽内的原始输入音频信号，提取高频部分的谱包络和表征高低频谙部分之间的依赖性的参数。重采样冲莫块对输入的音频信号进行重采样，改变采样频率，并将它们输出至核心编解码器。
尽管如此，专利申请(WO-2005096508)没有包括考虑根据输入信号的某些分析对重采样模块的操作进行适配的事项。此外，没有预见原始输入信号的适应性分割(segmentation)装置，该装置会允许在适应性重采样之后将输入片段(segment)映射到后续的核心码的输入帧上，所述输入帧包含预定义数目的样本。其结果是，不能确保核心编解码器对最低可能的信号采样率进行操作，因此，总体编码系统的效率不如希望的那么高。
C.Shahabi 等人的出版物 A Comparison of different haptic compression techniques; ICME 2002描述了一种用于对数据帧进行操作的触觉数据的适应性采样系统，其周期性地识别用于数据窗的奈奎斯特频率，并且此后以该频率对数据进行重采样。出于实际原因，根据截止频率来选择采样频率，超出截止频率的信号能量能被忽略。
C.Shahabi等人的上述出版物中所描述的方案的问题在于其在语音和音频编码的环境中没有提供益处。对于触觉数据的采样而言，与超出截止频率(例如1%)的相对能含量相关的标准可能是合适的，其目标是以最低可能采样率来保持对数据的准确表示。尽管如此，在语音和音频编码的环境中，在输入或输出采样频率方面通常存在固定限制，这意味着首先以固定截止频率对原始信号进行低通滤波，并且此后下采样至所需的采样率(例如8、 16、 32、 44.1或48 kHz)。因此，语音或音频信号的带宽已经被人为限制为固定的截止频率。根据该出版物中的方法对采样频率的后续适配通常不会奏效，原因在于由于人为固定的截止频率，其只会导致固定的采样频率而非适应性的采样频率。
尽管如此，即使在带宽被人为限制的情况下，依赖于音频信号的本地(在时间上)感知属性，对固定带宽限制的影响的感知未必总是相同的。对于信号的某些部分(片段)，其中很难感知到高频，例如由于被占优势的低频含量所掩蔽，更为激进的低通滤波和以相应较低的采样频率进行采样将是可能的。因此，与感知推动的采样频率相比，传统的语音和音频编码系统对局部过高的采样频率进行操作，因而损害了编码效率。

发明内容
本发明的目的是提供用于改进语音/音频编解码器中的编码效率的方法和设备。
根据本发明，通过在本地(在时间上)对采样频率进行适配并确保其不高于必要的采样频率来获得增加的编码效率。
根据第一方面，本发明涉及一种音频/语音发送器，所述音频/语音发送器包括适于对输入音频/语音信号的核心频带进行编码的核心编码器。核心编码器对包含预定数目样本的输入音频/语音信号的帧进行操作。输入音频/语音信号具有第一采样频率，并且核心频带包含上至截止频率的频率。根据本发明的音频/语音发送器包括分割设备，其适于执行将输入音频/语音信号分割为多个片段，其中每个片段具有适应性的片段长度；截止频率估计器，其适于为与适应性片段长度相关联的每个片段估计截止频率，并且适于向解码器传送关于所估计的截止频率的信息；低通滤波器，其适于以所述估计的截止频率对每个片段进行滤波；和重采样器，其适于以与所述截止频率相关的第二采样频率对经滤波的片段进行重采样，以便生成将被所述核心编码器编码的预定数目的样本的音频/语音帧。
优选地，截止频率估计器适于根据感知标准来分析给定输入片段的属性，以基于该分析来确定将被用于给定片段的截止频率。此外，截止频率估计器还适于提供截止频率的量化估计，以使得根据所述截止频率估计来重新调整分段成为可能。
根据本发明的笫二方面，提供了一种适于对所接收的经编码的音频 /语音信号进行解码的音频/语音接收器。音频/语音接收器包括重采样器，所述重采样器适于通过使用截止频率估计的信息对经解码的音频/语音帧进行重采样来生成输出语音片段，其中所述信息接收自音频/语音发送器，所述音频/语音发送器包括适于生成和传送所述信息的截止频率估计器。
根据第三方面，本发明涉及音频/语音发送器中的方法。该方法包括以下步骤将输入音频/语音信号分割为多个片段，其中每个片段具有适应性片段长度；为与适应性片段长度相关联的每个片段估计截止频率并适于向解码器传送关于估计的截止频率的信息；以所述估计的截止频率
对每个片段进行低通滤波；并且以与所迷截止频率相关的第二采样频率对经滤波的片段进行重采样，以便生成将被所述核心编码器编码的预定数目的样本的音频/语音帧。
根据第四方面，本发明涉及用于对所接收的经编码的音频/语音信号
进行解码的音频/语音接收器中的方法。该方法包括以下步骤通过使用截止频率估计的信息来对经解码的音频/语音帧进行重采样，以生成输出音频/语音片段，其中所述信息接收自音频/语音发送器，该音频/语音发送器包括适于生成和传送所述信息的截止频率估计器。因而，通过使用上述方法，增加编码效率是可能的。根据本发明的实施例，结合BWE实现了进一步的效率增加。这允许将核心编解码器的带宽和比特率保持在最小，并且同时确保核心编解码器利用临界(奈奎斯特)采样数据来操作。本发明的优势是，在使用IP/UDP/RTP的分组切换应用中，所需截止频率的传输是免费的，原因在于其能够通过使用时间标记字段而被间接指示。这表现为优选地进行分组以使得一个IP/UDP/RTP分组对应于一个经编码的片段。
本发明的另一优势是，能够结合现有语音编解码器将其用于VoIP, 例如AMR作为核心编解码器，原因是传输格式(例如RFC3267)未受影响。
附图简述
图l示出了编解码器，其示意性地阐释了本发明的基本概念。
图2示出了具有带宽扩展的

图1中的编解码器。
图3示出了在LPC残留域中具有带宽扩展的本发明的操作。
图4图示了用于本发明的一个实施例中的基音排列(pitch-aligned)分段。
图5是根据本发明的方法的流程图。图6图示了闭环实施例。
详细描述
在以下描述中，出于解释而非限制的目的，阐述了特定细节(诸如步骤的特定序列、信令协议和设备配置)以便提供对本发明的全面理解。对于本领域内的技术人员而言，4艮明显的是可以在脱离这些特定细节的其他实施例中实施本发明。
此外，本领域内的技术人员将会意识到，可以结合经编程的微处理器或通用计算机使用软件功能并且/或者使用专用集成电路(ASIC)来实现本说明书的下文中所解释的功能。本领域内的技术人员还将意识到，尽管本发明主要是以方法和设备的形式描述的，本发明也可被包含在计算机程序产品以及包含计算机处理器以及耦合至该处理器的存储器的系统中，其中存储器是以可以执行本说明书中所公开的功能的一个或多个程序进行编码的。
本发明的基本概念是将待传送的语音/音频信号划分为特定长度的片段。对于每个片段，面向感知的(perceptually oriented)截止频率估计器得出本地(每片段)适用的截止频率fc，其导致定义的感知质量损耗。这意味着，截止频率估计器适于选择由于频带限制而造成信号失真的截止频率，以至于用户会感觉它们例如可容忍、基本听不到或者听不到。
图1图示了根据本发明的发送器105和接收器165。分割设备110 将进入的语音信号划分为多个片段，并且截止频率估计器优选地根据感知标准为每个片段得出截止频率。感知标准旨在模拟人类感知并且被频繁应用在语音和音频信号的编码中。根据感知标准进行编码意味着通过应用听力的心理声学模型来进行编码。该心理声学模型确定目标噪声成形轮廓(shaping profile ),其中根据目标噪声成形轮廓对编码噪声进行成形以使得量化(或编码)误差对于人耳而言更难被听到。一种简单的心理声学模型是许多语音编码器的一部分，其在确定LPC综合滤波器的
激励信号的过程中应用感知加权滤波器。音频编解码器通常采用更为复杂的心理声学模型，所述心理声学模型可以包含频率掩蔽，其例如使得接近高功率谱分量的低功率谱分量不能被听到。心理声学建模对于语音和音频编码领域内的技术人员而言是公知的。此后，低通滤波器120根据截止频率对这些片段进行低通滤波。重采样器130此后以根据感知截止频率而选择的频率(例如2fc)对片段进行重采样，从而产生帧135。该频率被直接传送至接收器165或借助片段长度被间接传送至接收器 165。片萃殳长度继而对应于两个连续分组之间的时间标记差，^f艮设使用了 IP/UDP/RTP传输协议或类似协议、并且每个分组的一个编码片段被传送。能够注意到，片段长度L与f。之间的关系是ls = nf/2fc，其中nf 等于样本中的帧长度。所述帧是到编码器的输入样本的向量，编码器对其进行操作。因而任意语音或音频编解码器的编码器140对所述帧进行编码，并且在信道170上对其进行传送。在接收器165处，使用解码器 150对经编码的帧进行解码。在重采样器160处对经解码的帧重采样至原始采样频率，从而产生重建的片段175。为实现这一目的，已经用于重采样的频率(例如2fc)必须如上所迷的那样在接收器165处是可用/ 已知的。
根据一个实施例，将所使用的采样频率作为辅助信息参数直接传送。通常，为了限制其所需的比特率，需要对该参数进行量化和编码。因此，分割和截止频率估计器块还包括用于此的量化和编码实体。一个典型实施例是使用标量量化器，并且将可能的截止频率数目限制为例如
122或4的小数字，在此种情况下，1比特编码或2比特编码是可能的。
根据替代性实施例，所使用的采样频率是借助分割通过间接信号传输(signalling)而传送的。一种方式是用信号通知所选择(和量化的) 片段长度。通常，截止频率是借助关系式fc - nf/21s而从片段长度得到的，其将片段长度ls与截止频率2fc以及样本中的帧长度nf相联系。另一间接的可能性是通过使用一个IP/UDP/RTP分组的第一样本和后续分组的第一样本的时间标记来间接传送所使用的采样频率，其中，假设以每个分组一个经编码的片段的形式来进行分组。因而，截止频率估计器110 或者还适于将关于所估计的截止频率的信息作为辅助信息参数直接传送到解码器150，或者还适于通过使用当前片段的第一样本和后续片段的第一样本的时刻来将关于所估计的截止频率的信息间接传送到解码
器150。
间接信号传输的另一方式是使用与用于信号传输的每个片段相关联的比特率。假设其中恒定比特率就每个帧的编码而言可用的配置，低比特率(每个时间间隔)对应于长片段并且因此低截止频率，反之亦然。
个片段的起二时刻关联起来。例如，每个经编码;段是在其:^时二之后的预定义时间传送的。此后，假设传输没有引入过强的延迟抖动，能够在接收器处根据编码片段的到达时间来得到相应片段长度。
以下过程例示了感知截止频率和原始输入信号的适应性分割的导出。
1. 以某个初始片段长度lo开始，其可以是预定义的值(例如20 ms), 或其可以基于先前片段的长度。
2. 提取具有长度lo的片段，并且将其馈入感知截止频率估计器，该片段跟在先前片段的末端之后、起始于第一样本。
3. 截止频率估计器对该片段进行频率分析，其可基于例如LPC分析，诸如FFT的某种频域变换或通过使用滤波器组。
4. 计算并应用感知标准，其给出输入信号的频带限制的感知(听得到的)影响的指示。优选地，其考虑将由后续编码(包括可能的BWE) 引入的编码噪声。特别地，在强编码噪声的情况下(例如，由于低比特率)，输入信号的频带限制的感知影响会更低，因此更能容忍较强的频带限制。5. 确定频率f。，上至该频率fe的镨含量需要被保持以便根据所计算出的感知标准满足预定义质量水平。
6. 根据截止频率与片段长度之间的关系基于f。来重新调整片段长
度，该关系通常是lf-iif/2fc，其中nf是后续编解码器的帧长度。
7. 终止分割算法终止，并且将片段和所识别的截止频率传播至后
续的处理块。替代性地，如果所发现的片段长度lf偏离初始片段长度lo
的程度超出预定义距离，则可以修改分割。在这种情况下，为了提高截止频率估计的准确度，以新的初始分割长度lo-lf在步骤2中重进入算法。
注意如果截止频率被量化并编码，则该过程优选地限于仅考虑可能并且取自在量化之后可能的截止频率的离散集的片段长度。假设在量
化之后，P截止频率的离散集i^(fc(i》i-L.p能够被用信号通知，则必须
修改步骤1 、6和7以使得片段长度取自片段长度(l(i)) w...p的离散集1。借助片段长度与截止频率之间的关系，集l继而对应于集尺
注意，当修改编解码器操作于其上的采样频率时，内部编解码器状态通常受到影响。这些状态因此必须从先前所使用的采样频率转换至经修改的采样频率。通常，在编解码器必须具有时域状态的情况下，状态的该采样率转换能够通过将其重采样至经改变的釆样频率来完成。
图2示出了结合了带宽扩展(BWE)设备l卯的本发明。结合核心解码器150使用带宽扩展设备190允许在一定程度上降低对核心编解码器而言有效的感知截止频率，以使得接收器中的BWE设备仍能够适当地重建已去除的高频含量。尽管核心编解码器对上至截止频率fc的低频带进行编码/解码，但是WE设备l卯促成了对fc到fs/2范围内的上频带的再生。如图2所示，也可结合核心编码器140来实施BWE编码器设备180。
与专利US7050972中的方法相比并且与之不同，本实施例执行对核心编解码器采样频率的适配。因此，其确保以临界采样数据最高效地操
作核心编解码器。此外，相较于US7050972，关于核心编解码器操作于其上的采样频率，本发明没有改变BWE交越频率或者对BWE交越频率进行适配。尽管本发明假设核心编码器操作于上至截止频率的整个频带，但是专利US7050972预见了具有可变交越频率的核心编码器。本发明可实施在开环实施例和闭环实施例中。
14在开环实施例中，截止频率估计器根据某个感知标准来分析给定输
入片段的属性。其根椐该分析并且可能根据核心编解码器和BWE的性能的某一预期来确定将用于给定片段的截止频率。特别地，该分析是在分割和截止频率过程的步骤4中完成的。
在闭环实施例中，如图6中所示，分割和截止频率过程中的步骤4 涉及BWE602、上采样器603、频带合成器(combiner)(求和点)604 和核心解码器601的本地版本，其对可由接收器生成的所接收信号执行完整重建605。此后，编码失真计算器606根据某个保真度标准将重建信号与原始输入语音信号进行比较，所述保真度标准通常还包含感知标准。如果根据所述保真度标准，重建信号不够好，则截止频率估计器607 适于向上调整截止频率并因此向上调整每个时间间隔所消耗的比特率，以使得由编码失真计算单元606所确定的编码失真保持在某些预定义限制内。另一方面，如果信号质量过好，则这表明为该片段使用了过多的比特率。因此，能够增加与降低的截止频率和比特率相对应的片段长度。应当注意到，闭环方案同样适用于上述另一实施例，但是没有使用BWE。
在类似的实施例中，可々￡设主BWE方案为核心编解码器的一部分。在这种情况下，采用次BWE可能是合适的，这又将重建频带从fc扩展到fs/2，并且对应于图2中的BWE 190块。
存在一些优选地会影响分割和截止频率选择的一般因素
■源输入信号
可以根据某个检测器决策(例如包含音乐/语音活动检测器)或根据待编码的媒体的先验知识(得自于元数据)而获得的信号类别(语音、音乐、混合、休止(inactivity))。
从某个检测器获得的输入信号的噪声情况。例如，在存在背景噪声的情况下，能够向下调整截止频率以便减少该不想要的信号分量的量、并且从而提升总体质量。此外，响应于背景噪声情况而降低截止频率是一种减少用于不想要的信号分量的传输资源(比特率)浪费的手段。
■目标比特率
截止频率可取决于可用于编码的(可能)时变目标比特率。通常，较低的目标比特率会引起选择较低的截止频率，反之亦然。 ■来自于接收端的反馈
截止频率可取决于对传输信道的属性和接收端情况的了解，其通常是通过某个后向信号传输信道而获得的。例如，恶劣传输信道的指示会 SI起降低截止频率以便减少会净皮传输错误影响的谱信号含量、并且因此改善接收器处所感知的质量.此外，截止频率的降低可对应于所消耗的比特率的降低，其在传输网络中拥塞条件的情况下具有积极效果。
另一来自于接收端的反馈可以包含关于接收端终端性能和信号重放情况的信息。例如接收器处的低质量信号重建的指示会引起降低截止频率以便避免浪费传输比特率。
根据另一实施例，如图3中所示，本发明应用了线性预测编码 (LPC)。图3图示了结合图2所描述的发送器和接收器。特别地，LPC 设备301执行LPC分析，LPC设备3 01是去除冗余的适应性预测器。LPC 设备301可位于低通滤波120之前并且位于分割和截止频率估计IIO之后，或者位于分割和截止频率估计110之前，从而产生被馈入重采样设备(即低通滤波器和下采样器)的LPC残留。LPC残留是经LPC分析滤波器滤波的(语音)输入。其也被称为LPC预测错误信号。通过逆 LPC对频带合成器(即求和点)所获得的信号进行综合滤波，接收器生成最终的输出信号。描述片段的谱包络并且可能描述增益因数的LPC参数303被作为附加辅助信息传送至接收器以用于LPC综合302。该方法的益处是因为LPC分析是以原始采样率fs完成的并且是在重采样之前完成的，其为接收器提供了对上至f;/2而非仅f。(如果LPC仅为核心编解码器的一部分，则是这样)的完整语包络(即包括上述实施例的BWE
频带)的准确描述。所描述的借助LPC的方法具有积极效果BWE甚至可以与例如仅包含简单的低复白噪声发生器、折谦器(spectral folder) 或频移器(调制器)的方案一样简单。
根椐另一实施例，截止频率和相关的信号重采样频率2f。是根据基音频率估计而选择的。该实施例利用了以下事实有声语音在基音频率或基本频率方面是高度周期性的，其来源于在生成人类有声语音期间的周期性声门激励。根据图4,现在选择分割以及因此截止频率以使得每个片段401包含语音信号的一个周期或者整数倍周期。更具体地，语音的基本频率通常处于约IOO到400 Hz的范围内，这对应于10 ms下至 2.5ms的周期。如果语音信号无声，则其缺少具有基音频率的周期性。在那种情况下，能够根据对重采样频率的固定选择来进行分割，或者优选地，根据本文件中的任一实施例来进行分割和截止频率选择相应的分割考虑了基音同步操作，所述基音同步操作能使编码算法更为高效，原因是能够更容易地利用语音周期性，并且对语音信号的各
种统计参数(例如增益或LPC参数)的估计变得更为一致。
如上所述，本发明涉及一种音频/语音发送器，并且涉及一种音频/
语音接收器。此外，本发明还涉及用于音频/语音发送器和音频/语音接
收器的方法。图5a的流程图中图示了发送器中的方法的实施例，并且
其包含以下步骤
501执行将输入语音信号初始分割为多个片段。
502为每个片段估计截止频率，并且适于向解码器传送关于所估计
的截止频率的信息。
502a根据截止频率估计来重新调整分割。如果新的分割偏离先前
分割的程度超过阈值，则返回步骤502。
503以所述估计的截止频率对每个片段进行低通滤波。
504以与所述截止频率相关的第二采样频率对经滤波的片段进行
重采样，以便生成将被所述核心编码器编码的语音帧。
图5b的流程图中图示了接收器中的方法，并且其包含以下步骤 505通过使用截止频率估计的信息对经解码的语音帧进行重采样，
以生成输出语音片段，其中所述信息接收自音频/语音发送器，所述发送
器包括适于估计和传送所述信息的截止频率估计器。
尽管已经针对特定实施例(包括某些设备配置和各种方法内的某些
步骤次序)描述了本发明，但是本领域内的技术人员会意识到，本发明
并不限于本说明书中所描述和阐释的特定实施例。因此，应当理解，本
公开仅仅是阐释性的。因而，本发明旨在仅由所附权利要求的范围限定。
权利要求
1. 一种音频/语音发送器(105)，包括适于对输入音频/语音信号的核心频带进行编码的核心编码器，所述核心编码器对包含预定数目样本的输入音频/语音信号的帧进行操作，所述输入音频/语音信号具有第一采样频率，并且核心频带包含上至截止频率的频率，其特征在于音频/语音发送器(105)还包括-分割设备(110)，适于执行将输入音频/语音信号分割为多个片段，其中每个片段具有适应性片段长度，-截止频率估计器(110)，适于为与适应性片段长度相关联的每个片段估计截止频率，并且适于向解码器传送关于估计的截止频率的信息，-低通滤波器(120)，适于以所述估计的截止频率对每个片段进行滤波，以及-重采样器(130)，适于以与所述截止频率相关的第二采样频率对经滤波的片段进行重采样，以便生成将被所述核心编码器(140)编码的预定数目的样本的音频/语音帧。
2. 根据权利要求1所迷的音频/语音发送器(105)，其特征在于截止频率估计器(110)适于根据感知标准来分析给定输入片段的属性，以基于所述分析来确定将被用于给定片段的截止频率。
3. 根据权利要求1-2中任一权利要求所述的音频/语音发送器(105 ), 其特征在于截止频率估计器(110)还适于提供截止频率的量化估计。
4. 根据权利要求1-3中任一权利要求所述的音频/语音发送器(105 ), 其特征在于截止频率估计器(110)还适于将关于估计的截止频率的信息作为辅助信息参数直接传送到解码器。
5. 根据权利要求1-3中任一权利要求所述的音频/语音发送器(105 )，其特征在于截止频率估计器(110)还适于借助分割通过间接信号传输来向解码器传送关于估计的截止频率的信息。
6. 根据权利要求5所述的音频/语音发送器(105),其特征在于截止频率估计器(110)还适于将每个片段的长度用于间接信号传输。
7. 根椐权利要求5所述的音频/语音发送器(105)，其特征在于截止频率估计器(110)还适于将与每个片段相关联的比特率用于间接信号传输。
8. 根据权利要求5所迷的音频/语音发送器(105),其特征在于截止频率估计器(110)还适于通过使用当前片段的第一样本和后续片段的第一样本的时刻来间接向解码器传送关于估计的截止频率的信息。
9. 根据权利要求1-8中任一权利要求所述的音频/语音发送器(105 )，其特征在于其包括线性预测设备(301 )，所述线性预测设备位于低通滤波器(120)之前且位于分割设备(110)和截止频率估计器(110) 之后，并且适于产生被馈入重采样器中的LPC残留。
10. 根据权利要求1-8中任一权利要求所迷的音频/语音发送器 (105),其特征在于其包括线性预测设备(301 )，所述线性预测设备位于分割设备和截止频率估计器之前，并且适于产生被馈入分割设备 (110)中的LPC残留。
11. 根据权利要求1-10中任一权利要求所述的音频/语音发送器 (105)，其特征在于截止频率和第二釆样频率中的至少一个是根据基音频率估计而选择的。
12. 根据权利要求1所述的音频/语音发送器(105),其特征在于其包括用于生成与接收器(165)的输出信号相关的信号的装置。
13. 根据权利要求12所述的音频/语音发送器(105 ),其特征在于其包括上采样器(603 )和核心解码器(601)的本地版本，适于对所接收的信号执行完整重建，其还包括编码失真计算器(606),所述编码失真计算器(606)适于根据某个保真度标准将重建信号与原始输入语音信号进行比较，由此如果根据所述保真度标准，重建信号不够好，则截止频率估计器(110)适于向上调整截止频率以及每个时间间隔所消耗的比特率，以使得编码失真保持在某些预定义限制内，并且如果信号质量过好，则截止频率估计器(110)适于增加与降低的截止频率和比特率相对应的片段的长度。
14. 根据权利要求12所述的音频/语音发送器(105 )，其特征在于其还包括频带合成器(604)和带宽扩展设备(602)的本地版本，适于对所接收的包括由BWE重建的高频带在内的信号执行完整重建。
15. —种适于对所接收的经编码的音频/语音信号进行解码的音频/ 语音接收器(165)，其特征在于其包括重采样器(160)，所述重采样器适于通过使用截止频率估计的信息(162)对经解码的音频/语音帧进行重采样以生成输出语音片段，其中所述信息接收自音频/语音发送器，所述音频/语音发送器包括适于生成和传送所述信息的截止频率估计器。
16. 根据权利要求15所述的音频/语音接收器(165)，其特征在于其包括适于重建估计的截止频率之上的频率的至少一个带宽扩展设备(190)。
17. 根据权利要求15-16中任一权利要求所述的音频/语音接收器 (165)，其特征在于其还适于将关于估计的截止频率的信息作为辅助信息参数直接接收。
18. 根据权利要求15-17中任一权利要求所述的音频/语音接收器 (165),其特征在于其适于借助分割通过间接信号传输来接收关于估计的截止频率的信息。
19. 根据权利要求18所述的音频/语音接收器(165)，其特征在于其适于接收所选择的且量化的片段长度。
20. 根据权利要求18所述的音频/语音接收器(165),其特征在于其适于接收与每个片段相关联的比特率以用于间接信号传输。
21. 根据权利要求18所述的音频/语音接收器(165 )，其特征在于其还适于通过当前片段的第一样本和后续片段的第一样本的时刻接收关于估计的截止频率的信息。
22. —种音频/语音发送器中的方法，所述发送器包括适于对输入音频/语音信号的核心频带进行编码的核心编码器，所述核心编码器对包含预定数目样本的输入音频/语音信号的帧进行操作，所述输入音频/语音信号具有第一采样频率，并且核心频带包含上至截止频率的频率,其特征在于-将输入音频/语音信号分割(501)为多个片段，其中每个片段具有适应性片段长度，-为与适应性片段长度相关联的每个片段估计(502 )截止频率并适于向解码器传送关于估计的截止频率的信息，-以所述估计的截止频率对每个片段进行低通滤波(503)，以及 -以与所述截止频率相关的笫二采样频率对经滤波的片段进行重采样(504)，以便生成将被所述核心编码器(140)编码的预定数目的样本的音频/语音帧。
23. 根据权利要求22所述的方法，其特征在于另外的步骤 -根据感知标准来分析给定输入片段的属性，以基于所述分析确定将被用于给定片段的截止频率。
24. 根据权利要求22-23中任一权利要求所述的方法，其特征在于另外的步骤-根据截止频率估计来重新调整(502a)分段。
25. 根据权利要求22-24中任一权利要求所述的方法，其特征在于另外的步骤-将关于估计的截止频率的信息作为辅助信息参数直接传送到解码器。
26. 根据权利要求22-25中任一权利要求所述的方法，其特征在于另外的步骤-借助分割向解码器间接传送关于估计的截止频率的信息。
27. 根据权利要求22-26中任一权利要求所述的方法，其特征在于另外的步骤-在低通滤波之前且在分割和截止频率估计之后，产生被馈入重采样器中的LPC残留。
28. 根据权利要求22-27中任一权利要求所述的方法，其特征在于另外的步骤-在分割和截止频率估计之前，产生被馈入分割步骤的LPC残留。
29. 根据权利要求22-28中任一权利要求所述的方法，其特征在于截止频率和第二采样频率中的至少一个是根据基音频率估计而选择的。
30. 根据权利要求22所述的方法，其特征在于另外的步骤生成与接收器(165)的输出信号相关的信号。
31. 根据权利要求30所述的方法，其特征在于另外的步骤对所接收的信号执行完整重建，根据某个保真度标准将重建信号与原始输入语音信号进行比较，由此如果根据所述保真度标准，重建信号不够好，则向上调整截止频率以及每个时间间隔所消耗的比特率，以使得编码失真保持在某些预定义限制内，并且如果信号质量过好，则增加与降低的截止频率和比特率相对应的片段的长度。
32. 根据权利要求30所述的方法，其特征在于另外的步骤对所接收的包括由BWE重建的高频带在内的信号执行完整重建。
33. —种用于对所接收的经编码的音频/语音信号进行解码的音频/ 语音接收器中的方法，其特征在于以下步骤-通过使用截止频率估计的信息来对经解码的音频/语音帧进行重采样(505 )以生成输出音频/语音片段，其中所述信息接收自音频/语音发送器，所述音频/语音发送器包括适于生成和传送所述信息的截止频率估计器。
34. 根据权利要求33所述的方法，其特征在于另外的步骤-通过至少一个带宽扩展设备对估计的截止频率之上的频率进行重建。
35. 根据权利要求33-34中任一权利要求所述的音频/语音接收器 (165)，其特征在于其还适于将关于估计的截止频率的信息作为辅助信息参数直接接收。
36. 根据权利要求33-34中任一权利要求所述的音频/语音接收器 (165),其特征在于其适于借助分割通过间接信号传输来接收关于估计的截止频率的信息。
全文摘要
本发明涉及一种音频/语音发送器和一种音频/语音接收器及其方法。音频/语音发送器包括核心编码器，所述核心编码器适于对具有第一采样频率的输入音频/语音信号的核心频带进行编码，其中核心频带包含上至截止频率的频率。音频/语音发送器还包括分割设备，其适于执行将输入音频/语音信号分割成多个片段；截止频率估计器，其适于为每个片段估计截止频率并且适于向解码器传送关于估计的截止频率的信息；低通滤波器，其适于以所述估计的截止频率对每个片段进行滤波；以及重采样器，其适于以与所述截止频率相关的第二采样频率对经滤波的片段进行重采样，以便生成将被所述核心编码器编码的音频/语音帧。
文档编号G10L19/24GK101512639SQ200680055842
公开日2009年8月19日申请日期2006年9月13日优先权日2006年9月13日
发明者S·布鲁恩申请人:艾利森电话股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：S·布鲁恩
技术所有人：艾利森电话股份有限公司
我是此专利的发明人