带限音频信号的带宽扩展的制作方法

文档序号：2823480阅读：310来源：国知局

专利名称：带限音频信号的带宽扩展的制作方法
技术领域：
本发明涉及对带限音频信号的处理，并且具体地涉及通过合成音频信号生成器以传输循环速率进行操作所作的带宽扩展。更明确地，本发明涉及对语音信号形式的带限音频信号进行处理。
背景技术：
音频信号的传输经常具有一些带宽限制。与覆盖频率范围大约从20Hz到20kHz的自然面对面的语音通信不同，电话机或者蜂窝式电话的电话通信具有受限带宽的特征。普通电话带限(窄带)的音频，具体地，语音信号示出的带宽仅仅为300Hz-3.4kHz。由于除掉频率较低或较高的信号将造成语音质量的下降，具体地，表现为清晰度降低，所以把受限制的带宽扩展成更宽的带宽将是有益的。
对增大电话带宽的问题的可能的解决方法是合并两个或更多个带限语音信道或者使用所谓的宽带语音代码。然而，这种方法不仅需要服务的修改还会不期望地增加成本。
这样，更加可取的是在通信的接收端提供增大的带宽。由于人类发音腔道特有的属性，在带限语音信号和那些由于带宽限制而丢失的频率部分的原始话语之间存在一些相关性。因而，带宽扩展的期望方法包括了从带限语音信号合成宽带语音信号。
可以不做任何语音信号分析就能实现带宽的扩展，例如，通过高通滤波所补充的输入带限语音信号的直接频谱折叠来实现以生成宽带语音信号。代替简单的频谱折叠，可以采用诸如在带限语音信号的插值之后进行波形矫正的非线性处理来获得宽带语音信号。尽管这种直接转换的技术很容易使用，但它们示出的结果与使用语音信号分析的方法相比通常较差。
使用语音信号分析来从受限电话语音信号生成宽带语音信号的普通系统通常至少执行两个处理步骤。第一步，根据从带限语音信号提取的确定的带限包络(envelope)来估计宽带频谱包络。
大体上，定义了语音信号的带限频谱包络表示和宽带频谱包络表示之间的对应关系的查找表或者代码本(见“A New Technique forWideband Enhancement of Coded Bandlimited Speech；”by J.Epps andW.H.Holmes，IEEE Work-shop on Speech Coding，Conf.Proc.，p.174，1999)，在训练阶段(training phase)时期形成，训练阶段更确切地是计算机时间和存储器消耗。对接收语音信号的被提取带限频谱包络表示的最接近的频谱包络表示已经在代码本中被标识，然后被用于合成所需的宽带语音信号。
代码本的构造可以例如US 5,455,888，借助于线性预测编码(LPC)分析来完成。LPC系数是从宽带训练信号中提取出来的。这些信号被带通滤波并且生成的带限信号的LPC系数也被提取出来以允许建立带限信号的LPC表示和宽带信号的LPC表示之间的对应。
在第二个步骤中，将从接收的带限语音信号中生成宽带激励信号。激励信号理想地代表了将立即从声带检测到的信号，即，没有经整个发音腔道修改，从嘴等器官发出的声音辐射特性。激励信号可以由例如非线性特性曲线来模拟(见“Spectral Widening of the Excitation Signalfor Telephone-Band Speech Enhancement”，IWANEC 2001，Conf.Proc.，p.215，2001)，或者以带限激励信号US 5455888的音调和功率为基础模拟。为了扩展电话频带的带宽，被模拟的激励信号利用经估计的宽带频谱包络成形，并被添加到带限信号中。
所有上述方法共有的是，信号处理是基于由预定数目的连续语音样本组成的帧或数据块。在语音分析期间确定的相关信号参数，例如，共振峰、音调、平均功率和频谱包络，被假设为在通常为20ms左右的帧的时间周期内是恒定的。一般这些帧被选择成彼此最多重叠至50％，导致大约为10ms或更多的典型的时间偏移。
这种信号处理中的时间延迟可能会导致令人生厌的人为现象(artifact)，该人为现象由振幅和/或频率和/或相位的不连续模拟造成，更具体的是，在时间变动很大的通信中造成。此外，在免提电话通信的情况下，由本领域系统引入的在信号路径中的有限延迟不期望地由传输路径的延迟进行了补充。
这样，尽管在扩展带限电话通信中最近有所发展和改进，但仍很明显地存在对改良音频以及，特别是，包括有效的带宽扩展的语音信号处理的需要。因而本发明潜在的问题是克服上述的缺点，并且提供一种使用在接收机一侧合成的有效扩展带宽的用于对带限语音通信进行语音处理的系统和方法。

发明内容
该问题由权利要求1所述的系统和权利要求12所述的方法来解决。用于对带限音频信号进行带宽扩展的本发明的系统包括分析装置，被配置成以传输循环速率分析带限音频信号并以传输循环速率获得至少一个带限参数；映射装置，其被配置成基于至少一个带限参数获得至少一个宽带参数；和音频信号生成装置，其被配置成以传输循环速率在至少一个宽带参数的基础上生成高频段和/或低频段音频信号。
依照本发明和本领域的不同技术，带限音频信号是以传输循环速率进行分析的而且高频段和/或低频段音频信号以及合并的宽带音频信号都是在传输循环速率的基础上生成的。通过“高频段”和“低频段”那些频谱的部分指的是，除了接收的带限以外被合成的部分。例如，如果带限信号显示的频率范围是从300Hz到3,4kHz，则低频段和高频段信号显示的频率范围分别是从50-300Hz和从3,4kHz到预先确定的频率上限，其最大值为采样速率的一半。
通常用于带宽扩展的系统在信息块或帧的基础上进行操作。对于8kHz的典型采样速率，分析和宽带音频合成是对于典型地大约为20ms的帧执行的，即，该帧包含了160个左右连续的音频数据样本。因而，传统的整个信号处理过程显示一些延迟，而依照本发明的信号处理过程可以不带延迟或者几乎不带延迟地执行。而且，即使发送方的口头话语具有很大的时间变化性，对宽带音频信号的关于振幅、频率和相位的连续合成也能由本发明系统来提供。
本发明对于语音电信中的带宽扩展特别有用，其改良了所接收声音的清晰度和逼真度。具体地，分析装置和音频信号生成装置以传输循环速率进行的操作通过宽带音频，特别是，语音信号的振幅、频率和相位的连续合成允许几乎完全无延迟或理想上完全无延迟的语音通信。然而，可以理解到本发明如果对处理音频信号有用，大体上，在扩展带限语音信号中可见其突出的应用。
音频或语音分析装置理想地估计语音的音调，并提取带限激励信号和带限频谱包络，以及提供有关的带限参数。一般而言，带限参数是用于，例如，决定带限频谱包络、音调、短时功率、高频段通带对低频段通带(highband-pass-to-lowband-pass)的功率比和信噪比的特征的参数。因此，宽带参数包括了对应带限参数的宽带音频信号的参数，例如，宽带频谱包络，用于决定宽带频谱包络和宽带激励信号的特征参数。
可以在分析之前执行一些预处理，如通过内插法增加采样速率。为了使处理器负载保持相对较低，可以优选地在分析装置中实现递归算法。
例如，线性预测编码(LPC)的方法可以用于提取带限频谱包络。依照此方法，时间信号x(n)的第n个采样可以根据以前的M个样本如下估计x(n)=ΣK=1Mak(n)·x(n-k)+e(n)]]>其中系数ak(n)将以使预测误差信号e(n)最小化的方式被最优化。该最优化可以由，例如，最小均方算法来递归地进行。相应的宽带频谱包络可以例如，通过一些非线性映射装置被分配给经提取的带限频谱包络(见下文)。
基于对带限语音信号的分析，宽带激励信号可以被生成。这种宽带激励信号可以随后由经估计的宽带频谱包络来成形以生成宽带语音信号。
其它几个语音分析过程可以由语音分析装置来执行，并且可以被用于随后的补充被发送的带限语音信号的低频段/高频段语音信号的合成。在其它过程当中，有利的是可以确定短时功率、实际的信噪比SNR、高频段通带对低频段通带功率比、和信号零位(signal nulling)，并且关于被检测语音信号的语音和非语音部分的分类可以被执行。
系统也有利地包括组合装置，其被配置来接收带限音频信号和由音频信号生成装置以传输循环速率生成的高频段音频信号和/或低频段音频信号，并以传输循环速率将带限音频信号和高频段音频信号和/或低频段音频信号组合成宽带音频信号。
在优选实施方式中，本发明进一步包括被配置来接收至少一个带限参数的控制装置，并且其中该控制装置控制映射装置以比传输循环速率低的事件速率获得至少一个宽带参数，并且这只在至少满足一个特定条件时才执行。
依照此实施方式，可以区别系统的在传输循环速率的基础上工作的实时处理部分，和异步部分。实时处理部分执行接收和分析带限音频信号以及生成高频段和/或低频段音频信号。在控制装置控制映射装置以非传输循环速率而是较低的称为“事件速率”的速率来获得至少一个宽带参数的情况下，控制装置可以异步地进行操作。因此，处理器负载可以被显著地减少。
此外，不需要在任何情况下都获得宽带参数，而是仅仅在，例如，对音频信号有重大修改时，并且由此，高频段和/或低频段音频信号的生成必须被修改。
控制装置可以控制音频信号生成装置使其适合生成高频段和/或低频段音频信号所需要的参数的额定值，具体地有，频率、相位和振幅，并且其中该额定值以事件速率基于至少一个宽带参数来进行修改。
尽管依照本发明在循环速率的基础上执行音频或语音信号的生成，即，音频或语音信号生成装置用例如频率和振幅的实际值进行实时操作，但以比传输循环速率低的速率来修改音频信号生成装置所必需适合的额定值可能会更有利。
依照本发明，非常希望音频信号生成装置被控制以适合对于每次传输循环具有有限的最大增量的额定值，其中具体地，该最大增量是基于语音生成的时间变化性的。
信号生成装置，具体地，正弦生成器连续地进行操作，但有利的是其不会立即适应以前分析获得的额定值，而有一个预先确定的适应速度，例如，由扬声器发音的时间变化性给定该速度。结果，短时错误的分析数据不会对合成语音信号造成严重影响并且避免了相位的中断。
根据本发明的一个实施方式，控制装置包括第一控制单元和第二控制单元。第一控制单元被配置成在如果满足至少一个特定条件时生成至少一个事件信号，并且只有在事件信号被生成时控制映射装置获得至少一个宽带参数。第二控制单元被配置成接收至少一个事件信号和至少一个宽带参数，并且只有在接收到一个事件信号时，修改生成高频段和/或低频段音频信号所需的参数的额定值。
第一控制单元和第二控制单元可以从逻辑上和/或物理上被彼此区分开来。第二控制单元可以在循环速率的基础上控制音频信号生成装置，但其仅仅在事件信号的基础上，即，以低于循环速率的速率(事件速率)，并且只在第一控制单元已经生成事件信号时，才修改音频生成装置的额定值。
至少一种特定条件可以由以下事件给出，即，至少一个带限参数的值超过预定限制，或者事件速率的两个连续脉冲的至少一个带限参数的值之间的差异超过预定限制，或者超出循环速率的预定数目。除了对向量数量的几何距离测度之外，也可以应用例如，欧几里得距离、心理声学的距离(psychoacoustic distance)测度。
此外，分析装置和/或控制装置可以生成为控制音频信号生成装置使用的可靠性代码数字。如果分析装置为不同的分析结果提供可靠性代码数字，则控制装置能够获得在为生成高频段/低频段音频信号所使用的参数基础上的组合的置信信息。
另外，控制装置能够生成其自身的可靠性代码数字。如果，例如，对于被估计音调的高可靠性由不同分析装置示出，则控制单元可以决定来控制信号生成装置以生成音频信号而不做任何或者仅仅做很少的进一步平滑。重新计算宽带参数的不同影响也可以根据各自的可靠性数字来进行加权。
此外，可能会希望对可靠性代码数字的预定限制。如果分析过程的结果的实际可靠性代码数字比预定限制更低(如果较小的数字表示较低的置信水平)，则不执行宽带参数的自适应，并且由此，不执行对被计算用来控制信号处理装置的额定值的修改。
依照本发明系统的一个有利的实施方式，映射装置包括代码本和/或人工神经网络，其提供至少一个带限参数和至少一个宽带参数之间的相关性。
有利的是，可以使用一对代码本。这对的第一代码本必须利用频谱包络的带限样本向量进行训练，而第二代码本必须利用宽带向量来训练。该训练可以基于向量量化的方法。对于实际分析的语音信号，确定带限代码本的例如包括了LPC系数的最接近元素。对宽带代码本的相关向量的映射允许确定，例如，将被用于估计宽带频谱包络的参数。
可选地，或者除了代码本之外，其它用于将分析的带限语音信号的最接近样本非线性映射成宽带语音信号的装置可以包括人工神经网络。
在非线性映射之前，一些已获得宽带参数的变换，例如，LPC系数，可以被执行。变换到线谱频率或变换成对数倒频谱系数代表有益的实现。
本发明的系统的音频信号生成装置可以包括正弦生成器或包括正弦生成器和噪声生成器。
同时，本发明提供了包括如上所述的本发明的系统的免提系统，特别是车辆中使用的免提系统。
而且，本发明涉及从带限音频信号生成宽带音频信号的方法，包括的步骤有以传输循环速率接收和分析带限音频信号，和以传输循环速率获得至少一个带限参数，将至少一个宽带参数分配给至少一个带限参数，在至少一个宽带参数的基础上以传输循环速率生成高频段和/或低频段音频信号，以及以传输循环速率将带限音频信号和音频信号生成装置生成的高频段和/或低频段音频信号合并成宽带音频信号。
依照本发明方法的一个实施方式，通过利用代码本和/或人工网络将至少一个宽带参数分配给至少一个带限参数。
将至少一个宽带参数分配给至少一个带限参数是以比传输循环速率更低的事件速率执行的，并且只有在至少一个特定条件被满足时才执行。
依照本发明方法的一个有利的实施方式，参数，特别是，频率和振幅的额定值被用于生成高频段和/或低频段音频信号，并且这些额定值以事件速率基于至少一个宽带参数来修改。音频信号生成装置也适合于对每次传输循环具有有限最大增量的额定值。
如果满足至少一个特定条件，至少一个事件信号可以被生成，并且如果事件信号被生成，至少一个宽带参数可以被分配给至少一个带限参数并且生成高频段和/或低频段音频信号所需参数的额定值才可以被修改。
如果至少一个带限参数的值超过了预定限制，或者如果事件速率的两个连续脉冲的至少一个带限参数的值之间差异，例如，当前分析值和对最后事件确定的值之间的差异超过了预定限制，或者如果循环速率的预定数目被超过，则本发明方法中应用的至少一个特定条件可以被满足。
本发明方法的一个实施方式进一步包括为获得至少一个带限参数和/或至少一个带限参数中一个以上的组合和/或至少一个宽带参数和/或至少一个宽带参数中一个以上的组合计算可靠性代码数字，并且其中该可靠性代码数字被用于控制音频信号生成装置。
高频段和/或低频段音频信号可以由正弦生成器或由正弦生成器和噪声生成器以循环速率生成。
此外，本发明提供计算机程序产品，包括一个或多个具有计算机可执行指令的计算机可读介质，该指令用于执行本发明方法的步骤，其中本发明的方法通过以基于脉冲方式工作的合成语音信号生成器进行的带宽扩展对带限语音通信进行语音处理。

参考附图，将描述本发明的附加特征和优点。在描述中，将参考用于说明本发明的优选实施方式的附图。要理解的是这些实施方式并不表示本发明的全部范围，本发明的范围由以下给出的权利要求定义。
图1示出了本发明系统的一个实施方式的最主要的结构，包括信号预处理装置、两个控制单元、非线性映射装置、信号生成装置和宽带合成装置。
图2示出了本发明系统的实施方式，包括用于从带限信号提取频谱包络的装置、用于执行音调和功率分析的装置、两个控制单元、一对代码本、正弦和噪声生成器、和宽带合成装置。
图3示出了本发明方法的流程图，包括的步骤有，具体地，确定带限频谱包络、生成事件信号、估计宽带频谱包络和生成高频段和/或低频段语音信号。
具体实施例方式
图1示出了本发明系统的基本元素，该系统用于对带限音频，特别是，语音信号进行带宽扩展，由此改善了，例如，带限语音通信。以下描述了用于在语音通信系统中应用的本发明的实施方式。对于更普通的音频信号处理的修改可以以直观的方式来执行。
带限语音信号被预处理装置11进行预处理。这种装置可以简单地将被检测带限语音信号发送给信号分析装置12和宽带语音合成装置或组合装置17。
可选地，有益的是通过增加采样速率，而无需生成附加频率范围，将预处理带限语音信号转换成期望的带宽。如果，例如，带限信号以8kHz采样，其可能被输入到用于预处理的插值装置中，该装置输出16kHz采样频率的信号。如果采样速率被提高，则更优选的是进一步利用带通滤波器，该滤波器使所接收带限信号的频率范围的传输仅到达宽带语音合成或组合装置17。
信号分析装置12在传输循环速率的基础上工作并且优选地包括用于从经预处理的语音信号中提取带限频谱包络的装置。为了计算预测的误差滤波器，优选地是采用线性预测编码(LPC)的鲁棒方法。预测误差滤波器的系数可以被用于对带限频谱包络进行参数确定。
可选地，可以利用基于线谱频率或对数倒频谱系数或梅尔频率倒频谱系数(Melffequency cepstral coefficient)的频谱包络表示的模型。
如本领域所公知，对于预测误差的最优化问题可以由结合自相关矩阵的线性等式系统来用公式表示。解答这种代数等式系统的有效算法是Levinson-Durbin算法，其可以被应用到依照本发明的实施方式中。通过使用Levinson-Durbin算法执行LPC分析的处理器负载比标准FFT的负载要低，但仍旧相当高。
然而，为了减小处理器的负载，优选的是改为利用迭代算法，该算法可以，例如基于最小均方的方法。如果利用傅立叶变换的时间信号X(f)来执行信号处理，则频谱包络可以在具有M个采样的第m个信号的时间延迟为k·t的频率(f)空间中的全极点传输函数W(f)的基础上来建模W(f)=(1-ΣK=1Mak·exp(-2·π·i·f·k·t))-1,X(f)=W(f)·E(f)]]>并且其中ak和E(f)分别表示预测系数和误差信号。相关的模型为已知的自回归模型，其可以被应用到本发明中作为计算带限频谱包络的非常有效的递归方法。
信号分析装置12也包括用于估计宽带激励信号的装置，其可以如本领域已知的那样通过非线性特征线来完成。这种宽带激励信号表示将直接在声带处检测到的，即，不经整个发音腔道修改的信号，并且通常被称为声门(glottal)信号。为了获得合成的宽带信号，被估计的宽带激励信号可以随后被估计的宽带频谱包络(见下文)成形。
可以结合的附加信号分析装置是用于确定实际SNR、激励信号的短时功率、共振峰、音调、高频段通带对低频段通带的功率比或基于被检测的口头话语的语音部分和非语音部分来分类的装置。
语音分析装置组件的每一个也可以输出可靠性代码数字。通常，这些是标量数字，例如，在0到1的范围内，其测量被估计的参数，例如，音调的置信水平。
信号分析装置12获得的结果和可靠性代码数字被第一控制单元13接收到。基于接收到的数据，第一控制单元13生成事件信号。事件信号经常在一些预定的条件被满足时生成。合理的条件包括超过了诸如欧几里得距离这样的完善定义的距离测度，或者是超过了在事件信号最后生成时获得的那些参数(见下文)和由信号分析装置12实际获得参数之间的简单差异。
有利的是，第一控制单元13并不在传输循环速率的基础上工作，但仅仅在低于传输循环速率的可变速率上活动。另一方面，为了避免控制的某些停顿，可能希望加强事件信号在每nH＞1循环周期的生成。
可能会希望在语音分析装置12的所有组件的结果已经被获得之后计算新的可靠性代码数字。由于控制单元13接收到了所有这些数据，所以它可以提供对分析数据的置信水平的合并估计。此外，由信号分析装置12的不同组件获得的各个可靠性代码数字可以被控制单元13使用以便获得新的可靠性代码数字。
第一控制单元13也可能能够生成至少一个指示实际分析数据需要对宽带语音合成进行修改的事件信号。如果事件信号由第一控制单元13生成，例如，指示了带限频谱包络的时间改变，则对应于被改变的带限参数的宽带参数的新的估计，例如，宽带LPC系数，是必不可少的。
可能优选的是，基于计算的带限参数的宽带参数的估计由一些非线性映射装置14来执行。依照一个实施方式，代码本对被用于将包含在一代码本中的宽带参数分配给包含在另一代码本中的带限参数。通常来说，带限语音信号被分析并且带限代码本中的最接近的表示被识别出来。然后对应的宽带信号表示被确定并被用于合成宽带语音信号。
原则上，可能优选的是合成整个宽带信号或者，可选地，将在带限信号的带宽以外的合成语音信号部分，即，高频段和低频段语音信号，添加到经检测和分析的带限信号上。
人工神经网络可以被用于补充或者替代作为非线性映射装置14的代码本。这种网络的加权可以在使用以前被离线地进行训练，但某些与各个可靠性代码数字有关的在线训练也被设想。
尽管人工智能网络和代码本需要根据实际应用和实施进行训练，但使用无需任何训练的，如Yasukawa方法的方法也可能是足够的，其中该Yasukawa方法基于对带限频谱包络到上频段的频谱斜率的线性外推。
获得的宽带参数以及事件信号被第二控制单元15接收到，其被提供以便通过为语音信号合成确定新的额定值来控制信号生成装置16。第二控制单元15可以从逻辑上和/或物理上与第一控制单元13分离。
如果，例如，信号分析装置12已经估计了新的音调，并且由此事件信号已经由第一控制单元13生成，则将被分析的语音信号的新的宽带扩展提供给第二控制单元，并且随后第二控制单元15调整信号生成装置16的额定值。
此外，可能希望第二控制单元15为信号生成装置16提供关于被估计的宽带参数的置信水平的信息和/或关于对信号合成修正速度的限制以避免在例如生成的正弦音调中的不连续性的信息。
例如，可以定义参数Δi，max，并将该参数用于控制第i个正弦生成器以在最大值为Δi，max下改变每个循环速率下频率的实际值。此外，定义的Δi，min＜Δi，max，并且为频率改变使用置信代码数字0≤ci≤1(较小的数字表示较低的置信水平)，关于第i个正弦生成器的频率改变的修正的最大速度可以由Δi，min＝Δi，min+ci(Δi，max-Δi，min)来度量。
很重要的是要注意到，尽管信号生成装置16由第二控制单元15提供可以基于事件信号变化的控制信号，但信号生成装置16以传输循环速率工作。
信号生成装置16以受限的适应速度，例如，基于自然语音的物理生成，来适应先前分析所获得的额定值。
图2说明了本发明系统的一个优选实施方式。画在虚线以下的装置基于传输循环速率工作，而画在虚线以上的装置基于事件信号工作。
带限语音信号xlim被检测到并且随后由信号分析装置接收，其中信号分析装置包括被配置来提取带限频谱包络的组件20、用来分析音调的组件21和用来确定带限激励信号的功率的组件22。该信号分析装置的组件20、21和22可以彼此交换数据。
对于正弦生成器26的控制参数优选地包括音调频率参数。该参数可以由音调分析装置获得，例如，通过对频谱对数执行逆FFT从而生成对数倒频谱信号。口头话语的音调表现为对数倒频谱信号中的峰值，该峰值可以被本领域已知的峰值提取算法检测到。从已生成的宽带频谱包络中获得对于正弦的振幅和对于噪声生成器的频率响应。
第一控制单元23接收到由分析装置20、21和22获得的数据，并决定宽带语音信号的合成是否要被修改。可能有益的是通过第一控制单元23为不同参数生成的事件信号具有不同的速率。在任何情况下，生成事件信号的速率有益的是应该比传输循环速率低。
如果第一控制单元23由于，例如，与一组对数倒频谱系数相比的对数倒频谱系数的改变而生成事件信号，其中该组对数倒频谱系数是在最后一次由于距离测度超过了某个预定限制而使对数倒频事件信号被生成时确定的，则一对代码本24可以用于估计生成经修改的宽带语音信号所必须的宽带参数。借助于代码本24，可以对用于给定的确定带限频谱包络的宽带频谱包络进行估计(见上文)。
基于从第一控制单元23和代码本24接收到的数据，第二控制单元25控制正弦生成器26和噪声生成器27以生成低频段和高频段(如与接收信号xLim的受限带宽相比)的语音信号。这两个生成器都在传输循环速率的基础上工作。第二控制单元25不仅为生成器26和27确定新的额定值，并且还输出可靠性代码数字和对信号合成的修正速度的限制。
正弦生成器可以合成频率范围为30-300Hz的低频段扩展和频率在从3,4kHz到预定频率范围内的高频段扩展，并且语音信号生成可以主要基于音调频率及其整数倍。
宽带合成装置28以传输循环速率接收带限信号xLim以及正弦生成器26和噪声生成器27生成的信号，以合成最终的宽带语音信号XWB。根据一个优选实施方式，这种装置28可以包括用于合成地生成信号的带阻滤波器并且只是把这些被滤波的信号添加到未被修改过的带限信号xLim以获得宽带语音信号XWB。
图3说明了本发明方法的基本步骤。在步骤31，带限信号被检测到并且随后被进行分析。被实现的算法优选地以递归方式并在传输循环速率的基础上工作。具体地，通过例如执行LPC分析，带限频谱包络在步骤32确定。对于带限频谱包络的参数描述的带限参数和可靠性代码数字被输出到控制单元。
在步骤33该控制单元检查事件信号的生成是否被执行(n≥nH)或者自从最后一次生成事件信号后逝去的时间段(n倍循环时间)是否超过循环时间的预定整数倍nL。在步骤33，如果n＞nL，则进一步检查，带限参数，具体地，带限频谱包络的参数是否已经发生了显著改变。如果实际带限参数，例如，用于建模频谱包络的LPC系数和在最后一次生成事件时确定的各自参数之间的(向量)差异超过了某个预定距离的测度，或者如果一个参数超过了预定阈值，则发生显著的改变。
在步骤37，如果n＜nL或者没有已经确定的带限参数的显著改变，则低频段和高频段语音信号被以适应于额定控制参数的预定速度生成。在相反的情况下，在步骤34，新的事件信号被生成，并且，在步骤35估计对应带限频谱包络的宽带频谱包络。为了此目的可以使用一对代码本。这一对中的第一代码本已经利用频谱包络的带限样本向量来训练，而第二代码本已经利用宽带向量来训练。这种训练可以基于向量量化的方法，例如，基于欧几里得的Linde-Buzo-Gray设计方案或其它任意码字距离。
在步骤32已经确定了用于带限频谱包络的带限参数之后，该参数向量被分配给与这个参数向量距离最小的带限代码本的向量。作为距离测度，例如，Itakuro-Saito距离测度可以被使用。在步骤35带限代码本中确定的向量被映射成相应的宽带代码本的向量，其在过程中被用于合成宽带语音信号。
除了别的以外，在使用事件信号的信息，特别是，宽带参数必须被更新的信息，以及用于宽带频谱包络的参数时，在步骤36，控制信号生成器，并在步骤37来生成在检测步骤31中丢失的低频段和高频段语音部分和被分析的带限语音信号。
正弦生成器通常被控制来适应振幅和频率的额定值，而噪声生成器通常被控制来适应频谱包络的功率。与步骤33-35不同，低频段和高频段语音信号的生成是基于循环速率来执行的。尽管信号生成器利用它们的实际值连续工作，但额定值基于事件信号，即，仅仅在每个nH＞n＞nL≥1倍的循环时间段才被修改。
所有以上讨论的实施方式并不作为限制，但是用作说明本发明的特征和优点的实例。将会理解到的是上述特征的一部分或者全部也可以用不同方式来组合。尽管所述实施方式涉及语音信号处理，但在本发明的范围内它们也能被修改来适合通常的音频信号处理。
权利要求
1.用于对带限音频信号进行带宽扩展的系统，包括分析装置，被配置来以传输循环速率分析带限音频信号并以该传输循环速率获得至少一个带限参数，映射装置，被配置来基于至少一个带限参数获得该至少一个宽带参数，音频信号生成装置，被配置来基于该至少一个宽带参数以所述传输循环速率生成高频段和/或低频段音频信号。
2.如权利要求1所述的系统，其中所述带限参数包括用于确定带限频谱包络和/或音调和/或短时功率和/或高频段通带对低频段通带的功率比和/或信噪比的特征参数，和所述宽带参数包括宽带频谱包络和/或用于确定宽带频谱包络和/或宽带激励信号的特征参数。
3.如权利要求1或2所述的系统，进一步包括组合装置，被配置来接收所述带限音频信号和所述音频信号生成装置以所述传输循环速率生成的所述高频段和/或低频段的音频信号，并以所述传输循环速率将所述带限音频信号和所述高频段和/或低频段音频信号组合成宽带音频信号。
4.如前述权利要求的其中一个所述的系统，进一步包括控制装置，其被配置来接收所述至少一个带限参数，并且其中，该控制装置控制所述映射装置来以低于所述传输循环速率的事件速率，并且只在满足至少一个特定条件时，获得至少一个宽带参数。
5.如前述权利要求的其中一个所述的系统，其中所述控制装置控制所述音频信号生成装置来适应在生成高频段和/或低频段音频信号时需要的参数，特别是频率、相位和振幅的额定值，并且其中所述额定值以所述事件速率基于所述至少一个宽带参数来修改。
6.如前述权利要求的其中一个所述的系统，其中所述音频信号生成装置被控制来适应于对每个传输循环具有有限最大增量的所述额定值，其中，特别是，所述最大增量是基于语音生成的时间变化性的。
7.如权利要求4-6的其中一个所述的系统，其中所述控制装置包括第一和第二控制单元，并且其中如果满足至少一个特定条件，所述第一控制单元被配置来生成至少一个事件信号，并且控制所述映射装置仅在生成事件信号时获得至少一个宽带参数，所述第二控制单元被配置来接收所述至少一个事件信号和所述至少一个宽带参数，并仅在接收至少一个事件信号时，修改生成高频段和/或低频段音频信号所需的参数的额定值。
8.如权利要求4-7的其中一个所述的系统，其中所述至少一个特定条件被给定为所述至少一个带限参数的值超过了预定限制，或所述事件速率的两个连续脉冲的至少一个带限参数的值之间的差异超过了预定限制，或者循环速率的预定数目被超过。
9.如前述权利要求的其中一个所述的系统，其中所述分析装置和/或所述控制装置生成可靠性代码数字，其被用于控制所述音频信号生成装置。
10.如前述权利要求的其中一个所述的系统，其中所述映射装置包括代码本和/或人工神经网络，其提供所述至少一个带限参数和至少一个宽带参数之间的相关性。
11.如前述权利要求的其中一个所述的系统，其中所述音频信号生成装置包括正弦生成器或包括正弦生成器和噪声生成器。
12.一种用于从带限音频信号生成宽带音频信号的方法，包括以传输循环速率接收和分析带限音频信号并以所述传输循环速率获得至少一个带限参数，将至少一个宽带参数分配到所述至少一个带限参数，以所述传输循环速率在所述至少一个宽带参数的基础上生成高频段和/或低频段音频信号，和以所述传输循环速率将所述带限音频信号和所述音频信号生成装置生成的所述高频段和/或低频段音频信号组合成宽带音频信号。
13.如权利要求12所述的方法，其中所述带限参数包括用于确定带限频谱包络和/或音调和/或短时功率和/或高频段通带对低频段通带的功率比和/或信噪比的特征参数，和所述宽带参数包括宽带频谱包络和/或用于确定宽带频谱包络和/或宽带激励信号的特征参数。
14.如权利要求12或13所述的方法，其中通过利用代码本和/或人工网络，所述至少一个宽带参数被分配到所述至少一个带限参数。
15.如权利要求12一14的其中一个所述的系统，其中将所述至少一个宽带参数分配到所述至少一个带限参数是以低于所述传输循环速率的事件速率来执行的，并且仅在至少一个特定条件被满足时才执行。
16.如权利要求15所述的方法，其中参数，特别是频率、相位和振幅的额定值被用于生成高频段和/或低频段音频信号，并且其中这些额定值以所述事件速率基于所述至少一个宽带参数来修改。
17.如权利要求16所述的方法，其中所述音频信号生成装置适应所述额定值，该额定值对于每次传输循环具有有限的最大增量，其中，特别是，所述最大增量是基于语音生成的时间变动性的。
18.如权利要求16或17所述的方法，其中如果满足至少一个特定条件，则产生至少一个事件信号，和所述至少一个宽带参数被分配给所述至少一个带限参数，并且如果事件信号被生成，才修改生成高频段和/或低频段音频信号所需的参数的额定值。
19.如权利要求15-18的其中一个所述的方法，其中如果所述事件速率的两个连续脉冲的至少一个带限参数的值之间的差异超过了预定限制，或者如果超过循环速率的预定数目，则满足了所述至少一个特定条件。
20.如权利要求12-19的其中一个所述的方法，进一步包括为已获得的至少一个带限参数和/或至少一个带限参数中的一个以上的组合和/或至少一个宽带参数和/或至少一个宽带参数中的一个以上的组合计算可靠性代码数字，并且其中所述可靠性代码数字被用于控制所述音频信号生成装置。
21.如权利要求12-20的其中一个所述的方法，其中所述高频段和/或低频段音频信号由正弦生成器或正弦生成器与噪声生成器以所述循环速率生成。
22.计算机程序产品，包括一个或多个计算机可读介质，该介质具有用于执行依照权利要求12-21其中一个的方法的步骤的计算机可执行指令。
全文摘要
本发明公开了用于对带限音频信号进行带宽扩展的系统和方法。本发明的系统包括分析装置，其被配置来以传输循环速率分析带限音频信号并以传输循环速率获得至少一个带限参数，映射装置，其被配置来获得基于至少一个带限参数的至少一个宽带参数，音频信号生成装置，其被配置来以传输循环速率生成高频段和/或低频段音频信号。
文档编号G10L21/038GK1750124SQ20051010334
公开日2006年3月22日申请日期2005年9月16日优先权日2004年9月17日
发明者B·伊泽尔, G·U·施密特申请人:哈曼贝克自动系统股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｂ.伊泽尔;Ｇ.Ｕ.施密特
技术所有人：纽昂斯通讯公司
我是此专利的发明人

上一篇：移动通信终端的音频输出装置的制作方法
上一篇：音乐信息显示装置及程序的制作方法