用于改善语音质量和可懂度的系统的制作方法

文档序号：2830034阅读：515来源：国知局

专利名称：用于改善语音质量和可懂度的系统的制作方法
技术领域：
本发明涉及用于改善通信系统中的语音信号的质量和可懂度(intelligibility)的方法和系统。
技术背景所有通信系统，特别是无线通信系统，都受到带宽限制的影响。在这种系统中传输的语音信号的质量和可懂度必须与系统所能获得的有限带宽相平衡。例如，在无线电话网络中，带宽一般根据成功通信所必须的最小带宽来设置。理解元音所必需的最低频率为大约200Hz 并且最高频率元音共振峰为大约3000Hz。然而，多数辅音为宽带，通常具有的能量在大约3400Hz以下的频率中。因此，多数无线语音通信系统被最优化成通过300和3400Hz之间。图1显示了语音通信系统的典型通带10。一般地，通带10足以传送既是可理解的又是人员话音的合理传真的语音信号。然而，包含在通带10以外较高频率中的主要涉及辅音声音的语音信息由于带通滤波而被丢弃。这可能会对出现大量噪声的环境中的可懂度产生有害影响。产生图1中显示的典型通带10的通带标准是基于近场区测量的，其中获得说话人声音的话筒位于与说话人的嘴相距10 cm以内的地方。在这些情况下，信号噪声比很高并且足够的高频信息被保留从而使多数辅音可听懂。在远场区布置方式中，例如免提电话系统，话筒位于与说话人的嘴相距20cm或更远的地方。在这些情况下，信号噪声比比使用传统电话听筒时低很多。在免提电话被应用在移动车辆中时，道路、风和引擎的噪声会加剧噪声问题。实际上，在带有免提电话的车辆中的噪声水平可以高到使许多宽带低能量辅音被完全掩盖掉。例如，图2显示出说出的词"seven"的两个摄谱(spectrograph)。第一摄谱12是在安静的近场区条件下取得的。第二个是在有噪声的远场区条件下，典型地为移动车辆的免提电话的情况下取得的。首先参
考"安静的"seven 12，我们能看到组成说出的词"seven"的每个声音的迹象。首先，我们看到声音"S" 16。这是一个大多数能量在较高频率中的宽带声音。我们看到第一和第二个E和所有它们的谐波18、 22 和夹在中间的宽带声音"V" 20。在词结尾的"N"的声音与第二个E22 结合起来直到舌头从嘴顶部放下，在词尾产生短的宽带能量24。能听到辅音是决定语音信号的可懂度的最重要的一个因素。比较 "安静"情况下的sevenl2与"有噪声的"情况下的sevenl4，我们见到"S"声音16被完全掩藏在第二个摄谱14中。在"有噪声的"seven 的摄谱14中可以看清的声音仅仅为第一和第二个E 18、 22的声音。这样，在有噪声的情况下，说出的词"seven"的可懂度被严重降低。如果噪声能量比辅音能量高许多(例如，3dB)，则去除一定量噪声和通带内的滤波都不能改善可懂度。车辆噪声将随着频率下降。另一方面，许多辅音(例如，F、 T、 S) 倾向于在高频处具有很多能量。例如，通常仅在10KHz以上的语音信号的信息与辅音相关。图3重复在有噪声的环境中记录的但被延展到更宽的频率范围的词"seven"的摄谱。即使在出现大量噪声的情况下， "S" 16的声音也可以被清楚地看到，但其仅在大约6000Hz以上的频率处可见。因为蜂窝电话通带不包括大于3400Hz的频率，在传统蜂窝电话通信中此高频信息被丢弃。由于对带宽容量的较高要求，扩展通带以保留此高频率信息不是改善语音通信可懂度的实际可行的解决方案。已经尝试过压縮语音信号使它们全部的频谱(或至少一般丢弃了的高频内容的重要部分)落入通带中。图4显示出将被以此方式压縮的5500Hz语音信号26。图5中的信号28为被线性压縮到较窄的3000Hz 范围内的图4的5500Hz信号26。尽管压縮的信号28仅扩展到3000Hz，所有包括在从3000到5500频率范围中的原始信号26高频内容被保留在压縮信号28中，但是以严重改变原始信号的基本音调和音质为代价的。原始信号26的所有频率，包括控制音调的与元音相关的低频被压縮到较低频率范围。如果压缩的信号28不经过后续的重扩展而再现，则语音将具有为语音通信所不能接受的不自然的低音调。在接收机处扩展压缩的信号将解决这一问题，但这需要在接收机处了解由发射机应用的压縮。这种方案对于多数电话应用情况都是不现实的，在多数电话应用中，不会供应与语音信号一起发送的编码信息。为了保留高频语音信息，电话或其它开放网络应用的编码系统或压缩技术必须是足够灵活的，以使得无论压縮的信号是否在接收机处重扩展或无论未压縮的信号是否被后续扩展在接收机处重现的语音信号的质量都为可接受的，在此开放网络应用中，语音信号发射机和接收机都不了解它们对端的能力。根据改善的编码系统或技术，发射机可对语音信号进行编码而不用考虑在通信对端的接收机是否具有解码该信号的能力。类似地，接收机可解码接收的信号而不考虑信号是否是在发射机处被最先编码的。换言之，改善的编码系统或压缩技术应该以以下方式压縮语音信号，即，重现的语音信号的质量即使在信号不经过接收机处重扩展而重现也是满意的。在即使接收的信号没有首先由发射机编码接收机扩展语音信号的情况下，语音质量也是令人满意的。此外，此改善的系统应该在传输的声音信号在发射机处根据改善的技术被压缩时显示出对传输的语音信号的可懂度的显著改善。发明内容本发明涉及用于改善传输的语音信号中的语音可懂度的系统和方法。本发明通过保留一般被丢弃或在多数常规通信系统中会丢失的高频信息而增加了语音将被准确识别和解释的可能性。本发明这样做不会根本地改变受影响的语音信号的音调和音质。本发明使用频率压縮的形式来将较高频信息移动到通信系统的通带中的较低频率处。结果是，一般与清楚发音的辅音相关的高频信息不会由于滤波或其它限制系统带宽的因素而丢失。本发明使用两阶段法(two stage approach)。语音信号的低频分量例如那些与元音相关的分量保持不变。这大体上保持了原始语音信号的整体音质和音调。如果压縮的语音信号不经过后续的重扩展而被重现，信号听起来与重现的不经压缩语音信号相当类似。但，通带的一部分被保留用于压縮的较高频信息。一般与辅音相关的且在常规通信系统中一般因滤波而丢失的语音信号较高频分量，通过将较高频信息压縮到保留的通带部分中而被保留。以此方式压縮的传输语音信号保留了非常改善接收信号的可懂度的辅音信息。本发明实现此目的时不会根本上改变传输信号的音调。包含压縮频率的通带保留部分可在接收机被重扩展以进一步改善接收到的语音信号的质量。本发明特别适用于免提通信系统，例如车辆中的免提蜂窝电话。如在背景技术中所述，车辆噪声可能对语音信号有非常有害的影响，特别在话筒距离说话人的嘴很远的免提系统中。通过保留较高频率信息，作为可懂度中的重要因素的辅音可更容易地被识别，并且被车辆噪声掩盖的可能性较少。对于本领域的技术人员，在审查了以下附图和详细说明的情况下，本发明的其他系统、方法、特性和优点将是明显的或变得明显。所有这些附加的系统、方法、特性和优点都意在被包括在此说明书中，包括在本发明的范围中，并且由权利要求所保护。

参照以下附图和说明，本发明可被更好地理解。附图中的组件不必须是按比例绘制的、而重点在于说明本发明的原理。此外，在附图中，相似的附图标记指示所有不同视图中的相应部分。图1显示出蜂窝式通信系统的典型通带。图2显示出在安静条件下和噪声条件下的说出的词"seven"的摄;並 t^曰o图3为显示出比图2摄谱更宽的频率范围的噪声条件下说出的词 seven的摄谱。图4为未压縮的5500Hz语音信号的谱。图5为图4的语音信号在经过全谱线性压縮后的谱。图6为根据本发明执行语音信号的频率压縮的方法的流程图。图7为根据本发明的用于压縮语音信号的一些不同压縮函数的图。图8为未压縮语音信号的谱。图9为根据本发明的图8的语音信号在经过压縮后的谱。图IO为己经被标准化以减小经压縮的语音信号的瞬时峰值功率的经压縮语音信号的谱。图11为根据本发明的执行语音信号的频率扩展的方法的流程图。
图12为根据本发明的在被扩展前的经压縮语音信号的谱。图13为根据本发明的已经被扩展的语音信号的谱。图14为已经被标准化以补偿扩展信号的峰值功率由于扩展而产生的减少的图12的扩展语音信号的谱。图15为使用本发明的通信系统的高等级框图。图16为图15的高频编码器的框图。图17为图16的高频压縮器的框图。图18为图17的压縮器138的框图。图19为图15的带宽扩展器的框图。图20为图19的谱包络扩展器的框图。
具体实施方式
图6示出根据本发明的对语音信号进行编码的方法的流程图。第一步骤Sl为限定通带。通带限定了将被通信系统实际传输的语音信号的频率上限和下限。通带一般根据使用本发明的系统的要求而建立。例如，如果本发明在蜂窝通信系统中使用，则通带一般从300Hz延伸到3400Hz。本发明同样能很好适用于其它系统可限定不同的通带。第二步骤S2为限定通带中的阈值频率。频率在阈值频率以下的语音信号分量不被压縮。频率在频率阈值以上的语音信号分量将被压縮。由于元音主要负责确定音调，并且由于元音的最高频率大约为3000Hz，希望将频率阈值设置在3000Hz左右。这将保持接收到的语音信号的大致音质和音调。在步骤S3中语音信号被接收到。这为将被压缩的并且将被传输到远端接收机的语音信号。下一步骤S4为识别将被保留的接收到的信号的最高频率分量。包含在高于此限制的频率中的所有信息将丢失，然而，低于此频率限制的信息将被保留。根据本发明的编码语音信号的最后步骤S5为选择性地压縮接收语音信号。在从阈值频率到接收信号的将被保留的最高频率这一频率范围中的接收语音信号频率分量被压縮到从阈值频率延伸到通带频率上限的频率范围中。低于阈值频率的频率保持不变。图7显示出用于执行根据上述处理的选择性压縮的一些不同压縮函数。每一个压縮函数的目的都是保持较低频率(那些低于阈值频率
的频率)基本上不被压缩以保留原始信号的大体音质和音调，而同时对阈值频率以上的那些频率应用较大的压缩。压縮较高频率保留了大量的一般被丢失的和改善语音信号可懂度的高频信息。图7中的图示出三个不同的压缩函数。图的横轴表示未压縮语音信号中的频率，并且纵轴表示沿横轴的频率被映射到的压縮的频率。虚线30显示的第一函数表示在阈值上的线性压縮和在阈值以下不压縮。由实线32表示的第二压縮函数使用在阈值频率上进行非线性压縮而阈值以下不压縮。在阈值频率上，随着频率增加，应用逐渐增加的压縮度。这样，比阈值频率高很多的频率比接近阈值的频率被压縮至更大程度。最后，第三压縮函数由点线34表示。此函数对接收到的语音信号的整个谱应用非线性压縮。然而，选择压縮函数以使在阈值频率以下的较低频率上进行较少的或不进行压縮，而在较高频率上应用逐渐增加的压縮。图8显示出未压縮的5500Hz语音信号36的谱。图9显示出图8 的语音信号36在信号已经用图7所示的阈值压縮函数30的线性压缩进行压缩后的谱38。低于阈值频率(大约3000Hz)的频率保持不变，而高于阈值频率的频率以线性方式进行压縮。图8和9中的两个信号在从0-3000Hz的频率范围中相同。然而，原始信号36的从3000Hz到 5500Hz的频率范围中的部分被压縮到图9的信号38中的3000Hz和 3500Hz间的频率范围中。这样，图8的初始语音信号36的较高频率范围中包含的信息被保留到图9的压縮信号38中，但已经变换到较低频率。这改变了高频分量的音调，但不改变节奏。然而，由于较低频率范围保持不变，压缩信号38的基本音调特性保持与原始信号36相同。被压縮到压縮信号38的3000-3400Hz范围中的较高频率信息为在初始语音信号36若在带通为300-3400Hz的典型通信系统中传输时其大多数已经由滤波而丢失的信息。由于较高频率内容一般涉及清楚发出的辅音，在重现时的压縮的信号将比其他情况下的重现更容易理解。此外，改善的可懂度在没有不适当地改变初始语音信号的基本音调特性的情况下被实现。即使在压縮信号不经过后续重扩展而被再现时也可实现这些有益效果。接收压縮信号的通信终端不需要能够执行反向扩展，也不必知道接收的信号已经被压縮，以使能重现比没有经过任何压縮的信号更容易理解的语音信号。然而，应注意到，在实际上由接收机执行有利的重扩展时，结果更加令人满意。尽管没对原始语音信号的基本音调和音质有较大的改变就能实现以上述方式压縮的传输语音信号的改善的可懂度，这并不是说无论什么压縮信号的声音或质量都没有改变。在语音信号被压縮时，原始信号的总功率被保留。换言之，压缩信号的压縮部分的总功率保持与初始语音信号的将被压縮的部分的总功率相等。然而，瞬时峰值功率不被保留。总功率由图8和9中所示的曲线下的面积表示。因为图8中的原始语音信号的频率(区域的水平分量)被压縮到窄很多的频率范围中，如果曲线下的面积要保持相同，则曲线(峰信号功率)的垂直分量(或幅度)必须增加。压縮语音信号较高频率分量的峰值功率的增加不影响语音信号的基本音调，但其可能对语音信号的整体音质产生有害影响。在压缩信号不经过后续重扩展就被再现时，辅音和高频元音成分听起来可能发咝咝声或不自然地变强。此效果可通过标准化压缩信号的峰值功率被最小化。标准化可通过以与压縮量成比例的量减小峰值功率来实现。例如，如果频率范围被由2:1的系数压縮，压縮信号的峰值功率被近似加倍。因此，标准化输出功率的适当的步骤是将压缩信号的峰值功率减小一半或-3dB。图10显示出以此方式40标准化的图9的压縮语音信号。以所述方式压缩语音信号本身就能充分地改善可懂度。然而，如果在压縮信号上执行后续的重扩展而信号被返回到其初始的未压縮状态时，改善将更加显著。不仅可懂度被改善，原始信号的高频特性实质上返回到它们初始的压縮前的状态。扩展压縮的信号简单地为已经说明的压縮步骤的反向。图11显示出根据本发明的显示扩展语音信号的方法的流程图。第一步骤S10为接收带通受限信号。第二步骤Sll为限定通带中的阈值频率。优选地，此为与压縮算法中限定的相同的阈值频率。然而，由于扩展是在接收机处执行的，接收机可能不知道是否对接收到的信号应用过压縮，并且不知道初始建立的阈值频率，则如果存在这样的阈值，选择用于扩展的阈值频率不必须一定与选择用于压縮信号的阈值频率相匹配。下一步骤S12为限定解码的语音信号的频率上限。此限制表示扩展的信号的频率上限。最后的步骤S13为扩展接收到的信号位于从阈值频率到通带的上限的频率范围中的部分，以充满从阈值频率到对扩展的语音信号限定的频率上限的频率范围。图12示出在扩展前的接收到的带通受限语音信号的谱42。图13 显示出相同信号在已经根据本发明进行扩展后的谱44。信号在 0-3000Hz的频率范围中的部分大体上保持不变。然而，在3000-3400Hz 的频率范围中的部分被水平拉伸以充满从3400Hz到5500Hz的整个频率范围。与上述谱压縮处理类似，对接收信号进行扩展的操作在扩展信号的峰值功率上具有类似的但相反的效果。在扩展过程中，接收信号的谱被拉伸以充满扩展的频率范围。再次，接收信号的总功率被保持，但峰值功率不被保持。这样，辅音和高频元音成分将具有比它们应该具有的少的能量。在语音信号被重现时，这可能对语音质量有害。与编码处理相同，此问题可通过标准化扩展信号来解决。图14显示出扩展的语音信号在其已经被标准化后的谱46。再次，标准化的量将由扩展的程度指示。如果正在扩展的语音信号按上述那样被压縮和标准化，则在接收机处扩展和标准化信号将产生与原始信号大致上相同的总功率和峰值功率。然而，应记住，上述扩展技术将很可能在其中解码信号的接收机不知道接收到的信号是否已经被编码和标准化的系统中使用，标准化扩展的信号可能正在将功率增加到在原始信号中未出现的频率上。这可能比标准化实际上已经被压縮和标准化的扩展信号不成功对信号质量有更严重的负面影响。因此，在不知道由解码器接收到的信号是否已经被编码和标准化的系统中，可能更需要放弃或限制对扩展的解码信号进行标准化。在任何情况下，本发明的压縮和扩展技术提供用于改善语音信号的可懂度的有效机制。这些技术具有重要的优点，目卩，压縮和扩展两者可相互间独立地被应用，而不会对传输的语音信号的整体音质产生严重的不利影响。此处公开的压縮技术即使在没有后续的重扩展时也对可懂度有显著改善。根据本发明的编码和解码语音信号的方法提供
对在噪声环境和获取语音信号的话筒距离说话人的嘴较远的免提系统中的语音信号可懂度的显著的改善。图15示出实现本发明的信号压縮和扩展技术的通信系统100的高等级框图。通信系统100包括发射机102;接收机104，和在其间伸展的通信信道106。发射机102通过通信信道106向接收机104发送在发射机初始产生的语音信号。接收机104从通信信道106接收语音信号并且对在接收机104附近的用户有利地重现语音信号。在系统100中，发射机102包括高频编码器108,而接收机104包括带宽扩展器110。然而，必须注意到，本发明也可以用在发射机102包括高频编码器但接收机不包括带宽扩展器的系统中，或用在发射机102不包括高频编码器但接收机却包括带宽扩展器110的系统中。图16显示出图15的高频编码器108的更详细的视图。高频编码器包括A/D转换器(ADC) 122，时域到频域变换器124，高频压縮器 126;频域到时域变换器128;下采样器30;和D/A转换器132。ADC 122接收将在通信信道106上传输的输入语音信号。ADC 122 将模拟语音信号转换为数字语音信号，并且将该数字化的信号输出到时域到频域变换器。时域到频域变换器124将该数字化的语音信号从时域变换到频域。从时域到频域的变换可由一些不同的算法实现。例如，时域到频域变换器124可使用快速傅利叶变换(FFT)、数字傅利叶变换(DFT)、数字余弦变换(DCT);数字滤波器组；小波变换；或其它时域到频域变换。一旦语音信号被变换到频域，其可在高频压缩器126中通过谱变换(spectrally transpose)而被压縮。高频压缩器126将数字化的语音信号中的较高频率分量压縮到通信信道106通带的较高频率中的窄带中。图17和18更详细地显示高频压縮器。根据图6的流程图，最初接收的语音信号仅被部分地压縮。预定阈值频率以下的频率保持不变，而阈值频率以上的频率被压縮到从阈值频率到通信信道106通带的上限频率的频带中。高频压縮器126从时域到频域变换器124接收频域语音信号。高频压縮器126将信号分为两路。第一路被输入到高通滤波器(HPF) 134，而第二路被应用到低通滤波器(LPF) 136。 HPF 134
和LPF 136根本上将语音信号分为两个分量高频分量和低频分量。根据图17中显示的两个分开的信号路径分别处理两个分量。HPF 134 和LPF 136具有近似等于阈值频率的截止频率，阈值频率被建立用于确定哪些频率将被压縮和哪些将不被压縮。在上信号路径中，HPF 134 输出语音信号将被压縮的较高频率分量。在下信号路径中，LPF 138输出语音信号的将保持不变的较低频率分量。这样，来自HPF 134的输出被输入到频率压縮器138。频率压缩器138的输出被输入到信号组合器140。在下信号路径中，来自LPF 136的输出被直接应用到组合器 140而不经过压縮。这样，经过HPF 134的较高频率被压縮而经过LPF 136的较低频率保持不变。压缩的较高频率和未压縮的较低频率在组合器140中被组合。组合的信号具有希望的特性，其包括大体上不变的初始语音信号的较低频率分量(那些低于阈值频率的频率分量)，和初始语音信号的较高频率分量(那些高于阈值频率的频率分量)，其被压縮到通信信道106通带内的窄频率范围中。图18显示出压縮器138本身。来自HPF 134的语音信号输出的高频分量在它们到达压縮器138时再次被分为两个信号路径。第一信号路径被应用到频率映射矩阵142。第二信号路径被直接应用到增益控制器144。频率映射矩阵将未压縮信号域中的频率槽(frequency pin)映射到压縮信号范围中的频率槽。来自频率映射矩阵142的输出也被应用到增益控制器144。增益控制器144是自适应控制器，基于由第二信号路径供应的原始信号的谱形状调整频率映射矩阵142的输出。增益控制器帮助保持谱形状或原始信号在已经被压縮后的"倾斜"原始信号。增益控制器144的输出被输入到图17的组合器140。组合器140 的输出包括高频压縮器126 (图16)的实际输出并且被输入到如图16 所示的频域到时域变换器128。频域到时域变换器128将压縮的语音信号变换回时域。从频域到时域的变换可为由时域到频域变换器124执行的时域到频域变换的反变换，但其不必须为此。实质上，可以为任何从频域到时域的变换。随后，下采样器130采样来自频域到时域变换器128的时域数字语音信号输出。下采样器130以与压縮的信号的最高频率分量一致的采样速率采样信号。例如，如果压縮信号的最高频率为4000Hz，则下
采样器将以至少8000Hz的速率采样压縮信号。然后向下采样的信号随后被应用到输出压縮模拟语音信号的数字到模拟转换器(DAC) 132。 DAC 132输出可在通信信道106上传输。因为应用到语音信号的压縮，初始语音信号的较高频率不会由于通信信道106的优先带宽而被丢失。可替换地，数字到模拟转换可被省略，并且压縮的数字语音信号可被直接输入到例如自动语音识别系统的其它系统。图19显示出图15的带宽扩展器110的更为详细的视图。参照图 11的流程图，带宽扩展器的目的为部分地扩展在通信信道106上接收到的限带语音信号。带宽扩展器仅扩展接收到的语音信号的在预定频率阈值以上的频率分量。带宽扩展器110包括模拟到数字转换器(ADC) 146;上采样器148;时域到频域变换器150，谱包络扩展器152;激励信号生成器154;组合器156;频域到时域变换器158;数字到模拟转换器(DAC) 160。ADC 146从通信信道106接收带限模拟语音信号并将其转换为数字信号。上采样器148随后以与经扩展的信号的预计最高频率的最高速率相对应的采样速率采样数字化语音信号。向上采样的信号随后由时域到频域变换器150从时域变换到频域。与高频编码器108相同，此变换可为快速傅利叶变换(FFT)、数字傅利叶变换(DFT)、数字余弦变换；数字滤波器组；小波变换等。频域信号随后被分为两个分开的路径。第一个被输入到谱包络扩展器152而第二个被应用到激励信号生成器154。谱包络扩展器在图20中详细显示出。到包络扩展器142的输入被应用到频率解映射矩阵162和增益控制器164。频率届映射矩阵162 将接收到的压縮语音信号的较低频率槽映射到未压縮信号的扩展的频率的较高频率槽。频率解映射矩阵162的输出为具有与带宽扩展器110 的希望的最高频率输出相对应的最高频率分量的语音信号的扩展的谱。来自频率解映射矩阵的信号输出的谱被随后由增益控制器164基于初始未扩展信号的谱的谱形状进行调整，初始未扩展信号如所述也输入到增益控制器164。增益控制器164的输出形成谱包络扩展器162 的输出。在以所述的方式扩展语音信号的谱时，产生谐波和相位信息被丢失的问题。激励信号生成器基于原始的未扩展信号产生谐波信息。组合器156将来自谱包络扩展器152的谱扩展语音信号输出与激励信号生成器154的输出组合起来。组合器使用激励信号生成器的输出以调整扩展信号的形状以添加适当的谐波并且校正它们的相位关系。组合器156的输出随后由频域到时域变换器158变换回时域。频域到时域变换器可使用时域到频域变换150的反变换，或使用一些其它变换。一旦回到时域，扩展的语音信号被DAC160转换回模拟信号。模拟信号可随后由扬声器对接收机用户有利地重现。通过使用如图6和11的流程图所说明的语音信号压縮和扩展技术，通信系统100提供比传统带限系统中传输的语音信号更容易理解和具有更好质量的语音信号的传输。通信系统100保留了一般由于通信信道的通带限制而被丢弃的高频语音信息。此外，通信系统100以以下方式保留高频信息，S卩，无论在压縮信号被接收时压縮信号是否被重扩展，均能改善可懂度的方式。信号也可在无论信号是否在传输前被压缩都被扩展，而不会对音质产生显著有害影响。这样，包括高频编码器的发射机102可传输压縮的信号到不像接收机104 —样，不具有带宽扩展器的接收机。类似地，接收机104可接收并扩展从发射机接收的信号，发射机不像发射机102，不包括高频编码器。在所有情况下，传输的语音信号的可懂度都被改善。应该注意到，本领域的普通技术人员在不偏离本发明的精神和范围下可对本发明做出不同的改变和更改，本发明的精神和范围在权利要求中被更详细地说明。此外，那些本领域的普通技术人员将认识到前述说明仅作为实例，而不意在限制权利要求中说明的发明。尽管已经说明了本发明的不同实施例，对于本领域的普通技术人员，明显的是在本发明的范围内可有更多实施例和实现。因此，本发明除了根据所附权利要求及其等价物外不受到更多限制。
权利要求
1.一种改善语音信号可懂度的方法，其包括识别具有通带频率下限和通带频率上限的频率通带；限定所述通带中的阈值频率；接收频谱的最高频率分量大于所述通带频率上限的语音信号；将所述语音信号谱的在第一频率范围中的部分压缩到在所述阈值频率和所述通带频率上限之间的频率范围中，所述第一频率范围在所述阈值频率和所述语音信号的最高频率分量之间。
2. 如权利要求1所述的改善语音信号可懂度的方法，还包括传输所述经压縮的语音信号；接收所述经压缩的语音信号；和可听见地重现所述经压縮的语音信号。
3. 如权利要求1所述的改善语音信号可懂度的方法，还包括传输所述经压縮的语音信号；接收所述经压縮的语音信号；和扩展接收到的经压縮的语音信号。
4. 如权利要求1所述的改善语音信号可懂度的方法，还包括标准化经压縮的语音信号的峰值功率。
5. 如权利要求4所述的改善语音信号可懂度的方法，还包括传输所述经压縮的标准化的语音信号；接收所述经压縮的标准化的语音信号；和扩展所接收到的经压縮的标准化的信号。
6. 如权利要求5所述的改善语音信号可懂度的方法，还包括重新标准化所述经扩展的接收到的语音信号，并可听见地重现所述重新标准化的经扩展的语音信号。
7. 如权利要求5所述的改善语音信号可懂度的方法，还包括可听见地重现所述经扩展的接收到的信号。
8. 如权利要求1所述的改善语音信号可懂度的方法，其中，压縮所述语音信号谱的一部分包括在所述阈值频率以上应用线性频率压縮。
9. 如权利要求1所述的改善语音信号可懂度的方法，其中，压縮所述语音信号谱的一部分包括在所述阈值频率以上应用非线性频率压縮。
10. 如权利要求1所述的改善语音信号可懂度的方法，其中，压縮所述语音信号谱的一部分包括在所述语音信号的所述谱的整个范围中应用非线性频率压缩，其中，用于执行所述压縮的压缩函数被选择成使得在较低频率中应用最小的压縮并且在较高频率中应用递增的压縮。
11. 一种改善语音信号可懂度的方法，其包括接收具有频率下限和频率上限的通带受限信号；限定所述接收到的语音信号的通带中的阈值频率；限定经扩展的信号的频率上限；对所述接收到的语音信号的一部分执行频率扩展，以使所述接收到的语音信号在所述阈值频率和所述通带的频率上限之间的频率范围中的频率分量被扩展，以填满所述阈值频率和所述扩展信号频率上限之间的频率范围；和可听见地重现所述经扩展的语音信号。
12. 如权利要求11所述的改善语音信号可懂度的方法，还包括标准化所述经扩展的信号的峰值功率。
13. 如权利要求11所述的改善语音信号可懂度的方法，其中，所述频率扩展包括从所述阈值频率开始的线性扩展。
14. 如权利要求11所述的改善语音信号可懂度的方法，其中，所述频率扩展包括从所述阈值频率开始的非线性扩展。
15. 如权利要求11所述的改善语音信号可懂度的方法，其中，所述频率扩展包括在所述接收到的信号的整个谱上的非线性扩展，其中，用于实现扩展的扩展函数在所述接收到的信号的较低频率部分上应用较小的扩展或不应用扩展，而在所述接收到的信号的较高频率部分上应用递增的扩展。
16. —种用于改善传输的语音信号的可懂度的系统，所述系统包括高频编码器，其适用于将语音信号在通信信道的通带以外的高频分量压縮到所述通信信道的所述通带内的频率范围中，而使所述语音信号的较低频率分量保持大体上不变；和发射机，其用于在所述通信信道上传输由所述高频编码器压縮的语首f曰万。
17. 如权利要求16所述的系统，其中，所述高频编码器包括用于将时域语音信号变换到频域信号的时域到频域变换器；用于压縮所述频域信号的所述高频分量的高频压縮器；和用于将来自所述高频压縮器的所述压縮的语音信号输出变换到时域信号的频域到时域变换器。
18. 如权利要求18所述的系统，其中，所述高频压縮器包括高通滤波器和低通滤波器，用于将所述语音信号的所述高频分量与所述语音信号的所述低频分量分开；频率映射矩阵，用于将所述语音信号的所述高频分量从所述未压縮频域中的频率槽映射到所述压縮的频率范围中的频率槽；和组合器，用于将所述语音信号的所述压縮高频分量与所述语音信号的所述低频分量组合起来。
19. 如权利要求16所述的系统还包括接收机，其用于接收在所述通信信道上的语音信号；和带宽扩展器，其适于将接收到的信号在所述通信信道通带的上部中的频率分量扩展到在所述通带上限以上延伸的频率范围中，而使得所述接收到的信号在所述通带的下部中的频率分量保持大体上不变。
20. 如权利要求19所述的系统，其中所述带宽扩展器包括上采样器，用于增加接收到的信号的采样速率；时域到频域变换器，用于将所述经向上采样的信号变换到频域；谱包络扩展器，包括频率解映射矩阵，该频率解映射矩阵用于将未采样的频域信号的频率分量从所述未扩展频率范围中的频率槽映射到所述扩展的频率范围中的较大频率槽；激励信号生成器，其用于从所述未采样频域信号生成谐波和相位组合器，其用于组合所述谱包络扩展器和所述激励信号生成器的输出；禾口时域到频域变换器，其用于将所述组合信号变换到所述时域。
21. —种高频编码器，其包括A/D转换器，其用于将模拟语音信号转换成数字时域语音信号；时域到频域变换器，其用于将所述时域语音信号变换为频域语音高频压縮器，其用于将所述频域语音信号的高频分量谱变换到压缩的频域语音信号的较低频率。频域到时域变换器，其用于将所述压縮的频域语音信号变换成压縮的时域语音信号；和下采样器，其用于以适合所述压縮的时域语音信号的所述最高频率的采样速率来对所述压缩的时域信号进行采样。
22.如权利要求21所述的高频编码器，其中，所述高频压縮器包括用于提取所述频域语音信号的高频分量的高通滤波器，和用于将所述频域语音信号的所述高频分量映射到较低频率的频率映射矩阵，所述较低频率是所述高频分量被谱变换到的频率。
23. 如权利要求21所述的高频编码器，其中，所述高频压縮器还包括用于提取所述频域语音信号的低频分量的低通滤波器，和组合器，所述组合器用于组合所述提取的频域语音信号的低频分量和谱变换到较低频率的所述频域语音信号高频分量。
24. —种用于改善语音信号可懂度的方法，其包括识别频率通带；接收频谱的最高频率分量大于所述通带的频率上限的语音信号；通过应用频率压縮函数来对所述语音信号的所述频谱的整个范围应用非线性频率压縮以使经压縮的语音信号谱在所述通带内，在所述频率压縮函数中，对所述语音信号谱的较低频率范围应用最小的压縮，而对所述语音信号谱的较高频率范围应用大很多的压縮。
全文摘要
用于改善语音信号的质量和可懂度的系统和方法。此系统和方法对语音信号高频分量应用频率压缩，而保持低频分量大体上不变。这保留了一般由于滤波和带通限制被丢失的关于辅音的高频信息。信息被保留而不严重改变语音信号的基本音调，以使在语音信号被重现时保留其总的音质。该系统和方法还对语音信号应用频率扩展。与压缩类似，仅扩展接收语音信号的较高频率。在对已根据本发明压缩的语音信号应用频率扩展时，语音信号大体上返回其压缩前状态。但根据本发明的频率压缩即使在语音信号随后不被重新扩展时也会改善可懂度。同样，语音信号可在原始信号即使不被压缩时也被扩展，而不会严重降低语音信号质量。这样，发射机包括在接收机无论能否重新扩展信号时都应用高频压缩的系统。同样，接收机可不论信号是否在之前被压缩都扩展接收语音信号。
文档编号G10L21/02GK101164104SQ200680013216
公开日2008年4月16日申请日期2006年3月23日优先权日2005年4月20日
发明者P·赫瑟林顿, X·李申请人:Qnx软件操作系统(威美科)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：P.赫瑟林顿;X.李
技术所有人：QNX软件操作系统（威美科）有限公司
我是此专利的发明人

上一篇：用于减小音频噪声的系统和方法
上一篇：用于语音转换的自动施主分级和选择系统及方法