通过高频压缩提高语音的可理解性的系统的制作方法

文档序号：2829460阅读：309来源：国知局

专利名称：通过高频压缩提高语音的可理解性的系统的制作方法
技术领域：
本申请涉及通信系统，和更具体地，涉及提高语音可理解性的系统。
背景技术：
很多通信装置获得，同化并传送语音信号。语音信号通过通信介质从一个系统传输至另一个系统。所有的通信系统，具体地无线通信系统，受到带宽限制。在一些系统中，包括在一些电话系统中，语音信号的清晰度取决于系统传输高频和低频的能力。由于很多低频存在于通信系统的通带中，所以该系统会阻止或衰减高频信号，该高频信号包括在无声辅音(unvoiced consonant)中发现的高频分量。
一些通信装置可以通过处理频谱而克服该高频衰减。这些系统可以使用语音/静默开关和有声/无声开关来识别和处理无声语音。由于有声和无声片断之间的转换难于检测，一些系统并不可靠并且不能用于实时的处理，尤其是易受噪声或回响影响的系统。在一些系统中，开关是昂贵的并且产生使语音的感知失真的人为噪声。
因此，需要一种系统，其在有限的频率范围内改进语音的可感知声音。

发明内容
语音增强系统提高了语音信号的可理解性。该系统包括频率转换器和频谱压缩器。频率转换器把语音信号从时域转换到频域。频谱压缩器压缩高频频带的预选择部分，并将压缩的高频频带映射到较低频带限制的频率范围。
根据对下文中的附图和详细说明的分析，本领域的技术人员将会更清楚本发明的其它系统、方法、特征和优点。所有这样的另外的系统、方法、特征和优点都包括该说明中，包括在本发明的范围内，并由后文中的权利要求进行保护。

通过参考下面的附图和说明，将会更好的理解本发明。图中的部件并不需要的依照比例，而重点在于阐明本发明的原理。此外，在图中，贯穿所有不同的视图以相同的参考标记表示相同的部件。
图1是语音增强系统的框图；图2是未压缩和压缩信号的图形；图3是一组基本函数的图形；图4是原始说明的语音信号和该信号的压缩部分的图形；图5是原始说明的语音信号和该信号的压缩部分的第二图形；图6是原始说明的语音信号和该信号的压缩部分的第三图形；图7是在车辆和/或电话或其它通信装置中的语音增强系统的框图；图8是在车辆和/或电话其它通信装置中连接到自动语音识别系统的语音增强系统的框图。
具体实施例方式
增强逻辑提高了所处理的语音的可理解性。该逻辑可以识别和压缩将进行处理的语音片断。可以对选择的有声和/或无声片断进行处理并转换到一个或多个频率频带。为了提高感知质量，可以在时域或频域进行自适应增益调节。该系统可以调节一些或全部语音片断的增益。该系统的多功能性使得逻辑在一些应用中在语音传到第二系统之前增强语音。语音和音频可以无线地或通过通信总线传到自动语音识别(ASR)引擎，其中通信总线可以在时域和/或频域获取并提取语音。
任何有限带宽装置可从该系统受益。该系统可设置在任何有限带宽装置中，可以是任何有限带宽装置的整体部分，或可以连接到任何有限带宽装置。该系统可以是无线电装置的一部分，或连接到无线电装置，其中该无线电装置为例如空中交通控制装置(可具有相似的限制带宽的通带)，无线电内部通讯装置(用于全体人员或用户相互通信的移动或固定系统)，以及在一个或多个蓝牙链路上具有有限带宽的诸如头戴耳机的蓝牙装置。该系统也可以是连接到车辆，商业应用或可以控制用户的住所(如，声音控制)的装置的其它个人或商用有限带宽通信系统的一部分。
在一些备选方案中，该系统可位于其它方案或系统之前。一些系统可使用自适应滤波器、其它电路或可中断增强逻辑的行为的编程。在一些系统中增强逻辑位于回声消除器之前，并可以连接到回声消除器(例如，衰减或基本上衰减多余声音的系统或过程)。当检测到或处理回声时，可自动禁止或减轻增强逻辑，并随后启动以防止压缩和映射，及在一些情况下，回声的增益调节。当系统位于波束生成器之前或连接到波束生成器时，控制器或波束生成器(例如，信号组合器)可以控制增强逻辑的操作(例如，自动启动，禁止，或减弱增强逻辑)。在一些系统中，该控制可以进一步抑制失真，例如多路径失真和/或同频道干扰。在其它系统或应用中，增强逻辑连接到在后自适应系统或过程。在一些应用中，增强逻辑连接到控制器或由其控制，该控制器防止或最小化非理想信号的增强。
图1是增强逻辑100的框图。增强逻辑100可以包含硬件和/或软件，其可在一个或多个操作系统上运行或连接一个或多个操作系统。在时域，增强逻辑100可以包括转换逻辑和压缩逻辑。在图1中，转换逻辑包括频率转换器102。该频率转换器102提供输入信号的时间到频率的转换。当接收到信号时，频率转换器被编程为或配置为将输入信号转化到其频谱。频率转换器可以实时的或延时的把模拟音频或语音信号转化到频率的程控范围(programmed range)内。一些频率转换器102可以包括一组窄带通滤波器，该滤波器有选择的通过特定的频率，而同时消除，最小化或抑制位于通带外的频率。其它增强系统100使用频率转换器102，其被编程或配置为基于快速傅立叶变换(FFT)而生成数字频谱。这些频率转换器102可以收集自选定范围或整个频带的信号以生成实时的，接近实时的或延时的频谱。在一些增强系统中，频率转换器102自动的检测并把音频或语音信号转换到频率的程控范围内。
压缩逻辑包括频谱压缩装置或频谱压缩器104。频谱压缩器104把位于较高频率范围的宽范围的频率分量映射到较低，及在一些增强系统中较窄的频率范围。在图1中，频谱压缩器104通过压缩所选的高频频带并将压缩的频带映射到较低有限带宽的频率范围，而处理音频或语音范围。当应用到通过例如电话带宽的通信带宽传输的语音或音频信号时，该压缩进行转换并将一些高频分量映射到位于电话或通信带宽中的频带。在增强系统中，频谱压缩器104将第一和第二频率之间接近两倍最高影响(interest)频率的频率分量映射到更短或更小的有限带宽范围。在这些增强系统中，有限带宽范围的上部截止频率可与电话或其它通信带宽的上部截止频率大体一致。
在图2中，图1中所示的频谱压缩器104将指定截止频率“A”和奈奎斯特频率之间的频率分量压缩并映射到位于截止频率“A”和“B”之间的有限带宽范围。如所示，位于大约2,800Hz和大约5,500Hz之间的无声辅音(这里是字母“S”)的压缩是压缩并映射到界线为大约2,800Hz和大约3,600Hz的频率范围。低于截止频率“A”的频率分量是不改变的或基本上不改变的。在大约0Hz到大约3,600Hz之间的带宽可与电话系统或其它通信系统的带宽一致。也可使用与其它通信带宽一致的其它频率范围。
用于一些增强系统的频率压缩方案将频率压缩与频率变换进行组合。在这些增强系统中，增强控制器可被编程以获得压缩的高频分量。在一些增强系统中，使用等式1， (等式1)其中Cm是压缩的高频分量的幅度，gm是增益因数，Sk是初始语音信号的频率分量，m(k)是压缩基本函数，而k是离散频率指数。尽管可以使用窗口函数的任何形状作为非线性压缩基本函数(m(k))，窗口函数包括三角形、汉宁(Hanning)、汉明(Hamming)、高斯、盖博(Gabor)或微波窗口，例如，图3示出了一组在一些增强系统中使用的典型的50％交迭的基本函数。这些三角形基本函数具有覆盖窄频率范围的较低频率基本函数和覆盖较宽频率范围的较高频率基本函数。
接着将频率分量映射到较低频率范围。在一些增强系统中，增强控制器可被编程或配置为将频率映射到等式2所示的函数。
S^k=Skk=1,2,...,foS^k=Ck-Fo|Sk|Skk=fo+1,fo+2,...,N]]>(等式2)在等式2中，是压缩的语音信号的频率分量，和fo是截止频率指数。基于该压缩方案，初始语音的低于截止频率指数fo的所有频率分量保持不变或基本不变。将从截止频率“A”到奈奎斯特频率之间的频率分量压缩并移动到较低频率范围。该频率范围从较低截止频率“A”延伸到较高截止频率“B”，其也可以包括电话或通信通带的上限。在增强系统中，较高频率分量具有比接近上部截止频率“B”更高的压缩比例和更大的频率转换。因为高于截止频率“B”的频率载有对于准确的语音识别非常关键的的重要辅音信息，所以这些增强系统提高了语音信号的可理解性和/或感知质量。
为了维持基本的平滑和/或基本恒定的听觉背景，可将自适应高频增益调节应用到压缩信号。在图1中，增益控制器106可以通过噪声检测器108实时、接近实时或延时地测量或估计诸如背景噪声信号的外来独立信号，从而向压缩信号应用高频自适应控制。噪声检测器108检测并可以测量和/或估计背景噪声。背景噪声可以为通信线、介质、逻辑或电路固有，和/或是独立于声音或语音信号的。在一些增强系统中，大体恒定的离散背景噪声或声音保持在所选择的带宽中，例如从电话或通信带宽的频率“A”到频率“B”。
增益控制器106可编程为仅放大和/或衰减压缩频谱信号，该压缩频谱信号在一些应用中包括依照等式3所示函数的噪声。在等式3中，输出增益由 m＝1，2，...，M (等式3)获得，其中Nk是输入背景噪声的频率分量。通过追踪测量的或估计的噪声水平的增益，一些增强系统可以在压缩的和非压缩的带宽之间保持噪声的水平一致(floor)。如果如图4所示，噪声随着压缩频率频带中频率的增加而下降，则信号的压缩部分在压缩后具有比压缩前小的能量。在这些情况下，成比例的增益可应用到压缩的信号，从而调节压缩信号的斜率。在图4中，对压缩信号的斜率进行调节，从而在压缩频率频带内大致等于初始信号的斜率。在一些增强系统中，增益控制器106将图4中所示的压缩信号与等于或大于1且随着压缩信号的频率而改变的乘数相乘。在图4中，在压缩带宽的乘数之间的递增的差值具有正倾向。
为了克服图5中所示的压缩信号频带内的渐增的背景噪声的影响，增益控制器106可以抑制或衰减信号的压缩部分的增益。在这些情况下，将对压缩信号的强度进行抑制或衰减，从而调节压缩信号的斜度。在图5中，对该斜度进行调节，从而基本上等于在压缩的频率频带内的初始信号的斜度。在一些增强系统中，增益控制器106将图5中所示的压缩信号乘以等于或小于1但大于0的乘数。在图5中，乘数随着压缩信号的频率而改变。在图5中所示的压缩带宽内乘数的增加的差值具有负倾向。
当如图6所示背景噪声在预期的带宽内的所有频率上相等或基本相等时，增益控制器106将在不放大或衰减的情况下通过压缩信号。在一些增强系统中，增益控制器106并不在这些情况下应用，而是将归一化输入信号的预处理控制器连接到语音增强系统的前端从而产生初始输入语音片断。
为了在有限带宽频率范围内最小化语音损耗，增强系统的截止频率可随着通信系统的带宽改变。在具有等于约3,600Hz的带宽的电话系统中，截止频率位于大约2,500Hz到大约3,600Hz之间。在这些系统中，在最低截止频率之下极少或没有压缩发生，相反的频率越高，压缩和转换地越大。因此，可以保存告知斜度和可由人耳感知的较低谐波关系。
语音增强系统的另外的备选方案可以通过分析压缩和非压缩信号的信噪比(SNR)而实现。该备选方案认识到元音的第二共振峰主要设置在低于约3,200Hz的频率，并且其能量在较高频率快速衰减。这对于例如/s/，/f/，/t/，和/t∫/的无声辅音并不如此。代表辅音的能量可覆盖频率的较高范围。在一些系统中，辅音可以存在于约3,000Hz到约12,000Hz之间。当检测到高的背景噪声时，该噪声可以在例如汽车的车辆内检测，那么辅音可能在较高频率频带内具有比较低频率频带高的信噪比。在该备选方案中，通过控制器对位于截止频率“A”和“B”之间的非压缩范围SNRA-Buncompressed的平均SNR与位于截止频率“A”和“B”之间的即将被压缩频率范围的SNRA-Bcompressed的平均SNR进行比较。如果平均SNRA-Buncompressed大于或等于平均SNRA-Bcompressed，则不会发生压缩。如果平均SNRA-Buncompressed小于平均SNRA-Bcompressed，那么会发生压缩，且在一些情况下会发生增益调节。在该备选方案中，A-B代表频带。在该备选方案中控制器可以包括处理器，该处理器可以通过无线或诸如通信总线的有形通信介质而调节频谱压缩器104。
语音增强系统和方法的另一备选方案通过连接到频谱压缩器的第二控制器将输入信号的每个频率分量的幅度与压缩信号的位于相同频率频带的对应幅度进行比较。在等式4S^koutput|=max(|Sk|,|S^k|)]]>(等式4)所示的该备选方案中，选择位于截止频率“A”和“B”之间的每个频率槽的幅度作为压缩或非压缩频谱的幅度中较大的一个。上述控制器，系统和方法中的每一个可编码在信号承载介质中，例如存储器的计算机可读介质中，可编程在例如一个或多个集成电路的装置中，或由控制器或计算机进行处理。如果该方法由软件执行，那么该软件可以位于存在于或连接到频谱压缩器104、噪声检测器108、增益调节器106、频率时间转换器110的存储器中，或位于连接到或存在于语音增强逻辑中的其它类型的非易失或易失存储器中。存储器可以包括用于实现逻辑函数的可执行指令的顺序列表。逻辑函数可以通过数字电路，通过源代码，通过模拟电路，或通过模拟源，例如模拟电的或光的信号来实现。软件可以嵌入在任何计算机可读或信号承载介质中，以用于或连接到指令执行系统、设备或装置。这样的系统可以包括基于计算机的系统，包含处理器的系统，或者其它系统，其可有选择的从指令执行系统、设备或可以执行指令的装置中获取指令。
“计算机可读介质”，“机器可读介质”，“传输信号”介质和/或“信号承载介质”可包含任何包括、存储、通信、传输或传送软件的装置，以由指令执行系统、设备或装置使用，或与指令执行系统、设备或装置共同作用。机器可读介质可选地为，电、磁、光、电磁、红外线或半导体系统、设备、装置或传输介质，但不限于此。机器可读介质的不完全列表可包括具有一条或多条导线的电连接“电”，便携磁盘或光盘，诸如随机访问存储器RAM(电)的易失存储器、只读存储器ROM(电)、可擦可编程只读存储器(EPROM或闪存)(电)或光纤(光)。由于软件可以图像或另一格式(如，通过光扫描)而电存储，随后进行汇编和/或翻译或其它处理，所以机器可读介质也可包括其上印有软件的有形介质。接着，该处理介质也可存储在计算机和/或机器存储器中。
语音增强逻辑100能适应任何技术或装置。如图1所示，一些语音增强系统连接到或结合频率时间转换器110。频率时间转换器110将信号从频域转换到时域。由于一些时间频率转换器可基本上同时地处理一些或全部输入频率，所以频率时间转换器可被编程或配置为实时地、基本实时地或延时地转换输入信号。如图8所示一些语音增强逻辑或部件连接到或结合远程或本地ASR引擎(示出了在汽车中可单独地嵌入电话逻辑或车辆控制逻辑)。ASR引擎可嵌入在将语音或其它声音转换为可以传输到远端的形式的装置，例如路上线路和无线通信装置，其可包括电话和音频装置，并且可位于传送人或物(如，车辆)或者装置内的独立的装置或结构中。同样地，语音增强可嵌入在个人通信装置中，该通信装置包括位于图7所示的具有或不具有ASR的车辆以外的或连接到该车辆的步谈机(walkie-talkies)、蓝牙装置(如，耳机)。
语音增强逻辑也适合并可连接到无线地或通过电或光连接而检测和/或监控声音的系统。当在高频频带检测到特定声音时，系统可以禁止或另外地减轻增强逻辑以防止压缩，映射以及一些情况下的信号的增益调节。通过总线，例如通信总线，噪声检测器可以发送中断(硬件或软件中断)或消息以阻止或减轻这些声音的增强。在这些应用中，增强逻辑可以连接到或结合美国序列号11/006,935的“System forSuppressing Rain Noise”中说明的一个或多个电路、逻辑、系统或方法，在此结合其中每个作为参考。
语音增强逻辑提高了语音信号的可理解性。该逻辑可以自动的识别并压缩将进行处理的语音片断。可将所选的有声和/或无声片断处理并移到一个或多个频率频带。为了提高感知质量，可以在时域或频域进行自适应增益调节。该系统可调节仅仅部分或全部语音片断的增益，其中一些调节是基于探测的或估计的信号。系统的多功能性使得逻辑在语音经过或由第二系统处理前对其进行增强。在一些应用中，可将语音或其它音频信号传输到可以在时域和/或频域获得并提取语音的远程、本地或移动ASR引擎。一些语音增强系统并不在语音和静默或有声和无声片断之间进行转换，因此更少的受吱吱声、嘈杂声、叽喳声、单击声、水滴声、砰声、低频语音或其它产生在获取或重新形成语音的一些语音系统中的声音影响。
尽管已经对本发明的各种实施例进行了说明，然而对本领域的技术人员很清楚，在本发明的范围内可实现更多种实施例和应用。因此，本发明并不被严格的限定，而仅根据附加的权利要求及其等效进行限制。
权利要求
1.一种提高处理的语音的可理解性和质量的语音系统，包括频率转换器，其将语音信号转换到频谱；和频谱压缩器，其电连接到所述频率转换器，并压缩预选择的高频频带且将所述压缩的高频频带映射到较低的有限带宽频率范围。
2.根据权利要求1所述的系统，其中所述频率转换器被编程为接近实时地自动将所述语音信号转换到其频谱。
3.根据权利要求1所述的系统，其中所述频率转化器被编程为或被配置成实时地自动将所述语音信号转换到频谱。
4.根据权利要求1所述的系统，其中所述高频频带包括比所述较低有限带宽频率范围更大的频率范围。
5.根据权利要求1所述的系统，其中所述频谱压缩器包括非线性压缩基本函数。
6.根据权利要求1所述的系统，其中较低有限带宽频率范围包括模拟带宽的一部分。
7.根据权利要求1所述的系统，其中较低有限带宽频率范围包括电话带宽的一部分。
8.根据权利要求1所述的系统，还包括噪声检测器，其被配置成在检测所述语音信号时对当前噪声水平进行检测和测量。
9.根据权利要求1所述的系统，还包括噪声检测器，其被配置成在检测所述语音信号时对当前噪声水平进行检测和估计。
10.根据权利要求1所述的系统，还包括增益控制器，其被配置成对与独立外部信号相关的所述压缩高频频带的增益进行调节。
11.根据权利要求10所述的系统，其中所述独立外部信号包括背景噪声。
12.根据权利要求1所述的系统，还包括连接到频谱压缩器的增益控制器，其中频谱压缩器被配置成在较低有限带宽频率范围内基本上仅调节压缩高频频带的增益。
13.根据权利要求12所述的系统，其中频谱压缩器被配置成应用多个增益调节，所述增益调节随着独立于所述检测的语音信号的信号而改变。
14.一种提高处理的语音的可理解性的语音系统，包括频率转换器，其将语音信号转换到其频域；频谱压缩器，其连接到所述频率转换器，并压缩预选择的高频率频带，且将所述压缩的高频率频带映射到较低频率频带；噪声检测器，其被配置成检测和估计当前噪声的水平；和增益控制器，其被配置成与独立的外部信号的变化水平相对成比例地调节所述压缩高频频带的增益。
15.根据权利要求14所述的语音系统，还包括控制所述频谱压缩器的控制器，所述控制器包括监控器，所述监控器将所述压缩信号的信噪比与信号压缩前的信噪比进行比较。
16.根据权利要求14所述的语音系统，其中所述增益控制器被配置成应用随着外部信号的变化水平改变的增益。
17.根据权利要求14所述的语音系统，其中所述增益控制器被配置成应用变化增益，其使得所述压缩信号的水平与所述独立外部信号的水平基本一致。
18.一种提高处理的语音的可理解性的语音系统，包括频率转换器，其实时地将语音信号从时域转换到频域；频谱压缩器，其连接到所述频率转换器，并压缩预选择的高频率频带，且将所述压缩的高频率频带映射到电话通带内的较低频率频带；噪声检测器，其被配置成检测和测量语音信号的背景噪声水平；和增益控制器，其被配置成将变化增益应用到与所述背景噪声水平相关的所述压缩的高频频带。
19.根据权利要求18所述的语音系统，还包括通过通信总线控制所述频谱压缩器的控制器，所述控制器将检测到的语音信号的一部分的信噪比与压缩信号的一部分的信噪比进行比较。
20.根据权利要求19所述的语音系统，其中所述控制器被编程为通过频率槽的比较而比较幅度。
21.根据权利要求19所述的语音系统，还包括连接到所述增益控制器的自动语音识别系统。
全文摘要
一种提高处理的语音的可理解性和感知质量的语音增强系统，包括频率转换器和频谱压缩器。频率转换器将语音信号从时域转换到频域。频谱压缩器压缩高频频带的预选择部分，并将压缩的高频频带映射到较低的有限带宽频率范围。
文档编号G10L21/02GK101030382SQ20061006475
公开日2007年9月5日申请日期2006年11月29日优先权日2005年12月9日
发明者P·A·赫瑟林顿, X·李申请人:Qnx软件操作系统(威美科)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：P.A.赫瑟林顿;X.李
技术所有人：QNX软件操作系统(威美科)有限公司
我是此专利的发明人