使用与发话人相关的时标变化技术的通信系统和方法

文档序号:2820027阅读:422来源:国知局
专利名称:使用与发话人相关的时标变化技术的通信系统和方法
技术领域
本发明涉及语音压缩和扩展技术,更具体地是涉及使用基于波形相似性的叠加技术(WSOLA)的改进版本进行语音压缩和扩展的方法和装置。
在带宽和存储量有限的应用中对语音信号进行传输或变换通常会导致折衷,这种折衷或者降低了所得到的语音输出信号的质量,或者降低了此种声频信号的变换的灵活性。利用时标修正对音乐或话音进行加速或减速(最好不改变音调(pitch))具有许多应用,这些应用包括录音电话(dictation),语音邮件和声道编辑等。另一种具体应用,语音消息寻呼,对于采用当前技术的大型寻呼系统而言在经济上是不可行的。语音寻呼与音频(tone)寻呼、数字寻呼和字符数字寻呼相比需要更多的传播时间。在当前技术下,与逊于理想音质再现的音频、数字或字符数字寻呼相比,语音寻呼服务在经济上是不可行的。另一个限制语音消息寻呼的约束是带宽和当前使用寻呼信道的带宽的方法。相比之下,不管是以个人键盘的形式,还是通过打电话到话务员中心,对发送字符数字消息到寻呼终端的键盘输入设备的有限访问约束了字符数字寻呼的增长。一种语音系统克服了列出的这些问题,其中主叫方可以简单地摘下电话,拨打电话号并讲出一条消息。并且,当前没有语音寻呼系统采用摩托罗拉的FLEXTM新型高速寻呼协议结构。
现有的语音寻呼系统,尤其是在大城市中,缺乏许多FLEXTM协议的优点,其中包括高电池节省率,多信道扫描能力,诸如语音加数据的模式混合,回送确认寻呼(允许向主叫方返回接收情况),位置搜寻能力,系统和频率重用。
对于涉及语音信号时标变化的寻呼和诸如录音电话和语音邮件的其它应用,当前的时标变化方法缺乏理想的组合,这种组合能够提供足够的,允许设计者在给定的约束下优化应用的话音质量和灵活性。这样,需要一种经济易行并且具有允许在给定的结构下进行优化的灵活性的语音通信系统,并且更具体地,对于寻呼应用,该系统还保留了摩托罗拉的FLEXTM协议的许多优点。
一种使用基于波形相似性的叠加技术(WSOLA)的改进版本的语音时标修正方法包括步骤在存储器中存储一部分输入语音信号;分析该部分输入语音信号,提供估测音调值;根据估测音调值确定分段长度;并且根据确定出的分段长度,针对给定的时标变化因子对输入语音信号进行时标变化。
在本发明的另一方面,使用语音压缩、具有至少一个发送器基站和多个选择呼叫接收器的通信系统包括一个使用WSOLA-SD技术和正交幅度调制技术压缩音频信号以提供经过处理的信号的处理设备;和一个发送经过处理的信号的正交幅度调制发送器。在多个选择呼叫接收器中的每一个上,一个选择呼叫接收器模块接收被发送的处理信号,一个处理设备使用正交幅度解调技术和WSOLA-SD扩展技术对接收的处理信号进行解调以提供一个重构信号。
在本发明的另一方面,接收压缩语音信号的选择呼叫接收器包括一个接收被发送的处理信号的选择呼叫接收器,一个使用单边带解调技术和WSOLA-SD扩展技术对接收的处理信号进行解调以提供重构信号的处理设备。
在本发明的另一方面,一个使用基于波形相似性的叠加技术(WSOLA)的改进版本进行语音时标或频标修正的电子设备包括一个存储一部分输入语音信号的存储器,一个分析该部分输入语音以提供估测音调值,并且根据估测的音调值确定出分段长度的处理器,和一个根据所确定的分段长度对输入语音信号进行时标变化或频率定标的设备。


图1是基于本发明的一个语音通信系统的模块图。
图2是基于本发明的一个基站发送器的模块图。
图3是基于本发明的一个基站发送器的扩展电路模块图。
图4是基于本发明的另一个基站发送器的扩展电路模块图。
图5是基于本发明的一个基站发送器的语音处理,编码和调制部分的模块图。
图6是基于本发明的一个6单边带信号发送器的频谱分析器输出。
图7是基于本发明的一个选择呼叫接收器的扩展电路模块图。
图8是基于本发明的另一个选择呼叫接收器的扩展电路模块图。
图9是基于本发明的另一个选择呼叫接收器的扩展电路模块图。
图10是说明基于本发明的带外信令协议的传输格式的时序图。
图11是说明基于本发明的带外信令协议的传输格式,其中包括一个语音帧的细节内容的时序图。
图12是图示基于本发明的带外信令协议的一个控制帧和两个模拟帧的另一个时序图。
图13-17图示了针对基于本发明的WSOLA时标变化(压缩)方法的几次迭代的时序图。
图18-22图示了针对基于本发明的WSOLA-SD时标变化(压缩)方法的几次迭代的时序图。
图23-24图示了针对基于本发明的WSOLA-SD时标变化(扩展)方法的几次迭代的时序图。
图25图示了关于基于本发明的整个WSOLA-SD时标变化方法的模块图。
参照图1,在选择呼叫系统100的模块图中说明了图示本发明的语音压缩和扩展技术的通信系统,其中选择呼叫系统100包括一个接收音频信号,诸如电话114的输入设备,从该设备产生基于语音的选择呼叫以便发送到系统100中的选择呼叫接收器。通过电话114(或其它诸如计算机的输入设备)进入的各选择呼叫通常包括(a)系统中至少一个选择呼叫接收器的接收器地址和(b)一个语音消息。所产生的选择呼叫通常被提供给一个发送器基站或一个选择呼叫终端113以便进行格式化和排队。终端113的语音压缩电路101用于压缩所提供的语音消息的时间长度(在下面对图2,3和4的描述中讨论这种语音压缩电路101的详细操作)。语音压缩电路101最好包含一个处理设备,该设备使用时标变化技术和单边带调制技术压缩音频信号以便提供经过处理的信号。接着选择呼叫被输入到选择呼叫发送器102,在该发送器中对通过天线103发送的射频信号进行调制。发送器最好是一个发送经过处理的信号的正交幅度调制发送器。
选择呼叫接收器112中的天线104接收经过调制的发送射频信号,并且把该信号输入到接收经过处理的信号或射频信号的选择呼叫接收器模型或射频接收器模型105,其中射频信号被解调并且接收器地址和压缩语音消息调制被恢复。接着压缩语音消息被提供给一个模数转换器(A/D)115。选择呼叫接收器112最好包含一个处理设备,该设备使用单边带解调技术和时标变化扩展技术解调所接收的处理信号以便提供一个重构信号。接着压缩语音消息被提供给语音扩展电路106,该电路把语音消息的时间长度扩展到期望的值上(在下面图7和8的描述中详细讨论本发明中使用的语音扩展电路106的操作)。接着语音消息被提供给一个诸如音频放大器108的放大器以便把该消息放大成重构音频信号。
解调接收器地址被从射频接收器105提供给解码器107。如果接收器地址与解码器107中存储的任一接收器地址相匹配,则激活报警器111,向选择呼叫接收器112的用户提供简略的感觉指示,表明已经接收到一个选择呼叫。简略的感觉指示可以包括听觉信号,诸如振动的触觉信号,或诸如光的视觉信号,或各种信号的组合。放大后的语音消息接着被从音频放大器108提供给报警器111中的音频扬声器以便通知消息并由用户查询消息。
解码器107可以包括一个存储器,在该存储器中可以存储并反复调出所接收的语音消息以便通过激活一个或多个控制器110来进行查询。
在本发明的另一方面,图1的各部分可以被等价地解释成录音电话设备,语音邮件系统,应答机或声道编辑设备的相应部分。通过去除系统100中包括选择呼叫发送器102和射频接收器105的无线特性,如破折线所示,可以通过A/D115从语音压缩电路101把系统硬连接到语音扩展电路106。这样,在语音邮件,应答机,声道编辑或录音电话系统中,输入设备114会向具有语音压缩电路101的终端113提供诸如语音信号的声频输入信号。语音扩展电路106和控制器110会提供侦听和变换在语音邮件,应答机,录音电话,声道编辑或其它可应用的系统中的输出语音信号的手段。本发明清楚地表明除了寻呼之外,本发明的时标变化技术还具有许多其它的应用。这里所公开的寻呼例子只是为了说明这些应用中的一个。
现在参照图2,其中说明了寻呼发送器102和终端113的模块图,终端113包含一个振幅压缩和滤波模块150,该模块与一个时间压缩模块160相连,而时间压缩模块160与选择呼叫发送器102相连并且使用天线装置或天线103发送消息。参照图3和4,其中说明了图2的模块图的低层模块图。
请记住,通过使用正交幅度调制(QAM)或单边带(SSB)调制和语音信号时标变化的基本概念,这种压缩语音寻呼系统具有高带宽效率并且在每个25kHz信道上通常支持6到30个语音消息。在第一实施例中,并且还参照图6,压缩语音信道或语音通信资源最好包含3个相隔6250Hz的子信道。各子信道包括2个边带和一个导频载波。在第一方法中,两个边带可以具有相同的消息,在第二方法中,两个边带可以分别具有不同的语音消息,或者是把单个消息分割在上边带和下边带之间(正如所期望和设计的那样,都涉及到相同或不同的接收器)。单个的子信道的带宽实际上有6250Hz,其中各边带占有3125Hz的带宽。实际的语音带宽为300-2800Hz。任意地,可以使用正交幅度调制,其中通过信号的I和Q分量直接发送两个独立的信号以构成各个子信道信号。进行这种传输所需的带宽与在QAM和SSB的情况下所需的相同。
注意,图2中的模块150和160可以被不同的语音信号反复使用(在25KHz宽的信道中为6次,而在50KHz宽的信道中为14次),从而允许高效率地同时传输(在所示的例子中达到6)语音消息。接着可以在一个累加设备(未示出,但在图5中可以看到)中累加所有这些边带,并且最好是在102中把这些边带当作一个复合信号来处理。一个分离信号(未示出)包含FLEXTM协议(将在下面描述)FM调制,这种调制可以通过软件来完成,或者是通过硬件FM信号激励器来完成。
在这里说明的例子中,最好是由终端113接收一个输入语音消息。本系统最好是使用时标变化方案或技术来进行所需的压缩。本发明中使用的最优压缩技术需要某些特定于输入消息的参数以便提供最佳的质量。时标压缩技术把语音信号处理成与未压缩的语音具有相同的带宽特征的信号。(一旦计算出这些参数,则使用期望的时标变化压缩技术压缩语音)。接着使用一个数字编码器对这种时标变化压缩语音进行编码,以便减少需要分配到发送器的位数。在寻呼系统的情况下,为了进一步进行诸如振幅压缩的处理,需要再次对编码语音进行解码,其中编码语音被分配到同时广播寻呼系统中多个同时广播站点的发送器上。在发送器上对输入语音信号进行振幅压缩(最好是使用音节压缩扩展器)以防止信道损耗。
被称作基于波形相似性的叠加技术或WSOLA的一种时标变化技术把语音编码成与未压缩的语音具有相同的带宽特征的模拟信号。WSOLA的性质允许把该技术与SSB或QAM调制混合使用,使得所得到的总压缩(compression)就是多个QAM或SSB子信道(在本例中为6个语音信道)的带宽压缩比与WSOLA的时间压缩比(通常介于1和5之间)的乘积。在本发明中,使用一种将在下面描述并被称作“WSOLA-SD”的WSOLA改进版本。WSOLA-SD保留了WSOLA允许与SSB或QAM调制混合使用的兼容性特征。
最好是使用一个自适应差分脉冲编码调制编码器(ADPCM)把语音编码成被分配到发送器上的数据。在发送器上,对数字数据进行解码以得到WSOLA-SD压缩语音,该语音接着被进行振幅压缩扩展以防止信道噪声。对该信号进行希尔伯特变换以得到一个单边带信号。也可以对该信号进行正交调制以得到QAM信号。接着把一个导频载波加到信号中,并且把最终的信号内插到16kHz的采样速率上并且转换成模拟信号。接着对该信号进行调制和发送。
本发明可以用一种混合模式(语音或数字)操作单向或双向通信系统,把模拟语音和/或数字消息传递到前向信道(从基发送器向外)的选择呼叫接收器单元上,并且接收来自相同的选择呼叫接收器单元的确认,其中选择呼叫接收器单元在一个可选的反向信道(向内到达一个基接收器)上额外具有一个可选的发送器。本发明的系统在前向信道上使用一个与FLEXTM(由摩托罗拉制定的高速寻呼协议,这里参考引用的美国专利第5,282,205号的主题)类似的同步帧结构以便进行寻址和语音消息传输。使用了两种类型帧控制帧和语音帧。控制帧被用于寻址和传递数字数据到达具有便携语音单元(PVU)的形式的选择呼叫接收器。语音帧被用来向PVU传递模拟语音消息。两种类型帧在长度上均与标准的FLEXTM帧相同,并且这两种帧都是从标准FLEXTM帧同步开始。这两种帧在一个单独的前向信道上被时分多路复用。下面参照图10,11和12更详细地讨论本发明的帧结构。
对于调制而言,在本发明的前向信道上最好使用两种类型的调制数字FM(2阶和4阶FSK)和AM(SSB或具有导频载波的QAM)。数字FM调制被用于两种帧的同步部分,及控制帧的地址与数据字段。AM调制(各边带可以被独立或混合地用在单独一个消息上)被用于语音帧的语音消息字段。传输的数字FM部分支持6400BPS(3200波特符号)信令。传输的AM部分支持限带语音(2800Hz)并且一对语音信号需要6.25KHz。如下所述,通过把整个信道分割成6.25KHz子信道并且把各子信道和AM边带用于独立的消息,协议利用了缩减的AM带宽。
本发明的语音系统最好被设计成在25KHz或50KHz前向信道上进行操作,但其它长度的频谱也在本发明的考虑之内。一个25KHz前向信道在控制帧内支持一个单独的FM控制信号,并且在语音帧的消息部分中支持3个AM子信道(6个独立信号)。一个50KHz前向信道在控制帧中支持两个以时间锁定方式操作的FM控制信号,并且在语音帧的消息部分中支持7个AM子信道(14个独立信号)。当然,使用不同长度的带宽,不同数量的子信道和信号的结构也在本发明的考虑之内。这里公开的例子只是说明和指出权利要求书潜在的广阔范围。
除了通过调制和频谱子信道化得到的频谱效率之外,在另一个实施例中,本发明可以使用一种以1至5倍的因子对语音进行时标变化的与发话人相关的语音压缩技术。通过使用相同消息或不同消息的不同部分的子信道的两个AM边带(可选地,两个QAM分量),每个子信道的总压缩系数为2至10倍。语音质量通常按一个不断增加的时间压缩系数下降。在本发明的语音系统中最优使用的压缩技术是上述被称作基于波形相似性的叠加技术(WSOLA)的时标变化技术的改进形式。WSOLA的改进形式依赖于具体的发话人或所使用的话音,因而下面要讨论的“WSOLA-SD”表示“WSOLA-与发话人相关”。
当反向(向内到达基接收器)信道可用时本发明的操作得到增强。操作的频分单工模式是一个被支持的入站操作模式。(均被授权给本发明的被授权人,摩托罗拉美国专利第4,875,038号和4,882,579号说明了多个确认信号在一个入站信道上的使用,并且上述专利在这里被参考引用)。在频分单工模式下,提供单独的专用信道(通常与出站信道配对)进行入站传输。在12.5KHz的信道带宽内考虑使用800至9600BPS的入站数据速率。
根据反向信道的可用性可以在几种模式中的一个模式上操作本发明的系统。当没有可用的反向信道时,最好是以同时广播模式操作系统进行寻址和语音消息传输。当提供一个反向信道时,可以在指定目标消息模式下操作系统,使得只在位于便携语音单元附近单独一个或一组发送器上广播消息。指定目标消息模式的特征在于同时广播寻址以确定便携语音单元的位置。反向信道上便携语音单元的响应提供出了位置,随后是针对便携语音单元的本地化消息传输。指定目标消息操作模式的优点在于提供了重用子信道的机会;并且这种操作模式可以在许多大型系统中增加系统容量。
图3图示了基于本发明的发送器300的第一实施例的模块图。模拟语音信号被输入到一个抗混淆低通滤波器301,该滤波器强烈衰减所有高于模数转换器(ADC)303的一半采样速率的频率,而该转换器303则与滤波器301相连。ADC303把模拟语音信号转换成数字信号,使得能够使用数字处理技术进行进一步的信号处理。数字处理是最优模式,但通过模拟技术或模拟与数字技术的组合也可以实现相同的功能。
与ADC303相连的带通滤波器305强烈衰减处在其截止频率之下和之上的频率。低截止频率最好是300Hz,该频率允许有效的语音频率通过,但衰减较低的会干扰导频载波的频率。高截止频率最好是2800Hz,该频率允许有效的语音频率通过,但衰减较高的会干扰相邻传输信道的频率。最好与滤波器305相连的自动增益控制(AGC)模块307均衡不同语音的音量水平。
最好与AGC模块307相连的时间压缩模块309缩短了传输语音信号所需的时间,同时在带通滤波器305的输出上基本保持相同的信号频谱。时间压缩方法最好是WSOLA-SD(将在下面解释),但也可以使用其它的方法。振幅压缩模块311和接收器700(图7)中对应的振幅扩展模块720构成压缩扩展设备,该设备增加接收语音的视在(apparent)信噪比。压缩扩展比以分贝为单位最好是2比1,但根据本发明也可以使用其它的比率。在诸如寻呼系统的通信系统具体实例中,设备301-309可以被包含在寻呼终端(图1的113)中,并且图3中其余的分量可以构成一个寻呼发送器(图1的102)。在这样的情况下,通常在寻呼终端和寻呼发送器之间有一个数字链路。例如,可以使用脉冲编码调制(PCM)技术对模块309之后的信号进行编码,并接着使用PCM进行解码以减少在寻呼终端和寻呼发送器之间传输的位数。
不管怎样,与振幅压缩模块311相连的第二带通滤波器308强烈衰减在其截止频率之下和之上的频率,从而消除任何由AGC307,时间压缩模块309或振幅压缩模块311产生的伪频率分量。低截止频率最好是300Hz,该频率允许有效的语音频率通过,但衰减较低的会干扰导频载波的频率。高截止频率最好是2800Hz,该频率允许有效的语音频率通过,但衰减较高的会干扰相邻传输信道的频率。
时间压缩语音样本最好被存储在缓冲区313中,直到已经处理完整个语音消息。这样就允许完整发送时间压缩语音消息。这种缓冲方法最好被用于寻呼服务(通常是非实时服务)。其它的缓冲方法对于其它的应用而言可能是最优的。例如,对于一个涉及双向实时对话的应用,这种缓冲所导致的延迟是不可忍受的。在这种情况下最好是把几个对话的小片段交叉起来。例如,如果时间压缩比为3∶1,则通过单独一个信道可以发送3个实时语音信号。3个传输可以在信道上以150毫秒脉冲串的形式相互交叉,并且所导致的延迟是可以接受的。来自缓冲区313的时间压缩语音信号被提供给希尔伯特变换滤波器323和时间延迟模块315,该模块与希尔伯特变换滤波器具有相同的延迟,但在延迟不同时也不会影响到信号。
时间延迟模块315的输出(通过累加电路317)和希尔伯特变换滤波器323的输出分别构成一个上边带(USB)单边带(SSB)信号的同相(I)和正交(Q)分量。时间延迟的输出和希尔伯特变换滤波器的负输出(325)分别构成一个下边带(LSB)单边带(SSB)信号的同相(I)和正交(Q)分量。这样,如点线连接所示,可以在上边带或下边带上进行传输。
通过使用另一个类似的在低边带上操作的发送器,当在使用上边带发送一个时间压缩语音信号时,可以使用下边带同时发送第二个时间压缩语音信号。由于有效利用了传输带宽并且有抗串扰能力,SSB是最优的调制方法。可以使用双边带调幅(AM)或调频(FM),但需要至少两倍的带宽以进行传输。也可以通过I分量直接发送一个时间压缩语音信号,并且通过Q分量直接发送第二个时间压缩语音信号,但是在本实施例中,当在接收器上发生多路径接收时,本方法会在两个信号之间产生串扰。
一个直流(DC)信号被加到信号的I分量上以产生导频载波,该直流信号与信号一起被发送出去,并且被接收器(700)用来消除传输信道中的增益效应,相位改变或衰减。信号的I和Q分量分别被数模转换器(DAC)319和327转换成模拟形式。接着两个信号分别被低通重构滤波器321和329滤波以消除数模转换处理过程产生的伪频率分量。正交幅度调制(QAM)调制器333把I和Q信号调制成具有低功率电平的射频(RF)载波。其它的诸如直接合成调制信号的调制方法也可以象DAC(319和327),重构滤波器(321和329)和QAM调制器333那样达到相同的目的。最后,线性RF功率放大器335把调制RF信号放大到期望的功率电平,通常为50瓦或更多。接着,RF功率放大器335的输出被接通到发送天线。其它的改变基本上可以产生相同的结果。例如,在时间压缩之前可以进行振幅压缩,或者均加以省略,而设备则仍然执行基本相同的功能。
图4图示了基于本发明的发送器400的第二实施例的模块图。在图4中,上边带和下边带均被用来同时发送相同时间压缩信号的不同部分。发送器400最好包括如图3所示的那样连接和配置的一个抗混淆滤波器404,一个ADC403,一个带通滤波器405,一个AGC407,一个时间压缩模块409,一个振幅压缩模块411,和一个带通滤波器408。图4的发送器的操作与图3中的始终相同,直到整个语音消息已经被处理并且被存储在缓冲区413中。接着存储在缓冲区413中的时间压缩语音样本被加以分割,从而在上边带或下边带上被发送出去。最好是通过一个边带发送第一半时间压缩语音消息,并且通过其它的边带(或直接在I和Q分量上)发送第二半时间压缩语音消息。
来自缓冲区413的第一部分时间压缩语音信号被提供给第一希尔伯特变换滤波器423和第一时间延迟模块415,该模块与希尔伯特变换滤波器具有相同的延迟,但在延迟不同时也不会影响到信号。第一时间延迟模块的输出(通过累加电路417)和第一希尔伯特变换滤波器423的输出(通过累加电路465)是同相(I)和正交(Q)信号分量,当与QAM调制器的I和Q输入相连时,这些分量产生具有只来自第一部分时间压缩语音样本的信息的上边带信号。来自缓冲区413的第二部分时间压缩语音信号被提供给第二希尔伯特变换滤波器461和第二时间延迟模块457,该模块与希尔伯特变换滤波器具有相同的延迟,但在延迟不同时也不会影响到信号。第二时间延迟分量的输出(通过累加电路459和417)和第二希尔伯特变换滤波器461的负输出(463)(并且再次通过累加电路465)是同相(I)和正交相位(Q)信号分量,当与QAM调制器的I和Q输入相连时,这些分量产生具有只来自第二部分时间压缩语音样本的信息的上边带信号。上边带和下边带的I分量被加上一个DC导频载波分量(通过累加电路459),从而构成一个复合I分量以进行传输。上边带和下边带信号的Q分量被相加(通过累加电路465),从而构成一个复合Q分量以进行传输。可以理解单元415,423,457,461,417,459,463,465,419,427,421和429构成一个预处理器,该预处理器产生预处理I和Q信号分量,当与QAM调制器453相连时,这些分量产生具有一个副载波FA的低电平子信道信号,该信号具有两个单边带信号,而单边带信号在各边带上具有独立的信息。
发送器400还包括如图3描述的那样排列和构造的DAC419和427,重构滤波器421和429,QAM调制器433和RF功率放大器455。图4的发送器的其余部分的操作与图3中的相同。
在图3和4的发送器300和400中,最好是只有抗混淆滤波器,重构滤波器,RF功率放大器和可选的模数转换器与数模转换器是分立的硬件分量。设备的其余部分最好是能够融入可以在处理器上运行的软件之中,其中处理器最好是一个数字信号处理器。
图7图示了基于本发明的接收器700的模块图,该接收器最好是与图3的发送器配合操作。一个接收天线与接收器模块702相连。接收器模块702包括常规接收器单元,例如RF放大器,混合器,带通滤波器和中频(IF)放大器(未示出)。QAM解调器704检测接收信号的I和Q分量。模数转换器(ADC)706把I和Q分量转换成数字形式以便进行进一步的处理。数字处理是最优方法,但利用模拟技术或模拟与数字技术的组合也可以实现相同的功能。象QAM解调器704和ADC706那样,其它的诸如sigma-delta转换器的解调方法或直接数字解调方法可以达到相同的目的。
前向反馈自动增益控制(AGC)模块708把导频载波用作一个相位和振幅参考信号以便基本消除在传输信道中出现的振幅和相位畸变效应,其中导频载波和时间压缩语音信号一起发送。前向反馈自动增益控制的输出是接收信号的校正I和Q分量。校正Q分量被提供给希尔伯特变换滤波器712,而校正I分量被提供给时间延迟模块710,该模块与希尔伯特变换滤波器712具有相同的延迟,但在延迟不同时也不会影响到信号。
如果在上边带上发送时间压缩语音信号,则把希尔伯特变换滤波器712的输出加到(通过累加电路714)时间延迟模块710的输出上面,从而产生复原时间压缩语音信号。如果在下边带上发送时间压缩语音信号,则把希尔伯特变换滤波器712的输出从时间延迟模块710的输出中减掉(716),从而产生复原时间压缩语音信号。复原时间压缩语音信号最好被存储在缓冲区718中,直到整个消息已被接收。其它的缓冲方法也是可以的。(参见对图3的讨论。)振幅扩展模块720与图3的振幅压缩模块311配合工作完成压缩扩展功能。时间扩展模块722与图3的时间压缩模块309配合工作,并且最好是把语音重构成其自然时间帧(针对通过转换器724的音频输出),或者是重构成其它的应用可能建议的时间帧。一个应用可以有选择地包括向计算设备726传递数字化语音的操作,其中接收器-计算机接口可以是一个PCMCIA或RS-232接口,或者是任何在现有技术中已知的接口。时间压缩方法最好是WSOLA-SD,但也可以使用其它的方法,只要在发送器和接收器中使用了作为补充的方法。其它的结构改变可以产生基本相同的结果。例如,可以在时间压缩之后进行振幅压缩,或者是全部省略,而设备仍然会执行相同的功能。
图8图示了基于本发明的接收器750的模块图,该接收器与图4的发送器400配合操作。图8的接收器包括如图7描述的那样排列和构造的一个天线,接收器模块752,一个QAM调制器754,一个ADC756,一个前向反馈AGC758,一个时间延迟模块760,和一个希尔伯特变换滤波器762。图8的接收器的操作直到时间延迟模块760和希尔伯特变换滤波器762的输出为止均与图7的相同。希尔伯特变换滤波器762的输出被加到时间延迟模块760的输出上(通过累加电路764),从而产生对应于在上边带上发送的第一半语音消息的被复原时间压缩语音信号。从时间延迟模块760的输出中减掉(766)希尔伯特变换滤波器762的输出,从而产生对应于在下边带上发送的第二半语音消息的被复原时间压缩语音信号。
两个恢原时间压缩语音信号被存储在相应的上边带缓冲区和下边带缓冲区768或769中,直到接收到整个消息。接着,对应于第一半消息的信号和对应于第二半消息的信号被提供给振幅扩展模块770。振幅扩展模块770与图4的振幅压缩模块411配合工作以执行压缩扩展功能。
图8的接收器的其余部分的操作与图7类似。时间扩展模块772与图4的时间压缩模块409配合工作,并且最好是把语音重构成其自然时间帧或其它应用建议或需要的时间帧。时间压缩方法最好是WSOLA-SD,但也可以使用其它的方法,只要在发送器和接收器中使用作为补充的方法。其它的结构可以产生基本相同的结果。例如,在时间压缩之后可以进行振幅压缩,或者均加以省略,而设备则仍然执行基本相同的功能。
象图3和4的发送器的实现那样,图7和8的许多分量用软件实现,其中包括,但并不仅限于AGC,单边带或QAM解调器,累加电路,振幅扩展模块,和时间扩展模块。所有其它的分量最好用硬件实现。
如果本发明的语音处理,编码和调制部分被实现成硬件,则可以使用图5的实现。例如,图5的发送器500包括一系列的,被设置到其相应导频载波(581-583)频率上的单边带激励器对(571-576)。激励器571-576和导频载波581-583对应于各个语音处理路径。所有这些信号,包括来自FM信号激励器577(针对用于此前描述的同步,地址和数据字段的数字FM调制)的信号会被馈送到累加放大器570,该信号接着被一个线性放大器580放大并被发送出去。FM激励器577的低电平输出也在累加放大器570中被线性混合。累加放大器570的复合输出信号被线性RF功率放大器580放大到期望的功率电平,通常为50瓦或更多。线性RF功率放大器580的输出接着被连接到发送天线。
其它装置也可以被用来混合几个子信道的信号。例如,在图4的417和465的输出上得到的几个数字基带I和Q信号可以被频率转换到其相应的副载波偏移频率上,以数字形式被加以混合,并且接着被转换成模拟形式以便调制到载波频率上。
参照图9,其中说明了基于本发明的另一个接收器单元900。接收器900另外引入一个检测并解码在FLEXTM信令协议中使用的FM调制控制信号的装置。模块902是接收器前端和FM后端。一个数字自动频率控制器(DAFC)和自动增益控制器(AGC)被引入模块902。模块906包含具有一个支持芯片950的无线处理器,而模块911,914和916包含所有的输出设备。模块904是在处理器906的控制下工作的电池节能器或电池节能电路。模块850是线性解码器,其后跟有一个模数转换器和随机访问存储器(RAM)模块868。接收器模块902最好是一个改进型FM接收器,其中增加了一个如美国专利第5,239,306(授权给本发明的被授权人,并且在这里被参照引用)所述的DAFC,一个为中频(IF)输出提供的AGC,该输出位于接收器最大增益之后,FM解调器之前。
控制Motorola FLEXTM协议兼容寻呼机的相同处理器完全可以处理本发明中所有的协议功能,其中包括FM解调信号的地址识别和消息解码。另外,根据一个FM调制地址(或许还有消息指针码字),处理器906初始化模数转换和RAM模块868的操作。模块868分别或全部采样线性解码器模块850的输出上的I(同相)和Q(正交)线性调制信号。借助一个地址计数器并根据处理器906的控制信号,信号样本被直接写入RAM。
可以把语音当作占有信道上或等价的I或Q信道上的单个语音带宽的SSB信号发送出去。I和Q信号同时占有与两个模拟单边带(SSB)相同的带宽。语音带宽处在2.8KHz的等级上,因而在根据I和Q信道信息恢复出模拟SSB的情况下模数转换器需要大约为6.4KHz的信号采样速率。模数转换器以8位精度(尽管10位是最好的)进行采样。模数转换器进行的直接存储器访问允许使用速度和功率不是信道数据速率的直接函数的处理器。即一个微处理器可被用于直接存储器访问,其中,如果通过微处理器把模数转换数据读到存储器,则需要一个高速率的处理器。
模数转换器(A/D),双端口RAM和地址计数器被组成模块868。第二个RAM I/O端口可以是串行的或并行的,并且以每秒6或12K个样本的速率进行操作。提供第二个RAM I/O端口以便处理器能够抽出采样语音或数据,执行解调功能,并且扩展压缩语音或格式化数据。恢复出的语音通过语音处理器914和转换器916被回放,并且在显示器911上可以显示格式化数据。
再次参照图9,一个扩展电路模块图被用来更详细地描述本发明的双模式通信接收器的接收器操作。以FM调制格式或以线性调制格式(如SSB)调制并且被发送的的信息信号被天线802截听(intercept),该天线把信息信号连接到接收器部分902,尤其是连接到射频(RF)放大器806的输入。消息信息在任何合适的RF信道上被发送出去,例如VHF频段和UHF频段上的信道。RF放大器806放大所接收的信息信号,诸如在930MHz寻呼信道频率上接收的信号,并且把放大的信息信号连接到第一混合器808的输入。在本发明的最优实施例中由频率合成器或本地振荡器810产生的第一振荡信号也被连接到第一混合器808。第一混合器808混合被放大的信息信号和第一振荡信号,从而提供诸如45MHz IF信号的第一中频或IF信号,该信号被连接到第一IF滤波器812的输入。可以理解还能够使用其它的IF频率,尤其是在使用其它寻呼信道频率的情况下。作为在信道信息信号,IF滤波器812的输出被连接到第二转换部分814的输入,下面将会加以详细描述。第二转换部分814使用也由合成器810产生的第二振荡器信号把在信道信息信号混合成诸如455KHz的低中频。第二转换部分814放大所得到的低中频信号,从而提供适于被连接到FM解调器部分908或线性输出部分824的第二IF信号。
接收器部分804以类似于常规FM接收器的方式进行操作,但是与常规FM接收器不同,本发明的接收器部分804包括一个自动频率控制部分816,该部分与第二转换部分814相连,并且适当地采样第二IF信号以便提供一个频率校正信号,该信号被连接到频率合成器810,从而保持接收器调谐到指定的信道。保持接收器调谐对于正确接收以线性调制格式发送的QAM(即I和Q分量)和/或SSB信息是很重要的。利用频率合成器产生第一和第二振荡器频率使得接收器能够在多个操作频率进行操作选择,例如在FLEXTM协议中可以通过编码存储器编程和/或通过无线接收的参数来进行选择。可以理解也可以使用其它的振荡器电路,诸如固定频率振荡器电路,该电路可用来自自动频率控制部分816的频率校正信号进行调整。
一个自动增益控制820也与本发明的双模式接收器的第二转换部分814相连。自动增益控制820估测第二IF信号的样本的能量,并且提供一个被连接到RF放大器806的增益校正信号以维护针对RF放大器806的预定增益。增益校正信号也被连接到第二转换部分814以便维护针对第二转换部分814的预定增益。对RF放大器806和第二转换部分814的增益的维护是正确接收以线性调制格式发送的高速数据信息所需要的,并且还把本发明的双模式接收器与常规FM接收器区分开来。
正如下面要详细描述的,当以FM调制格式发送消息信息或控制数据时,第二IF信号被连接到FM解调器部分908。FM解调器部分908以本领域技术人员所熟悉的方式解调第二IF信号,从而提供复原数据信号,该信号是对应于以FM调制格式发送的接收地址和消息信息的二元信息流。复原数据信号通过输入/输出端口或I/O端口828的一个输入被连接到微计算机906的输入,其功能是充当解码器和控制器。微计算机906提供完全的针对通信接收器900的操作控制,假定这样的功能是解码,消息存储与检索,显示控制,报警等等。设备906最好是一个诸如摩托罗拉制造的MC68HC05微计算机的单片机,并且包含进行操作控制的CPU840。内部总线830连接设备906的各个操作单元。I/O端口828(图9中所示)提供多个控制线和数据线,这些线路提供从诸如电池节能器开关904,音频处理器914,显示器911和数字存储器868的外部电路到设备906的通信。一个诸如定时器834的定时装置被用来产生诸如电池节能器定时,报警定时,消息存储和显示定时的通信接收器操作所需要的定时信号。振荡器832为CPU840提供操作时钟,并且为定时器834提供参考时钟。RAM838被用来存储在执行各种控制通信接收器900的操作的固件指令时使用的信息,并且可以被用来存储诸如数字消息的短消息。ROM836包含用来控制设备906的操作的固件指令,其中包括对复原数据信号进行解码,进行电池节能器控制,在数字存储部分868中进行消息存储与检索,进行寻呼机操作和消息再现的一般控制所需的指令。报警产生器842根据调制信令信息的解码提供一个报警信号。编码存储器910(未示出)通过I/O端口828连接到微计算机906。编码存储器最好是EEPROM(电擦除可编程只读存储器),该存储器存储一个或多个与通信接收器900相对应的预定地址。
当接收到FM调制信令信息时,该信息由设备906以本领域技术人员所熟悉的方式解码,该设备充当一个解码器。当复原数据信号中的信息与存储的任一预定地址相匹配时,对接收信息进行解码以确定是否把以FM调制格式调制的附加信息传递到接收器,或者是否以线性调制格式调制附加信息。正如下面所要详细描述的,当以FM调制格式发送附加信息时,接收复原消息信息并存储在微计算机RAM838或数字存储部分868中,并且为报警产生器842产生一个报警信号。报警信号被连接到驱动转换器916的音频处理电路914,从而产生可以听见的报警音。也可以提供其它形式的诸如触觉或振动报警的可感知报警方式来通知用户。
当以线性调制格式(如SSB或“I和Q”)发送附加信息时,微计算机906对指针信息进行解码。指针信息包含指示在其上混合信道带宽内的边带(或混合I和Q分量)的接收器的信息,其中在该信道带宽内发送附加信息。在发送高速数据期间,设备906维护监视和解码以FM调制格式发送的信号的操作,直到当前一批信息结束,此时对接收器的功率供应暂停,直到下一批指定的信息到达,或者直到指针所标识的一批信息到达。如下所述,设备906通过I/O端口828产生电池节能控制信号,该信号被连接到电池节能控制开关904以暂停对FM解调器908的功率供应,并且向线性输出部分824,线性解调器850和数字存储部分868提供功率。
现在携带SSB(或“I和Q”)信息的第二IF输出信号被连接到线性输出部分824。线性输出部分824的输出被连接到正交检测器850,特别是被连接到第三混合器852的输入。第三本地振荡器也与第三混合器852相连,尽管可以使用其它的频率,但最好是处在35-150KHz的频率范围之内。来自线性输出部分824的信号与第三振荡器信号854相混合,从而在第三混合器852的输出上产生一个第三IF信号,该信号被连接到一个第三IF放大器856。第三IF放大器是一个缓冲来自输入信号的输出信号的低增益放大器。第三输出信号被连接到一个I信道混合器858和一个Q信道混合器860。I/Q振荡器862提供具有第三振荡频率的正交振荡器信号,该信号在I信道混合器858和Q信道混合器860中与第三输出信号混合,从而在混合器输出上提供基带I信道信号和Q信道信号。基带I信道信号被连接到低通滤波器864,而基带Q信道信号被连接到低通滤波器866,从而提供一对表示压缩和扩展语音信号的基带音频信号。
音频信号被连接到数字存储部分868,尤其是被连接到模数转换器870的输入上。A/D转换器870以至少两倍于864和866的最高频率分量的速率对信号进行采样。采样速率最好是每个I和Q信道6.4千赫。可以理解,所指出的数据采样速率只是为了举例,根据所接收的音频消息的带宽可以使用其它的采样速率。
在发送高速数据的批处理期间,微处理器906提供一个被连接到地址计数器872的计数使能信号。A/D转换器870也能够允许对信息符号对进行采样。A/D转换器870产生被用来给地址计数器872提供时钟的高速采样时钟信号,地址计数器接着产生用来通过从转换器870到RAM874的数据线把采样语音信号装入双端口随机访问存储器874的地址。以实时方式高速装入双端口RAM874的语音信号在所有语音信号已被接收后被微计算机加以处理,从而通过不需要微计算机906实时处理信息显著减少了所消耗的能量。微计算机906通过数据线和地址线访问所存储的数据,并且在本发明的最优实施例中,微计算机906处理信息符号对,从而在已经发送字符数字数据的情况下产生ASCII编码信息,或在发送语音的情况下产生数字化采样数据。数字化语音样本可以以其它的,诸如基于BCD,CVSD或LPC形式的格式和所需的类型被加以存储。在时间压缩语音信号的情况下,ADC转换器870采样的I和Q分量通过双端口RAM874和I/O 828被CPU840进一步处理,从而(1)对音频信号进行振幅扩展并且(2)以类似于图7和8的接收器的操作方式对信号进行时间扩展。接着语音再次被存储在RAM874中。ASCII编码或语音数据被存储在双端口RAM中直到通信接收器用户请求再现信息。用户通过使用开关(未示出)选择和读出存储消息来恢复出所存储的ASCII编码数据。当读取所存储的ASCII编码消息时,用户选择要读取的消息并触发一个使微计算机906能够复原数据的读开关,并且把复原的数据提供给诸如液晶显示器的显示器911。当要读取语音消息时,用户选择要读取的消息并触发一个使微计算机906能够从双端口RAM复原数据的读开关,并且把复原的数据提供给音频处理器914,该处理器把数字语音信息转换成模拟语音信号,该信号被连接到一个扬声器916以便把语音消息再现给用户。如上所述,微计算机906也可以产生频率选择信号,从而能够选择不同的频率,其中该信号被连接到频率合成器810。
参照图10,其中说明了一个基于本发明的最优实施例的时序图,该示了关于图1的无线通信系统100所使用的出站信令的FLEXTM编码格式的特性,其中包括控制帧的细节。控制帧也被分类成数字帧。信令协议被分割成协议段,各协议段分别是一个小时310,一个周期320,帧330,430,一个模块340和一个字350。每个小时310发送多达十五个唯一标识的4分钟周期。通常,每小时发送所有十五个周期320。在每个周期320内发送多达128个唯一标识的1.875秒帧,其中包括数字帧330和模拟帧430。通常发送所有128个帧。在每个控制帧330中发送延续115毫秒的一个同步与帧信息信号331,和11个唯一标识的160毫秒模块340。在各控制帧330期间最好使用3200位每秒(bps)或6400bps的位速率。在同步信号331期间各控制帧330中的位速率被传输到选择呼叫无线单元106。如图10所示,当位速率为3200bps时,在各模块340中包含16个唯一标识的32位字。当位速率为6400bps时,在各模块340中包含32个唯一标识的32位字(未示出)。在各字中,通过本领域普通技术人员所熟悉的方式,至少有11个位被用于检错和纠错,而21位或更少的位被用于信息。使用本领域普通技术人员所熟悉的技术,以交叉方式发送各模块340中的位和字350,从而改进协议的纠错能力。
信息被包含在各控制帧330的信息字段中,其中包括模块信息字段(B)332中的帧结构信息,地址字段(AF)333中的一或多个选择呼叫地址,以及向量字段(VF)334中的一或多个向量。向量字段334从向量边界334开始。向量字段334中的各向量对应于地址字段333中的一个地址。模块信息字段332定义信息字段332,333,334的边界。根据诸如同步和帧信息字段331中包含的系统信息类型,地址字段333中包含的地址数量和向量字段334中包含的向量的数量和类型的因素,信息字段332,333,334是可变的。
参照图11,其中说明了一个基于本发明最优实施例的时序图,该示了图1的无线通信系统所使用的出站信令协议传输格式的特性,其中包括语音帧430的细节。语音帧在此也被分类成模拟帧。协议段小时310,周期320和帧330,430的时延与针对图10中的控制帧所描述的相同。各模拟帧430具有一个帧头部分435和一个模拟部分440。同步和帧信息信号331中的信息与控制帧330中的同步信号331相同。如上所述,帧头部分435被调频,而帧430的模拟部分440被调幅。在帧头部分435和模拟部分440之间存在一个过渡部分444。根据本发明的最优实施例,过渡部分包括针对多达三个子信道的调幅导频副载波441,442,443。模拟部分440图示了被同时发送的三个子信道441,442和443,各子信道均包含一个上边带信号401和一个下边带信号402(可选地,一个同相信号和一个正交信号)。在图11所示的例子中,上边带信号401包含一个消息片段415,该片段是第一模拟消息的第一片段。下边带信号402包含四个质量评估信号420,422,424,426,四个消息段410,412,416,418,和一个分段414(在本例中未用)。两个分段410,412是第一模拟消息的第二片段的分段。两个分段416,418是第二模拟消息的第一片段的分段。第一和第二模拟消息是压缩语音信号,该信号被分段以便被包含在320的周期2的帧一430的第一子信道441中。第一消息的第二片段和第二消息的第一片段均被分割以便包含一个质量评估信号420,426,这种分割在三个子信道441,442,443中的每一个中的下边带402中预定位置上重复进行。包含在模拟帧中的消息的最小分段被定义成语音增量450,其中在模拟帧430的各模拟部分440中有88个唯一标识的语音增量。质量评估信号最好被发送成未调制的副载波导频信号,最好是延时一个语音增量,并且最好是在一帧的模拟部分内具有不超过420毫秒的间隔。可以理解在两个质量评估信号之间会出现多于一个的消息片段,并且消息片段通常以语音增量的整长度改变。
参照图12,其中说明了一个基于本发明的最优实施例的时序图,该时序示了图1的无线通信系统使用的出站信令协议的一个控制帧330和两个模拟帧。图12说明了关于作为一个控制帧330的帧0(图10)的例子。其中图示了四个地址510,511,512,513和四个向量520,521,522,523。两个地址510,511包含一个选择呼叫无线106地址,另两个地址512,513则针对第二和第三选择呼叫无线106。通过在各地址中包含一个指示对应向量的协议位置(即向量从那里开始并且有多长)的指针,各地址510,511,512,513与向量520,521,522,523中的一个唯一相关。
在图12所示的例子中,向量520,521,522,523也与一个子信道中的一个消息部分唯一相关。具体地,向量520可以指向子信道441(见图11)的一个上边带,而向量522可以指向子信道441的一个下边带。类似地,向量521可以指向子信道442的两个边带。即,在子信道的情况下,该例子可以说明上边带和下边带传递了两个不同的消息部分。在子信道442的情况下,上边带和下边带分别传递了一个消息部分的两半。这样,向量最好包含指示接收器应当在哪个子信道上查找消息的信息,和指示是否从子信道恢复出两个分别的消息,或者是否恢复出单个消息的第一半和第二半的信息。
通过上边带和下边带(或I和Q信道)同时发送两个不同的消息的实施例的一种用法是一个消息是直接语音寻呼消息,另一个是存储在寻呼机中的语音邮箱消息。
根据本发明的最优实施例,通过识别在向量开始的向量边界335之后的字350的数量和向量的以字为单位的长度来提供出向量位置。可以理解地址和向量的相对位置是彼此独立的。图中的箭头说明了其中的关系。通过在各向量中包含一个指示对应向量的协议位置(即向量从那里开始并且有多长)的指针,各向量520,521,522,523与消息片段550,551,552,553中的一个唯一相关。根据本发明的最优实施例,通过识别帧430的号数(从1到127),子信道441,442,443的号数(从一到三),消息片段开始的边带401,402(或者是I或Q)与语音增量450,和以语音增量450为单位的消息片段长度来提供出消息片段位置。例如,向量三522包含指示消息二,片段一552位于帧一560的语音增量四十六450(在图12中未标出语音增量450)的开始处的信息,其中消息二,片段一552是针对具有选择呼叫地址512的选择呼叫收发器106,而向量十三523包含指示消息九,片段一553位于帧五561的语音增量零450(在图12中未标出语音增量450)的开始处的信息,其中消息九,片段一553是针对具有选择呼叫地址513的选择呼叫收发器106。
可以理解,尽管根据本发明的最优实施例描述了语音信号,但本发明也可以兼容其它的诸如调制解调器信号或双音多频(DTMF)信号的模拟信号。也应当理解此前描述的帧结构中使用的模块信息可被用来实现进一步的加强,从而允许更高的通信系统总吞吐量和附加的特性。例如,一个发送到便携语音单元的消息可以请求向系统回送一个确认信号,该信号包含标识从中接收其消息的发送器的信息。这样,以这种方式,通过使用一个发送器向给定的便携语音单元发送需要到达该便携语音单元的消息,可以实现同时广播系统中的频率重用。另外,一旦系统知道了便携语音单元的位置,那么自然就实现了目标消息传输。
根据本发明的另一方面,当与本发明配合使用时,前面被描述成WSOLA的时标变化技术具有一些固有的缺点。因而,开发一种技术把WSOLA改进成与发话人相关的并且被称作“WSOLA-SD”。为了进一步理解对构成WSOLA-SD的WSOLA的改进,下面简单描述一下WSOLA。
与其它技术相比,被称作基于波形相似性的叠加技术(WSOLA)的一种技术可以实现高质量的时标改进,并且比其它的方法更简单。当用于加速或减慢语音时,即使是使用WSOLA技术,语音质量也不会很好。重构语音包含许多类似回声,金属音和背景反射声的人工声音。本发明的这个方面描述了几种克服该问题并最小化人工声音的改进。需要优化WSOLA算法中的许多参数以获得对于指定发话人和所需压缩/扩展或时标变化系数而言尽可能最优的质量。本发明的这个方面涉及确定那些参数和如何把它们引入语音信号的压缩/扩展或时标变化以改进复原语音或语音信号的质量。
WSOLA算法令x(n)为要修正的输入语音信号,y(n)为时标修正信号而α是时标变化参数。如果α小于1,则及时扩展语音信号。如果α大于1,则及时压缩语音信号。
参照图13-17,为了与本发明的WSOLA-SD的最优方法比较,其中说明了针对WSOLA时标变化(压缩)方法的几次迭代的时序图。假定输入语音信号被数字化和存储,图13图示了WSOLA方法对未压缩语音输入信号的第一次迭代。WSOLA方法需要一个时标系数α(在此例中假定等于2,如果α>1则压缩,如果α<1则扩展)和一个随机分析分段长度(Ss),该长度独立于输入语音特性,尤其是独立于音调。叠加分段长度So被计算成0.5*Ss并且在WSOLA中是固定的。第一Ss样本被直接复制到如图14所示的输出上。令输出中最后的样本的索引为Ifl。根据输出中最后可用样本的结束,叠加索引O1被确定成Ss/2个样本。现在应被叠加的样本处在O1和Ifl之间。搜寻索引(S1)被确定成α*O1。在输入信号的初始部分被复制到输出上之后,确定来自输入的样本的移动窗口。该窗口被确定在搜寻索引S1的附近。令窗口的开始为Si-Loffset而结束为Si+Hoffset。在第一次迭代中i=1。在窗口中,使用由下式给出的归一化互相关等式确定最优相关So样本等式,29页27行确定延迟k=m,此时归一化R(k)为最大。最优索引Bi由Si+m给定。注意可以使用类似平均幅差函数(AMDF)和其它相关函数的其它方案来寻找最优匹配波形。在B1开始的So样本接着与一个上升斜坡函数相乘(尽管可以使用其它的加权函数),并且被加到输出中的最后So样本上。在相加之前,输出中的So样本与一个下降斜坡函数相乘。相加所得到的样本将替换输入中的最后样本。最后,紧随当前最优匹配So样本的下一个So样本被复制到输出的未端以便用于下一次迭代。这是WSOLA中第一次迭代的结束。
参照针对下一次迭代的图15和16,需要计算类似于O1的新的叠加索引O2。类似地,象在前面的迭代中所作的那样确定出新的搜寻索引S2和相应的搜寻窗口。在搜寻窗口内,使用上述互相关等式确定最优相关So样本,其中最优样本的开始确定为B2。在B2开始的So样本与一个上升斜坡函数相乘,并且被加到输出中的最后So样本中。在相加之前,输出中的So样本与一个下降斜坡函数相乘。相加所得到的样本将替换输入中的最后样本。最后,紧随当前最优匹配So样本的下一个So样本被复制到输出的未端以便用于下一次迭代,其中未来的第i次迭代会具有叠加索引Oi,搜寻索引Si,输出Ifi中的最后样本和最优索引Bi。
图17说明了根据前面针对图13-16所描述的两次迭代所得到的输出。应当注意在两次迭代之间所得到的输出信号中没有重叠。如果以类似的方式连续使用该方法,WSOLA方法会对整个语音信号进行时标变化(压缩),但在各次迭代的结果之间不会有任何重叠。同样以类似的方式进行WSOLA时标扩展。
通过本发明(WSOLA-SD)的最优实施例,WSOLA的几个不足或缺点变得清楚了。当你见到图18-23说明的WSOLA-SD方法的例子时应当记起这些不足。WSOLA的基本不足包括因为把固定分析分段长度(Ss)用于所有输入并且不管音调特征如何,从而导致不能得到最优的时标变化语音质量。例如,如果Ss对于输入语音信号显得过大,则在扩展时得到的语音会包含回声和反射。并且,如果Ss对于输入语音信号显得过小,则在扩展时得到的语音会听起来很刺耳。
当压缩率(α)大于2时出现WSOLA的第二个显著不足。在这种情况下,迭代之间的移动窗口间隔会使方法越过明显的输入语音分量,从而严重影响所得到的输出语音的可理解性。在迭代期间增加移动窗口的长度以补偿非重叠搜寻窗口会导致进一步越过某此作为互相关函数的结果的输入语音,并且还导致显著影响所得到的输出语音的可变时标变化。
WSOLA方法的第三个不足涉及该方法不能针对给定的具有指定约束的系统为设计者或用户提供语音质量和计算复杂性方面的灵活性(针对给定的时标变化系数(α))。因为在WSOLA方法中重叠度(f)被固定在0.5,所以这一点特别明显。这样,在需要高质量语音再现的应用中,假定有足够的处理能力和存储器,本发明的WSOLA-SD方法以增加计算复杂性为代价,能够使用更高的重叠度提供更高质量的语音再现。另一方面,在受到处理能力,存储器或其它约束限制的应用中,在WSOLA-SD中可以降低重叠度,从而在考虑目前的具体应用约束的情况下只把语音质量牺牲到期望的程度。
图25图示了一个关于WSOLA-SD方法的总体模块图。在该模块图中,根据是压缩语音还是扩展语音来计算Ss,f和α。与单纯的WSOLA相比,这种WSOLA-SD算法对再现语音的技术有了更大的改进。WSOLA-SD方法是与发话人相关的,尤其与具体发话人的音调相关。这样,在确定(14)分析分段长度之前进行音调确定12。对于给定的f和α(可以根据音调确定12来修正,提供一个经过修正的alpha(16)),WSOLA-SD对语音进行时标变化(18)。时标变化可以是对输入信号的扩展或压缩。可选地,通过在α>1时以系数α插入时标变化信号,或者在α<1时以系数1/α抽出时标变化信号可以得到频率定标信号。在抽出的情况下,被抽出的信号的采样频率至少应为信号中最有效频率分量的2/α倍。(在α=0.5和最有效频率分量为4000赫兹的情况下,采样速率最好至少为16000赫兹。)正如Oppenheim和Schaefer在《离散时间信号处理》中描述的那样,插入和抽出是数字信号处理中众所周知的技术。例如,假定以8kHz对2秒的输入语音进行采样,其中信号具有在0和4000Hz之间的有效频率分量。假定以系数2对输入语音信号进行时标压缩。所得到的信号长度为1秒,但仍然具有处在0和4000赫兹之间的有效频率分量。信号以α=2的系数被插入(见Oppenheim和Schaefer)。这样会产生2秒长的信号,但频率分量在0和2000赫兹之间。在没有信息损失的情况下,通过以α=2的系数抽出频率压缩信号以得到原始时标变化语音(频率分量在0和4000赫兹之间),可以回到时标域。
参照图18-22,其中说明了基于本发明的WSOLA-SD时标变化(压缩)方法的几次迭代的时序图。假定输入语音信号被恰当地加以数字化和存储,图18图示了使用WSOLA-SD方法对未压缩语音输入信号的第一次迭代。WSOLA-SD方法也需要确定输入语音信号的语音化部分的近似音调周期。下面简要描述音调确定和怎样得到分段长度。1)把输入语音构造成20ms模块。2)计算各模块的能量。3)计算每个模块的平均能量。4)确定能量阀值以便把语音化的语音当作每模块平均能量的函数来检测。5)使用能量阀值确定长度为至少5个模块的语音化语音的相邻模块。6)在步骤5处发现的相邻语音的各个模块上进行音调分析。使用各种方法可以做到这点,其中包括改进自相关方法,AMDF或限幅自相关方法。7)使用中值滤波器对音调值加以平滑,从而消除估测错误。8)对所有的平滑音调值求平均值以得到对发话人音调的近似估测。9)以下述方式计算分段长度Ss。
如果音调P大于60个样本Ss=2*音调如果音调P在40至60个样本之间Ss=120如果P小于40个样本 Ss=100在上述所有情况下假定采样速率为8KHz。一个为WSOLA-SD提供克服前面描述WSOLA时所述的某些不足的优点的临界系数是重叠度f。如果WSOLA-SD中的重叠度f大于0.5,则以更多的复杂性为代价提供了更高的质量。如果WSOLA-SD中的重叠度f小于0.5,则以降低质量为代价减少了算法的复杂性。这样,用户在设计和使用其具体应用时具有更多的灵活性和控制能力。
再次参照图18-23,WSOLA-SD方法需要一个时标系数α(在此例中假定等于2,如果α>1则压缩,如果α<1则扩展)和一个分析分段长度(Ss),其中该长度被优化成输入语音特性,即发话人的音调。叠加分段长度So被计算成f*Ss并且对于给定音调周期和f在WSOLA-SD中是固定的。在所示的例子中,f大于0.5,表明更高质量的输出语音。第一Ss样本被直接复制到输出上。令最后的样本的索引为Ifl根据输出中最后可用样本的结束,叠加索引O1被确定成Ss/2个样本。如图19所示,现在应被叠加的样本处在O1和Ifl之间。如图18所示,第一搜寻索引(S1)被确定成α*O1。在输入信号的初始部分被复制到输出上之后,确定来自输入语音信号的样本的移动窗口。该窗口被确定在搜寻索引S1的附近。在窗口内,使用上述互相关等式确定最优相关So样本,其中所确定的最优样本的开始为B1。在B1开始的So样本接着与一个上升斜坡函数相乘(尽管可以使用其它的加权函数),并且被加到输出中的最后So样本上。在相加之前,输出中的So样本与一个下降斜坡函数相乘。相加所得到的样本将替换输入中的最后样本。最后,紧随当前最优匹配So样本的下一个Ss-So样本被复制到输出的未端以便用于下一次迭代。这是WSOLA中第一次迭代的结束。
参照针对下一次迭代的图20和21,需要计算类似于O1的新的叠加索引O2。类似地,象在前面的迭代中所作的那样确定出新的搜寻索引S2和相应的搜寻窗口。再一次,在搜寻窗口内,使用上述互相关等式确定最优相关So样本,其中最优样本的开始确定为B2。在B2开始的So样本与一个上升斜坡函数相乘,并且被加到输出中的最后So样本中。在相加之前,输出中的So样本与一个下降斜坡函数相乘。相加所得到的样本将替换输入中的最后样本。最后,紧随当前最优匹配So样本的下一个Ss-So样本被复制到输出的未端以便用于下一次迭代。
图22说明了使用WSOLA-SD方法通过两次迭代所得到的输出信号。应当注意在所得到的输出信号中有一个重叠区域(Ss-So),与WSOLA方法相比,该区域保证增加可理解性并防止该方法越过临界输入语音分量。
参照图23和24,其中说明了使用基于本发明的WSOLA-SD方法进行时标扩展的第ith次迭代的输入时序图和输出时序图。除了重叠索引Oi比搜寻索引Si移动得要快之外,扩展方法的功能基本上与图18-22所示的例子类似。为了精确,在扩展期间Oi的移动比Si快α倍。分析分段长度Ss依赖于输入语音的音调周期。重叠度的范围可以在0到1之间,但在图23和24的例子中使用0.7。在该例中,时标变化系数α是扩展速率的倒数。假定扩展速率为2,则时标变化系数α=0.5。重叠分段长度So应等于f*Ss或重叠度乘上分析分段长度。这样,通过相加,在最优匹配输入分段上使用上升斜坡函数并且在输出重叠分段上使用下降斜坡函数,在几次重叠迭代之后,输入语音信号被扩展成保持所有上述WSOLA-SD的优点的输出语音信号。
通过用该时刻的分段的音调动态调整WSOLA-SD算法中的分段长度Ss可以得到进一步的改进。通过改进上述方案可以做到这点。如果对未语音化的语音使用Ss=100(假定采样速率为8KHz)的短分段长度,则由声音质量得到改进,而对于语音化的语音,分段长度应为Ss=2*音调。为了确定是否对语音进行语音化,有必要作一些改动。进行这些改动之后的方法如下所述。1)把输入语音构造成20ms模块。2)计算各模块的能量。3)计算各模块中的零交叉的数量。4)计算每个模块的平均能量。5)确定能量阀值以便把语音化的语音当作每模块平均能量的函数来检测。6)使用能量阀值和零交叉阀值确定长度为至少5个模块的语音化语音的相邻模块。7)在所有的语音化分段上进行音调分析,确定各语音化分段中的平均音调。使用各种方法可以做到这点,其中包括改进自相关方法,AMDF或限幅自相关方法。8)现在把未被标成语音化语音的分段标成暂时未语音化的分段。9)取出‘暂时未语音化分段’中的至少5个帧的相邻模块并进行音调分析。确定最大相关系数和最小相关系数的比值。如果比值较大,则该分段被定为未语音化的,如果比值较小,则这些分段被标成语音化的,并且确定这些分段的平均音调和语音分段的开始和结束。10)以下述方式确定被分类的语音分段的分段长度Ss。
如果语音化Ss=2*音调如果未语音化Ss=120(假定采样速率为8KHz)11)现在进行了时标变化的WSOLA-SD方法,但是具有不断改变的分段长度。在这里每次都要确定在处理中使用的输入语音分段的位置。根据其位置,在处理中使用已经确定的分段长度Ss。使用这种技术产生了更高质量的时标变化语音信号。
象在我们的通信系统中那样,如果对相同的语音输入信号进行压缩和扩展,那么使用几种技术针对给定的平均时标系数还可以再改进重构语音信号的质量。
根据感性测试,可以发现,与具有较低基本频率(较高音调周期)的语音信号相比,在给定语音质量的情况下可以把具有较高基本频率(较低音调周期)的语音信号压缩得更多。例如,儿童和女性平均具有较高的基本频率。在不显著影响其语音质量的情况下可以把其语音多压缩/扩展10%。而对于具有较低的基本频率的男性发话人,可以把其语音少压缩/扩展10%。这样,在具有相等数量的高基本频率发话人和低基本频率发话人的典型通信系统中,在与以前相同的压缩/扩展(时标变化)系数下得到了在语音再现中总体上改进了的质量。
使用这种技术的扩展和压缩的另一个特性产生了进一步的增强。例如,可以注意到在语音信号的时标扩展期间在语音中产生了多数的人工声音。语音信号被扩展得越多,人工声音就越多。也可以观察到,如果语音信号被回放得比原始语音稍快(小于10%),则速度变化几乎注意不到,但人工声音显著减少。这种性质有助于以较小的扩展系数扩展语音信号,并且减少人工声音和改进其质量。例如,如果以时标变化系数3压缩输入语音,则在扩展期间应当以系数2.7进行扩展,这意味着播放语音要快10%。由于这种语音速率变化不显著并且减少了人工声音,在对语音精确度要求不高的应用中应当在本发明的方法中实现上述改变。
权利要求
1.使用基于波形相似性的叠加技术(WSOLA)的改进版本对语音进行时标校正的方法,该方法包括步骤a)在存储器中存储一部分输入语音信号;b)分析该部分输入语音信号,提供估测音调值;c)根据估测音调值确定分段长度;d)根据确定出的分段长度对输入语音信号进行时标压缩。
2.如权利要求1所述的方法,其中确定分段长度的步骤还包括用直接从输入语音信号确定的音调值动态调整分段长度的步骤。
3.如权利要求1所述的方法,其中还包括提供等于或大于0.5的为增加输出语音质量而优化的重叠度的步骤。
4.如权利要求1所述的方法,其中还包括提供小于0.5的为降低计算复杂性而优化的重叠度的步骤。
5.使用基于波形相似性的叠加技术(WSOLA)的改进版本对语音进行时标校正的方法,该方法包括步骤a)在存储器中存储一部分输入语音信号;b)根据该部分输入语音信号确定一个音调周期,提供估测音调值;c)根据估测音调值确定分段长度;d)根据确定出的分段长度对输入语音信号进行时标压缩。e)对输入语音信号进行时标扩展。
6.如权利要求5所述的方法,其中确定分段长度的步骤还包括用直接从输入语音信号确定的音调值动态调整分段长度的步骤。
7.如权利要求5所述的方法,其中还包括提供等于或大于0.5的为增加输出语音质量而优化的重叠度的步骤。
8.如权利要求5所述的方法,其中还包括提供小于0.5的为降低计算复杂性而优化的重叠度的步骤。
9.在有语音能力的设备中使用的,使用基于波形相似性的叠加技术(WSOLA)的改进版本对语音进行时标校正,从而构成输出信号的方法,该方法包括步骤在输出设备上a)确定输入语音信号的音调周期,提供估测音调值;b)根据估测音调值确定分析分段长度;c)对输入语音信号进行时标扩展,从而提供输出语音信号。
10.根据发话人的音调周期,使用基于波形相似性的叠加技术(WSOLA)的改进版本对语音进行时标校正的方法,该方法包括步骤a)确定输入语音信号的音调周期,提供估测音调值;b)确定接近估测音调值的两倍的分析分段长度;c)在音调低于一个预定阀值的情况下增加时标变化系数,使之高于平均时标变化系数;d)在音调高于一个预定阀值的情况下减少时标变化系数,使之低于平均时标变化系数;
11.如权利要求10所述的对语音进行时标校正的方法,其中还包括步骤e)根据在步骤c或d使用的时标变化系数在语音压缩期间指定重叠度。
12.如权利要求11所述的对语音进行时标校正的方法,其中还包括步骤f)以小于在步骤c或d使用的时标变化系数将近10%的系数扩展语音。
13.在语音通信系统中的具有给定带宽的语音通信资源内压缩多个语音信号的方法,其中包括步骤(a)把语音通信资源子信道化,并且把多个语音信号中的至少一个放在一个子信道上;(b)压缩各子信道内的各个语音信号的时间,其中压缩各个语音信号的时间的步骤包括步骤c)确定各个语音信号的音调周期,针对各个语音信号提供对应的估测音调值;d)确定接近估测音调值的两倍的分析分段长度;e)在音调低于一个预定阀值的情况下增加时标变化系数,使之高于平均时标变化系数;f)在音调高于一个预定阀值的情况下减少时标变化系数,使之低于平均时标变化系数,其中步骤(a)至(f)的结果是提供了压缩语音信号。
14.如权利要求13所述的对语音进行时标校正的方法,其中还包括步骤g)根据在步骤e或f使用的时标变化系数在语音压缩期间指定重叠度。
15.如权利要求14所述的对语音进行时标校正的方法,其中还包括步骤h)以小于在步骤c或d使用的时标变化系数将近10%的系数扩展语音。
16.使用语音压缩,具有至少一个发送器基站和多个选择呼叫接收器的通信系统,其中包括在发送器基站上一个接收音频信号的输入设备;一个使用WSOLA-SD技术和正交幅度调制技术压缩音频信号以提供经过处理的信号的处理设备;一个发送经过处理的信号的正交幅度调制发送器;在各个选择呼叫接收器上一个接收被发送的处理信号的选择呼叫接收器;一个使用正交幅度解调技术和WSOLA-SD扩展技术对接收的处理信号进行解调以提供一个重构信号的处理设备;一个把重构信号放大成重构音频信号的放大器。
17.如权利要求16所述的通信系统,其中正交幅度调制是单边带调制。
18.如权利要求16所述的通信系统,其中正交幅度调制是同相(I)和正交(Q)调制。
19.如权利要求16所述的通信系统,其中通信系统包括多于一个的发送器基站,而经过处理的信号包括从至少一个选择呼叫接收器请求具有确认信号的形式的信息的控制信号,该确认信号允许通信系统通过一个发送器基站把以后的消息导向至少一个选择呼叫接收器。
20.如权利要求16所述的通信系统,其中通信系统还包括在发送器上作为针对因信道偏差而出现的畸变的振幅和相位参考的导频载波信号产生器;在接收器上一个检测、滤波并且响应于导频载波信号产生器产生的振幅和相位参考的接收器电路。
21.一个接收压缩语音信号的选择呼叫接收器,其中包括一个接收被发送的处理信号的选择呼叫接收器;一个使用单边带解调技术和WSOLA-SD扩展技术对接收的处理信号进行解调以提供一个重构信号的处理设备;一个把重构信号放大成重构音频信号的放大器。
22.一个如权利要求21所述的选择呼叫接收器,其中选择呼叫接收器还包括一个在基站的发送器中检测,滤波并且响应于导频载波信号产生器产生的振幅和相位参考的接收器电路。
23.一个在具有预定带宽的通信资源上发送选择呼叫信号的选择呼叫寻呼基站,其中包括一个接收多个音频信号的输入设备;一个把通信资源子信道化成预定数量的子信道的装置;一个针对各个子信道的压缩相应音频信号的振幅并对相应音频信号进行滤波的振幅压缩和滤波模块;一个压缩各个子信道的相应音频信号的时间的WSOLA-SD时间压缩模块;一个发送经过处理的信号的正交振幅调制发送器。
24.如权利要求23所述的选择呼叫寻呼基站,其中接收多个音频信号的输入设备包括一个接收来自计算设备的电话消息或数据消息的寻呼终端。
25.如权利要求23所述的选择呼叫寻呼基站,其中振幅压缩和滤波模块包括一个与模数转换器相连的抗混淆滤波器,而模数转换器与一个带通滤波器相连,带通滤波器与一个自动增益控制器相连。
26.一个接收压缩语音信号的选择呼叫接收器单元,其中已经使用WSOLA压缩技术对该信号进行了压缩,而该技术使用依赖于语音信号输入的音调周期的压缩系数,该单元包括一个具有一个接收压缩语音信号并提供数字化的接收信号的模数转换器的接收器,其中压缩语音信号包括用来根据在压缩语音信号时使用的压缩系数确定扩展系数的数据;一个处理数字化接收信号并根据扩展系数扩展数字化接收信号的信号处理器。
27.如权利要求26所述的选择呼叫接收器,其中扩展系数被估测得比在压缩语音信号时使用的压缩系数小大约10%。
28.如权利要求26所述的选择呼叫接收器,其中信号处理器还滤波导频载波,使用一个前向反馈回路进行自动增益控制,进行单边带解调,并且解压缩扩展数字化接收信号,从而提供一个经过处理的信号。
29.如权利要求26所述的选择呼叫接收器,其中信号处理器还滤波导频载波,使用一个前向反馈回路进行自动增益控制,进行I和Q解调,并且解压缩扩展数字化接收信号,从而提供一个经过处理的信号。
30.如权利要求26所述的选择呼叫接收器,其中选择呼叫接收器还包括一个数模转换器,一个把处理信号转换成数字化音频信号的重构滤波器,和一个放大数字化音频信号的放大器。
31.一个使用基于波形相似性的叠加技术(WSOLA)的改进版本对语音进行时标校正的电子设备,该设备包括存储一部分输入语音信号的存储器;分析该部分输入语音信号以提供一个估测音调值,并且根据估测音调值确定一个分段长度的处理器;根据所确定的分段长度对输入语音信号进行时标变化的装置。
32.如权利要求31所述的电子设备,其中装置还根据从0到1的预定重叠度的范围进行时标变化。
33.如权利要求31所述的电子设备,其中电子设备包括一个录音电话设备。
34.如权利要求31所述的电子设备,其中电子设备包括一个应答机。
35.如权利要求31所述的电子设备,其中电子设备包括一个语音邮件系统。
36.使用基于波形相似性的叠加技术(WSOLA)的改进版本对语音进行时标校正和频标校正的方法,该方法包括步骤a)在存储器中存储一部分输入语音信号;b)分析该部分输入语音信号,提供一个估测音调值;c)根据估测音调值确定分段长度;d)根据确定出的分段长度和预定时标变化系数对输入语音信号进行时标压缩,其中时标变化步骤提供了时标变化信号;e)对时标变化信号进行频率定标。
37.如权利要求36所述的方法,其中频率定标步骤包括在时标变化系数大于1的情况下以等于时标变化系数的系数进行插入的步骤。
38.如权利要求36所述的方法,其中频率定标步骤包括在时标变化系数小于1的情况下以等于时标变化系数的倒数的系数进行抽取的步骤,其中输入语音信号的采样频率至少是输入语音信号中的最大可用频率分量的二(2)除以时标变化系数倍。
全文摘要
一种使用基于波形相似性的叠加技术(WSOLA)的改进版本的语音时标变化(time-scale)修正方法包括步骤:在存储器中存储一部分输入语音信号,分析该部分输入语音信号,提供估测音调值(12),根据估测音调值确定分段长度(14),并且根据确定出的分段长度,针对给定的时标变化因子对输入语音信号进行时标变化(18)。
文档编号G10L11/04GK1176702SQ96192207
公开日1998年3月18日 申请日期1996年1月26日 优先权日1995年2月28日
发明者萨尼尔·萨特亚穆尔蒂, 克里福德·达纳·雷奇, 罗伯特·约汉·施文德曼, 卡兹米尔兹·西维亚克, 威廉·约塞夫·库兹尼基 申请人:摩托罗拉公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1