电信系统的制作方法

文档序号:7574677阅读:182来源:国知局
专利名称:电信系统的制作方法
技术领域
本发明涉及电信系统,并且特别是与改进在电信网络上传送的语声信号的质量有关。
电信网络上传输的信号易受来自干扰、衰减、数据压缩、分组丢失、数字化过程的限制以及其它问题的损伤。人们希望能监视传送路径中间点上的信号以识别任何缺陷,并且在如果有可能时去“修复”该信号,即恢复信号为其原始状态。“修复”后的信号可以接着被重新传送。该过程必要时按照传送路径的长度和受损伤的程度可以经常重复,假如在每一阶段信号还没有损伤到不可能再分辨其原始内容的程度的话。
数据信号相对地容易修复,由于它们包含有限数量的符号(例如,二进制的1和0、十二个符号的DTMF(双音多频)系统、或者各种各样的QAM(正交幅度调制)星座(constellation)。这样的信号的修复可以通过识别哪一个“允许”的符号与实际接收到的受损伤的符号最接近从而传送该字符来实现。例如,在二进制系统中,任何超过门限值的信号值可以解释为“1”,而任何低于该门限值的信号值则可以解释为“0”。传送中可以包括校验位和其它手段以进一步改进传送的完整性。
然而,通常语声信号不具有这种有限的符号集,因此自动识别信号是否已受到损伤更困难,而如何恢复原始信号则更困难。
在公共交换电信系统中,可交互操作性需要系统的所有部分协调地工作。通常这妨碍了复杂的编码过程,至少在一个运营者的系统和另一个运营者的系统之间的接口处是这样的。
在某些专门的应用中,语声信号可以作为来自线性预测编码(LPC)过程的一系列系数来传送,该过程模仿了人类声道的激励过程。当这些系数应用于一个声道模拟滤波器时,可以重新产生原始的语声。美国专利4742550(Fette)中描述了一个实例。例如,这样的系统用于在移动电话系统的空中接口中使用的语声编解码器(编码器/解码器)以便降低所需的带宽。然而,这种形式的语声传送需要在传送和接收位置(例如,移动电话和无线基站)存在专门的设备,因此不适宜在公共交换电信网络中通用。
许多现有技术系统是众所周知的,这些系统用于识别声学的或使信号失真的噪声的某些特征,并且消除这些特征。美国专利5148488(Chen)中公开了一个实例,其中估计进入信号的类语声特征并将其用于产生一个Kalman滤波器。然后将此滤波器应用于该信号,只允许接收到信号的类语声特性通过。然而,这样的系统仅去掉了信号的非类语声部分。如果部分信号丢失了,或者已经失真为非类语声的形式,这种系统不能恢复它们。
按照本发明的第一方面,提供了一种将从电信系统上接收到的受损伤的语声信号恢复为其原始形式的估计的方法,包括的步骤为分析信号以识别指示信号的语声内容的参数;从如此识别的参数再生一个语声信号;以及将产生的语声信号加到通信系统的输入端。
按照本发明的第二方面,提供了一种用于恢复从电信系统上接收到的受损伤的语声信号为其原始形式的估计的设备,该设备包括用于分析信号以识别指示信号的语声内容的参数的装置;以及用于从如此识别的参数再生一个语声信号的装置。
在本发明的一个实施方案中,该方法包括的步骤为在通信系统的输出端应用一个识别过程,其中对进入信号的语声成分进行估计;合成具有前述所估计的语声成分的一个语声信号;以及调整合成信号中语声成分的宏特性以便使调整后的合成信号的特性与输出信号的特性匹配。
在本说明书中,术语“宏特性”用于指随讲话者的不同而变化的每个语声成分的特性,这与决定所讲的各独立音素的“微结构”不同。
在本实施方案中,优选地调整所估计信号中独立语声成分的持续时间、声门激励特征和/或音高,以便与输出信号的那些特性匹配。
在一个可替换的优选的实施方案中,按照一个谱表示模型来分析信号以产生输出参数,以及产生一个从输出参数得到的信号。该谱表示模型优选地是一个声道模型,并且使用声道模型实现语声信号的再生。该再生模型优选地包括被限制为类语声的再生信号的时间特征。
另一方面,本发明也扩展至与其它的电信系统有一个或多个接口的电信系统,其中每个接口提供了用于分析和恢复进入和/或离开该系统的信号的装置。
现在参照附图,仅仅以举例的方式来描述本发明的实施方案,其中

图1示出了一个包含有本发明的电信网络;图2示出了一个按照本发明的第一个实施方案的语声再生单元,说明了其中从受损伤的输入信号再生一个估计的“原始信号”的方式;图3说明了用于形成图2的实施方案所采用的过程的一部分的一种匹配技术;以及图4示出了一个按照本发明的第二个实施方案的语声再生单元。
下面给出了图1和图2中功能块的描述,并且包括对每个过程的已建立的实施例的参考。
图1说明了一个广义的电信系统8,该系统包括许多互连的交换机9a,9b,9c,9d,并与许多其它系统2a,2b,2c,2d接口。如图2中说明性的所示,这些系统可以是通过一个用户小交换机(PBX)2a与系统8连接的专用系统、利用一个国际交换中心(ISC)2b与系统8连接的国际网络、另一个运营者的公共网络2c、或者同一个运营者网络的另外部分2d。在各自的源1a,1b,1c,1d产生的语声信号可能被系统2a,2b,2c,2d破坏。语声信号从其它的系统2a,2b,2c,2d进入系统8,或者离开系统8进入其它的系统2a,2b,2c,2d时,都要通过各自的语声再生器10a,10b,10c,10d。如图中所示,单独的运营者可以选择对该系统8“环护”(ring fence),以便在首次机会就修复从其它系统2a,2b,2c进入系统8的任何信号,并且在信号离开该系统之前消除对其的任何损伤。在一个大的网络中,另外的语声再生器(如再生器10d)可以设于网络的内部,藉此将一个运营者的网络细分为由这样的语声修复单元连接的若干个更小的网络2d,8。
所要描述的系统仅处理语声信号。如果该系统也能够处理数据(例如传真)信号,将需要另外单独的装置(未示出)以识别信号的类型,并且如果存在的话,对每一类采用不同的恢复过程。在本领域中,语声/数据鉴别器是众所周知的。例如,使用语声压缩的DCME(数字电路倍增设备)提供了用于识别传真传送的音调标志的装置,并通知设备提供一个透明(未压缩)的传送信道。如已经指出的,在本领域中,数据恢复过程是普通的,这里将不再进一步地描述。
对应于图1中单元10a,10b,10c,10d中的任一个,图2示出了一个语声再生单元10的通常配置。类似地,图2中的信号输入1和系统2对应于输入1a,1b,1c,1d以及它们各自的系统2a,2b,2c,2d中的任一个。
信号输入1提供了由第一个电信系统2接收到的原始语声材料。此材料可以在系统2的一部分上以数字形式进行传送,但要分析的信号是一个模拟信号。该模拟信号是原始模拟语声信号的受损伤形式;这些损伤由前面所提到的因素引起,包括数字化过程本身。模拟的语声信号从系统2输出到语声再生器10。在再生器10中,失真的语声信号首先被送到一个语声识别器3,该识别器将失真的语声声音进行分类,以使得容易地从“原始声音”文件存储器中选择一个“原始声音”文件,该文件存储器构成了识别器3的一部分。
在本说明书中,术语“语声识别”用于指从一个语声信号波形中识别语声事件。在语声技术领域,采用机器来识别语声已经是许多年来工程师和科学家们的目标。文献中已出现了许多实际的语声识别器,有关的描述包括,HMM(隐Markov模型)Cox 1990:[Wheddon C andLinggard R著“语声通信”,语声与语言处理,Chapman and Hall(1990)]著定维分类器(例如最近相邻、Gaussian混合、以及多层感知)[Woodland和Millar出处同上],以及神经阵列[Tattersall,Linford and Linggard 1990出处同上]。
多数的识别系统包括一个特征提取器和一个型式(pattern)匹配过程(分类),并且可以是依赖于讲话者或者独立于讲话者。依赖于讲话者的识别器由使用者用特定应用所需的每个词汇进行训练。独立于讲话者的识别系统有一个不能改变的规定的词汇表[Wheddon C和Linggard R著“语声通信”,语声与语言处理,Chapman和Hall(1990)]。两种系统中都是从传送给分类器的声音信号中提取特征,该分类器决定所讲的是其词汇表中的哪一个词汇。采用变换或数字滤波技术提取特征以减少传送给分类器的数据量。生成的型式然后在时间上被扭曲以与参考型式最佳地保持一致[Sakoe H和Chibass“用于口语词汇识别的动态编程算法优化”,IEEE Trans Acoust SpeechSignal Proc,26(1978)]。统计模型,例如隐Markov模型[Cox S J“用于自动语声识别的隐Markov模型理论及应用”,BT TelecomTechnol J,6,No.2(1988)]也被广泛地使用。在此,一连串特征与一组概率上定义的词汇模型相比较。特征提取与型式匹配技术也可扩展至处理连接的词汇[Bridle J S,Brown M D和Chamberlain R M,“一种用于连接词的汇识别的算法”,自动语声分析与识别,ReidalPublishing Company(1984)],处理连接的词汇是一项非常复杂的工作,由于词汇的数量是未知的并且词汇之间的边界也不容易实时地确定。这导致了计算时间的增加[Atal B S和Rabiner L R“语声研究的方向”,AT&T Technical Journal 65,Issue 5(1986)]以及硬件复杂度的相应增加。
适合于当前目的的隐Markov模型在下面的资料中有描述Baun L E的著作“统计估计中用于Markov过程概率函数的一个不等式及其相关的最大化技术”Inequalities Ⅲ,1-8,1972,或者Cox S J的文章“用于自动语声识别的隐Markov模型理论及应用”,该文收集在Wheddon C和Linggard R所编的“语声与语言处理”,Chapman andHall,ISBN 0412378000,1990。HMM将已知的词汇表示为一组特征矢量,并且,对于一个给定的进入词汇,计算其模型将产生所观测的特征矢量集的后验概率。然后从用于已识别的词汇的存储器中选择一个生成的“原始声音”文件。
然后使用如此识别的“原始声音”文件去控制一个语声产生器7以产生一个对应于将要被产生的声音的音频信号。这样语声识别器识别哪一个语声成分最可能出现在了原始信号中,然后语声产生器从这样的语声成分库中产生那个语声成分的一个未失真版本。这样,输出仅包括类语声成分。假如从电信系统接收到的信号没有被破坏到以致于语声识别器3不能识别正确的语声成分的程度,从语声产生器7的输出将完全是原始信号的语声内容。
由产生器7产生的合成语声的宏特性现在在适配器4中调整为实际语声事件的宏特性。适配器4重新产生原始讲话者的特征,特别是基频(它反映了每个人的声道的尺寸)、决定着话音音质的声门激励特征、以及时间扭曲,以使通常的样板适合于单独语声成分的输送速度。这就是让通常的“原始声音”文件与实际的讲话发音匹配,使得该技术在实践上更稳健,并且独立于讲话者。这些特征在W.A.Ainsworth的著作“语声识别的机理”,Pergamon Press,1976中有描述。
通过使每个输出成分的基频或某个其它可识别的频率与原始话音信号的该频率匹配以便与原始讲话者话音的音调变化匹配,信号的音高(基频)可以与存储的“原始声音”的音高匹配。
声门激励特征通过算法可以从分析原始信号的特征产生,这可参考上面引用的Ainsworth的参考文献的图4.3(第36页)所述。
用于时间扭曲的数学方法在以下资料中有述,例如,由Holmes J N的著作“语声合成与识别”,Van Nostrand Reinhold(UK)Co.Ltd.,ISBN0278000134,以及Bridle J S,Brown M D,Chamberlain R M的“使用全词汇样板的连续连接的词汇识别”,Radio and ElectronicsEngineer 53,第167-177页,1983。两个词汇(所讲的和已识别的“原始的”)之间的时间校准路径(见图3)描述了使存储的“原始声音”适合于检测到的词汇所需的时间扭曲。图3纵轴上示出了已识别词汇“pattern”的成分,横轴上示出了所讲词汇的相应成分。可以看出讲话者的发音与从库中取出的词汇在某些成分的长度上不同,因此为了与原始发音匹配,某些成分(具体地是“p”和“r)应延长,而其它的(具体地是“t”)则应缩短。
然后将再生信号输出到电信系统8。
虽然语声识别器3、语声产生器7和适配器4作为分开的硬件已进行了描述,但是实际上它们可以作为一个单一的适合于编程的数字处理器来实现。
以上的系统需要大量的存储器来存储可识别的语声词汇或词汇成分,并且仅重新产生一个由系统从其存储的样值中识别出的语声成分。因此在电信系统2的输出端产生的、与存储器中存储的不匹配的任何声音,将视为不是语声而被拒绝,并且不被再传送。以这种方式,只有识别为是语声的信号内容中的事件将被再传送,而非语声事件将被消除。
在一个优选的实施方案中,如图4中所示,语声再生单元包括一个声道分析单元11,其输出送给一个声道模拟器12以产生一个类语声信号。该系统具有的优点是从类语声事件中消除了非类语声参数,而不是全部地接受或拒绝每个事件。
声道分析系统存储广义自然系统(人的声道)的特征,而不是可由这样的系统产生的声音的“库”。因此图4的优选的实施方案比图2的实施方案的具有的优点是,它可以重新产生由人的声道可产生的任何声音。这样的优点是不需要大量的存储器来存储可能的声音,也不需要搜索该声音所需的随之而来的处理时间。而且,该系统不受所存储的那些声音的限制。
在这里简单讨论一下声道分析系统的特征是适当的。声道是一条不规则的声学管道,它从声门延伸到双唇并以时间的函数变化形状[Fant GC M,“语声识别的声学理论”,Mouton和Co.,s-Gravehage,theNetherlands,1960]。引起时间变化的主要解剖学上的组成部分有双唇、上下颚、舌头以及软腭。为了易于计算,人们希望该系统的模型既是线性的又要是不时变的。不幸的是,人类的语声机构并不精确地满足这些特性中的任何一个。语声是一个连续的时间变化过程。另外,声门不与声道脱离,它引起了非线性特征[Flanagan J L,“声道中的源-系统的相互作用”,Ann.New York Acad.Sci 155,9-15,1968]。然而,通过作合理的假定,则可能得出在短的时间间隔上用于描述语声事件的线性时不变模型[Markel J D,Gray A H,“语声的线性预测”,Springer-Verlag Berlin Heidelberg New York,1976]。线性预测编解码器将语声事件分为短的时间段或帧,并使用先前的语声帧产生一组唯一的预测器参数来代表当前帧中的语声[Atal B S,Hanauer S L “通过语声波形线性预测的语声分析和合成”,J.Acoust.Soc.Amer.,vol.50,pp.637-655,1971]。线性预测分析已成为一个广泛使用的方法,用于估计例如音高、共振峰以及频谱这样的语声参数。听觉模型(时间/频率/幅度谱图)依赖于被监视的声音的听觉特性而不考虑它们是如何产生的,然而声道模型则能够识别信号是否是类语声的,即一个实际的声道能否产生它。因此声道模型能够识别听觉模型不能识别的不可听见的差别。
适合用于分析的一个声道模型是线性预测编码模型,此模型在Rabiner L.R.,Schafer R.W.的著作,“语声信号的数字处理”(Prentice-Hall 1978)第396页中有描述。
声道模型的增强可以包括引入许可的时间特征,例如长时音高预测,它允许重新产生那些从给定的语声结构中丢失的、或者严重失真以致于不能由分析过程识别的语声成分。这样的时间特征的引入将难以置信地平滑掉那些由例如信号的暂时丢失或破坏造成的语声成分的突然出现、中断或终止。
由声道模型11产生的参数可识别原始信号的类语声特征。非类语声的任何特征不能由声道模型进行建模,并且因此将不能被参数化。
由声道模型产生的参数用于控制语声产生模型12。按照由分析器11产生的声道参数,这些参数可修改合成器产生的激励信号,从而产生一个类语声信号,其中包括从系统2接收到信号的类语声特征,但不包括失真。
用于合成的合适的声道模型包括上述的线性预测编码模型或者更复杂的模型,例如,美国声学协会杂志(Vol 67,No3,March 1980)上D.H.Klatt的文章“用于串联/并联共振峰合成器的软件”中描述的串联/并联共振峰合成器。
其它合适的系统被描述于Quatieri等人的文章“用于增强的语声重建中的相位相干及其编码应用”,International Conference onAcoustic,Speech,and Signal Processing,Vol 123-26 May 1989,Glasgow(Scotland)第207-210页;以及Kamata等人的文章“使用并行结构传递函数的人类话音重建及其估计误差”,IEEE Pacific RimConference on Communications,Computers and Signal Processing,17-19,May 1995 Victoria,British Columbia,Canada。
应该明白术语“语声”(speech),如在本说明书中所使用的那样,用于指人类的话音所能产生的任何发音,包括唱歌,但并不一定意味着该发音具有任何可理解的内容。
权利要求
1.一种将从电信系统上接收到的受损伤的语声信号恢复为其原始形式的估计的方法,包括的步骤为分析信号以识别指示信号的语声内容的参数;从如此识别的参数再生一个语声信号;以及将产生的语声信号加到通信系统的输入端。
2.根据权利要求1的方法,包括的步骤为在通信系统的输出处应用一个识别过程,其中对输入信号的语声成分进行估计;合成一个具有前述所估计的语声成分的语声信号,以及调整合成信号中语声成分的宏特性以便与输出信号的特性匹配。
3.根据权利要求2的方法,其特征在于,其中调整所估计的信号中独立语声成分的持续时间和/或音高以便与输出信号的这些特性匹配。
4.根据权利要求1的方法,其特征在于,其中按照一个谱表示模型来分析该信号以产生输出参数,以及从输出参数得到再生的信号。
5.根据权利要求4的方法,其特征在于,其中的谱表示是一个声道模型。
6.根据权利要求4或5的方法,其特征在于,其中使用声道模型来实现语声信号的再生。
7.根据前述任一项权利要求的方法,其特征在于,其中再生的信号的时间特征被限制为类语声的。
8.一种用于将从电信系统(2)接收到的受损伤的语声信号恢复为其原始形式的估计的设备(10),该设备包括用于分析信号以便识别指示信号的语声内容的参数的装置(3,11);以及用于从如此识别的参数再生该语声信号的装置。
9.根据权利要求8的设备,包括语声识别装置(3),用于将一个识别过程应用至最初受损伤的信号,在该过程中估计进入信号的成分;语声合成装置(7),用于合成具有上述所估计的语声成分的一个语声信号;以及语声调整装置(4),用于调整合成信号中语声成分的宏特性,以便与最初信号中的那些特性匹配,从而产生相应于最初没有损伤的信号的一个信号。
10.按照权利要求9的设备,其特征在于,其中的语声调整装置(4)包括用于修改所估计信号中独立语声成分的持续时间和/或音高以便与最初信号中的那些特性匹配的装置。
11.按照权利要求8的设备,包括用于使用一个谱表示来分析信号以便产生输出参数的分析装置(11),和用于产生从输出参数得到的一个输出信号的装置(12)。
12.按照权利要求11的设备,其特征在于,其中的谱表示是一个声道模型。
13.按照权利要求10或11的设备,其特征在于,其中用于语声信号再生的装置(12)是一个声道模型。
14.按照权利要求8至13任一项的设备,其特征在于,其中用于再生该信号的装置包括用于限制再生信号的时间特征为类语声的装置。
15.一种具有一个或多个与其它的电信系统(2a,2b,2c,2d)的接口的电信系统(8),其中每个接口提供了按照权利要求8,9,10,11或12用于分析和恢复进入系统的信号的设备(10),和/或按照权利要求8,9,10,11或12用于分析和恢复离开系统的信号的设备。
16.一种基本上参考附图所描述的方法。
17.一种基本上参考附图所描述的设备。
全文摘要
用于改进通信链路(2)中信号质量的一种装置,包括用于仅再生从通信链路(2)上接收到信号的类语声特征的装置(11),以便原始语声信号的一个估计可以被重新传送,这个装置可以是与合成器(2)连接的一个声道模型(11)。
文档编号H04B1/10GK1216189SQ9719266
公开日1999年5月5日 申请日期1997年2月14日 优先权日1996年2月29日
发明者M·P·霍利尔 申请人:英国电讯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1