话音分组发送方法、话音分组发送装置、话音分组发送程序及已记录该程序的记录介质的制作方法

文档序号:2827938阅读:226来源:国知局
专利名称:话音分组发送方法、话音分组发送装置、话音分组发送程序及已记录该程序的记录介质的制作方法
技术领域
本发明涉及话音分组发送方法、装置和用于在IP(因特网协议)网络中执行该方法的程序及记录该程序的记录介质。
背景技术
目前,使用IP(因特网协议)(见非专利文献1)在因特网上分组执行诸如电子邮件和WWW(万维网)通信之类的各种类型的通信。
当今广泛使用的因特网是尽力而为(best-effort)网络,不保证分组的送达。因此,使用TCP(传输控制协议)(见非专利文献2)执行重传控制的通信常常被用来确保更可靠的分组传输。然而,如果在诸如使用VoIP(因特网协议传输话音)的、实时性至关重要的通信中出现分组丢失时执行重传控制,则分组的到达将会大大延迟,因此接收缓冲区中存储的分组数量将不得不设置为大的值,这将影响实时性。因此,诸如VoIP通信之类的通信通常使用UDP(用户数据报协议)(见非专利文献3)来执行,UDP不使用重传控制。然而,这引起在网络拥塞期间出现分组丢失、从而话音质量下降的问题。
一种防止话音质量下降而不用重发分组的常规方法是根据传输期间分组丢失率发送相同分组的副本来增加分组到达的概率,从而防止话音中断(见专利文献1)。然而,分组丢失最经常发生在网络拥塞期间,如果在这种情况下发送过多的复制分组,则会出现这样的问题发送的信息量和发送的分组数量的增加加剧了网络拥塞,因此进一步增加了分组丢失的数量。另一个问题是,由于在分组丢失率高的时候连续的发送复制分组,网络传输接口过载,导致分组传输延迟。
一种防止由于分组丢失导致的话音质量下降而不增加延迟的方法是话音数据压缩方法。例如,G.711附录I(见非专利文献4)中的方法重复过去节距(pitch)周期中的数据来填充丢失的段。然而,该方法的问题在于,如果诸如话音上升周期这样的信号急剧改变的区域中的话音数据丢失,则由于由过去数据合成的话音数据具有与原始话音不同的功率和节距,因此出现异常噪声。
提出的另一种方法,其中发送端假设在接收端将发生分组丢失,并且发送端通过重复当前帧的节距长度的话音波形来合成话音波形,如果合成的话音波形相对于下一帧的原始话音波形的质量低于阈值,则将下一帧的压缩的话音码作为子帧码与当前帧话音码一起使用分组发送(专利文献2)。使用该方法,在接收端出现当前帧的分组丢失时,如果在先前和后继帧中的任何分组中不包含子帧码,则由先前帧中一个节距长度的波形合成当前帧,或者如果包含子帧码,则解码并使用该码。在任一情况下,都将生成具有比原始话音信号质量低的话音波形。该方法有以下问题如果补偿波形的质量低于指定值,那么该方法除了当前帧外还要将子编解码器信息添加到先前和后继分组,因此,如果三个或更多连续的分组丢失,则使用先前和后继分组发送的当前帧的编码信息和子编解码器编码信息将无法得到,从而解码话音质量下降。
专利文献1日本专利申请特许公开No.11-177623专利文献2日本专利申请特许公开No.2003-249957非专利文献1“Internet Protocol”,RFC791,1981非专利文献2“Transmission Control Protocol”,RFC793,1981非专利文献3“User Datagram Protocol”,RFC768,1980非专利文献4ITU-T Recommendation G.711 Appendix I,“A high qualitylow-complexity algorithm for packet loss concealment with G.711”,pp.1-18,1999非专利文献5J.Nurminen,A.Heikkinen&J.Saarinen,“Objective evaluationof methods for quantization of variable-dimension spectral vectors in WI speechcoding”,in Proc.Eurospeech 2001,Aalborg,Denmark,Sep.2001,pp.1969-1972发明内容发明要解决的问题根据上述问题做出了本发明,并且本发明的目的是提供一种话音分组发送方法、装置及其其上记录有其程序的记录介质,能够最小化对于话音再现非常重要的帧数据丢失,并且在避免延迟和防止网络过载的同时,减轻在实时性尤其关键的双向话音通信中再现的话音质量下降。
解决问题的方法根据本发明,由除了当前帧话音信号部分外的话音信号生成关于当前帧话音信号的补偿话音信号,计算补偿话音信号的话音质量评估值,根据话音质量评估值获得值随着补偿信号的话音质量下降而递增的复制等级,生成与复制等级指定数量一样多的相同话音分组,并且将相同的话音分组发送到网络。
发明效果根据本发明的配置,仅仅冗余地发送补偿话音信号不能确保足够话音再现质量的帧话音信号。因此,不管何时出现话音信号分组丢失,接收端都可以获得具有良好话音质量的再现话音信号,而不会增加分组延迟和使网络过载。


图1A是示出根据本发明第一实施例的话音分组发送装置的示例性功能配置的方框图;图1B是示出分组的示例性结构的方框图;图2是示出图1所示的补偿话音生成部分20的特定示例性功能配置的方框图;图3A是描述用于合成波形的方法的图;图3B是描述用于在节距比一帧长的情况下合成波形的方法的图;图4是图解用于合成波形的另一示例性方法的图;图5A示出用于连接图4中的波形的一个加权函数的例子;图5B示出另一加权函数的例子;图6是示出图1所示的话音质量评估部分40的特定示例性功能配置的方框图;图7示出定义话音质量评估值和复制等级之间的关系的示例性表格;图8示出定义话音质量评估值和复制等级之间的关系的另一示例性表格;图9示出定义话音质量评估值和复制等级之间的关系的再一个示例性表格;
图10示出图1所示的话音质量评估部分40的另一示例性配置;图11示出在使用图10所示的话音质量评估部分的情况下、定义话音质量评估值和复制等级之间的关系的一个示例性表格;图12是图1所示的话音质量评估部分40和分组生成部分105执行的处理的流程图;图13是与图1所示的发送装置相关联的接收装置的示例性功能配置的方框图;图14A是图13中处理接收的分组的处理的流程图;图14B是图13中生成再现话音的处理的流程图;图15是示出根据本发明第二实施例的话音分组发送装置的示例性功能配置的方框图;图16是示出图15所示的话音质量评估部分40的特定示例性功能配置的方框图;图17是定义话音质量评估值和复制等级之间的关系的另一个示例性表格;图18是图15所示的发送装置中的话音质量评估部分40和分组生成部分15执行的处理的流程图;图19是示出与图15所示的话音分组发送装置相关联的话音分组接收装置的示例性功能配置的方框图;图20是示出根据本发明第三实施例的话音分组发送装置的示例性功能配置的方框图;图21是示出图20所示的补偿话音生成部分20的特定示例性功能配置的方框图;图22是示出与图20的发送装置相关联的接收装置的示例性功能配置的方框图;图23是示出根据本发明第四实施例的话音分组发送装置的示例性功能配置的方框图;图24是示出图23所示的辅助信息(side information)生成部分30的特定示例性功能配置的方框图;图25是示出图23所示的补偿话音生成部分20的特定示例性功能配置的方框图;
图26是示出图23所示的话音质量评估部分40的特定示例性功能配置的方框图;图27示出定义话音质量评估值、复制等级和话音质量下降等级之间的关系的示例性表格;图28示出定义估值和话音质量下降等级之间的关系的表格例子;图29是图23所示的发送装置的第一操作示例中的、话音质量评估部分40和分组生成部分15执行的处理的流程图;图30是图23所示的发送装置的第二操作示例中的、话音质量评估部分40和分组生成部分15执行的处理的流程图;图31是图23所示的发送装置的第三操作示例中的、话音质量评估部分40和分组生成部分15执行的处理的流程图;图32是示出图31中的处理的后半部分的流程图;图33是示出图23所示的发送装置的第四操作示例中的、话音质量评估部分40和分组生成部分15执行的处理的后半部分的流程图;图34是示出与图23的发送装置相关联的接收装置的例子的方框图;图35是示出图34所示的补偿话音生成部分70的特定示例性配置的方框图;图36A是图34中处理接收的分组的处理流程图;以及图36B是图34中生成再现话音的处理流程图。
具体实施例方式图1示出根据本发明第一实施例的话音分组发送装置的示例性功能配置。在本发明中,通过使用UDP/IP协议发送和接收分组。根据UDP/IP协议,如图1B所示,每个分组包含目的地址DEST ADD、源地址ORG ADD和RTP格式的数据。话音信号的帧号FR#和话音数据DATA作为RTP格式数据包含在内。话音数据可以是通过对输入的PCM话音信号编码而产生的编码话音信号,或者可以是未编码的输入PCM话音信号。在该实施例中,分组中包含的话音数据是编码话音信号。尽管在下面描述中假设一个分组中包含一帧话音数据并进行发送,但一个分组中也可以包含多帧话音数据。
输入的PCM话音信号通过输入端100输入到编码器11,在编码器11处对信号编码。编码器11中使用的编码算法可以是能够处理输入信号的话音频带的任何编码算法。可以使用话音频带信号(最高到4kHz)的编码算法,如ITU-T G.711,或者4kHz以上的宽带信号的编码算法,如ITU-T G.722。尽管取决于编码算法,但编码一帧话音信号通常生成由编码算法处理的多个参数码。这些参数将简单笼统地称为编码话音信号。
从编码器11输出的编码话音信号的码序列送到分组生成部分15中,并且同时送到解码器12,在解码器12处使用与编码器11所使用的编码算法对应的解码算法将其解码成PCM话音信号。解码器12中解码话音信号提供到补偿话音生成部分20,在补偿话音生成部分20处通过与当在目的接收装置处发生分组丢失时执行的补偿处理类似的处理生成补偿话音信号。可以使用外推法由当前帧之前的帧的波形生成补偿话音信号,或者可以使用内插法由当前帧之前和后继的帧的波形生成补偿话音信号。
图2示出补偿话音生成部分20的特定示例性功能配置。这里,使用外推法生成补偿话音信号。来自输入端201的解码话音信号存储在存储器202的区域A0中。存储器202的每个区域A0、...、A5具有容纳具有编码中使用的分析帧长度的PCM话音信号的大小。例如,如果以10ms的分析帧长度编码以8kHz采样的解码话音信号,则一个区域中将存储80个解码话音信号采样。每次解码话音信号的一个分析帧输入到存储器202中时,已经存储在区域A0-A4的过去帧的解码话音信号被移动到A1-A5,并且将当前帧的解码话音信号写入区域A0中。
丢失信号生成部分203使用存储在存储器202中的话音信号生成当前帧的补偿话音信号。输入到丢失信号生成部分203的是存储在存储器202中除了区域A0之外的区域A1-A5中的话音信号。尽管这里描述了存储器202中的区域A1-A5中的话音信号的5个连续帧被送到丢失信号生成部分203的情况,但存储器202中必须提供足够存储器,以便可以存储对一帧(分组)生成补偿话音信号的算法所需的过去PCM话音信号采样。这个例子中的丢失信号生成部分203通过使用补偿方法,由除了输入的话音信号之外(当前帧话音信号)的解码话音信号(在本实施例中是5个帧),生成并输出当前帧话音信号。
丢失信号生成部分203包括节距检测部分203A、波形剪切部分203B和帧波形合成部分203C。节距检测部分203A在依次移动采样点的同时计算存储区域A1-A5中的话音波形序列的自相关值,并且检测自相关值的峰值之间的距离作为节距长度。通过为图2所示的多个过去帧提供存储区域A1-A5,即使话音信号的节距比一帧长也可以检测到它(假设它小于或等于5帧的长度)。
图3A示意性示出在从存储区域A0-A5中写入的话音波形数据的当前帧m到过去帧m-3中点这段时间内的示例性波形。波形剪切部分203B从当前帧的前一帧复制所检测的节距长度的波形3A,并且如图3A所示在正方向上将其重复粘贴为波形3B、3C和3D,直到填充了一帧长度为止,从而合成当前帧的补偿话音信号。通常,由于帧长度不一定是节距长度的整数倍,因此将波形的最后副本截断以便适合帧剩余的段。如图3B所示,例如,如果检测的节距长度比一帧长度长,则复制从当前帧紧前面的一个波形节距长度的前端开始、一帧长度的波形3A,并且使用复制的波形3B作为当前帧的补偿话音信号。
图4示出合成补偿话音信号的方法的另一例子。在这个例子中,重复地复制比检测的节距长度长ΔL的波形4A来提供波形4B、4C和4D。该波形被排列使得相邻波形在其末端有ΔL重合。在前和后端的重合时段ΔL分别乘以图5A和5B所示的加权函数w1和W2,并且将乘积加在一起来串行连接剪切的波形。这样,可以产生一帧长度的波形4E。例如,在时间t1和t2之间的重合时段中,波形4B的后端部分ΔL(从时间t1到t2)乘以图5A所示的加权函数W1(从1到0线性递减),而相同时段内的波形4C的前端部分ΔL乘以图5B所示的加权函数W2(从0到1线性递增)。将这些乘积在从t1到t2时段上的采样值加在一起。对其他重合时段执行相同的操作。
这样,丢失信号生成部分203根据至少一个紧前面的帧中的话音信号生成一帧的补偿话音信号,并且将其提供给话音质量评估部分40。在丢失信号生成部分203中使用的补偿话音信号生成算法可以是例如非专利文献4中描述的算法,或者其他算法。
回到图1,将来自输入端100的话音信号(原始话音信号)、来自解码器12的输出信号和来自补偿话音生成部分20的输出信号提供给话音质量评估部分40,在话音质量评估部分40处确定分组的复制等级Ld。
图6示出话音质量评估部分40的特定例子。首先,在评估值计算部分41中计算表示补偿话音信号质量的评估值。这里,第一计算部分412由通过输入端100提供的输入话音信号(原始话音信号)和解码器12的输出信号(解码话音信号),计算当前帧的解码话音信号相对于当前帧的原始话音信号的目标评估值Fw1。类似地,第二计算部分413由当前帧的输入话音信号(原始话音信号)和从补偿话音生成部分20输出的、由过去帧的解码话音信号生成的当前帧的信号(补偿信号),计算补偿话音信号相对于原始话音信号的目标评估值Fw2。特别地,通过第一计算部分412和第二计算部分413计算的目标评估值可以是例如SNR(信噪比)。这里,第一计算部分412使用作为信号S的一帧原始信号的功率Porg,并使用作为噪声N的一帧原始话音信号和解码话音信号之间的差的功率Pdif1(对应于一帧上的两个信号采样的值之间的差的平方和),来计算Fw1=10log(S/N)=10log(Porg/Pdif1) (1)令N表示每帧中的采样数量,xn和yn分别表示该帧的原始话音信号和解码话音信号的第n个采样值,则Porg=Σxn2,]]>Pdif1=∑(xn-yn)2。这里,∑表示帧中采样0到N-1的和。类似地,第二计算部分413使用作为信号S的一帧原始信号的功率Porg,使用作为噪声N的原始话音信号和补偿话音信号之间的差的功率Pdif2,来计算目标评估值FW2Fw2=10log(S/N)=10log(Porg/Pdif2) (2)这里,令帧的补偿话音信号的第n个采样值为zn,则Pdif2=∑(xn-zn)2。
除了信噪比(SNR),也可以使用其他评估值,如WSNR(加权信噪比;例如见非专利文献5,J.Nurminen,A.Heikkinen&J.Saarinen,“Objectiveevaluation of methods for quantization of variable-dimension spectral vectors inWI speech coding”,in Proc.Eurospeech 2001,Aalborg,Denmark,Sep.2001,pp.1969-1972)或SNRseg(分段SNR,可以通过将每帧分成段并且在段上求SNR平均值来获得),WSNRseg,CD(倒谱距离这里在第一计算部分412获得的原始话音信号Org和解码话音信号Dec之间的倒谱距离,下面用CD(org,Dec)表示,其对应于畸变),或PESQ(ITU-T标准P.862中指定的综合评估测量)。目标评估值不限于一种类型;可以组合使用两个或多个目标评估值。
第三计算部分411使用通过第一计算部分412和第二计算部分412计算出的一个或多个目标评估值计算表示补偿话音信号的话音质量的评估值,并且将其发送到复制发送确定部分42。根据评估值,复制发送确定部分42确定复制值Ld(整数值)。补偿话音信号的话音质量越低,该整数值越大。即,根据作为评估值得到的表示话音质量的值,选择复制等级(离散的值)之一Ld。如果使用WSNR作为目标评估值,则可以通过使用感受加权差信号的平方和WPdif1=∑[WF(xn-yn)]2作为方程(1)中的差的功率Pdif1,代替Pdif1=∑(xn-yn)2,确定分组的复制等级Ld。WF(xn-yn)表示施加到差信号(xn-yn)的感受加权过滤。可以由原始话音信号的线性预测系数确定感受加权过滤器的系数。同样适用于方程(2)。
分别使用第一和第二计算部分412和413处获得的WSNR输出作为Fw1和Fw2,在第三计算部分411处计算Fd=Fw1-Fw2,然后将Fd作为评估值输入到复制发送确定部分42,并且参考图7所示的表由值Fd确定复制等级Ld,这是有效的。即,复制等级Ld随着值Fd增加而增加,Fd是通过将补偿话音信号对于原始话音信号的评估值Fw2减去解码话音信号相对于原始话音信号的评估值Fw1得到的。Fd=Fw1-Fw2值越大,补偿话音信号相对于解码话音信号的话音质量就越低。因此,为了最大化这样一帧话音信号到达接收端的概率,增加同一分组的复制分组发送的数量。相反,如果Fd=Fw1-Fw2小,则即使出现分组丢失,接收端处的再现话音信号质量也将下降得少,并且补偿话音信号替代该帧的话音信号。因此,如果Fd=Fw1-Fw2小,则选择小的同一分组的复制分组发送数量Ld。如果Ld=1,则同一帧的分组仅发送一次(即,不执行复制发送)。基于试验预先准备了图7中的表,并且存储在复制发送确定部分42的表存储器42T中。
可以使用多个目标评估值。例如,如果使用WSNR和CD的值作为目标评估值,则第一计算部分412也可以计算CD(Org,Dec)并将计算出的CD作为Fd1与Fd=Fw1-Fw2一同提供给复制发送确定部分42,并且参考图8所示的表由值Fd确定复制等级Ld。如果解码话音信号相对于原始话音信号的畸变Fd1=CD(Org,Dec)小,则如上所述,复制等级值Ld的值随着Fd=Fw1-Fw2增加而增加。另一方面,大的Fd1值指示即使没有分组丢失该帧也提供不了高的话音质量。因此,高复制等级Ld没有什么用处,因而只提供两个低Ld值,并且根据Fd=Fw1-Fw2的值在这两个Ld等级之间进行选择。补偿话音信号Com相对于解码话音信号Dec的倒频距离CD(Dec,Com)可以在评估值计算部分41中计算,并且也可以使用得到的值Fd2来确定复制等级Ld。图9示出用于该目的的表的例子。在这个例子中,将图8中的表的范围Fd=Fw1-Fw2<2dB和范围2dB≤Fd<10dB用一个范围Fd<10dB替代,并且将该范围分成两个Fd2范围,一个小于1,另一个大于或等于1。
图1中的分组生成部分15生成从编码器11接收的编码话音信号的副本,其数量与从话音质量评估部分40接收的分组复制等级一样多,并且将Ld个生成的分组送到发送部分16,后者将分组发送到网络。如果Ld=1,则只发送一个分组而没有复制件。
在参照图6描述的例子中,评估值计算部分41使用两个评估值,即,通过使用方程(1)由原始话音信号的功率Porg和原始话音信号与解码话音信号之间的差的功率Pdif1获得的评估值Fw1、以及通过使用方程(2)由原始话音信号的功率Porg和原始话音信号与补偿话音信号之间的差的功率Pdif2获得的评估值Fw2,作为目标评估值来确定复制等级Ld。然而,如图10中的话音质量评估部分41的另一例子所示,可以仅由解码话音信号和补偿话音信号确定目标评估值。特别地,评估值计算部分根据下面方程由解码话音信号的功率Pdec和解码话音信号与补偿话音信号之间的差的功率Pdif’计算评估值Fw’。
Fw’=10log(Pdec/Pdif’) (3)这指示随着差的功率Pdif’增加,评估值Fw’降低,并且相应地,补偿话音信号的话音质量下降。在复制发送确定部分42中的表中,如图11所示指定基于评估值Fw’的复制等级Ld,其中如果评估值Fw’低于2dB,则Ld=1,如果2dB≤Fw’<10dB,则Ld=2,如果Fw’≥10dB,则Ld=3。该表是基于试验预先准备的。
图12示出图1中的发送装置中的话音质量评估部分40和分组生成部分15执行的、通过使用图7所示的表确定复制等级Ld的处理。这里,使用加权信噪比WSNR作为目标评估值。在下面的处理中,步骤S1到S3由评估值计算部分41执行,步骤S4到S10由复制发送确定部分42执行,而步骤S11由分组生成部分15执行。
步骤S1在评估值计算部分41中,由原始话音信号Org的功率Porg和原始话音信号Org与解码话音信号Dec之间的感受加权差信号的功率WPdif1得到WSNR=10log(Porg/WPdif1),作为评估值Fw1。该计算下面表示为Fw1=WSNR(Org,Dec)。
步骤S2在评估值计算部分41中,由原始话音信号Org的功率Porg和原始话音信号Org与补偿话音信号Com之间的感受加权差信号的功率WPdif2得到WSNR=10log(Porg/WPdif2),作为评估值Fw2。该计算下面表示为Fw2=WSNR(Org,Ext)。
步骤S3获得差Fd=Fw1-Fw2。
步骤S4在复制发送确定部分42,进行关于是否Fd<2dB的确定。如果Fd小于2dB,则在步骤S5确定Ld=1;否则,处理前进到步骤S6。
步骤S6进行关于是否2dB≤Fd<10dB的确定。如果是,则在步骤S7由图7所示的表确定Ld=2,否则,处理前进到步骤S8。
步骤S8进行关于是否10dB≤Fd<15dB的确定。如果是,则在步骤S9由图7所示的表确定Ld=3,否则,在步骤S10确定Ld=4。
步骤S11分组生成部分15将当前帧的相同话音数据放入Ld个分组中的每个中,并且依次发送它们。
图13示出与图1所示的话音分组发送装置相关联的话音分组接收装置的功能配置。接收装置包括接收部分50、码序列构造部分61、解码器62、补偿话音生成部分70和输出信号选择器63。接收部分50包括分组接收机51、缓冲区52和控制器53。控制器53检查缓冲区52来看看是否它存储了包含具有与在分组接收机51处接收的分组中所包含的话音数据相同帧号的话音数据的分组。如果已经存储,则控制器53丢弃接收到的分组;否则,控制器将接收到的分组存储在缓冲区52中。
控制器53在整个缓冲区52中按照帧号顺序、以每个帧号搜索包含话音数据的分组。如果找到分组,则控制器53提取该分组并将其提供给码序列构造部分61。码序列构造部分61从提供的分组提取一帧长的编码话音信号,将构成编码话音信号的参数码按预定顺序排序,然后将编码话音信号提供给解码器62。解码器62解码所提供的编码话音信号来生成一帧长的话音信号,并且将其提供给输出选择器63和补偿话音生成部分70。如果缓冲区52不包括含有当前帧的编码话音信号的分组,则控制器53生成指示分组丢失的控制信号CLST,并且将其提供给补偿话音生成部分70和输出信号选择器63。
补偿话音生成部分70具有与发送装置中的补偿话音生成部分20基本上相同的配置,包括存储器702和丢失信号生成部分703。丢失信号生成部分703也具有与图2的发送端处的丢失信号生成部分203相似的配置。当从解码器62提供解码话音信号时,补偿话音生成部分70将区域A0-A4中的话音信号移动到存储器702中的区域A1-A5,并且将提供的解码话音信号写入区域A0中,除非提供了控制信号CLST。然后将输出信号选择器63所选择的编码话音信号作为再现话音信号输出。
如果控制器53检测到分组丢失并且生成控制信号CLST,则无法从缓冲区52获得当前帧的分组。因此,补偿信号生成部分70将区域A0-A4中的话音信号移动到存储器702中的区域A1-A5,并且丢失信号生成部分703基于移动的话音信号生成补偿话音信号,将其写入存储器702中的区域A0中,并且也通过输出信号选择器63将其作为再现话音信号输出。
图14A和14B示出图13所示的接收装置中执行的分组接收处理和分组再现处理。在分组接收处理中,在图14A中的步骤S1A做出关于是否接收到分组的确定。如果接收到了分组,则在步骤S2A做出关于包含具有与分组中所包含的话音数据相同帧号的话音数据的分组是否已经存储在缓冲区52中的确定。如果找到包含具有相同帧号的话音数据的分组,则在步骤S3A丢弃接收到的分组,并且处理在步骤S1A等待下一分组。如果在缓冲区52中没有找到包含具有相同帧号的话音数据的分组,则在步骤S4A将接收到的分组存储在缓冲区52中,并且处理返回步骤S1A,等待下一分组。
在话音信号再现处理中,在图14B中的步骤S1B做出关于包含当前帧话音数据的分组是否存储在缓冲区52中的确定。如果存储在其中,则在步骤S2B提取分组并将其提供给码序列构造部分61。码序列构造部分61从提供的分组中提取编码话音信号(当前帧话音数据),将构成编码话音信号的参数码按预定顺序排序,然后将信号提供到解码器62。解码器62在步骤S3B对编码话音信号进行解码来生成话音信号。在步骤S4B将话音信号存储在存储器702中,并且在步骤S6B将其输出。如果在步骤S1B没有在缓冲区52中找到包含当前帧话音数据的分组,则在步骤S5B由先前帧的话音信号生成补偿话音信号,在步骤S4B将话音信号存储在存储器702中,并且在步骤S4B将其输出。
图15示出根据本发明第二实施例的话音分组发送装置的功能配置。在该实施例中,没有提供第一实施例中给出的编码器11和解码器12。输入的PCM话音信号被直接分组并发送。补偿话音生成部分20由通过输入端100提供的输入PCM话音生成补偿话音信号。补偿话音生成部分20执行的处理与图2所示的相同。这里生成的补偿话音信号被送到话音质量评估部分40。话音质量评估部分40确定分组的复制等级Ld并且将其输出到分组生成部分15。
图16示出话音质量评估部分40的特定示例。这里,评估值计算部分41计算从补偿话音生成部分20输出的补偿话音信号相对于通过输入端100提供的当前帧的输入PCM原始话音信号的目标评估值。目标评估值可以是诸如SNR、WSNR、SNRseg、WSNRseg、CD或PESQ之类的评估值。目标评估值不限于一种类型;可以组合使用两个或多个评估值。在评估值计算部分41中计算目标评估值被送到复制发送确定部分42,在复制发送确定部分42处确定分组的复制等级Ld。对于复制等级Ld的确定,在例如使用WSNR作为目标评估值的情况下,可以如图17所示使用从评估值计算部分41输出的WSNR作为Fw确定分组的复制等级。在这种情况下,评估值Fw越大,将选择越小的复制低级Ld。在这个例子中,在复制发送确定部分42中提供图17所示的表。在这种情况下,评估值计算部分41使用原始话音信号的功率作为S,使用作为噪声N的原始话音信号与补偿话音信号之间的加权差信号的功率。如果WSNR大的话,则通过使用丢失分组的补偿话音信号使话音质量不会严重下降。因此,WSNR越大,将选择越小的复制等级Ld。
分组生成部分15生成要处理的帧大小的输入PCM话音信号的副本,数量与从话音质量评估部分40接收的分组复制等级Ld一样多,并且将Ld个生成的分组送到发送部分16,后者将分组发送到网络。
图18示出图16所示的话音质量评估部分40通过使用图17的表确定复制等级Ld的处理,以及图15所示的发送装置中的分组生成部分15执行的分组生成处理的过程。该例子还是使用加权信噪比WSNR作为评估值Fw。在步骤S1,由原始话音信号Org的功率Porg和原始话音信号Org与补偿话音信号Com之间的感受加权差信号的功率WPdif计算评估值Fw,WSNR=10log(Porg/WPdif)该计算在下面表示为Fw=WSNR(Org,Com)。在步骤S2做出关于评估值Fw是否小于2dB的确定。如果是,则在步骤S3参考图17所示的表由Fw的值确定复制等级Ld=3。如果Fw不小于2dB,则在步骤S4做出关于Fw是否大于等于2dB且小于10dB的确定。如果是,则在步骤S5参考图17所示的表确定Ld=2。否则,在步骤S6确定Ld=1。在步骤S7,分组生成部分15将当前帧话音信号放入根据预定复制等级Ld的Ld个分组中的每个中,并且将分组提供给发送部分16,后者依次发送分组。
图19示出与图15所示的发送装置相关联的分组接收装置。接收部分50和补偿话音生成部分70具有与图13所示的接收部分50和补偿话音生成部分70类似的配置。在这个例子中,PCM话音信号构造部分64从在接收部分50接收到的分组数据中提出PCM输出话音信号序列。分组是冗余地从发送端发送的。如果在接收部分50处接收到复制分组,则丢弃第二个和随后复制的分组。如果成功接收到分组,则PCM话音信号构造部分64从该分组提取PCM话音信号并将其发送到输出信号选择器63,同时将其存储在补偿话音生成部分70(见图13)中的存储器中,以便为后继帧生成补偿话音信号。如果接收部分50处以控制信号CLST指示出现分组丢失,则补偿话音生成部分70以类似于参照图2所述的处理的方式生成补偿话音信号,并将其发送到输出信号选择器63。如果从接收部分50指示出现分组丢失,则输出信号选择器63选择从补偿话音生成部分70输出的补偿话音信号作为输出话音信号并将其输出。如果没有分组丢失,则选择器63选择PCM话音信号构造部分64的输出作为输出话音信号并将其输出。
尽管在上述实施例中使用外推法由过去帧生成补偿话音信号,但在第三实施例中使用内插法由当前帧的先前和后继帧中的波形生成补偿话音信号。图20示出根据本发明第三实施例的话音分组发送装置的功能配置。编码器11、解码器12、话音质量评估部分40、分组生成部分15和发送部分16的配置与图1所示的实施例中的对应部件相同。第三实施例被配置成使得通过内插法由当前帧的过去帧话音信号和后继帧话音信号生成当前帧话音信号的补偿话音信号。
在编码器11中编码的话音信号被送到数据延迟部分19(提供1帧周期的延迟),同时还被送到解码器12。在解码器12中解码话音信号通过数据延迟部分18(提供1帧周期的延迟)提供到话音质量评估部分40,并且还送到补偿话音生成部分20,在补偿话音生成部分20处基于当前帧前面的帧中将出现分组丢失的假设生成补偿话音。将经数据延迟部分17延迟一个帧周期的原始话音信号以及来自补偿话音生成部分20的补偿话音信号和来自数据延迟部分18的解码信号提供到话音质量评估部分40,并且以类似于图1实施例的方式确定复制等级Ld。
图21示出使用内插法的补偿话音生成部分20的特定例子。解码话音信号被复制到存储器202中的区域A-1。存储在存储器202中的区域A-1和区域A1-A5中的每一个(除了区域A0外)中的一帧解码话音信号输入到丢失信号生成部分203。在这种情况下,通过使用预先读出的将来解码话音信号和过去解码话音信号为丢失了分组的帧生成该分组的话音信号的补偿话音信号。丢失信号生成部分203由当前帧的过去解码话音信号(本实施例中为5帧)和预先读出的将来解码话音信号(本实施例中为一帧),为要发送的当前帧话音信号生成补偿话音信号,并将其输出。
特别地,例如区域A1-A5中的话音信号用于像图3A所示例子中那样检测节距长度,并且在反方向上从区域A1的末端(与当前帧的边界)剪切一节距长度的波形,并且连接该波形的副本来由过去生成外推的波形。类似地,在正方向上从区域A0的起点剪切一节距长度的波形,连接该波形的副本来由将来生成外推的波形。将对应于这两个外推的波形的采样加在一起,并且将和除以2以获得内插的话音信号作为补偿话音信号。在这个例子中,只能处理具有小于或等于一帧长度的节距长度的波形,因为为将来帧提供一帧长度的存储区域A-1。然而,显然可以为多个将来帧提供多个区域来处理具有大于一帧长度的节距长度的波形。在这种情况下,数据延迟部分17、18和19提供的延迟量必须根据将来帧的数量而增加。当下一帧的解码话音信号输入到存储器202中时,存储在区域A1、...、A4中的解码话音信号向具有较大区域号A0、...、A5的区域移动一个位置。
在图20中,通过输入端100输入的话音信号被送进数据延迟部分17,在数据延迟部分17处话音信号被延迟一个帧周期,然后提供给话音质量评估部分40。此外,由数据延迟部分18将来自解码器12的解码话音信号延迟一个帧周期,然后将其提供给话音质量评估部分40。将来自数据延迟部分17的原始话音信号、来自数据延迟部分18的解码话音信号和来自补偿话音生成部分20的补偿话音信号提供到话音质量确定部分40,后者然后确定分组复制等级Ld。话音质量评估部分40的操作与参照图6所述的操作相同。数据延迟部分19将编码器11提供的编码话音信号延迟一个帧周期,然后将其提供到分组生成部分15。
图22示出与图20所示的话音分组发送装置相关联的话音分组接收装置的功能配置。诸如接收部分50、码序列构造部分61、解码器62和输出信号选择器63之类的部件与图13中所示的对应部件相同。接收装置与图13的接收装置不同之处在于,在解码器62的输出侧上提供用于将解码话音信号延迟一个帧周期的数据延迟部分67,提供数据延迟部分68用来将(接收部分50中的控制器(见图13)在检测到分组丢失时输出的)控制信号CLST延迟一个帧周期以便将其提供给补偿话音信号生成部分70和输出信号选择器63,并且补偿话音信号生成部分70由当前帧的来自图21所示的过去解码话音信号和预先读出的将来解码话音信号,生成内插话音信号作为补偿话音信号。
解码器62解码的话音信号送到数据延迟部分67,并且也存储在补偿话音生成部分70中的存储器(未示出)中(类似于图21所示的存储器),用于生成后继帧的补偿话音信号。数据延迟部分67将加码话音信号延迟一帧并且将其提供给输出信号选择器63。如果检测到出现分组丢失,并且从接收部分50向数据延迟部分68输出控制信号CLST,则将控制信号CLST延迟一个帧周期并且提供给补偿话音生成部分70和输出信号选择器63。补偿话音生成部分70以类似于参照图21描述的操作的方式生成和输出补偿话音信号。如果从接收部分50指示分组丢失,则输出信号选择器63选择补偿话音生成部分70的输出作为输出话音信号。如果没有出现分组丢失,则输出信号选择器63选择数据延迟部分67的输出作为输出话音信号并且输出解码话音信号。
在上述实施例中,如果在发送端由与当前帧相邻的至少一个帧生成的当前帧话音信号的补偿话音信号的话音质量低于指定值,则在接收对应于该帧的分组端出现丢失时由该相邻帧生成的补偿话音信号的话音质量也将是低的。因此,为了最小化分组丢失的出现,包含相同帧的话音信号的分组被发送多次,次数等于复制等级Ld值,复制等级Ld是根据预期补偿话音信号的目标评估值确定的。在上述例子中,通过从与当前帧相邻的至少一个帧开始重复复制节距长度的话音波形、直到填满帧长度为止,来生成补偿话音信号。
在下面实施例中,如果确定可以通过使用当前帧的节距(和功率)合成话音质量更好的补偿话音信号,则在一分组中发送当前帧的解码话音信号,并且还在同一帧的另一分组中发送作为辅助信息的同一当前帧的节距参数(和功率参数),而不是解码话音信号的副本。如果在接收端不能接收到包含帧的解码话音信号的分组而接收到辅助信息的分组,则可以使用辅助信息在减少要发送的数据量的同时生成较高质量的补偿话音信号。
图23示出允许使用该辅助信息的发送装置的示例性配置。在该配置中,将用于获得当前帧话音信号的节距参数(和功率参数)的辅助信息生成部分30加到图1所示的发送装置。补偿话音生成部分20具有(1)第一功能,用于如参照图1所述,从至少一个相邻帧检测节距,剪切节距长度的波形,并且基于波形生成第一补偿话音信号,(2)第二功能,使用辅助信息生成部分30检测的当前帧话音信号的节距参数、而不是使用第一功能中从相邻帧的波形检测的节距,并且通过使用节距参数从相邻帧的波形剪切节距长度的波形来生成第二补偿话音波形,和(3)第三功能,根据第二功能中的辅助信息生成部分30获得的当前帧话音信号的功率参数调节合成的第二补偿话音信号的功率,来生成与当前帧话音信号功率一致的第三补偿话音波形。
话音质量评估部分40分别基于第一、第二和第三补偿话音波形确定评估值Fd1、Fd2和Fd3,然后参照预定义这些值的表,确定对应于评估值Fd1的复制等级Ld和话音质量下降等级QL_1、对应于评估值Fd2的话音质量下降等级QL_2、对应于评估值Fd3的话音质量下降等级QL_3。
分组生成部分15根据复制等级Ld并且通过话音质量下降等级QL_1、QL_2和QL_3之间的比较,确定是将当前帧话音数据放入Ld个分组中送出还是将当前帧话音数据放在一个分组中且将相同的辅助信息(节距参数或节距和功率参数)放在其余Ld-1个分组中送出。分组生成部分15根据该确定生成和发送分组。将在稍后参照流程图描述该处理。
图24示出辅助信息生成部分30的示例性配置。当前帧话音信号提供到功率计算部分301,在功率计算部分301计算帧的话音信号的功率P=Σxn2]]>来获得作为功率参数的功率值。话音信号还提供到线性预测部分303,在线性预测部分303获得该帧的话音信号的线性预测系数。获得的线性预测系数提供到变平部分302来根据线性预测分析形成具有相反的频谱包络特性的反向滤波器。使用该反向滤波器将话音信号反向滤波,并且将其频谱包络变平。反向滤波的话音信号提供到自相关系数计算部分304,在这里计算其自相关系数[方程1].R(k)=Σn=0N-1xnxn-k]]>这里,如果以8kHz采样输入话音信号,最好40≤k≤120。节距参数确定部分305检测提供自相关系数R(k)的峰值的k作为节距,并且输出节距参数。
图25示出补偿话音生成部分20的示例性功能配置。如图2中的例子所示,将当前帧的解码话音信号写在存储器202中的区域A0,并且将区域A0-A4中保存的过去帧的话音信号移动到区域A1-A5。丢失信号生成部分203具有第一、第二和第三补偿信号生成部分21、22和23。第一补偿信号生成部分21像图2的例子中那样,通过上述第一功能、通过重复地连接使用由区域A1-A5中的波形检测的节距长度剪切的波形来合成第一补偿话音信号。第二补偿信号生成部分22通过上述第二功能、使用当前帧的节距参数(辅助信息生成部分30提供的辅助信息)从区域A1中的话音信号剪切节距长度的波形并且重复地连接波形,来合成第二补偿话音信号。第三补偿信号生成部分23通过第三功能、通过使用辅助信息生成部分30提供的当前帧的功率信息调节第二补偿信号生成部分22生成的第二补偿话音信号的功率使得第二补偿话音信号的功率等于当前帧,来生成第三补偿话音信号。特别地,令Pp表示功率参数,Pc=Σyn2]]>为功率调节前的补偿话音信号的功率,则可以通过计算K=(Pp/Pc)1/2并且将补偿话音信号的每个采样yn乘以K来获得功率调节后的补偿话音信号。
图26示出话音质量评估部分40的示例性配置。与图6所示的例子中的话音质量评估部分40相似,该话音质量评估部分40包括评估值计算部分41和复制发送确定部分42。评估值计算部分41具有第一计算部分412,用于由原始话音信号Org和解码话音信号Dec计算Fw1=WSNR(Org,Dec);第二计算部分#1 413A,用于由原始话音信号Org和第一补偿话音信号Com1计算Fw2_1=WSNR(Org,Com1);第二计算部分#2 413B,用于由原始话音信号Org和第二补偿话音信号Com2计算Fw2_2=WSNR(Org,Com2);和第二计算部分#3 413C,用于由原始话音信号Org和第三补偿话音信号Com3计算Fw2_3=WSNR(Org,Com3);以及第三计算部分411,用于计算第一评估值Fd=Fw1-Fw2_1、第二评估值Fd2=Fw1-Fw2_2和第三评估值Fd3=Fw1-Fw2_3。这些评估值Fd1、Fd2和Fd3提供给复制发送确定部分42。
复制发送确定部分42的表存储器42T中存储有图27所示的表(定义第一评估值Fd1的复制等级Ld和话音质量下降等级QL_1)、图28所示的表(定义第二评估值Fd2的话音质量下降等级QL_2)和与图28的表类似的未示出的表(定义第三评估值的话音质量下降等级QL_3)。在图27和28的表中,话音质量下降等级随着评估值增加而递增。尽管在图27的示例性表中评估值Fd1的复制等级Ld值与话音质量下降等级QL_1值相同,但这些值不必相同。这些值是通过试验预先确定的。
第一操作示例图29示出图23中的发送装置的第一操作示例。在该示例中,根据话音质量下降等级进行关于是如图1所示使用过去帧的波形和节距长度生成补偿话音信号Ext1还是使用当前帧的节距和过去帧的波形生成补偿话音信号Ext2的选择。将辅助信息生成部分30对当前帧的输入话音信号获得的节距参数和功率参数以及解码器12对经编码器11编码的当前帧话音信号进行解码所生成的解码话音信号提供给补偿话音生成部分20。
步骤S1补偿话音生成部分20由原始话音信号(Org)及其解码话音信号(Dec)计算Fw1=WSNR(Org,Dec),由原始话音信号(Org)和第一补偿话音信号(Com1)计算Fw2=WSNR(Org,Com1),并且由原始话音信号(Org)和第二补偿话音信号(Com2)计算Fw3=WSNR(Org,Com2)。
步骤S2计算不同评估值Fd1=Fw1-Fw2和Fd2=Fw1-Fw3。
在步骤S3到S9B,做出关于差评估值Fd1属于图27的表中的哪个范围的确定,并且确定对应于该范围的复制等级Ld和话音质量下降等级QL_1的值。
在步骤S10到S16,做出关于差评估值Fd2属于图28的表中的哪个范围的确定,并且确定对应于该范围的话音质量下降等级QL_2的值。
步骤S17做出关于话音质量下降等级QL_1是否低于QL_2,即,使用当前帧的节距生成的补偿话音信号Com2的话音质量下降等级是否低于由过去帧的节距生成的补偿话音信号Com1的话音质量下降等级的确定。如果Com2的话音质量下降等级不低于Com1的话音质量下降等级,即,使用当前帧的节距将不会提高话音质量,则在步骤S18将当前帧的编码话音数据放进所有Ld个分组中并且依次发送分组。
步骤S19如果话音质量下降等级QL_2低于QL_1,则使用例如利用从过去帧中的话音波形剪切的波形的节距长度和当前帧话音信号的节距生成的补偿话音信号Ext2与使用仅仅用过去帧的话音信号生成的补偿话音信号Ex1相比,话音质量将进一步提高。因此,将当前帧的编码话音数据放进一个分组,且将当前帧的节距参数作为辅助信息放进所有Ld-1个分组中,并且发送分组。
这样,如果在接收端可以接收到包含当前帧话音数据的分组,则可以再生当前帧话音信号,而如果在接收端不能接收到包含当前帧话音数据的分组而可以接收到包含当前帧的辅助信息(节距参数)的分组,则可以使用当前帧的节距来由过去帧中的话音波形生成补偿话音信号,从而一定程度上可以减少话音质量的下降。
第二操作示例图30示出第二操作示例。本操作示例中的步骤S1到S18与图29所示的步骤S1到S18相同,但后面的步骤不同。即,在步骤S19,将辅助信息(节距参数)的复制数量确定为质量等级的差Ndup1=QL_1-QL_2,并且在步骤S20将当前帧的辅助信息(这里为节距参数)放进Ld个分组当中的Ndup1个分组的每一个中,并且将当前帧的编码话音数据放进其余Ld-Ndup1个分组的每一个中,然后发送分组。即,在示例性操作中,如果在使用当前帧的节距生成补偿话音信号的情况中的话音质量下降小于仅从过去帧的话音数据生成补偿话音信号的情况中的语音质量下降,则根据减少话音质量下降的效果改变发送相同辅助信息的复制分组数量,从而也可以相应地改变发送相同当前帧的编码话音数据的复制分组数量。
第三操作示例图31和32示出第三操作示例。在本操作示例中,使用当前帧的节距和功率参数作为辅助信息,除了在第一和第二示例性操作中使用的第一和第二补偿话音信号Com1和Com2外,由过去帧中的波形生成第三补偿话音信号Com3。因此,在步骤S1除了执行在图30的步骤S1的WSNR计算外,还执行第四评估值Fw4=WSNR(Org,Com3)的计算,并且在步骤S2,除了执行在图30的步骤S2的WSNR差计算外,还执行Fd3=Fw1-Fw4的计算。此外,以类似于图30的步骤S10到S16中确定Fd2的话音质量下降等级QL_2的方式,添加步骤S110到S116用来确定Fd3的话音质量下降等级QL_3。
在步骤S17,做出关于QL_2或QL_3中较小的一个是否小于QL_1的确定。如果否,则在步骤S18将当前帧的编码话音数据放进Ld个分组中的每一个中并且发送。如果它们中任一个都小于QL_1,则在步骤S19做出关于QL_3是否小于QL_2的确定。如果否,则与图29的步骤S19相似的方式,在步骤S20生成包含当前帧的编码话音数据的一个分组和Ld-1个包含当前帧的节距参数的分组并且发送。如果QL_3小于QL_2,则在步骤S21生成包含当前帧的编码话音数据的一个分组和Ld-1个包含当前帧的节距和功率的分组并且发送。
第四操作示例第四示例性操作是第三示例性操作的变型。处理的前半部分的步骤与图31所示的第三示例性操作的步骤S1到S16相同,因此这些步骤也用在本示例中。步骤S16后面的步骤是图33所示的步骤S110到S23。除这些步骤之外,用于确定Fd3的话音质量下降等级QL_3的步骤S110到S116与图32所示的第三示例性操作的步骤S110到S116也相同。此外,步骤S17和S18也与图32中的相同。
如果在步骤S19中QL_3不小于QL_2,这意味着使用当前帧的节距和功率参数作为辅助信息与仅使用当前帧的节距参数相比,不能在补偿话音信号的话音质量上提供改善。因此,在步骤S20将节距参数的复制数量确定为Ndup1=QL_1-QL_2,并且在步骤S21将当前帧的节距参数放进Ndup1个分组中,将当前帧的编码话音数据放进其余Ld-Ndup1个分组中,并且发送这些分组。如果在步骤S19中QL_3小于QL_2,这意味着使用当前帧的节距和功率参数与仅使用当前帧的节距参数作为辅助信息相比,在补偿话音信号的话音质量上提供了改善。因此,在步骤S22将辅助信息(节距和功率)的复制数量确定为Ndup2=QL_1-QL_3,并且在步骤S23将当前帧的辅助信息放进Ndup2个分组中,将当前帧的编码话音数据放进其余Ld-Ndup2个分组中,并且发送这些分组。
图34示出与图23中的发送装置相关联的接收装置的示例性配置。在该配置中,辅助信息提取部分81加入到图13所示的接收装置中。此外,补偿话音生成部分70包括存储器702、丢失信号生成部分703和信号选择器704,如图35所示。丢失信号生成部分703包括节距检测部分703A、波形剪切部分703B、帧波形合成部分703C和节距选择器开关703D。
控制器53检查缓冲区62来看接收到的分组中包含的相同帧的分组是否已经存储在缓冲区52中。如果没有的话,控制器53将接收到的分组存储在缓冲区52中。将在后面参照图36A的流程图详述该处理。
在再现话音信号的处理中,控制器53检查缓冲区52来看当前需要的帧的分组是否存储在缓冲区52中,这将在稍后参照图36B的流程图描述。如果没有存储,则控制器53确定分组已经丢失,并且生成控制信号CLST。当控制器生成控制信号CLST时,信号选择器704选择丢失信号生成部分703的输出并且节距选择器开关703D选择节距检测部分703A检测的节距,并将其提供给波形剪切部分703B,后者然后从存储器702的区域A1剪切节距长度的波形。帧波形合成部分703C由剪切的波形合成一帧长度的波形,并且将合成的波形作为补偿话音信号提供给输出选择器63,同时通过信号选择器704将其写入存储器702的区域A0中。
如果控制器53在缓冲区52中找到包含当前帧的编码话音数据的分组,则控制器53将该分组提供给码序列构造部分61,在码序列构造部分61从分组提取编码话音数据。在解码器62中对编码话音数据进行解码,并且通过输出信号选择器63输出解码话音信号,同时通过信号选择器704将其写入补偿话音生成部分70的存储器702中的区域A0中。如果控制器53找到包含关于当前帧的辅助信息的分组,则控制器53将该分组提供给复制信息提取部分81。
辅助信息提取部分81从分组中提取关于当前帧的辅助信息(节距参数或节距参数与功率参数的组合),并且将其提供给补偿话音生成部分70中的丢失信号生成部分703。当提供辅助信息时,将辅助信息中的当前帧的节距参数通过节距选择器开关703D提供给波形剪切部分703B。于是,波形剪切部分703B从区域A1中的话音波形中剪切当前帧的所提供的节距长度的波形。基于该波形,帧波形合成部分703C合成并输出一帧波形作为补偿话音信号。如果辅助信息还包含当前帧的功率参数,则帧波形合成部分703C使用功率参数调节合成的帧波形的功率,并且输出波形作为补偿话音信号。在任一情况中,当生成补偿话音信号时,将其通过信号选择器704写入存储器702的区域A0中。
图36A示出在控制器53的控制下将分组接收机51接收到的分组存储在缓冲区52中的处理的例子。
在步骤S1A做出关于是否已经接收到分组的确定。如果接收到分组,则在步骤S2A检查缓冲区52来看包含具有与接收到的分组中所包含的数据相同帧号的数据的分组是否已经在缓冲区52中。如果是的话,则在步骤S3A检查缓冲区的分组中包含的数据来确定它是否为编码话音数据。如果它是话音编码数据,则接收到的分组就是不必要的,因此在步骤S4A丢弃它,然后处理返回步骤S1A,处理在此等待下一分组。
如果在步骤S3A中缓冲区中相同帧的分组中的数据不是编码话音数据,即,如果数据是辅助信息,则在步骤S5A做出关于接收到的分组中的数据是否编码话音数据的确定。如果它不是编码话音数据(即,如果它是辅助信息),则在步骤S4A丢弃接收到的分组,然后处理返回到步骤S1A。如果在步骤S5A中接收到的分组中的数据是编码话音数据,则在步骤S6A中用接收到的分组替代缓冲区中包含的相同帧的分组,然后处理返回到步骤S1A。即,如果接收到的相同帧的分组是编码话音数据,则不需要生成补偿话音,因此不要求辅助信息。如果缓冲区不包含相同帧的分组,则在步骤S7A中将接收到的分组存储在缓冲区52中,然后处理返回到步骤S1A等待下一分组。
图36B示出在控制器53的控制下从缓冲区52读出的分组中提取话音数据并且输出再现话音信号的处理的例子。
在步骤S1B,检查缓冲区52来看是否存在需要的当前帧的分组。如果没有,则确定出现分组丢失,并且由丢失信号生成部分703的节距检测部分703A从过去帧中检测节距。在步骤S3B使用检测的检测长度来从过去帧中的话音波形剪切一个节距长度的波形,并且合成一个帧长度的波形。在步骤S7B将合成的波形作为补偿话音信号存储在存储器702中的区域A0中,在步骤S8B输出补偿话音信号,然后处理返回到步骤S1B,开始下一帧的处理。
如果在步骤S1B中缓冲器52包含当前帧的分组,则在步骤S4B做出关于分组中的数据是否为辅助信息的确定。如果是辅助信息,则在步骤S5B从辅助信息提取节距参数,并且在步骤S3B使用节距参数生成补偿话音信号。如果在步骤S4B确定当前帧的分组中的数据不是辅助信息,则分组中的数据为编码话音数据。因此,在步骤S6B对编码话音数据进行解码来获得话音波形数据,并且在步骤S7B将话音波形数据写入存储器402A中的区域A0中,并且在步骤S8B将话音波形作为话音信号输出,然后处理返回到S1B。
图36B中的处理对应于在发送端中的图30中的示例性操作。在处理对应于图31、32和33中的示例性操作的情况下,在步骤S5B(如括号所示)中也从辅助信息中提取功率参数,并且在步骤S3B中(如括号所示)根据功率参数调节合成的波形的功率。
权利要求
1.一种使用分组逐帧地发送输入的话音信号的话音分组发送方法,包括步骤(a)从与当前帧相邻的至少一帧的话音信号生成关于当前帧话音信号的补偿话音信号;(b)计算补偿话音信号的话音质量评估值;(c)根据话音质量评估值确定复制等级,复制等级是1或更大的整数值,其值随着补偿话音信号的话音质量的降低而递增;(d)对当前帧话音信号生成与复制等级指定的数量一样多的分组;和(e)将生成的分组发送到网络。
2.如权利要求1所述的话音分组发送方法,其中,步骤(b)由输入的话音信号和补偿话音信号计算话音质量评估值;和步骤(d)包括将当前帧的输入的话音信号直接按原样进行分组的步骤。
3.如权利要求1所述的话音分组发送方法,其中,步骤(a)包括通过编码输入的话音信号生成码序列的步骤以及通过解码码序列生成解码话音信号的步骤;步骤(b)包括由输入的话音信号和解码话音信号计算第一话音质量评估值的步骤,以及由输入的话音信号和补偿话音信号计算第二话音质量评估值的步骤;步骤(c)包括根据第一和第二话音质量评估值确定复制等级的步骤。
4.如权利要求1所述的话音分组发送方法,其中,步骤(a)包括步骤(a-1)生成至少包括节距参数的辅助信息,节距参数是当前帧话音信号的特征参数;(a-2)由至少一个相邻帧的话音信号生成具有话音信号的节距的第一补偿话音信号;和(a-3)通过至少使用辅助信息中的节距参数,由至少一个相邻帧的话音信号生成第二补偿话音信号;以及步骤(b)包括获取第一补偿话音信号的第一话音质量评估值的步骤和获得第二补偿话音信号的第二话音质量评估值的步骤;步骤(c)包括根据第一话音质量评估值确定复制等级和随着话音质量下降而递增的第一话音质量下降等级的步骤,以及根据第二话音质量评估值确定随着话音质量下降而递增的第二话音质量下降等级的步骤;步骤(d)包括步骤如果第二话音质量下降等级不小于第一话音质量下降等级,则生成数量与复制等级值一样多的、当前帧话音信号的分组;如果第二话音质量下降等级小于第一话音质量下降等级,则生成一个或多个当前帧话音信号的分组和一个或多个辅助信息的分组,所生成分组的总数等于复制等级值;以及步骤(e)为当前帧发送总数与复制等级值一样多的分组。
5.如权利要求4所述的话音分组发送方法,其中,步骤(c)还包括步骤计算第一话音质量下降等级和第二话音质量下降等级之间的差作为辅助信息的复制数量;以及如果第二话音质量下降等级不小于第一话音质量下降等级,则步骤(d)生成与辅助信息的复制数量一样多的辅助信息的分组。
6.如权利要求1所述的话音分组发送方法,其中,步骤(a)包括步骤(a-1)生成包括节距参数和功率参数的辅助信息,节距参数和功率参数是当前帧话音信号的特征参数;(a-2)由至少一个相邻帧的话音信号生成具有话音信号的节距的第一补偿话音信号;(a-3)通过使用辅助信息中的节距参数,由至少一个相邻帧的话音信号生成第二补偿话音信号;和(a-4)通过使用辅助信息中的节距参数和功率参数,由至少一个相邻帧的话音信号生成第三补偿话音信号;步骤(b)包括获取第一补偿话音信号的第一话音质量评估值的步骤、获得第二补偿话音信号的第二话音质量评估值的步骤以及获得第三补偿话音信号的第三话音质量评估值的步骤;步骤(c)包括步骤(c-1)根据第一话音质量评估值确定复制等级和随着话音质量下降而递增的第一话音质量下降等级;(c-2)根据第二话音质量评估值确定随着话音质量下降而递增的第二话音质量下降等级;(c-3)根据第三话音质量评估值确定随着话音质量下降而递增的第三话音质量下降等级;步骤(d)包括步骤如果第二或第三话音质量下降等级中小的一个不小于第一话音质量下降等级,则生成数量与复制等级值一样多的、当前帧话音信号的分组;如果第二和第三话音质量下降等级小于第一话音质量下降等级,且第三话音质量下降等级不小于第二话音质量下降等级,则生成一个或多个当前帧话音信号的分组和一个或多个节距参数的分组,所生成分组的总数等于复制等级值,而如果第三话音质量下降等级小于第二话音质量下降等级,则生成一个或多个当前帧话音信号的分组和一个或多个包括节距参数和功率参数的辅助信息的分组,所生成分组的总数等于复制等级值;以及步骤(e)为当前帧发送总数与复制等级值一样多的分组。
7.如权利要求6所述的分组发送方法,其中,步骤(c)还包括步骤计算第一话音质量下降等级和第二话音质量下降等级之间的差作为辅助信息的第一复制数量,并且计算第一话音质量下降等级和第三话音质量下降等级之间的差作为辅助信息的第二复制数量;以及如果第三话音质量下降等级不小于第二话音质量下降等级,则步骤(d)生成与辅助信息的第一复制数量一样多的节距参数的分组,而如果第三话音质量下降等级小于第二话音质量下降等级,则步骤(d)生成与辅助信息的第二复制数量一样多的包括节距参数和功率参数的辅助信息的分组。
8.一种使用分组逐帧地发送输入的话音信号的话音分组发送方法,包括补偿话音信号生成部分,用于从与当前帧相邻的至少一帧的话音信号生成关于当前帧的补偿话音信号;评估值计算部分,至少有补偿话音信号输入其中,并且其计算补偿话音信号的话音质量评估值;复制发送确定部分,用于根据话音质量评估值确定复制等级,复制等级是随着补偿话音信号的话音质量的降低而递增的整数值;分组生成部分,用于对当前帧话音信号生成与复制等级所指定的数量一样多的分组;和发送部分,用于将生成的分组发送到网络。
9.如权利要求8所述的话音分组发送装置,还包括编码器,用于编码输入的当前帧话音来获得编码的话音;和解码器,用于对编码的话音进行解码来获得解码话音,其中补偿话音信号生成部分使用与当前帧相邻的至少一帧的解码话音生成补偿话音。
10.如权利要求8所述的话音分组发送装置,还包括用于生成当前帧话音信号的节距参数作为辅助信息的辅助信息生成部分,其中补偿话音生成部分仅由与当前帧相邻的至少一个帧的话音信号生成第一补偿话音,以及通过使用当前帧的节距参数,由与当前帧相邻的至少一个帧的话音信号生成第二补偿话音;话音质量评估值计算部分获得第一补偿话音信号的第一话音质量评估值和第二补偿话音信号的第二话音质量评估值;复制发送确定部分根据第一话音质量评估值确定复制等级和随着话音质量下降而递增的第一话音质量下降等级,并且根据第二话音质量评估值确定随着话音质量下降而递增的第二话音质量下降等级;如果第二话音质量下降等级不小于第一话音质量下降等级,则分组生成部分生成数量与复制等级值一样多的、当前帧话音信号的分组;如果第二话音质量下降等级小于第一话音质量下降等级,则分组生成部分生成一个或多个当前帧话音信号的分组和一个或多个辅助信息的分组,所生成分组的总数等于复制等级值。
11.如权利要求8所述的话音分组发送装置,还包括用于生成当前帧话音信号的节距参数和功率操作作为辅助信息的辅助信息生成部分,其中补偿话音生成部分仅由与当前帧相邻的至少一个帧的话音信号生成第一补偿话音信号,通过使用当前帧的节距参数由与当前帧相邻的至少一个帧的话音信号生成第二补偿话音信号,以及通过使用当前帧的节距参数和功率参数由与当前帧相邻的至少一个帧的话音信号生成第三补偿话音信号;话音质量评估值计算部分计算第一补偿话音信号的第一话音质量评估值、第二补偿话音信号的第二话音质量评估值和第三补偿话音信号的第三话音质量评估值;复制发送确定部分根据第一话音质量评估值确定复制等级和随着话音质量下降而递增的第一话音质量下降等级,根据第二话音质量评估值确定随着话音质量下降而递增的第二话音质量下降等级,以及根据第三话音质量评估值确定随着话音质量下降而递增的第三话音质量下降等级;以及如果第二或第三话音质量下降等级中小的一个小于第一话音质量下降等级,则分组生成部分生成数量与复制等级值一样多的、当前帧话音信号的分组;如果第二或第三话音质量下降等级中小的一个小于第一话音质量下降等级、且第三话音质量下降等级不小于第二话音质量下降等级,则分组生成部分生成一个或多个当前帧话音信号的分组和一个或多个节距参数的分组,所生成分组的总数等于复制等级值;如果第三话音质量下降等级小于第二话音质量下降等级,则生成一个或多个当前帧话音信号的分组和一个或多个包括节距参数和功率参数的辅助信息的分组,所生成分组的总数等于复制等级值。
12.一种在计算机上执行如权利要求1所述的话音分组发送方法的计算机可执行程序。
13.一种计算机可读记录介质,其上记录有能使计算机执行如权利要求1所述的话音分组发送方法的程序。
全文摘要
在编码器(11)中对输入话音进行编码,解码器(12)对经编码的话音进行解码,补偿话音生成部分(20)使用先前解码话音生成用于补偿当前帧话音的补偿话音,话音质量评估部分(40)使用输入话音和补偿话音评估补偿话音的质量并且生成其值随着话音质量评估值的降低而逐渐增加的复制等级,分组生成部分(15)对经编码的话音生成与复制等级指定的数量一样多的相同分组,并且发送分组。从而,可以减少在接收端发生分组损失的可能性。
文档编号G10L19/14GK1906662SQ200580001518
公开日2007年1月31日 申请日期2005年5月10日 优先权日2004年5月11日
发明者森岳至, 大室仲, 日和崎佑介, 片冈章俊 申请人:日本电信电话株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1