声学信号分组通信方法、传递方法、接收方法、及其设备和程序的制作方法

文档序号:2827941阅读:248来源:国知局
专利名称:声学信号分组通信方法、传递方法、接收方法、及其设备和程序的制作方法
技术领域
本发明涉及一种提供措施以防在通过诸如因特网的分组通信网络传送诸如数字化语音和音乐的声学信号的期间发生分组丢失的通信方法、传送方法、接收方法、及其设备和程序。
背景技术
使用IP(网际协议)上的语音的技术来传送语音信号的服务正在变得普遍。如图1所示,在语音信号传送单元12中将来自输入端11的语音信号转换成语音分组,通过诸如IP网络的分组通信网络13将其传送到语音信号接收单元14,其中再现语音信号并且将其输出到输出端15。存在这样的问题,即,当实时传递分组时,根据网络的条件,在分组通信网络13上可能发生分组丢失,从而导致质量降级,例如可听到的再现话音中的不连续。在容忍分组丢失的所谓尽力而为型通信服务如因特网中,该问题在网络拥塞期间尤其显著。
因此,当通过分组通信网络传送语音信号时,使用一种称作分组丢失隐藏的技术。该方案使用这样一种技术,其中如果分组在通信信道上的某处丢失,或者由于通信信道上的延迟而没有在时间限制之内到达接收端,则在接收端估计并且补偿与已经消失或没有到达的分组(以下被称作“遗失分组”或“丢失分组”)相对应的片段中的语音信号。图2示出了图1所示的语音信号传送单元12的典型配置的示例。将输入语音信号存储在输入缓冲器21中,然后在语音分组生成单元22中将语音信号分裂成具有预定长度的、被称作帧的时间片段,以生成语音分组,并且将语音分组从分组传送单元23发送到分组通信网络。一个帧的时长典型地是10到20毫秒左右。
图3示出了图1所示的语音信号接收单元14的典型配置的示例。将在分组接收单元31处通过分组通信网络接收的语音分组存储在也被称作抖动吸收缓冲器的接收缓冲器32中。对于成功接收到其分组的帧,从接收缓冲器提取语音分组,并且在语音分组解码单元33中将其解码成语音信号。对于其分组丢失的帧,在丢失信号生成单元34中,执行分组丢失隐藏处理,以生成语音信号,并且输出所生成的语音信号。如果基音(pitch)周期(在时间轴上等于声音的基频的长度)信息用于分组丢失隐藏处理,则将输出语音信号存储在输出语音缓冲器35中,然后在基音提取单元36中执行对信号的基音分析,并且将所获得的基音周期值提供给丢失信号生成单元34。通过选择器开关37将在丢失信号生成单元34中生成的信号输出到输出端15。如果没有分组丢失,则通过选择器开关37将来自语音分组解码单元33的解码信号输出到输出端15。应当注意,执行双向语音通信的通信终端既具有传送器又具有接收器。一种公知的典型分组丢失隐藏技术是在非专利文献1中描述的技术。非专利文献1中的技术将声音的基音周期用于分组丢失隐藏。
图4示出了也在非专利文献1中使用的典型分组丢失隐藏技术。图4示出了在与帧n,即接收端的当前帧,相对应的分组丢失时执行的处理。这里假定,正确地对语音信号的先前帧(直至帧n-1)进行了解码,或者通过使用分组丢失隐藏而生成了丢失分组的语音信号。从前一帧n-1的最后样本点剪除等于1个基音周期的片段3A的语音信号波形,并且重复所剪除的1个基音周期的波形,以填充帧n的片段(片段3B-3D)。
与用零值填充帧n中的所有样本点而不应用任何处理相比较,通过以这种方式重复前面的1基音波形而生成分组丢失帧的波形,可以以自然的话音质量再现话音。
当仅仅重复1基音波形时,可能由于连接点处的波形不连续而在连接点处生成刺耳的噪声。这样的连接点处的不连续可以通过使用图5所示的技术来防止。为了清楚起见,在图5中将帧n的片段显示成所剪除波形的交错层。首先,从帧n-1的最后样本点剪除具有稍微长于1个基音周期的长度的片段4A的波形,例如,5L/4(5×L/4),其中L是基音长度。将所剪除的波形放置在偏移一个基音长度的位置4B、4C和4D。因为所剪除的波长长于一个基音长度,所以产生重叠片段4AB、4BC和4CD。例如,通过应用图6所示的三角窗口函数来叠加这些重叠片段。在图6中,横轴表示时间,纵轴表示权重,t1表示重叠片段的开始点,并且t2表示重叠片段的结束点。例如,在图5中的重叠片段4BC的情况下,通过将重叠片段4BC中的片段4B部分的波形乘以加权函数W1,并且将重叠片段4BC中的片段4C部分的波形乘以加权函数W2,然后通过将乘积相加在一起,可以平滑地互连所剪除的片段B和C中的波形。在非专利文献1中也描述了这种叠加的细节。
可以认为,通过在发生分组丢失的通信环境中使用非专利文献1中描述的技术而生成的声音质量一般是良好的。然而,如果在接近话音中的辅音和元音之间的边界处发生分组丢失,则可能生成令人不舒服的噪声(第一问题)。此外,如果连续多个帧的分组丢失(被称为突发(burst)丢失),也就是,如果两个或更多个连续帧的分组丢失,其中每个帧具有20毫秒的长度,或者如果具有较长帧长的语音编码格式的一个帧的分组丢失,也就是,如果具有40或60毫秒帧长的语音编码格式的分组丢失,则生成嘈杂的蜂鸣音或不自然的声音(第二问题)。
第一问题起因于在非专利文献1所述的方法中,创建具有与紧邻的前面帧的语音波形相同特性的波形,以生成丢失帧的声音。也就是,如果在辅音和随后的元音之间的边界周围更接近元音的帧丢失,则虽然事实上丢失帧是元音的周期,但是生成具有与辅音相同特性的声音波形。在声音从元音变到静音或辅音时,可能生成类似的噪声。
即使当在不接近辅音和元音之间的边界的片段中发生分组丢失时,也可能出现第二问题。这是由这样的事实引起的,即,(自递归地)重复使用分组丢失帧中的声音,以生成具有相邻的后续帧丢失片段中的相同特性的声音波形,因此在长达40到60毫秒或更多的时间周期内连续地再现具有相同特性的声音波形。实际语音的基音周期和能量略微变化,并且当连续地再现具有相同特性的声音时,该声音被感觉为不同于语音的声音。
为了解决第一和第二问题,提出了在非专利文献2中描述的技术。在该文献的技术中,预先将第k帧的辅助信息嵌入到第k+1帧中。如果第k帧由于分组丢失而没有到达,则使用嵌入到第k+1帧中的辅助信息来隐藏第k帧中的错误。
非专利文献1ITU-T Recommendation G.711 Appendix I,“A high qualitylow-complexity algorithm for packet loss concealment with G.711”,pp.1-18,1999。
非专利文献2Naofumi Aoki,“A packet loss concealment technique forVoIP using steganography based on pitch waveform replication”,IEICE Vol.J86-B,No.12,pp.2551-2560,2003。

发明内容
本发明所要解决的问题在发生分组丢失的通信环境中使用非专利文献1所述的分组丢失隐藏技术具有在一定程度上减小再现声音质量降级的效果。然而,如果分组丢失发生在辅音和元音之间的边界处附近,则不能充分地消除令人不舒服的噪声。此外,如果连续多个帧的分组丢失,则将产生感觉不自然的再现声音质量。
非专利文献2描述了添加辅助信息以隐藏错误的技术。然而,该文献没有示出应当在声学信号帧之后的多少帧(延迟量),与声学信号帧同时传送其辅助信息。真实通信网络中的通信条件变化,从而分组的抖动和分组丢失的频率变化。因此,最佳延迟量也应当变化。然而,传统技术领域的技术都没有示出用于动态地改变延迟量的方法。此外,必须预先在终端装置之间确定延迟量。
本发明的目的是提供一种能够解决这些问题并且允许进行具有更稳定质量的声音通信的方法,以及提供其设备和程序。
解决问题的手段根据本发明,在发送端,将与具有与声学信号分组相差由延迟量控制信息指定的值的帧编号的帧中的声学信号相对应的数据(以下被称为“声学信号对应数据”)、以及延迟量控制信息包含在该声学信号的相同分组中,并且进行传送。在接收端,如果不能接收到分组,则通过使用延迟量控制信息,从接收缓冲器中的分组获得具有与声学信号的丢失帧(以下被称为“丢失帧”)相同的帧编号的声学信号对应数据。然后,在接收端,使用所获得的声学信号对应数据来生成丢失帧的声学信号。
根据本发明,根据通信网络的条件而改变延迟量。具体地说,检测在预定周期中分组抖动时间长度的最大值或连续分组丢失帧数(例如,如果单个帧的分组丢失,则该数目是1;如果连续三个帧的分组丢失,则该数目是3)(以下被称为“连续分组丢失数”)的最大值。控制存储在接收缓冲器中的分组的数(以下被称为“存储分组数”)和延迟量,以便满足下面条件等于抖动时间量的帧数(上舍入到整数的小数)≤延迟量≤存储分组数或者连续分组丢失数≤延迟量≤存储分组数根据本发明,在发送端,至少获得与每个帧中的声学信号相对应的基音周期作为声学特征,并且将具有彼此相差由延迟量控制信息指定的帧数的帧编号的声学信号和声学特征包含在相同分组中,并且进行传送。在接收端,如果与要输出的帧中的声学信号相对应的分组丢失,则从接收缓冲器中的分组获得与丢失分组的声学信号相对应的声学特征,从最接近于丢失分组的声学信号帧(以下被称为“丢失帧”)的帧中的声学信号,剪除具有等于包含在所获得的声学特征中的基音周期的长度的波形,以该基音周期重复所剪除的波形,并且使用所重复的信号生成丢失分组的声学信号。
本发明的效果根据本发明,将延迟量控制信息包含在分组中并且进行发送,并且在另一分组中发送每个帧的声学信号对应数据。也就是,即使在发送端改变延迟量,在接收端也能知道声学信号和声学信号对应数据之间的关系。因此,如果帧的声学信号由于分组丢失而丢失,则可以在没有分组丢失的情况下接收与声学信号相对应的数据的分组,并且可以容易地从所传送的延迟量控制信息获得它。
此外,如果声学信号的基音周期用作声学信号对应数据,则剪除并且布置具有等于基音周期的长度的声学信号波形,以生成丢失的声学信号。因此,即使发生随机1个基音丢失,或发生多个帧分组丢失,也几乎以在没有发生分组丢失的情况下将实现的声音质量来再现声学信号,从而可以实现稳定的声音通信。
以这种方式,可以通过分组丢失频率高的分组通信网络来执行实时稳定的声音通信。典型地,以这样的方式设计分组通信网络,即,它们容忍一定程度的分组丢失,以降低成本。本发明也具有降低网络成本的效果,这是因为本发明的使用可以消除设计具有低分组丢失率的高质量传输电路的需要。
此外,根据通信网络的条件来控制延迟量,以便如果网络条件相对好,则减小存储在接收缓冲器中的分组数,以减少语音分组的接收和语音信号的实际再现之间的延迟时间。如果网络条件相对差,则增大存储在接收缓冲器中的分组数,以便可以可靠地获得声学信号对应数据,从而即使在发生突发分组丢失时,也以最小化的质量降级来再现语音信号(虽然增加了语音分组的接收和语音信号的实际再现之间的延迟时间)。


图1是示出将语音信号转换成语音分组并且通过分组通信网络传递语音分组的情况的概念图;图2是示出图1所示的语音信号传送单元12的典型功能配置的示例的方框图;图3是示出图1所示的语音信号接收单元14的典型功能配置的示例的方框图;图4是用于示出通过使用典型分组丢失隐藏技术来生成丢失信号的波形图;图5是用于示出用于防止在图4中通过重复基音波形而创建波形时所生成的不连续声音的重叠相加处理的波形图;图6示出了在重叠相加处理中使用的三角窗口函数的示例;图7示出了根据本发明的语音信号传送设备100的示例性功能配置;图8示出了根据本发明的语音信号接收设备200的示例性功能配置;图9示出了根据本发明的声学信号分组传送方法的处理;图10示出了根据本发明的声学信号分组接收方法的处理;图11示出了分组的示例性结构;图12是用于示出图8所示的丢失信号生成单元224的操作示例的波形图;图13示出了图8所示的丢失信号生成单元224的功能配置的具体示例;图14示出了用于选择丢失帧的声学信号的声学特征参数的处理的示例;图15是用于示出当发生连续分组丢失时执行的后向波形外插处理的波形图;图16是用于示出后向波形外插的重叠相加处理的波形图;图17示出了根据本发明的语音信号传送设备100-2的示例性功能配置;图18示出了根据本发明的语音信号接收设备200-2的示例性功能配置;图19示出了抖动时间和存储分组数之间的关系的示例;图20示出了根据本发明的语音信号接收设备200-3的示例性功能配置;图21示出了根据本发明的语音信号接收设备200-4的示例性功能配置;图22示出了根据本发明的语音信号接收设备200-5的示例性功能配置;图23示出了根据本发明的语音信号接收设备200-6的示例性功能配置;
图24示出了根据本发明的语音信号接收设备200-7的示例性功能配置;图25示出了在一个方向上传送语音分组的示例性系统配置;图26示出了在一个方向上传送语音分组并且在另一个方向上传送控制信号的示例性系统配置;图27示出了传送设备300的示例性功能配置;图28示出了接收设备400的示例性功能配置;图29示出了双向传送语音分组的示例性系统配置;图30示出了用于不将控制信息从语音分组的接收端传送到发送端的示例性处理流程;图31示出了用于将控制信号从语音分组接收端传送到发送端的处理流程的第一示例;图32示出了用于将控制信号从语音分组的接收端传送到发送端的处理流程的第二示例;图33示出了用于将控制信号从语音分组的接收端传送到发送端的处理流程的第三示例;图34示出了用于将控制信号从语音分组的接收端传送到发送端的处理流程的第四示例;以及图35示出了通信网络的条件在两个方向上同等地影响分组通信的示例性处理流程。
具体实施例方式
本发明可以由计算机和计算机程序实现,或者通过将其实现在数字信号处理器或专用LSI上来实现。虽然本发明可以应用于诸如语音或音乐信号的声学信号,但是下面将描述这样的情况,其中本发明应用于图1所示的、使用IP上的语音(Voice over IP)的语音通信系统。为了避免重复描述,用相同的附图标记标注具有相同功能的组件或执行相同处理的步骤。
在第一实施例的描述中,将针对基音周期用作声学信号对应数据的情况而描述语音信号传送设备和语音信号接收设备的功能配置、以及处理流程。在第二实施例的描述中,将描述用于结合通信网络的条件而动态改变延迟量和存储分组数的方法。在第二实施例中使用的声学信号对应数据不限于基音周期。它可以是声学信号本身或其它声学信号特征参数。
图7示出了语音信号传送设备100的示例性功能配置(其对应于图1所示的传送单元12);图8示出了语音信号接收设备200的示例性功能配置(其对应于图1所示的接收单元14);图9示出了在语音信号传送设备100中执行的处理的示例;图10示出了在语音信号接收设备200中执行的处理。
发送端在传送设备100中,将输入语音信号存储在输入缓冲器111中,将其划分成被称为帧的给定时间片段,也就是,划分成帧(步骤S1),然后将其发送到语音波形编码单元112。一个帧的时长典型地是10到20毫秒左右。
语音波形编码单元112使用例如G.711(μ律PCM或A律PCM)来将输入语音信号转换成语音代码(步骤2),其中G.711是ITU-T标准编码算法。应当注意,还可以使用非G.711算法或其它非标准语音编码算法。将语音代码发送到分组构造单元113。
语音特征参数计算单元114使用存储在输入缓冲器111中的语音信号,计算当前帧中的语音信号的语音特征(步骤S3)。术语“语音特征参数”是指诸如基音周期(等于语音的基频)和能量的值。可以使用任何或所有特征。通过计算语音信号波形、或者例如通过将具有相反频谱包络特性的滤波器应用到语音信号波形而获得的信号的自相关系数,可以在基音部件114a中获得基音周期(步骤S3a)。通过计算帧中的语音信号的所有样本的平方和,在能量部件114b中获得能量(步骤S3b)。表示能量的特征参数可以是通过将平方和除以一个帧长度中的样本数(如果语音信号的采样频率是8kHz,并且帧长是20毫秒,则为160个样本)而获得的值,并且计算商的平方根(每样本的能量的平方根)。
在语音特征编码单元115中,量化语音特征参数,以便可以用位(或字节)数表示它,然后将量化值转换成代码(步骤S4)。例如,如果使用基音周期,并且以8kHz的采样频率对语音进行采样,并且基音周期搜索范围是40到120个样本,则可以分配从0到80的整数作为代码,并且可以通过使用7位来对基音周期进行编码。如果搜索范围是20到160个样本,则可以分配从0到140的整数作为代码,并且可以通过使用8位来对基音周期进行编码。可以通过对每个样本的能量的平方根应用G.711而以8位对能量进行编码(实际上,可以以7位对能量进行编码,这是因为能量不会取负值,因此可以省略符号位)。
将经过编码的语音特征发送到移位缓冲器116。在移位缓冲器116中,语音特征的代码被保持在预定数目的帧上。当通过端子117将后面将要描述的延迟量控制信息输入到移位缓冲器116中时,移位缓冲器116将与由延迟量控制信息指定的帧数一样多的先于当前帧的帧,即过去帧,的语音信号的语音特征的代码(也被称为“补充信息”),发送到分组构造单元113。例如,如果延迟量控制信息是3,则在移位缓冲器116中将在帧n-3中生成的语音特征代码延迟3帧,然后将其发送到分组构造单元113,其中n表示当前帧(步骤S5)。
通过端子118输入后面将要描述的剩余缓冲器量,并且在剩余缓冲器量编码单元119中对其进行编码(步骤S6)。还将剩余缓冲器量代码发送到分组构造单元113。在分组构造单元113中,通过使用由于语音信号波形的编码而产生的前述代码、语音特征的代码、延迟量控制信息和剩余缓冲器量代码,构造分组(步骤S7)。应当注意,在某些情况下,在分组中没有包括延迟量控制信息和剩余缓冲器量代码,后面将会描述该情况。
分组传送单元121接收在分组构造单元113中构造的分组信息,并且将其作为语音分组发送到分组通信网络(步骤S8)。
图11示出了在分组构造单元113中构造的分组的示例性结构。分组典型地包括首标字段41和数据字段42。首标字段41包括必需字段41a和可选字段41b。分组的目的地和时间戳,如帧编号,包含在首标字段41中。通过对语音信号波形进行编码而生成的代码数据包含在数据字段42中。语音特征的代码可以包含在首标字段41的可选字段HOP 41b中,或者包含在数据字段42的开始位置D1或结束位置DE中,因为这些代码在大小(字节数)上小于波形数据。在可选字段HOP中包含这些代码具有这样的优点,即可以更容易地保持本发明和不使用本发明的方法之间的兼容性。分组的首标字段41的长度典型地是4字节的倍数。如果将基音周期和能量中的每个量化成1字节的语音特征参数,并且发送(如果它包括7位,则将其上舍入到1字节=8位),则总共2字节的基音周期和能量信息、以及各由1字节表示的延迟量控制信息和剩余缓冲器量代码总计为4字节。例如,这4字节中的每个包含在可选字段HOP 41b的四个位置OP1、OP2、OP3和OP4中。随同补充信息(语音特征代码)一起传送延迟量控制信息的目的是让接收端知道该补充信息与哪个帧相关联。因此,可以认为,延迟量控制信息是相对于帧n的时间戳。随同补充信息一起传送剩余缓冲器量代码的目的是向接收端表示,当接收端将分组传送到发送端时,补充信息的传送应当相对于帧n延迟的帧数。
如果补充信息相对于帧n延迟的帧数不动态地逐帧改变,则不需要随同补充信息一起传送延迟量控制信息和剩余缓冲器量代码,因此省略图7中的剩余缓冲器量编码单元119、图8中的剩余缓冲器量解码单元216、剩余接收缓冲器量确定单元218、以及图9中的步骤S6。这是因为发送和接收端只需预先知道预定的相对帧延迟(例如,通过建立呼叫连接期间的协商)。在这种情况下,不需要发送各自1字节长的延迟量控制信息和剩余缓冲器量代码,而只需发送基音周期和能量信息,总共2字节。因为首标字段的长度是4个字节的倍数,所以可以随同帧n的分组一起传送两个帧的补充信息,如帧n-3和n-6的语音信号的补充信息。因此,减小了由于分组丢失而丢失语音信号代码及其补充信息两者的概率。如果延迟量控制信息要被设置成常量值,则它应当是等于大约60、80或100毫秒的长度的帧数,以便语音信号代码及其补充信息都不会丢失,也就是,以便它们更不易受突发丢失的影响,并且仍然不损害其实时通信。
接收端在图8的语音信号接收设备200中,分组接收单元211从分组通信网络接收语音分组(步骤S21),并且将其存储在接收缓冲器212中(步骤S22)。接收缓冲器212也被称作抖动吸收缓冲器。如前所述,语音分组包含通过对语音信号波形进行编码而生成的代码、诸如基音和能量代码的补充信息、延迟量控制信息、以及剩余缓冲器量信息。如果补充信息相对于帧n延迟的帧数不动态地逐帧改变,则不需要延迟量控制信息和剩余缓冲器量代码。然而,在下面描述中假定分组既包含延迟量控制信息又包含剩余缓冲器量代码。
将包含在所接收的语音分组中的、通过对语音信号波形进行编码而产生的代码发送到语音分组解码单元213,其中对该代码进行解码(步骤S24)。在没有丢失分组的帧中,通过选择器开关214,将来自语音分组解码单元213的输出信号作为再现语音提供给输出端215(步骤S36)。
剩余缓冲器量解码单元216从包含在所接收的语音分组中的剩余缓冲器量代码,获得延迟量控制信息,其指定补充信息应当延迟的帧数。将所获得的延迟量控制信息发送到图7中的端子117,也就是,发送到移位缓冲器116和分组构造单元113。后面将描述发送端的剩余缓冲器量和延迟量控制信息之间的关系。
包含在所接收的语音分组中的延迟量控制信息用于丢失处理控制单元217。后面将描述在丢失处理控制单元217中执行的处理。
剩余接收缓冲器量确定单元218检测存储在接收缓冲器212中的分组的帧数。例如,如果在语音分组解码单元213正在对帧n进行解码时,帧n+1、n+2和n+3中的语音信号代码的分组存储在接收缓冲器212中,则剩余缓冲器量,即所存储的分组的帧数是3。将剩余缓冲器量信息发送到图7中的端子118,即,剩余缓冲器量编码单元119。图7所示的传送设备100和图8所示的接收设备200协作的该通信方法假定执行双向语音通信,并且每个终端设备具有传送设备100和接收设备200两者。
语音信号传送设备100的端子117是输入端,用于输入控制传送设备100本身的信号。也就是,将语音特征包括在根据输入到输入端117的延迟量控制信息而延迟的分组中。另一方面,端子118是输入端,用于将信息传送到处于通信另一端的语音信号接收设备200。该信息不控制语音信号传送设备100。换句话说,仅仅将输入到端子118的信息传送到通信的另一端。
丢失检测单元219检测分组丢失(步骤S23)。按照分组编号次序,即帧编号次序,将在分组接收单元211接收的分组存储在接收缓冲器212中。例如,如果所接收分组的帧编号比紧邻在该分组之前接收的分组的帧编号大3,则将该分组存储在从紧邻在该分组之前接收的分组的存储位置开始的接下来第三个分组存储位置。按照存储位置的次序从接收缓冲器212读取分组。如果在读取操作期间,在要从其读取分组的存储位置中没有找到分组,则分组丢失检测单元219确定发生了分组丢失,并且将选择器开关214转到丢失处理控制单元217的输出。下面将描述在丢失处理控制单元217处执行的分组丢失隐藏控制处理的细节。
如果帧n的分组丢失,则接收缓冲器搜索单元221在存储在接收缓冲器212内的接收分组中搜索,以在所接收的帧n+1和后续帧的分组之中查找分组按时间先后顺序最接近于丢失帧n(其时间戳最接近于丢失帧n的分组)(步骤S25)。假定作为搜索的结果,找到了帧n+i的分组,其中如果帧n+1没有丢失,则i=1,如果连续帧n+1和n+2丢失并且帧n+3没有丢失,则i=3,等等,然后在先行(look-ahead)语音波形解码单元222中对包含在帧n+i的分组中的、通过语音信号波形的编码而产生的代码进行解码(步骤S26),以获得帧n+i的语音信号波形。然后,接收缓冲器搜索单元221在存储于接收缓冲器212内的分组中搜索被添加了与丢失帧n的语音信号相对应的补充信息的分组(步骤S27)。
如前所述,如果将延迟量控制信息(相对时间戳)添加到分组,则可以基于延迟量控制信息而发现被添加了与帧n的语音信号相对应的补充信息的分组。例如,如果将3作为延迟量控制信息添加到帧n+3的分组,则它是包含与帧n的语音信号相对应的补充信息的分组。如果被添加了补充信息的分组被延迟的帧数不动态地逐帧改变,则在发送端不需要将延迟量控制信息添加到分组。在这种情况下,基于预定的延迟量,搜索被添加了与丢失帧n的语音信号相对应的补充信息的分组。例如,如果预定延迟量是5,则帧n+5的分组被添加了与丢失帧n的语音信号相对应的补充信息。如果如前所述,将两个帧的补充信息添加到一个帧的分组中,则作为在接收缓冲器212中搜索的结果,可以找到具有与丢失帧n的语音信号相对应的补充信息的两个分组。在这种情况下,可以使用它们中的任何一个。
如果通过该搜索而找到这样的分组(步骤S28),则在语音特征解码单元223中,将所找到的、与丢失帧n的语音信号相对应的补充信息解码成丢失帧n的语音信号的基音和能量信息(步骤S29),并且将其发送到丢失信号生成单元224。
另一方面,如同在非专利文献1所述的方法中一样,将要输出到输出端215的输出语音信号存储在输出语音缓冲器225中(步骤S36)。如果在步骤S28通过搜索而没有找到分组,则在基音提取单元226中分析输出语音缓冲器225中的输出语音信号的基音周期(步骤S30)。在基音提取单元226中提取的基音对应于紧邻在丢失帧之前的帧n-1的语音信号的基音。将与紧邻的前面帧n-1的语音信号相对应的基音发送到丢失信号生成单元224。
图12示出了丢失信号生成单元224的操作的概念图,并且图13示出了丢失信号生成单元224的示例性功能配置。假定与帧n相对应的分组丢失,其中帧n是当前帧。在非专利文献1中描述的方法逐基音地重复紧邻在分组丢失帧之前的帧n-1的波形。在该方法中,该信号的特性,包括基音周期和能量,与紧邻的前面帧n-1的特性相同。在该实施例中,如图13所示,在前向波形外插单元51中,从紧邻的前面帧n-1的信号剪除与基音周期相对应的信号波形,并且基于基音周期而重复该信号波形,以生成一帧长度的波形10-1(步骤S31)。尽管在非专利文献1中描述的方法使用紧邻的前面帧n-1中的语音信号的基音长度作为基音周期,但是本发明使用通过对补充信息进行解码而获得的丢失帧n的语音信号的基音长度。如果如在包括补充信息的分组也丢失的情况下,在步骤S28不能找到包括补充信息的分组,并且也不能获得补充信息,则使用在步骤30获得的紧邻的前面帧n-1中的语音信号的基音长度。
另外,在本实施例中,在后向波形外插单元52中,从在帧n+1之后在接收缓冲器212中成功接收到的帧n+i中的语音信号,剪除与基音周期相对应的信号波形(也就是,如果成功接收到帧n+1的分组,则为帧n+1中的信号,或者如果帧n+1的分组也丢失并且成功接收到帧n+2的分组,则为帧n+2中的信号),并且重复基音周期的波形,以生成一帧长度的波形10-2(步骤S32)。应当注意,因为在外插中使用时间轴上的未来波形,所以在时间轴的负方向上重复该波形。如同在前向波形外插单元51中一样,用于后向波形外插单元52中的基音周期是通过对补充信息进行解码而获得的丢失帧n中的语音信号的基音长度。然而,如果如在包括补充信息的分组也丢失的情况下不能获得补充信息,则可以使用帧n-1中的语音信号的基音长度,或者如果成功获得了帧n+1中的语音信号的补充信息,则可以使用帧n+1中的语音信号的基音长度。
也就是,例如,如图14所示,如果包含丢失帧n中的语音信号的补充信息的分组没有丢失(步骤S41),则通过对补充信息进行解码,获得要被剪除用于波形外插以便生成丢失帧n的语音信号的基音长度(步骤S42)。如果被添加了补充信息的分组丢失,则确定外插是否是前向外插(步骤S43)。如果是,分析紧邻的前面帧n-1中的输出语音信号,以获得基音长度,并且使用该基音长度(步骤S44)。否则,搜索被添加了紧邻的后面帧n+1中的语音信号的补充信息的分组。如果它没有丢失,则处理前进到步骤42,其中对补充信息进行解码,并且使用基音长度。如果也不能获得帧n+1中的语音信号的补充信息,则处理前进到步骤S44。图12示出了前向波形外插单元51和后向外插单元52的处理的概念图。附图标记9-1表示前面波形,并且9-2表示前向预测波形。在前向波形外插中,如片段10B1、10C1和10D1所示,重复从帧n-1中的语音信号剪除的一个基音长度的波形10A1,以生成波形10-1。在后向波形外插中,如片段10B2、10C2和10D2所示,重复从帧n+1中的语音信号剪除的一个基音长度的波形10A2,以生成波形10-2。图15中的波形9-2示出了在连续帧n和n+1的分组丢失并且成功接收到帧n+2的情况下,后向外插的图像。在这种情况下,从更接近于帧n+2的帧n+1的末端开始到更接近于帧n的帧n-1的末端,作为片段13B、13C、...、13F,从帧n+2中的语音信号剪除1基音波形13A,并重复,以获得帧n的外插波形10-2。
如在非专利文献1的方法的描述中关于图5所述的那样,如果简单地重复所剪除的一个基音长度的波形,则在连接点将发生可听到的不连续。因此,在前向波形外插中,如同在图5中一样,可对重叠片段使用重叠相加(OLA)操作。类似地,如图16所示,在图5的时间轴的反方向上,在后向外插中可以实现OLA操作。
如图13所示,分别地,在乘法单元53和54中,将波形10-1和10-2分别乘以权重W1和W2,并且在加法单元55中将乘积相加在一起,以产生波形yn(步骤S34)。在权重确定单元56中,权重W1和W2中的每个可以简单地被设置为1/2,或者基于波形10-1和10-2的“可靠性”而确定(步骤S34)。基于“可靠性”意味着已经成功接收的最后帧的帧编号与当前帧n的帧编号之差和在接收缓冲器212中找到的、具有当前时间之后的时间戳的接收分组的帧的帧编号与当前帧n的帧编号之差当中的较小一个,被认为表现出较高的可靠性。在突发分组丢失的情况下,使用这样的“可靠性”是有用的。下面将给出示例。
第一示例如果前面帧n-1的分组没有丢失,帧n的分组丢失,并且紧邻的后面帧n+1的分组没有丢失,则认为前向外插波形10-1和后向外插波形10-2具有相同的“可靠性”,因此将每个权重设置为1/2。
第二示例如果前面帧n-1的分组没有丢失,帧n的分组丢失,紧邻的后续帧n+1的分组丢失,并且帧n+1之后的帧n+2的分组没有丢失,则通过前向波形外插从前面帧n-1获得的前向外插波形10-1的“可靠性”可能高于后向外插波形10-2的可靠性。因此,将乘以前向外插波形10-1的权重设置为2/3,将乘以后向外插波形10-2的权重设置为1/3。因为从成功接收到其每个分组的、最接近的前面帧n-1和最接近的后面帧n+2到将要生成语音信号的帧n的距离之间的比率是1∶2,所以认为可靠性之间的比率是2∶1。
第三示例如果成功接收到帧n-3,帧n-2和n-1的分组连续丢失,帧n的分组丢失,并且帧n+1的分组没有丢失,则后向外插波形10-2可能具有高于前向外插波形10-1的“可靠性”。将乘以前向外插波形10-1的权重设置为1/4,并且将乘以后向外插波形10-2的权重设置为3/4。因为从成功接收到其每个分组的、最接近的前面帧和后面帧到将要生成其语音信号的帧n的距离之间的比率是3∶1,所以认为可靠性之间的比率是1∶3。因此,例如,在图13的权重确定单元56中,分别地,在差值电路56a和56b中计算将要生成其语音信号的帧n和成功接收到其分组的前面帧nB之差Δn1,帧n和成功接收到其分组的后面帧nL之差Δn2。在求和电路56c中将差值Δn1和Δn2相加在一起。在除法器电路56d中,将差值Δn2除以该和,从而获得前向外插波形10-1的权重W1=Δn2/(Δn1+Δn2)。在除法器电路56e中,将差值Δn1除以该和,从而获得后向外插波形10-2的权重W2=Δn1/(Δn1+Δn2)。
在刚才描述的示例中,在帧中将前向外插波形10-1的所有样本点和后向外插波形10-2的所有样本点乘以相同权重。然而,可以确定从成功接收到其分组的帧到每个样本点的距离,并且可以根据可靠性为每个样本点设置权重。
图13中的能量校正单元57使用通过对帧n的语音信号的补充信息进行解码而获得的能量信息,校正和(sum)波形yn的能量(步骤S35),并且将其作为帧n的语音信号xn输出到输出端215(步骤S36)。校正能量意味着增大或减小和波形yn的幅度,以便波形yn的能量变成等于由补充信息表示的能量。这里,术语“等于”意味着能量彼此完全一致,或者通过考虑听觉感受效果而输出的语音信号xn的能量稍微降低。
剩余缓冲器号和延迟量控制信息将描述通信另一端的剩余缓冲器量和较早提及的延迟量控制信息之间的关系。
随着延迟量(偏移量,表示在语音信号帧之后多少帧,与语音信号帧同时传送其补充信息)增大,信号变得更不易受突发丢失的影响。然而,如果在接收端通过使用补充信息来执行分组隐藏处理(丢失分组的语音信号的生成),则不能再现语音,直至补充信息到达接收端。因此,语音分组的接收到语音信号的实际再现之间的延迟量(再现延迟)增大。在双向通信的情况下,在一端的发言和在另一端的发言的再现之间的延迟量(呼叫延迟)增大。如果延迟量小,则再现延迟也小,并且再现对于离散(随机)的分组丢失具有抵抗性。然而,当发生突发丢失时,补充信息也可能丢失。也就是,存在延迟量和其效果之间的折中。在这样的情况下,最优的是从另一端接收表示目前多少帧分组存储在通信另一端的接收缓冲器中的信息,并且将延迟量设置成等于存储在另一端的接收缓冲器中的分组的帧数。
如前所述,为了吸收分组到达时间上的抖动,典型地将给定数目的分组存储在接收缓冲器中。尤其当分组通信网络的通信条件不太好时,典型地在另一端增加存储在接收缓冲器中的分组数,以防止由于分组到达中的抖动而引起的可听到的不连续。也就是,存在等于存储在接收缓冲器中的分组数的固有再现延迟。因此,通过将延迟量设置为等于存储在另一端的接收缓冲器中的分组的帧数的值(剩余缓冲器量),并且传送按照该数量延迟的补充信息,可以最大化传送补充信息的效果而不增加再现延迟。如果延迟量小于或等于存储在另一端的接收缓冲器中的分组的帧数,则将不会增加再现延迟。因此,根据预期的突发分组丢失的特性,可以将延迟量设置为小于或等于存储在另一端的接收缓冲器中的分组的帧数的值。假如另一端的接收缓冲器中的剩余缓冲器量随时变化,则可以将延迟量设置为比另一端的剩余缓冲器量小一或两帧的值。
基音周期可以单独用作声学特征。在这种情况下,省略图7中的能量部件114b、图9中的步骤S3b、图10中的步骤S35、以及图13中的能量校正单元57。例如,在发送端,可以将输入PCM声学信号按原样包括在分组内,而不对声学信号波形进行编码。在这种情况下,省略图7中的语音波形编码单元112、图8中的语音分组解码单元213和先行语音波形解码单元222、图9中的步骤S2、以及图10中的步骤S24和S26。此外,例如,典型地通过数字计算来获得声学特征,并且可以通过允许以8位获得计算结果来消除对声学特征进行编码的需要。因此,可以省略图7中的语音特征编码单元115、图8中的语音特征解码单元223、图9中的步骤S4、以及图10中的步骤S29。
如果正确接收到前面和后面分组,并且仅仅帧n的分组丢失,则可以使用前向外插波形10-1和后向外插波形中的仅仅一个来生成丢失信号。如果发生突发分组丢失,则可以仅仅对于已经成功接收的紧邻的后面帧的声学信号使用前向外插波形,并且可以仅仅对于已经成功接收的紧邻的前面帧的声学信号使用后向外插波形。
可以通过计算机使图7所示的语音信号传送设备100和图8所示的语音信号接收设备200中的每个运行。在这种情况下,用于使计算机执行图9所示的分组传送方法的处理步骤、或图10所示的分组接收方法的处理步骤的声学信号分组传送程序或声学信号分组接收程序,可以从诸如CD-ROM、磁盘或半导体存储装置的记录介质安装到计算机中,或者可以通过通信网络来下载,然后可以使计算机执行该程序。
在第一实施例中,关于语音信号传送设备100和语音信号接收设备200描述了在不同于语音信号帧的分组中包括和传送语音特征,利用接收端的剩余缓冲器量来控制关于语音信号的语音特征的延迟量,以及用于当发生分组丢失时生成丢失帧的方法。在第二实施例中,将描述用于通过使用不同于剩余缓冲器量的信息来控制延迟量的方法。此外,在不同于语音信号分组的分组中包括和传送的信息不限于语音特征,而是将它们描述成与声学信号相对应的数据(以下被称为“声学信号对应数据”)。这是因为当分组丢失时,可以在不同于从声学特征生成的方法中生成丢失帧。例如,在最简单方法中,声学信号对应数据可以是声学信号本身(也就是,传送两次声学信号)。在这种情况下,可以按原样使用在另一分组中传送的、与丢失帧相同的帧的声学信号,而不是生成丢失帧。
语音信号传送设备和语音信号接收设备图17示出了语音信号传送设备100-2的示例性功能配置。该设备不同于图7所示的语音信号传送设备100之处在于该设备具有代替剩余缓冲器量编码单元119的信息编码单元131、代替语音特征计算单元114的声学信号对应数据生成单元132、以及代替语音特征编码单元115的声学信号对应数据编码单元133。除了将剩余缓冲器量仅仅替换为在终端118接收的信息,并且将补充信息替换为声学信号对应数据之外,操作处理与图9所示的操作处理相同。端子118用于接收用于控制通信另一端的通信设备的信息。端子118从与语音信号传送设备100-2组合提供的语音信号接收设备接收信息,或者接收记录装置中的预定信息。该信息可以包括但不限于,存储在语音信号接收设备的接收缓冲器中的分组数(剩余缓冲器量)、关于由语音信号接收设备接收的分组的抖动的信息、由语音信号接收设备检测的在突发丢失中丢失的连续分组帧数(连续分组丢失数)、可以从抖动信息或连续分组丢失数获得的要存储在接收缓冲器中的分组数(所存储分组数的目标值)、或者存储在记录装置中的预定常数。这些信息项将被统称为用于请求设置延迟量控制信息的信息。
图18示出了语音信号接收设备200-2的示例性功能配置。该设备不同于图8所示的语音信号接收设备200之处在于提供了延迟量控制单元341来代替剩余缓冲器量解码单元216,在分组接收单元211(抖动检测单元232)中检测抖动,而不是由剩余接收缓冲器量确定单元218确定接收缓冲器212中的剩余缓冲器量,确定要存储在接收缓冲器212中的分组数(所存储分组数的目标值),并且控制接收缓冲器212(接收缓冲器控制单元231),使得实际上存储在接收缓冲器212中的分组数(剩余缓冲器量)接近所存储的分组数的目标值。延迟量控制单元341在从通信另一端的语音信号传送设备传送的分组中提取用于请求设置延迟量控制信息的信息。延迟量控制单元341还确定在与语音信号接收设备200-2组合提供的语音信号传送设备处的延迟量,并且将其提供到端子117。通过将在用于从剩余缓冲器量确定延迟量的上述方法中使用的剩余缓冲器量替换为所存储的分组数的目标值,可以从所存储分组数的目标值确定延迟量。虽然设置所存储分组数的目标值要求开始用于改变存储分组数的控制操作和完成该改变之间的一定量的过渡时间,但是加以考虑的是,在一定量的时间经过之后,实际剩余缓冲器量达到存储分组数的目标值。从接收缓冲器控制单元231发送到与语音信号接收设备200-2组合提供的语音信号传送设备的信息是存储分组数的目标值而非剩余缓冲器量。以这样的方式控制实际的剩余缓冲器量,即,使它接近存储分组数的目标值。然而,在诸如抖动的变化的网络条件下,实际剩余缓冲器量达到改变后的目标值要花费一些时间。因此,实际的剩余缓冲器量在某个时间点将等于存储分组数的目标值,但是在另一时间点将大于或小于存储分组数的目标值。可以提供丢失状态确定单元233,用于通过考虑分组丢失来确定所存储的分组数。具体地说,丢失状态确定单元233还接收在丢失检测单元219处检测的关于分组丢失的信息,并且获得突发丢失中的连续丢失分组数的最大值(以下被称为“连续分组丢失数”)。接收缓冲器控制单元231从关于抖动的信息和连续分组丢失数两者,确定存储分组数的目标值。
下面将描述用于从抖动确定存储分组数的目标值的方法。例如,如果帧长是20毫秒,除非存在抖动,否则将每20毫秒接收分组。然而,根据网络条件,分组到达之间的间隔可以是40毫秒或5毫秒或甚至100毫秒。如果分组到达之间的间隔是每帧20毫秒,则抖动检测单元232确定抖动时间是0毫秒。如果分组到达之间的间隔是每帧100毫秒,则抖动检测单元232确定抖动时间是80毫秒。如果分组到达之间的间隔是5毫秒,则可能是因为紧邻的前面分组的到达由于抖动而延迟,并且抖动检测单元232确定抖动时间是-15毫秒或15毫秒的绝对值。使用以这种方式在每个时刻观察到的抖动时间的时间序列,以获得在给定过去时间周期中(例如,在2秒内)每帧(例如,每20毫秒)的抖动的最大值。通过存储给定时间周期上的抖动时间并且查找抖动时间之中的最大值,可以从抖动时间的时间序列获得最大值。将抖动时间的最大值发送到接收缓冲器控制单元231。接收缓冲器控制单元231控制接收缓冲器中的剩余缓冲器量,使得它接近存储分组数的目标值,该目标值是等于所获得的抖动时间最大值的帧数,也就是,抖动时间的最大值除以帧长(上舍入到整数的小数),或者等于该商加1的帧数。可选地,可以通过利用如图19所示的、示出抖动时间的最大值和存储分组数的目标值之间的对应关系的表,获得存储分组数的目标值。逐帧地确定存储分组数的目标值。然而,当抖动时间的最大值没有改变时,则存储分组数的目标值也保持相同。应当注意,获得给定过去时间周期中的抖动时间的最大值、以确定等于抖动时间最大值的存储分组数的目标值,相当于获得等于时间序列中的每个抖动时间的存储分组数的目标值、以获得给定时间周期中的存储分组数的目标值的最大值。在一些情况下,获得目标值范围中的最大值(后者方法)可以提高用于查找最大值的处理的效率。
例如,可以如下从分组丢失获得存储分组数的目标值。丢失状态确定单元233使用在每个时刻从丢失检测单元219发送的关于分组丢失的信息,以获得在给定过去时间周期(例如,在2秒内)中每帧(例如每20毫秒)的连续分组丢失数的最大值。通过存储给定时间周期上的分组丢失信息,并且搜索连续分组丢失数的最大值,可以从分组丢失信息的时间序列获得连续分组丢失的最大数。将连续分组丢失的最大值发送到接收缓冲器控制单元231。接收缓冲器控制单元231控制接收缓冲器中的剩余缓冲器量,使得它接近目标值,其可以是等于所获得的连续分组丢失数的最大值的帧数、或等于该最大值加1的帧数。逐帧地确定存储分组数的目标值。然而,当连续分组丢失数的最大值没有改变时,则存储分组数的目标值也保持相同。通过选择从抖动时间确定的存储分组数的目标值、或者从连续分组丢失数确定的存储分组数的目标值,这两个值中的较大者,可以从抖动时间和连续分组丢失数两者获得存储分组数的目标值。
图20示出了图18所示的语音信号接收设备200-2的变体。当通过分组通信网络双向传递语音信号时,双向传送分组。在功能配置上假定,通信网络条件在两个方向上相同。基于从通信另一端传送的分组的抖动时间或连续分组丢失数,确定与语音信号接收设备200-3组合提供的语音信号传送设备处的延迟量,并且不将用于请求设置延迟量控制信息的信息传送到通信的另一端。在该功能配置中,没有到语音信号传送设备100或100-2的端子118中的输入。
图21和22示出了仅仅从连续分组丢失数确定存储分组数的示例。该示倒不同于图18和20所示的示例之处在于省略了抖动检测单元232。
图23和24示出了从包括在接收分组中的延迟量控制信息确定要存储在接收缓冲器212中的分组数的示例性配置。在这种情况下,省略接收缓冲器控制单元231。例如,存储在接收缓冲器212中的分组数设为比包括在分组中的延迟量控制信息的值大1的值。在图23所示的示例中,抖动信息是向通信另一端表示接收状态的信息。在图24所示的示例中,连续分组丢失数是向通信另一端表示接收状态的信息。
语音信号通信系统图25示出了在一个方向上传送语音分组的系统的示例性配置。通信设备1000-1包括语音信号传送设备100-2和记录单元110。语音信号传送设备可以是较早由附图标记100表示的语音信号传送设备。记录单元110至少具有预先记录在其中的延迟量控制信息,并且将延迟量控制信息提供到语音信号传送设备100-2(或100)的端子117。接收端的通信设备1000-2由语音信号接收设备200-2组成。语音信号接收设备可以是语音信号接收设备200、200-4、200-6或200-7。例如,要存储在接收缓冲器中的分组数的初始值可以设为1。在如该系统配置中完成单向通信的情况下,不需要从语音信号接收设备200-2到传送设备的输出信号。因此,该系统可以具有从语音信号接收设备200省略剩余缓冲器量解码单元216和剩余接收缓冲器量确定单元218的配置、从语音信号接收设备200-2和200-4省略延迟量控制单元341的配置、从语音信号接收设备200-6省略延迟量控制单元341和抖动检测单元232的配置、或者从语音信号接收设备200-7省略延迟量控制信息单元341和丢失状态确定单元233的配置。
图26示出了这样的系统的示例性配置,其中在一个方向上传送语音分组,并且在另一个方向上传送用于请求设置延迟量控制信息的信息。在这种情况下,可以通过传送语音分组的相同IP通信网络13传送用于请求设置延迟量控制信息的信息,或者可以通过不同的通信网络13-2传送它。语音分组发送端的通信设备1000-3包括语音信号传送设备100-2和接收设备400。语音信号传送设备可以是较早由100表示的语音信号传送设备。例如,延迟量的初始值可以设为1。语音信号接收端的通信设备1000-4包括语音信号接收设备200-2和传送设备300。语音信号接收设备可以是语音信号接收设备200、200-4、200-6或200-7。例如,存储分组数的初始值可以设为1。
图27示出了上述传送设备300的示例性功能配置。图28示出了上述接收设备400的示例性配置。传送设备300的端子320相当于语音信号传送设备100-2的端子118。通过端子320将来自语音信号接收设备200-2的信息输入到传送单元310中。传送单元310将所接收的信息转换成用于通信网络13(或13-2)的协议的格式,并且将其传送到通信设备1000-3。在这里,来自语音信号接收设备的信息是用于请求设置延迟量控制信息的信息(例如,用于请求改变延迟量控制信息、存储分组数、剩余缓冲器量、分组的抖动、或连续分组丢失数的信息)。接收设备400从语音分组接收端的通信设备1000-4接收信息。将所接收的信息输入到接收单元410中,并且将用于控制接收端的通信设备1000-4的信息提供到语音信号传送设备的端子118。将用于发送端的通信设备1000-3的内部控制的信息提供给延迟量控制单元341。延迟量控制单元341从所接收的信息生成延迟量控制信息,并且将其提供给语音信号传送设备的端子117。
图29示出了双向传送语音分组的示例性系统配置。通信设备100-5包括语音信号传送设备100-2和语音信号接收设备200-2。例如,延迟量的初始值、以及要存储在接收缓冲器中的分组数可以设为1。语音信号传送设备可以是较早由附图标记100表示的语音信号传送设备。语音信号接收设备可以是语音信号接收设备200、2000-3、200-4、200-5、200-6或200-7。
下面将描述上述系统配置中的处理流程。将省略设备中的详细处理流程,因为已经关于图9和10对其进行了描述。例如,在实际的设备中,不可避免地执行用于对声学信号进行解码的处理和用于生成丢失帧的方法。然而,该详细处理不是本发明的主要部分,并且省略其描述。
图30示出了在没有将用于请求设置延迟量控制信息的信息从语音分组接收端传送到发送端的情况下的处理流程。该处理流程不仅可以应用于图25中的系统配置,还可以应用于图26和29中的系统配置。当将声学信号输入到发送端的通信设备1000-1中时,将它被存储在输入缓冲器111中(S101)。将所存储的声学信号划分成帧,并且将其编码成语音代码(S102)。然后,构造包含声学信号对应数据和延迟量控制信息的语音分组,并且将其传送到接收端(S103)。在接收端的通信设备1000-2中,接收语音分组(S201),并且将其存储在接收缓冲器212中(S202)。如果发生分组丢失(S203),则丢失处理控制单元217使用延迟量控制信息来搜索声学信号对应数据(S204),并且生成丢失帧(S205)。最后,按照帧次序布置并且输出声学信号(S206)。如果存在多个发送端通信设备1000-1,则每个通信设备1000-1可以独立地设置延迟量。另外,图29所示的每个通信设备1000-5可以独立地设置延迟量。因此,该系统具有这样的效果,即不需要预先建立关于延迟量的普通规则,并且可以改变延迟量。
图31、32、33和34示出了在将用于请求设置延迟量控制信息的信息从语音分组接收端传送到发送端的情况下的处理流程。这些处理流程可以应用于图26和29所示的系统配置。
图31中的处理流程可以应用于这样的情况,其中语音分组发送端的通信设备1000-3(或1000-5)至少具有语音信号传送设备100-2,并且语音分组接收端的通信设备1000-4(或1000-5)至少具有语音信号接收设备200-2或200-4。该处理流程的特征在于,在接收端从抖动时间或连续分组丢失数确定用于请求设置延迟量控制信息的信息,并且在发送端从用于设置延迟量控制信息的信息获得延迟量控制信息。
在语音分组发送端,将声学信号输入到通信设备1000-3中(步骤S101),并且将其存储在输入缓冲器111中(S102)。构造包括声学信号对应数据和延迟量控制信息的语音分组,并且将其传送到接收端(S103)。在语音分组接收端的通信设备1000-4中,接收语音分组(S201),并且将其存储在接收缓冲器212中(S202)。在接收端通信设备1000-4的抖动检测单元232中检测抖动时间(或者,在丢失状态确定单元233中检测连续分组丢失数)(S207)。接收缓冲器控制单元231将存储分组数的目标值设置为大于或等于抖动时间或连续分组丢失数的值(S208)。将存储分组数的目标值提供给语音分组接收端的通信设备1000-4的传送设备300(或通信设备1000-5中的语音信号传送设备100-2),作为用于请求设置延迟量控制信息的信息。然后,传送设备300(或语音信号传送设备100-2)将目标值传送到语音分组发送端的通信设备1000-3(或通信设备1000-5),作为用于请求设置延迟量控制信息的信息(S209)。语音分组发送端的通信设备1000-3接收用于请求设置延迟量控制信息的信息(S104)。延迟量控制单元341将延迟量控制信息的值设置为小于或等于用于请求设置延迟量控制信息的信息的值,即小于或等于存储分组数的目标值的值,并且将其提供给语音信号传送设备100-2。在语音信号传送设备100-2中,将延迟量控制信息输入到移位缓冲器116中,并且设置延迟量控制信息(S105)。在语音信号接收端的通信设备1000-4中,确定是否发生了分组丢失,生成丢失帧,并且执行其它处理(S203、S204和S205),并且输出语音信号(S206)。除了图30中的处理流程的效果之外,上述处理还具有这样的效果,即可以根据不断变化的通信网络条件来设置最佳存储分组数和延迟量。
图32所示的处理流程可以应用于这样的情况,其中语音分组发送端的通信设备1000-3(或1000-5)至少包括语音信号传送设备100-2,并且语音分组接收端的通信设备1000-4(或1000-5)至少包括语音信号接收设备200-2、200-4、200-6或200-7。该处理的特征如下。语音分组接收端检测抖动时间或连续分组丢失数,并且将结果传送到发送端。语音分组发送端基于抖动时间或连续分组丢失数而设置延迟量控制信息。语音分组发送端将延迟量控制信息随同语音信号一起传送到接收端。语音分组接收端基于所接收的延迟量控制信息而设置存储分组数。
步骤S101到S201与图31中的处理流程的那些步骤相同。接收缓冲器212从所接收的语音分组提取延迟量控制信息,并且设置存储分组数(S208’)。根据该设置而将语音分组存储在接收缓冲器中(S202)。抖动检测单元232或丢失状态确定单元233检测抖动时间或连续分组丢失数(S207)。将所检测的信息从语音分组接收端的通信设备1000-4中的传送设备300(或通信设备1000-5中的语音信号传送设备100-2)传送到语音分组发送端的通信设备1000-3(或通信设备1000-5)(S209)。语音分组发送端的通信设备1000-3(或通信设备1000-5)接收该信息(S106)。延迟量控制单元341将延迟量控制信息的值设置为比等于抖动时间的帧数大的值、或大于连续分组丢失数的值,并且将其发送到语音信号传送设备100-2。在语音信号传送设备100-2中,将延迟量控制信息输入到移位缓冲器116中,并且设置延迟量控制信息(S105)。步骤S203到S206与图31的那些步骤相同。虽然在处理流程特征的描述中,最后设置存储分组数,但是在图32的处理流程图中,它被示出在检测抖动和延迟量控制信息设置之前。这是因为重复地执行处理,并且基于在前面重复中获得的延迟量控制信息而确定存储分组数。这意味着最后设置存储分组数。应当注意,例如,在第一重复处理中,可以将延迟量控制信息的初始值设置为1。该处理流程的效果与图31所示的处理流程的效果相同。
图33所示的处理流程可以应用于这样的情况,其中语音分组发送端的通信设备1000-3(或1000-5)至少包括语音信号传送设备100-2,并且语音分组接收端的通信设备1000-4(或1000-5)至少包括语音信号接收设备200-2或200-4。该处理的特征在于,同时从抖动时间或连续分组丢失数获得存储分组数的目标值和延迟量控制信息。
步骤S101到S207与图31中的那些步骤相同。接收缓冲器控制单元231从所检测的抖动或连续分组丢失数中获得存储分组数和延迟量控制信息(S210)。获得该值,使得满足以下关系等于抖动时间的帧数(上舍入的小数)≤延迟量≤存储分组数或者连续分组丢失数≤延迟量≤存储分组数。
根据所获得的存储分组数的目标值而设置接收缓冲器212,以便存储分组(S208)。将所获得的延迟量控制信息从语音分组接收端的通信设备1000-4的传送设备300(或通信设备1000-5的语音信号传送设备100-2)传送到语音分组发送端的通信设备1000-3(或通信设备1000-5),作为用于改变延迟量控制信息的请求(S211)。由语音分组发送端的通信设备1000-3(或通信设备1000-5)接收该信息(S107),并且由延迟量控制单元341将该信息设置为延迟量控制信息。在语音信号传送设备100-2中,将延迟量控制信息输入到移位缓冲器116中,并且设置延迟量控制信息(S105)。步骤S203到S206与图31中的那些步骤相同。该处理流程具有与图31和32中的处理流程相同的效果。
图34所示的处理流程可以应用于这样的情况,其中语音分组发送端的通信设备1000-3(或1000-5)至少包括语音信号传送设备100,并且语音分组接收端的通信设备1000-4(或1000-5)至少包括语音信号接收设备200。该处理的特征在于传送剩余缓冲器量作为用于请求设置延迟量控制信息的信息,从而获得延迟量控制信息。
步骤S101到S202与图31中的那些步骤相同。语音分组接收端的通信设备1000-4(或通信设备1000-5)的剩余接收缓冲器量确定单元218确定接收缓冲器的剩余缓冲器量(S213)。将所确定的信息从语音分组接收端的通信设备1000-4的传送设备300(或通信设备1000-5的语音信号传送设备100-2)传送到语音分组发送端的通信设备1000-3(或通信设备1000-5)(S214)。语音分组发送端的通信设备1000-3(或通信设备1000-5)接收剩余缓冲器量信息(S108)。延迟量控制单元341(或剩余缓冲器量解码单元216)获得小于或等于剩余缓冲器量的延迟量控制信息。在语音信号传送设备100-2中,将延迟量控制信息输入到移位缓冲器116中,并且设置延迟量控制信息(S105)。步骤S203到S206与图31中的那些步骤相同。该处理流程具有与图31、32和33所示的处理相同的效果。
图35示出了这样的处理流程,其中假定当执行双向分组通信时,网络条件同等地影响两个方向上的分组通信。该处理流程可以应用于图29所示的系统配置。该处理的特征在于,从所接收的语音分组的抖动和连续分组丢失数中,获得要接收的存储分组数以及语音分组延迟量控制信息。步骤S101到S208与图33中的那些步骤相同。将所获得的延迟量控制信息输入到语音信号传送设备100-2的移位缓冲器116中,并且设置延迟量控制信息(S212)。除了图31、32和33中的处理的效果之外,该处理流程还具有减少用于控制通信设备的步骤的数目的效果。
可以通过计算机使图17、18、20-24、27和28所示的每个设备运行。可以通过计算机使用程序来执行图30到35所示的处理步骤。可以将该程序从诸如CD-ROM、磁盘、或半导体存储装置的记录介质安装到计算机中,或者可以通过通信网络下载该程序。
权利要求
1.一种声学信号分组通信方法,用在至少包括传送单元的通信设备和一个或更多至少包括接收单元的其它通信设备之间的分组通信中,该方法包括在传送单元中,将诸如语音或音乐信号的声学信号划分成被称为帧的给定时间片段,以生成帧声学信号的步骤;从帧声学信号生成与帧声学信号相对应的数据(以下被称为“声学信号对应数据”)的步骤;以及将帧声学信号和声学信号对应数据包含在分组中并传送该分组的步骤;在接收单元中,将所接收的分组存储在接收缓冲器中的步骤;指定要提取的帧的帧编号的步骤;丢失检测步骤,确定包含与要提取的帧的帧编号相关联的帧声学信号的分组是否存储在接收缓冲器中;如果在丢失检测步骤中确定包含与要提取的帧的帧编号相关联的帧声学信号的分组存储在接收缓冲器中,则进行声学信号分组解码步骤,从存储在接收缓冲器中的分组提取帧声学信号,并提供帧声学信号作为帧输出信号;如果在丢失检测步骤中确定包含与要提取的帧的帧编号相关联的帧声学信号的分组没有存储在接收缓冲器中(以下被称为“如果发生分组丢失”),则进行丢失处理步骤,从存储在接收缓冲器中的分组提取该帧(以下被称为“丢失帧”)的声学信号对应数据,并且通过使用声学信号对应数据来生成帧输出声学信号;以及串联从声学信号分组解码步骤或丢失处理步骤输出的帧输出声学信号,并且输出所串联的帧输出声学信号的步骤;该声学信号分组通信方法的特征在于包括以下步骤在传送单元中,在包含帧声学信号的相同分组中,包括具有与该分组的帧编号相差由延迟量控制信息指定的值的帧编号的帧的声学信号对应数据、以及延迟量控制信息,并且传送该分组;以及在接收单元中,如果发生分组丢失,则通过使用包括在该分组内的延迟量控制信息,从接收缓冲器中的分组获得具有与丢失帧相同的帧编号的声学信号对应数据。
2.根据权利要求1所述的声学信号分组通信方法,其特征在于,在包括传送单元和接收单元两者的一个通信设备与包括传送单元和接收单元两者的一个或更多其它通信设备之间的分组通信中,该声学信号分组通信方法包括在接收单元中,确定所接收分组的抖动状态的第一确定步骤、以及确定所接收分组的丢失状态的第二确定步骤中的两者或一个;以及使用在任何确定步骤中做出的确定结果,确定要存储在接收缓冲器中的分组数(以下被称为“存储分组数的目标值”)的步骤;以及在包括该接收单元的相同通信设备的传送单元中,将延迟量控制信息设置为小于或等于存储分组数的目标值的值的步骤。
3.根据权利要求1所述的声学信号分组通信方法,其特征在于,在包括传送单元和接收单元两者的一个通信设备与包括传送单元和接收单元两者的一个或更多其它通信设备之间的分组通信中,该声学信号分组通信方法包括在接收单元中,确定所接收分组的抖动状态的第一确定步骤、以及确定所接收分组的丢失状态的第二确定步骤中的两者或一个;以及使用在任何确定步骤中做出的确定结果,确定要存储在接收缓冲器中的分组数(以下被称为“存储分组数的目标值”)的步骤;以及将存储分组数的目标值发送到相同通信设备中的传送单元的步骤;以及在包括该接收单元的相同通信设备的传送单元中,将从接收单元发送的存储分组数的目标值包含在分组中、作为用于指定要在通信另一端的传送单元中设置的延迟量控制信息的信息的步骤。
4.根据权利要求1所述的声学信号分组通信方法,其特征在于,在包括传送单元和接收单元两者的一个通信设备与包括传送单元和接收单元两者的一个或更多其它通信设备之间的通信中,该声学信号分组通信方法包括在接收单元中,测量存储在接收缓冲器中的分组数(以下被称为“剩余缓冲器量”)的步骤;以及将剩余缓冲器量发送到相同通信设备中的传送单元的步骤;以及在包括该接收单元的相同通信设备的传送单元中,将从接收单元发送的剩余缓冲器量包含在分组中,作为用于指定要在通信另一端的传送单元中设置的延迟量控制信息的信息,并传送该分组的步骤。
5.一种声学信号分组传送方法,用在至少包括传送设备的一个通信设备与至少包括接收单元的一个或更多通信设备之间的通信中,该方法包括步骤在传送单元中,将诸如语音或音乐信号的声学信号划分成被称为帧的给定时间片段,以生成帧声学信号;从帧声学信号生成与帧声学信号相对应的数据(以下被称为“声学信号对应数据”);以及将帧声学信号和声学信号对应数据包含在分组中,并且传送该分组;该声学信号分组传送方法的特征在于包括以下步骤,在传送单元中,在包含帧声学信号的相同分组中,包括具有与该分组的帧编号相差由延迟量控制信息指定的值的帧编号的帧的声学信号对应数据、以及延迟量控制信息,并且传送该分组。
6.根据权利要求5所述的声学信号分组传送方法,其特征在于,在包括传送单元和接收单元两者的一个传送设备与包括传送单元和接收单元两者的一个或更多其它传送设备之间的通信中,该声学信号分组传送方法包括以下步骤在传送单元中,将延迟量控制信息设置为小于或等于要存储在包括该传送单元的相同通信设备内的接收单元中的分组数,该分组数在该接收单元处确定。
7.根据权利要求5所述的声学信号分组传送方法,其特征在于,在包括传送单元和接收单元两者的一个通信设备与包括传送单元和接收单元两者的一个或更多其它通信设备之间的通信中,该声学信号分组传送方法包括以下步骤在传送单元中,在分组中,包含要存储在包括该传送单元的相同通信设备的接收单元中的分组数,作为用于指定要在通信另一端的传送单元中设置的延迟量控制信息的信息,并且传送该分组,其中该分组数在该接收单元处确定。
8.根据权利要求5所述的声学信号分组传送方法,其特征在于,在包括传送单元和接收单元两者的一个通信设备与包括传送单元和接收单元两者的一个或更多其它通信设备之间的通信中,该声学信号分组传送方法包括以下步骤在传送单元中,在分组中,包含在包括该传送单元的相同通信设备内的接收单元中测量的、存储在接收缓冲器中的分组数,作为要在通信另一端的传送单元中设置的、用于请求设置延迟量控制信息的信息。
9.一种声学信号分组接收方法,用在至少包括传送单元的一个通信设备与至少包括接收单元的一个或更多其它通信设备之间的分组通信中,包括在接收单元中,将所接收的分组存储在接收缓冲器中的步骤;指定要提取的帧的帧编号的步骤;丢失检测步骤,确定包含与要提取的帧的帧编号相关联的帧声学信号的分组是否存储在接收缓冲器中;如果在丢失检测步骤中确定包含与要提取的帧的帧编号相关联的帧声学信号的分组存储在接收缓冲器中,则进行声学信号分组解码步骤,从存储在接收缓冲器中的分组提取帧声学信号,并且提供帧声学信号作为帧输出声学信号;如果在丢失检测步骤中确定包含与要提取的帧的帧编号相关联的帧声学信号的分组没有存储在接收缓冲器中(以下被称为″如果发生分组丢失″),则进行丢失处理步骤,从存储在接收缓冲器中的分组提取与该帧(以下被称为“丢失帧”)中的声学信号相对应的数据(以下被称为“声学信号对应数据”),并通过使用声学信号对应数据来生成帧输出声学信号;以及串联从声学信号分组解码步骤或丢失处理步骤输出的帧输出声学信号,并且输出所串联的帧输出声学信号的步骤;该声学信号分组接收方法的特征在于包括以下步骤在接收单元中,如果发生分组丢失,则通过使用包括在分组中的延迟量控制信息,从接收缓冲器中的分组获得具有与丢失帧相同的帧编号的声学信号对应数据。
10.根据权利要求9所述的声学信号分组接收方法,其特征在于,在包括传送单元和接收单元两者的一个通信设备与包括传送单元和接收单元两者的一个或更多其它通信设备之间的分组通信中,该声学信号分组接收方法包括在接收单元中,确定所接收分组的抖动状态的第一确定步骤、以及确定所接收分组的丢失状态的第二确定步骤中的两者或一个;通过使用在任一确定步骤中做出的确定结果,确定要存储在接收缓冲器中的分组数的步骤;以及将要存储在接收缓冲器中的分组数发送到相同通信设备中的传送单元的步骤。
11.根据权利要求9所述的声学信号分组接收方法,其特征在于,在包括传送单元和接收单元两者的一个通信设备与包括传送单元和接收单元两者的一个或更多其它设备之间的分组通信中,该声学信号分组接收方法包括以下步骤在接收单元中,测量存储在接收缓冲器中的分组数(以下被称为“剩余缓冲器量”);和将剩余缓冲器量发送到相同通信设备中的传送单元。
12.一种声学信号分组通信系统,其中在至少包括传送单元的一个通信设备与至少包括接收设备的一个或更多其它通信设备之间执行分组通信,传送单元具有用于将诸如语音或音乐信号的声学信号划分成被称为帧的给定时间片段、以生成帧声学信号的部件;用于从帧声学信号生成与帧声学信号相对应的数据(以下被称为“声学信号对应数据”)的部件;以及用于将帧声学信号和声学信号对应数据包含在分组中、并传送该分组的部件;接收单元具有用于将所接收分组存储在接收缓冲器中的部件;用于指定要提取的帧的帧编号的部件;丢失检测部件,用于确定包含与要提取的帧的帧编号相关联的帧声学信号的分组是否存储在接收缓冲器中;声学信号分组解码部件,用于如果在丢失检测部件中确定包含与要提取的帧的帧编号相关联的帧声学信号的分组存储在接收缓冲器中,则从存储在接收缓冲器中的分组提取帧声学信号,并且提供帧声学信号作为帧输出声学信号;丢失处理部件,用于如果在丢失检测部件中确定包含与要提取的帧的帧编号相关联的帧声学信号的分组没有存储在接收缓冲器中(以下被称为“如果发生分组丢失”),则从存储在接收缓冲器中的分组提取该帧(以下被称为“丢失帧”)的声学信号对应数据,并且通过使用声学信号对应数据来生成帧输出声学信号;以及用于串联从声学信号分组解码部件或丢失处理部件输出的帧输出声学信号,并且输出所串联的帧输出声学信号的部件;该声学信号分组通信系统的特征在于传送单元具有用于在包含帧声学信号的相同分组中,包括具有与该分组的帧编号相差由延迟量控制信息指定的值的帧编号的帧的声学信号对应数据、以及延迟量控制信息的部件,以及接收单元具有用于如果发生分组丢失,则通过使用包括在分组内的延迟量控制信息,从接收缓冲器中的分组获得具有与丢失帧相同的帧编号的声学信号对应数据的部件。
13.一种声学信号分组通信设备,包括传送单元,其具有用于将诸如语音或音乐信号的声学信号划分成被称为帧的给定时间片段、以生成帧声学信号的部件;以及用于从帧声学信号生成与帧声学信号相对应的数据(以下被称为“声学信号对应数据”)的部件;以及用于将帧声学信号和声学信号对应数据包含在分组中并传送该分组的部件;以及接收单元,具有用于将所接收的分组存储在接收缓冲器中的部件;用于指定要提取的帧的编号的部件;丢失检测部件,用于确定包含与要提取的帧的编号相关联的帧声学信号的分组是否存储在接收缓冲器中;声学信号分组解码部件,用于如果在丢失检测部件中确定包含与要提取的帧的编号相关联的帧声学信号的分组存储在接收缓冲器中,则从存储在接收缓冲器中的分组提取帧声学信号,并且提供帧声学信号作为帧输出声学信号;丢失处理部件,用于如果在丢失检测部件中确定包含与要提取的帧的编号相关联的帧声学信号的分组没有存储在接收缓冲器中(以下被称为“如果发生分组丢失”),则从存储在接收缓冲器中的分组提取该帧(以下被称为“丢失帧”)的声学信号对应数据,并且通过使用声学信号对应数据来生成帧输出声学信号;以及用于串联从声学信号分组解码部件或丢失处理部件输出的帧输出声学信号,并且输出所串联的帧输出声学信号的部件;该声学信号分组通信设备的特征在于传送单元具有用于在包含帧声学信号的相同分组中,包括具有与该分组的帧编号相差由延迟量控制信息指定的值的帧编号的帧的声学信号对应数据、以及延迟量控制信息,并传送该分组的部件;以及接收单元具有用于如果发生分组丢失,则通过使用包括在分组内的延迟量控制信息,从接收缓冲器中的分组获得具有与丢失帧相同的帧编号的声学信号对应数据的部件。
14.根据权利要求13所述的声学信号分组通信设备,其特征在于接收单元具有用于确定所接收分组的抖动状态的第一确定部件以及确定所接收分组的丢失状态的第二确定部件中的两者或一个;以及用于通过使用在任一确定都件中做出的确定结果,确定要存储在接收缓冲器中的分组数(以下被称为“存储分组数的目标值”)的部件;以及传送单元具有用于将延迟量控制信息设置为小于或等于存储分组数的目标值的值的部件。
15.根据权利要求13所述的声学信号分组通信设备,其特征在于接收单元具有用于确定所接收分组的抖动状态的第一确定部件以及确定所接收分组的丢失状态的第二确定部件中的两者或一个;以及用于通过使用在确定部件中做出的确定结果,确定要存储在接收缓冲器中的分组数(以下被称为“存储分组数的目标值”)的部件;以及传送单元具有用于将存储分组数的目标值包含在分组中、作为用于指定要在通信另一端的传送单元中设置的延迟量控制信息的信息,并传送该分组的部件。
16.根据权利要求13所述的声学信号分组通信设备,其特征在于接收单元具有用于测量存储在接收缓冲器中的分组数(以下被称为“剩余缓冲器量”)的部件;以及传送单元具有用于将剩余缓冲器量包括在包含该帧声学信号的相同分组中、作为用于指定要在通信另一端的传送单元中设置的延迟量控制信息的信息,并传送该分组的部件。
17.一种声学信号分组通信程序,用于使计算机执行根据权利要求1所述的声学信号分组通信方法的步骤。
18.一种声学信号分组传送程序,用于使计算机执行根据权利要求5所述的声学信号分组传送方法的步骤。
19.一种声学信号分组接收程序,用于使计算机执行根据权利要求9所述的声学信号分组接收方法的步骤。
全文摘要
当通过IP通信网络传递声学信号分组时,将与声学信号相对应的数据(声学信号对应数据)内置在不同于该声学信号的分组中,并对其进行传送。然而,在传统上,必须预先确定该声学信号内置在哪个分组中,并且不可能执行动态修改。在本发明中,将声学信号的声学信号对应数据的延迟量作为延迟量控制信息内置在声学信号分组中。此外,在突发丢失中丢失了通信网络状态的分组数检测波动,并且获取要在接收侧累积的分组数以及延迟量。
文档编号G10L19/14GK1906663SQ20058000183
公开日2007年1月31日 申请日期2005年5月10日 优先权日2004年5月10日
发明者大室仲, 森岳至, 日和崎佑介, 片冈章俊 申请人:日本电信电话株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1