一种进行语音自适应非连续传输的方法及装置的制作方法

文档序号：2825293阅读：139来源：国知局

专利名称：一种进行语音自适应非连续传输的方法及装置的制作方法
技术领域：
本发明涉及数字信号处理领域，尤其涉及一种进行语音自适应非连续传输(Discontinuous Transmission,简称 DTX)的方法及装置。
背景技术：
在实际用户通信过程中，一般情况下，较少时间用于传送用户话音，较多时间用于传送非话音的背景音。如果按照对语音信号的编码方式对通信过程进行全程编码，会造成很大的资源浪费。现有技术中为了减少这种浪费，发送端利用语音激活检测(VoiceActivity Detector,简称VAD)算法进行信号检测,检测到通话中的静音(inactive)段时，在静音段中使用较低码率对信号的重要信息进行编码，即将信号编码成为静音插入描述·(Silence InsertionDescriptor,简称SID)巾贞,并且采用不连续方式发送SID巾贞。解码端根据接收到的SID巾贞以舒适噪声产生(Comfort Noise Generation,简称CNG)的方式进行解码。这样，在对音质影响不大的基础上，大大减少平均码率，节省资源，这无疑对于有效地使用日益紧张的网络带宽资源具有积极地意义。因此，在静音段采用什么样的策略以及多大间隔来发送SID帧，也就决定了节省带宽的多少。目前在语音自适应非连续传输中进行SID帧发送的方式主要包括两类一，以固定间隔发送；二以可变间隔发送。采用方式一的以固定间隔发送方案时，采用事先设定好的参数，在静音段每隔一定的帧数发送一 SID帧，例如3GPP AMR和AMR-WB语音编码标准中就是使用的该方法，固定每8帧发送一次。该方法的优点是计算简单，容易实现，缺点是不能根据信号特征自动调节码率。自适应多速率(Adaptive Multi Rate,简称AMR)的SID巾贞发送机制中，发送端在语音帧后检测到静音帧时，不立即进入静音段，而是采用一定的缓冲(hangover)机制，在此缓冲阶段，仍然按照对正常语音的编码进行编码，在缓冲阶段之后，仍然检测到静音帧，则在静音段之后的第一个静音帧位置发送SIDFIRST帧(即第一 SID帧)，在第三个静音帧位置发送每一个SID更新(SIDUPDATE)帧，之后，固定每隔7帧发送一个SID更新帧，这样在缓冲阶段后按固定低码率对SID帧进行参数更新，以达到更新参数的目的。在另一种实现方式中，在连续N个语音帧后检测到静音帧并且此N的值小于34时，取消缓冲阶段，直接进行SID更新帧的发送。此方法计算简单，只需要使用计数器就可以实现，不需要进行额外的参数计算，并且码率可控，算法稳定。此方法的缺点是采用固定间隔，使码率固定，对于不同噪声使用统一的码率，不能根据噪声信号的变化进行调整。比如对于白噪声，参数非常稳定，但是仍然频繁发送SID帧，不能有效降低码率。而对于变化很快的噪声信号，又不能及时跟踪信号变化，造成信息延迟，导致在解码端进行CNG恢复的时候噪声信号失真很大。采用方式二的以可变间隔发送方案时，采用一定算法对静音段的信号进行实时评估，根据信号的实时变化，决定是否需要发送SID帧。该方法的优点是灵活，可以根据信号的实时变化而变化，最大限度地节省带宽，并且平均码率可调节，缺点是计算相对复杂。
ITU-T G. 729语音编码器中就是采用的可变间隔发送方式，通过对信号的LPC等参数的计算，来衡量信号是否发生重大改变，以决定是否需要更新，虽然该方法能自适应地跟踪信号，但是计算复杂度较高。该方法是建立在线性预测基础上的。首先对信号进行线性预测编码(Linear Predictive Coding,简称LPC)得到信号的线性预测参数a和残差能量E，然后使用该系数的数学表示，与存储器中存储的上一个发送的SID帧的同参数做比较，如果LPC的包络或者能量中任意一个比较结果大于一定的门限，则认为信号发生变化，则发送SID更新帧，否则不发送。由于该方法是在时域进行，首先必须要进行信号的LPC分析，计算比较复杂。并且LPC系数对信号频谱的真实反映程度取决于LPC的阶数，而LPC的阶数与计算复杂度是成正比的。另外使用信号的残差能量或者LPC包络单独进行检测，难以整体反映信号的变化。比如，如果LPC对本帧信号的描述不准确，则直接导致信号的残差能量发生比较大变化
发明内容
本发明要解决的技术问题是提供一种进行语音自适应非连续传输的方法及装置，克服现有技术中的采用固定间隔方式不能灵活跟踪信号变化，采用可变间隔方式又必须有线性预测等多参数的计算导致计算复杂度高的缺点。为了解决上述技术问题，本发明提供了一种进行语音自适应非连续传输的方法，包括在进行语音自适应非连续传输中，根据当前的语音信号巾贞和上一静音插入描述巾贞的频谱信息决定是否发送静音插入描述帧。进一步地，上述方法还可以具有以下特点所述语音信号帧的频谱信息是指根据所述语音信号帧的频域信号计算得到的频谱信息，或者，对所述语音信号帧的频域信号进行平滑处理后根据平滑处理后的频域信号计算得到的频谱信息。进一步地，上述方法还可以具有以下特点判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时，发送静音插入描述帧。进一步地，上述方法还可以具有以下特点判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距大于预设限度一，进一步判断所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度二时，连续发送两个静音插入描述帧，其中预设限度二对应的频谱能量差距大于预设限度一对应的频谱能量差距。进一步地，上述方法还可以具有以下特点所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度是指所述语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数，其中所述比值门限为大于I的实数；或者，
所述语音信号帧的频谱能量与所述上一静音插入描述帧的频谱能量的差值绝对值大于差值门限。进一步地，上述方法还可以具有以下特点判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时，根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值，判断所述频谱相关值小于频谱相关性门限时，发送静音插入描述帧。为了解决上述技术问题，本发明提供了一种进行语音自适应非连续传输的装置，其中，所述装置包括静音插入描述帧处理单元和静音插入描述帧存储单元；所述静音插入描述帧处理单元，用于根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧；所述静音插入描述帧存储单元，用于在所述装置发送静音插入描述帧后，存储此静音插入描述帧的频谱信息。进一步地，上述装置还可以具有以下特点所述静音插入描述帧处理单元，还用于对所述语音信号帧的频域信号进行平滑处理后根据平滑处理后的频域信号计算得到的频谱信息；所述静音插入描述帧存储单元，还用于存储经过平滑处理后的频域信号。进一步地，上述装置还可以具有以下特点所述静音插入描述帧处理单元，还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时，发送静音插入描述帧；或者，还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距大于预设限度一，进一步判断所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度二时，连续发送两个静音插入描述帧，其中预设限度二对应的频谱能量差距大于预设限度一对应的频谱能量差距；所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度是指所述语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数，其中所述比值门限为大于I的实数；或者，所述语音信号帧的频谱能量与所述上一静音插入描述帧的频谱能量的差值绝对值大于差值门限。进一步地，上述装置还可以具有以下特点所述静音插入描述帧处理单元，还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时，根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值，判断所述频谱相关值小于频谱相关性门限时，发送静音插入描述帧。本方案可以克服现有技术中的采用固定间隔方式不能灵活跟踪信号变化，采用可变间隔方式又必须有线性预测等多参数的计算导致计算复杂度高的缺点。本方案直接在频域进行，能很好地跟踪信号的变化，在保持较低平均码率的同时保证音质。

图I是进行语音自适应非连续传输的装置的结构示意图；图2是进行语音自适应非连续传输的装置的另一种结构示意图；图3是具体实施例二中进行语音自适应非连续传输的流程示意图；图4是具体实施例三中进行语音自适应非连续传输的流程示意图.
具体实施例方式如图I所示，进行语音自适应非连续传输的装置包括静音插入描述帧处理单元和静音插入描述帧存储单元。
静音插入描述巾贞处理单兀，用于根据当前的语音信号巾贞和上一静音插入描述巾贞的频谱信息决定是否发送静音插入描述帧；静音插入描述帧存储单元，用于在所述装置发送静音插入描述帧后，存储此静音插入描述帧的频谱信息。实施方式一中，静音插入描述帧处理单元还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时，发送静音插入描述中贞。静音插入描述帧处理单元还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距大于预设限度一，进一步判断所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度二时，连续发送两个静音插入描述帧，其中预设限度二对应的频谱能量差距大于预设限度一对应的频谱能量差距。其中，语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距值大于预设限度是指语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数，其中所述比值门限为大于I的实数；或者，语音信号帧的频谱能量与所述上一静音插入描述帧的频谱能量的差值绝对值大于差值门限。实施方式二中，静音插入描述帧处理单元用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时，根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值，判断所述频谱相关值小于频谱相关性门限时，发送静音插入描述帧。实施方式三中，静音插入描述帧处理单元用于同时两者的频谱能量的差距和频谱相关值决定是否发送静音插入描述帧。如图2所示，所述装置还可以包括平滑滤波单元；平滑滤波单元用于对语音信号的频域信号进行平滑滤波后，输入至所述静音插入描述帧处理单元，静音插入描述帧处理单元对平滑处理后的频域信号进行上述处理，静音插入描述帧存储单元还需保存平滑处理后的频域信号。
进行语音自适应非连续传输的方法包括在进行语音自适应非连续传输中，根据当前的语音信号巾贞和上一静音插入描述巾贞的频谱信息决定是否发送静音插入描述中贞。所述语音信号帧的频谱信息是指根据所述语音信号帧的频域信号计算得到的频谱信息，或者，对所述语音信号帧的频域信号进行平滑处理后根据平滑处理后的频域信号计算得到的频谱信息。平滑处理主要为更准确地比较信号频谱变化，减小频谱的细节对整体比较的影响，消除频谱尖峰和毛刺，使输出频谱更加平滑，使得频谱包络更加平稳。此频谱平滑可以使用一个平滑滤波器实现。以16kHz采样，20ms帧长为例进行说明。通过采用FFT，将时域信号变换到频域，得到本帧信号的频谱参数，FFT采用长度为320点。可以采用以下平滑滤波器H(z) = B0Z^a1Z-WaJapa4Z2
其中系数[a0,B1, a2，a3，a4]是平滑系数，取值可以为[O. 15,0. 15,0.4,0. 15，
O.15]。经过平滑处理后，谱线趋势不变，但是瞬时突变减小，更有利于观察信号频谱包络的变化。上述频谱平滑包括但是不限于上述使用滤波器的方式。在滤波器使用过程中，也可以通过调节滤波器的系数或者阶数来达到不同的调整效果。实施方式一中，判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时，发送静音插入描述帧。判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距大于预设限度一，进一步判断所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度二时，连续发送两个静音插入描述帧，其中预设限度二对应的频谱能量差距大于预设限度一对应的频谱能量差距。其中，所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度是指所述语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数，其中所述比值门限为大于I的实数；或者，所述语音信号帧的频谱能量与所述上一静音插入描述帧的频谱能量的差值绝对值大于差值门限。实施方式二中，判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时，根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值，判断所述频谱相关值小于频谱相关性门限时，发送静音插入描述中贞。实施方式三中，可以同时两者的频谱能量的差距和频谱相关值决定是否发送静音插入描述中贞。下面通过具体实施例进行详细说明。具体实施例一本实施例中采用频谱相关值参数进行判断。本装置在每次进行SID帧后，将此SID帧的频谱能量信息存储于SID帧存储单元中，即静音插入描述帧存储单元中存储的信息为最近一次发送的SID帧的频谱能量信息。
在进行是否发送SID帧的判决时，首先判断当前语音信号帧的频谱能量的绝对值和上一静音插入描述帧的频谱能量的绝对值中至少一个大于单帧能量门限(THRl)，如果不满足上述条件，则认为信号执行维持低能量，不需要发送SID帧，满足上述条件后，根据下式计算当前语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的相关值
权利要求
1.一种进行语音自适应非连续传输的方法，其中，在进行语音自适应非连续传输中，根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧。
2.如权利要求I所述的方法，其特征在于，所述语音信号帧的频谱信息是指根据所述语音信号帧的频域信号计算得到的频谱信息，或者，对所述语音信号帧的频域信号进行平滑处理后根据平滑处理后的频域信号计算得到的频谱信息。
3.如权利要求2所述的方法，其特征在于，判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时，发送静音插入描述帧。
4.如权利要求I所述的方法，其特征在于，判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距大于预设限度一，进一步判断所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度二时，连续发送两个静音插入描述帧，其中预设限度二对应的频谱能量差距大于预设限度一对应的频谱能量差距。
5.如权利要求3或4所述的方法，其特征在于，所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度是指所述语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数，其中所述比值门限为大于I的实数；或者，所述语音信号帧的频谱能量与所述上一静音插入描述帧的频谱能量的差值绝对值大于差值门限。
6.如权利要求I所述的方法，其特征在于，判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时，根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值，判断所述频谱相关值小于频谱相关性门限时，发送静音插入描述帧。
7.一种进行语音自适应非连续传输的装置，其中，所述装置包括静音插入描述帧处理单元和静音插入描述帧存储单元；所述静音插入描述巾贞处理单兀，用于根据当前的语音信号巾贞和上一静音插入描述巾贞的频谱信息决定是否发送静音插入描述帧；所述静音插入描述帧存储单元，用于在所述装置发送静音插入描述帧后，存储此静音插入描述帧的频谱信息。
8.如权利要求7所述的装置，其特征在于，所述静音插入描述帧处理单元，还用于对所述语音信号帧的频域信号进行平滑处理后根据平滑处理后的频域信号计算得到的频谱信息；所述静音插入描述帧存储单元，还用于存储经过平滑处理后的频域信号。
9.如权利要求8所述的装置，其特征在于，所述静音插入描述帧处理单元，还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时，发送静音插入描述帧；或者，还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距大于预设限度一，进一步判断所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度二时，连续发送两个静音插入描述帧，其中预设限度二对应的频谱能量差距大于预设限度一对应的频谱能量差距；所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度是指所述语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数，其中所述比值门限为大于I的实数；或者，所述语音信号帧的频谱能量与所述上一静音插入描述帧的频谱能量的差值绝对值大于差值门限。
10.如权利要求8所述的装置，其特征在于，所述静音插入描述帧处理单元，还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时，根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值，判断所述频谱相关值小于频谱相关性门限时，发送静音插入描述帧。
全文摘要
本发明公开了一种进行语音自适应非连续传输的方法及装置，此方法包括在进行语音自适应非连续传输中，根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧。本方案可以克服现有技术中的采用固定间隔方式不能灵活跟踪信号变化，采用可变间隔方式又必须有线性预测等多参数的计算导致计算复杂度高的缺点。本方案直接在频域进行，能很好地跟踪信号的变化，在保持较低平均码率的同时保证音质。
文档编号G10L19/012GK102903364SQ20111021637
公开日2013年1月30日申请日期2011年7月29日优先权日2011年7月29日
发明者顾彩霞, 袁浩, 江东平, 黎家力申请人:中兴通讯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：顾彩霞;袁浩;江东平;黎家力
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

上一篇：一种提取歌曲副歌的方法、装置和系统的制作方法
上一篇：校准装置、使用该校准装置的自动演奏钢琴及校准方法