在通信网络中从话音频带数据中鉴别语音的方法和设备的制作方法

文档序号：2835790阅读：501来源：国知局

专利名称：在通信网络中从话音频带数据中鉴别语音的方法和设备的制作方法
技术领域：
本发明涉及通信领域，更具体地涉及在通信网络中从话音频带中鉴别语音的方法和设备。
众所周知在通信网络中鉴别语音与例如发自调制解调器或传真机的话音频带数据的能力可以改善网络效率和/或保证业务要求的质量。例如，尽管常规电话网络的每个信道携带64kbps，无论信道携带语音或VBD，在电话网络信道与高带宽综合业务通信系统之间的接口处，例如在ATM(异步转移模式)集群设备或IP(互联网协议)电话网络网关，语音可以被压缩到例如8kbps或5.3kbps。因此，因为在这种接口设备上所接收的业务类型可以指示所执行的信号处理，所以已经提出了几种鉴别语音和VBD信号的技术。这种技术常规地依赖于在连续信号段之间从VDB中鉴别语音的参数，例如零点交叉速率，信号极数，高/低频率功率速率，和/或功率变化。
尽管鉴语音和VBD信号的常规技术一般实现相对低速率VBD的低错误率，对于在高速VBD传输中鉴别语音这种技术的错误率明显增加，例如来自使用更高码元速率和复杂编码/调制技术并产生具有与低速传输不同的许多特性的信号的V.32，V.32bis，V.34和V.90调制解调器。对于高速VBD，因为许多参数值的分配例如零点交叉速率，信号极数，和功率变化往往与语音参数值重叠而出现更高的错误率。
本发明是根据至少表示输入信号段的周期性特性的自相似性比值(SSR)、表示输入信号段频谱特性以产生语音/VBD鉴别结果的自相关系数之一，在通信网络中鉴别语音和VBD的一种方法和一个设备。
通常，话音语音特性在于相对高能量的成分和周期性即音调(pitch)，非话音语音呈现很少或没有周期性，而出现在话音和非话音语音段之间的过渡段通常具有话音和非话音语音两者的特性在正常传输期间，对高速VBD进行加扰，编码，和调制，因此如同噪声一样呈现无周期性。某些低速VBD信号例如在启动过程中使用的控制信号呈现周期性。本发明通过确认周期性的VBD信号一般具有比话音语音更快的重复速率并计算短期延迟和长期延迟SSR值指示输入信号帧的重复速率来鉴别周期性语音和VBD信号。
本发明也确认对输入帧周期性特征的分析可能不能保证准确的语音/VBD鉴别，而输入帧的某些频谱特性可以显示输入帧是否是语音或VBD。例如，典型的调制解调器/传真机使用的载波频率在一个窄范围内，反之语音是通常呈现功率频谱中大变化的非静态随机信号。本发明计算短期自相关系数以确定输入帧的频谱包络有助于准确鉴别语音/VBD。
按照本发明的一个实施例，本发明的语音/VBD鉴别技术是以连续判决逻辑算法实施的，该算法通过确认在通信媒体上从语音到VBD或相反方向的变化不可靠而改善了分类性能。因此，在根据SSR值和/或自相关系数已经对预定数量帧进行分类后，连续判决逻辑算法进入“语音状态”或“VBD状态”，在这些状态中除非一定数量的连续分类结果表明当前状态是错误的，语音/VBD鉴别输出不改变。在本发明的一个示范性实施例中，连续判决逻辑算法减弱了对相对低功率信号部分的鉴别结果，该部分信号更容易被错误影响，而改善了鉴别准确性。
根据下列详细说明和附图，本发明的其它方面和优点将变得更清楚，其中

图1是按照本发明的实施例用于鉴别语音和VBD信号的设备的方框图；图2是流程图，表示按照本发明的实施例根据SSR值和自相关系数鉴别语音/VED；和图3A-3C是流程图，表示按照本发明的实施例用于将输入信号段分类成为语音或VBD的连续判决逻辑算法。
本发明是一种方法和设备，用于在通信网络中鉴别语音和VBD。图1是总方框图，表示按照本发明实施例的示范性语音/VBD鉴别器100，本发明可以在网络接口设备中实施，例如ATM集群设备或IP电话网络网关。如图1所示，语音/VBD鉴别器包括一个输入帧缓存器，一个高通滤波器120和一个语音/VBD鉴别单元130。应当确认，结构图1的总方框图表示了多个分离元件，VBD/鉴别器100可以各种方式实现，例如以软件驱动的处理器，例如数字信号处理器(DSP)，以可编程逻辑设备，以使用特定集成电路，或以实现设备的组合实现。
输入缓存器110接收输入信号，例如来自以8kHz时钟速率对常规电话网络信道的信号进行采样的网卡，将每帧N个连续语音样本的帧缓存。名义上由输入帧缓存器所接收的输入信号已经以8kHz时钟速率被采样，帧的尺寸在10毫秒(即N＝80样本以8kHz采样速率)到30毫秒(即N＝240样本以8kHz采样速率)范围，而16位线性二进制字代表输入采样的幅度(即输入采样比多于215)。高通滤器120滤除N个采样的每个帧以从中消除DC成分。因为DC信号成分只有很少对鉴别语音/VBD有用的信息并且当计算上面所讨论的信号特征值时可以引起偏置误差，所以对输入帧进行高通滤波。由高通滤波器120使用的以Z变换域表示的示范性滤波器传递函数表示如下其中(Z-1＝e-jw)。语音/VBD识别单元130接收高通滤波器120的输出，并以下面更详细地描述的方式执行语音/VBD鉴别。
通常，语音包括话音区，该区特征为相对高能量内容和周期性(一般称为“音调”)，非话音区只有很少或没有周期性，而过渡区出现在话音和非话音区之间而因此具有话音和非话音两者的特性。在正常传输期间，对高速VBD加扰，编码和调制，由此呈现为没有周期性的噪声。某些低速VBD信号例如在启动过程中使用的控制信号呈现周期性。
本发明认为呈现周期性的VBD信号一般具有比话音语音更快的重复率，和也认为某些频谱特性可以有效地用于鉴别VBD和语音。例如，由典型的调制解调器/传真使用的载波频率在一个窄范围内，例如在1kHz到3kHz之间，以致VBD信号的功率谱以载波频率为中心，例如一般中心大约为1kHz。另一方面，语音是非静态的随机信号，一般呈现大的功率谱变化。本发明计算短期自相关系数以确定输入信号的频谱特性而辅助语音/VBD鉴别。为能够按照这些原理鉴别语音/VBD，语音/VBD鉴别单元130对每个缓存和滤波后的N采样帧执行下面描述的计算。
语音/VDB单元鉴别单元130利用N个采样的窗口以下式计算输入帧短期功率，Ps 其中n是帧数量，而x(i)是采样I的幅度，语音/VBD鉴别单元130也计算SSR值以计量连续信号段之间的相似性。更具体地，对每个帧进行两个单独的SSR计算以提取它们的周期性特性。SSR1(n)代表对如下计算出的相对小采样延迟范围的SSR，按如下计算SSR1(n)Max{COL(n，j)} 3≤j≤17公式(3)其中j是采样延迟，并如下计算COL(n，j) SSR2(n)代表对相对大采样延迟范围的SSR，计算如下SSR2(n)＝Max{COL(n，j)} 18≤j≤143 (5)对于话音语音，延迟即引起最大(max)SSR的j的值被估计为音调(或其倍数)。人类话音的音调一般在2.225毫秒到17.7毫秒范围或以8kHz采样信号的18-122个采样。因此，如果SSR2(n)大于某个阈值，往往表示对应的帧是话音语音。如果SSR1(n)是大的值，可是，输入信号帧可以是具有高重复率的非语音静态信号。
语音/VBD鉴别单元130也计算自相关系数，该系数代表感兴趣帧的某些频谱特性。因为信号自相关函数是其功率谱的反付氏变换，短期自相关函数或低延迟自相关系数代表了帧的频谱包络。本发明使用分别具有2、3和4采样延迟的三个自相关系数，来分析感兴趣帧的频谱特性。对于具有k个采样延迟使用N个连续采样窗口的输入帧以下式表示为建立信号功率谱与自相关系数之间的关系，可以假设输入信号是如下表示的单音x(k)＝A*sin(2*π*f*k/fs＋Θ)公式(7)其中fs＝8kHz，和k＝0，1，2，……。在此情况下，具有两个采样延迟的自相关系数R2d如下R2d＝COS(4*π*f/fs) (8)根据公式(8)，可以看出对于1kHz＜f＜3kHz的R2d将是负数。大多数VBD载波频率位于该范围。如果输入是单音，或具有围绕2kHz为中心功率谱的窄带信号，则R2d将几乎是-1。另一方面，如果输入信号是具有围绕0kHz或4kHz为中心功率谱的单音或窄带信号，则R2d几乎是+1。
按照公式(7)，R3d和R4d可以分别如下计算出R3d＝COS(6*π*f/fs) (9)R2d＝COS(8*π*f/fs) (10)根据公式(9)，可以看出当输入信号是具有围绕1.33kHz接近4kHz或两者为中心的功率谱的窄带信号，R3d接近是-1。如果R4d接近-1，则输入信号应当是具有围绕1kHz、3kHz或两者的为中心的功率谱的窄带信号。因此，R3d和R4d是对于将单音、多音和非常低速VBD即由许多传真/调制解调器系统使用的那些信号与语音鉴别的有效参数。作为一个实际示例，V.21，300bps，FSK双工调制解调器对于不同方向传输使用不同载波频率(H，L)。较低信道V.21(L)具有标称平均频率1080Hz和带有+/-100Hz的频率偏移。根据公式(10)，这种传输产生f＝1180HzR4d＝COS(8*1180*π/80000)＝-0.844；f＝980Hz R4d＝COS(8*980*π/80000)＝-0.998；因此，V.21(L)信号的R4d值将少于-0.80。较高信道V.21(H)具有1750Hz的标称平均频率和带有+/-100Hz的偏移。根据公式(8)，V.21(H)信号的R2d将也少于-0.8。
如同另一个示例，V.22，600Hz码元速率的QPSK/DPSK双工调制解调器对其较低信道使用1200Hz载波而对其较高信道使用2400Hz载波和1800Hz保护单音。对于V.22(L)信号，根据公式(9)，具有f＝1200Hz，R3d＝COS(6*1200*π/8000)＝-0.95因此，R3d将接近-1。V.22(H)信号的R2d也将少于-0.8。
图2表示了使用上述计算出的特性对将单一输入帧分类为语音或VBD的“初步判决”系列。在计算出上述Ps，SSR1，SSR2，R2d，R3d和R4d之后(步骤150)，语音/VBD鉴别单元130开始尝试将感兴趣的帧根据R2d分类为语音或/VBD(步骤152)。具体地，如果R2d少于或等于低阈值TR2L，例如TR2L＝-0.75，输入帧将被分类为VBD。如果R2d大于或等于高阈值TR2H，例如TR2H＝0.55，输入帧被分类为语音。
如果R2d在TR2L和TR2H之间，则语音/VBD鉴别单元130接着尝试根据SSR1完成鉴别结论(步骤158)。具体地，如果SSR1大于或等于第一相似性阈值TS1，例如TS1＝0.96，输入帧被分类为VBD。如果SSR1小于TS1，语音/VBD鉴别单元130接着试图根据R3d和R4d鉴别(步骤162)。具体地，如果R3d小于或等于阈值TR3，例如TR3＝-0.8，如果R4d少于或等于阈值TR4，例如TR4＝-0.85，或如果R3d＋R4d少于或等于阈值TR34，例如TR34＝-1.73，输入帧被分类为VBD。
如果这些条件没有一个满足，语音/VBD鉴别单元130接着试图根据SSR2鉴别(步骤166)。具体地，如果SSR2大于或等于阈值TS2，例如TR2＝0.51，输入帧被分类为语音。如果SSR2小于TS2，输入帧被分类为VBD。
认为一旦帧被分类为语音或VBD，紧接着的帧将具有相同分类，按照本发明实施例用连续判决逻辑算法实现上述语音/VBD鉴别技术以改善判决可靠性。
图3A-3C是流程图，该图表示由语音/VBD鉴别单元130鉴别语音和VBD而实现的示范性连续判决逻辑算法。图3A-3C所示的连续判决逻辑算法必须具有六个状态(1)初始状态；(2)单个帧被分类为语音或VBD的确定状态；(3)分类结果保持为语音直到后续分类结果表示语音状态是错误的语音状态；(4)在进入语音状态后出现低功率周期的“过去是语音状态”；(5)分类结果保持为VBD直到后续分类结果表示VBD状态是错误的VBD状态；(6)在进入VBD状态后出现低功率周期的“过去是VBD”状态。根据下面的说明这些分类状态的意义将更明显。
参照图3A，在初始步骤期间，在连续判决逻辑算法中使用的每个计数器被设置为0(步骤202)。接着，鉴别单元130对感兴趣帧计算Ps(步骤204)，并确定Ps是否大于或等于能量阈值ETh1(步骤206)。当Ps小于ETh1时，鉴别单元不试图确定该帧是否为语音或VBD，而反之返回步骤204以计算下个帧的Ps。换句话说，鉴别单元130不开始试图将输入帧分类为语音或VBD，直到Ps达到Eth1。连续判决逻辑算法保持在初始状态直到Ps达到ETh1。
当鉴别单元130确定Ps大于或答应ETh1时，连续判决逻辑算法进入确定状态，在该状态中语音/VBD鉴别单元130对感兴趣的帧计算鉴别特征值(步骤208)并且决定这些鉴别特征值表示感兴趣的帧是否是语音或VBD(步骤210)。换句话说，鉴别单元130执行上面参照图2讨论的初始判决逻辑，以将感兴趣的帧分类为语音或VBD。当感兴趣的帧被分类为语音时，语音计数器Spc递进1(步骤212)，并将Spc比喻为语音计数阈值Spy，例如Spy＝1(步骤214)。如果Spc小于Spy，连续判决逻辑保持在确定状态，而鉴别单元130对下个帧计算鉴别特征值(步骤208)。如果Spc至少等于Spy，连续判决逻辑进入语音状态，将参照下面图3B描述该状态。
如果在步骤210输入帧被分类为VBD，VBD计数器Mdc将递增1(步骤216)，而Mdc被比喻为VBD计数阈值Mdy，例如Mdy＝4。如果Mdc小于Mdy，连续判决逻辑保持在确定状态，而且鉴别单元130计算下个帧的鉴别特征值(步骤208)。如果Mdc至少等于Mdy，连续判决逻辑进入VBD状态，将参照下面图3C详细描述。按照图3B所示的连续判决逻辑，在预定数量的帧已经按照SSR和/或自相关系数被分类为语音/VBD之后，以致连续判决逻辑算法进入语音/VBD状态，语音/VBD鉴别输出不改变，直到一定数量的后续分类结果表示语音/VBD状态是错误的。
参照图3B，当连续判决逻辑进入语音状态(步骤230)时，对下个帧计算Ps(步骤204)和与能量阈值ETh1比较(步骤234)。如果Ps至少等于ETh1，一个静默计数器Sic被设置为0(步骤236)，和语音/VBD鉴别单元130计算下个帧的鉴别特征值(步骤238)以便输入帧可以被分类为语言或VBD(步骤240)，即执行“初始判决”。如果在步骤240输入帧被分类为语音，VBD计数器Mdc被除以2(步骤242)，连续判决逻辑保持在语音状态，而分类序列返回到步骤230以便鉴别单元130对下个帧计算Ps。在步骤240如果输入帧被认为VBD，VBD计数器Mdc递增“功率补偿的”递增值x(下面详细描述)(步骤244)，而Mdc与VBD昨天改变阈值Mdx比较，例如Mdx＝8(步骤246)。如果Mdc至少等于Mdx，连续判决逻辑保持在语音状态，和判决序列返回到步骤232，以便语音/VBD鉴别单元130对下个帧计算Ps。可是，当Mdc至少等于Mdx时，VBD计数器Mdc被重新设置为0(步骤248)，和连续判决逻辑切换到VBD状态。
当语音/VBD鉴别单元130在步骤234确定Ps少于Ethl时，静默计数器Sic递增1(步骤250)并被比喻为静默计数器阈值Siy，例如Siy＝8(步骤252)。如果Sic没有达到Siy，连续判决逻辑保持在语音状态，和前进到步骤238以便鉴别单元130计算感兴趣的帧的鉴别值。可是当Sic达到Siy时，连续判决逻辑进入“过去是语音”状态，该状态将参照流程图块253到257描述。在“过去是语音”状态，鉴别单元130对下个帧开始计算Ps(步骤253)，和比较Ps与能量阈值ETh1(步骤254)。如果Ps大于或等于ETh1，静默计数器Sic被重新设置为0(步骤255)和连续判决逻辑返回到语音状态步骤238。在步骤254当鉴别单元130确定Ps小于ETh1时，静默计数器Sic递增1(步骤256)和Sic被比喻为第二静默计数器阈值Six(步骤257)，例如Six＝200。如果Sic没有达到Six，连续判决逻辑保持在“过去是语音”状态，和在步骤253对下个帧计算Ps。当Sic达到Six时，连续判决逻辑返回到步骤202的其初始状态，即发生重新设置。
接着参照图3C，可以看出连续判决逻辑在VBD状态期间以与针对图3B所述语音状态相类似的方式工作。具体地，在根据步骤218或步骤246的鉴别进入VBD状态(步骤260)后，鉴别单元130对下个帧计算Ps(步骤262)和比较Ps与能量阈值ETh1(步骤264)。如果Ps大于或等于ETh1，静默计数器Sic被设置等于0(步骤265)，和鉴别单元130根据图2的“初始判决”确定感兴趣的帧是否为语音或VBD(步骤270)。如果鉴别单元130在步骤270确定感兴趣的帧是VBD，语音计数器Spc被除以二(步骤272)，连续判决逻辑保持在VBD状态，和对下个帧计算Ps(步骤262)。如果鉴别单元130在步骤270确定感兴趣的帧是语音，语音计数器Spc递增一个“功率补偿的”递增值X(步骤274)，和比较Spc与语音计数器阈值SPX，例如SPX＝4(步骤276)。如果Spc不是至少等于SPX，连续判决逻辑保持在VBD状态和返回到步骤262以便鉴别单元130对下个帧计算Ps。如果在步骤276Spc被确定为至少等于SPX，语音计数器Spc被重新设置为0(步骤278)和连续判决逻辑进入上面参照图3B讨论的语音状态。
当在步骤264，Ps小于ETh1时，静默计数器Sic递增1(步骤280)和比较静默计数器阈值Siy(步骤282)。如果Sic不是至少等于Siy，连续判决逻辑保持在VBD状态和前进到步骤268以对感兴趣的帧计算鉴别特征值。可是在步骤282当Sic达到Siy时，连续判决逻辑进入“过去是VBD”状态，接着参照图3C所示块283-287描述。
具体地，鉴别单元130对下个帧计算Ps(步骤283)和比较Ps与ETh1(步骤284)。如果Ps大于或等于ETh1，静默计数器Sic被重新设置为0(步骤285)，和连续判决逻辑返回到VBD状态的步骤268以对感兴趣的帧计算鉴别特征值。在步骤284当Ps小于ETh1时，静默计数器Sic递增1(步骤286)和Sic与第二静默计数器阈值Six比较(步骤287)。在步骤287当Sic被确定少于Six时，连续判决逻辑保持在“过去是VBD”状态和对下个帧计算Ps(步骤283)。在步骤287当Sic达到Six时，可是，连续判决逻辑返回到步骤202的初始状态。
对于参照语音状态和VBD状态判决逻辑所讨论的“功率补偿的”递增值x，本发明认为对于相对低功率信号部分语音与VBD之间的鉴别更倾向是错误的。对于语音，低功率信号部分可以是非话音语音或语音之间的间隔。对于VBD，低功率部分可以代表传输之间的间隔，或在握手过程期间的等待时间段。这些信号部分更倾向于受噪声和串音影响，因为低信号功率产生低的信噪比。因此，当连续判决逻辑从语音状态切换到VBD状态或相反时，用于控制的“功率补偿的”递增值x是Ps的函数。对于相对低Ps，指定小的x。反之，使用较大Ps。另外的适当功率阈值ETh2用于确定是否使用相对大或小的x值。ETh2的计算如下Pmax＝max(α·Pmax，Ps(n))ETh2β·Pmax，公式(11)ETh2∈[Ebnd，Ebup]其中Ebup和Ebnd分别是ETh2的上限和下限。Ebnd可以小到ETh1几倍，例如Ebnd＝10*ETh1，而Ebup可以是例如＝1.2*107。符号α代表常数，该常数接近1，例如α＝0.995，和β也是常数可以在1/50到/10之间，例如β＝1/12。PMAX是该信号峰值功率的运行期间估计值。
使用ETh2，“功率补偿的”变量x可以如下确定If Ps＜ETh1x＝0Else if Ps＜ETh2x＝γ公式(12)Else x＝1其中γ是在
范围的常数，例如γ＝0.2。应当意识到可以为不同应用改变上述鉴别技术。例如，上面讨论的某些参数可以根据单个系统的要求调节，例如如果系统需要快速判决，或极低的错分类比率。
前述仅说明本发明的原理。本领域技术人员能够设计出没有在此明确描述或表示但包含本发明原理而因此属于本发明范围的各种设计。
权利要求
1.一种在通信网络中从话音频带数据中鉴别语音的方法，包括对一个输入信号段计算至少一个代表周期性特性的自相似比值和一个代表频谱特性的自相关系数值之一；和根据至少所述自相似值和所述自相关系数值之一确定所述输入信号段是否是语音或话音频带数据。
2.根据权利要求1所限定的发明，其中所述输入信号段是N个采样的一个帧。
3.根据权利要求1所限定的发明，其中所述计算步骤计算一个对应一个第一采样延迟的第一自相似比值作为一个第一周期性特性值；和所述确定步骤确定如果所述第一自相似比值大于第一相似性阈值则所述输入信号段是话音频带数据。
4.根据权利要求3所限定的发明，其中所述计算步骤计算一个对应一个第二采样延迟的第二自相似比值作为一个第二周期性特性值，所述第二采样延迟大于所述第一采样延迟；和所述确定步骤确定如果所述第二自相似比值大于一个第二相似性阈值，则所述输入信号段是语音。
5.根据权利要求1所限定的发明，其中所述计算步骤计算一个第一自相关系数作为一个第一频谱特性值；和所述确定步骤确定如果所述第一自相关系数小于一个第一自相关阈值，则所述输入信号段是话音频带数据，如果所述自相关系数大于一个第二自相关阈值，则所述输入信号段是语音，所述第二自相关阈值大于所述第一自相关阈值。
6.根据权利要求5所限定的发明，其中所述计算步骤计算第二和第三自相关系数分别作为第二和第三频谱特性值，和所述确定步骤确定如果所述第二自相关系数小于第三自相关阈值或所述第三自相关系数小于一个第四自相关阈值则所述输入信号段是话音频带数据。
7.根据权利要求6所限定的发明，其中所述确定步骤确定如果所述第二自相关系数与所述第三自相关系数的和小于一个第五自相关阈值，则所述输入信号段是话音频带数据。
8.根据权利要求1所限定的发明，其中按照一个连续判决逻辑序列对多个输入信号段执行所述计算和确定步骤，该序列在语音状态期间指定输入信号段为语音而在话音频带数据状态期间指定输入信号段为话音频带数据。
9.根据权利要求8所限定的发明，其中当对多个输入信号段的所述确定步骤结果指示所述语音状态是错误时，所述连续判决逻辑序列从所述语音状态切换到所述话音频带数据状态，和当对多个输入信号段的所述确定步骤结果指示所述话音频带数据状态是错误时，所述连续判决逻辑序列从所述话音频带数据状态切换到所述语音状态。
10.根据权利要求8所限定的发明，其中根据相应输入信号段的能量内容对所述确定步骤的结果加权，以便当确定是否从所述语音状态切换到所述话音频带数据状态或从所述话音频带数据状态切换到所述语音状态时，低能量输入信号段的确定结果被指定相对低的权重。
11.一种在通信网络中从话音频带数据中鉴别语音的设备，包括计算装置，用于计算至少代表一个周期性特性的一个自相似比值和代表一个频谱特性的一个自相关系数值之一；和确定装置，用于根据所述自相似值和所述自相关系数值至少之一确定所述输入信号段是否是语音或话音频带数据。
12.根据权利要求11所限定的发明，其中所述输入信号段是N个采样的一个帧。
13.根据权利要求11所限定的发明，其中所述计算装置计算一个对应一个第一采样延迟的第一自相似比值作为一个第一周期性特性值；和所述确定装置确定如果所述第一自相似比值大于第一相似性阈值则所述输入信号段是话音频带数据。
14.根据权利要求13所限定的发明，其中所述计算装置计算一个对应一个第二采样延迟的第二自相似比值作为一个第二周期性特性值，所述第二采样延迟大于所述第一采样延迟；和所述确定装置确定如果所述第二自相似比值大于一个第二相似性阈值则所述输入信号段是语音。
15.根据权利要求1所限定的发明，其中所述计算装置计算一个第一自相关系数作为一个第一频谱特性值；和所述确定装置确定如果所述第一自相关系数小于一个第一自相关阈值则所述输入信号段是话音频带数据，如果所述自相关系数大于一个第二自相关阈值则所述输入信号段是语音，所述第二自相关阈值大于所述第一自相关阈值。
16.根据权利要求15所限定的发明，其中所述计算装置计算第二和第三自相关系数分别作为第二和第三频谱特性值，和所述确定装置确定如果所述第二自相关系数小于第三自相关阈值或所述第三自相关系数小于一个第四自相关阈值则所述输入信号段是话音频带数据。
17.根据权利要求16所限定的发明，其中所述确定装置确定如果所述第二自相关系数与所述第三自相关系数的和小于一个第五自相关阈值则所述输入信号段是话音频带数据。
18.根据权利要求11所限定的发明，其中所述设备按照一个连续判决逻辑序列对多个输入信号段进行分类为是语音或是话音频带数据，该序列在话音状态期间指定输入信号段为语音而在话音频带数据状态期间指定输入信号段为话音频带数据。
19.根据权利要求18所限定的发明，其中当所述确定装置对多个输入信号段的结果指示所述语音状态是错误时，所述设备按照所述连续判决逻辑序列从所述语音状态切换到所述话音频带数据状态，和当所述确定装置对多个输入信号段的结果指示所述话音频带数据状态是错误时，所述设备按照所述连续判决逻辑序列从所述话音频带数据状态切换到所述语音状态。
20.根据权利要求18所限定的发明，其中所述设备对所述确定装置根据相应输入信号段的能量内容的结果加权，以便当确定是否从所述语音状态切换到所述话音频带数据状态或从所述话音频带数据状态切换到所述语音状态时，低能量输入信号段的确定结果被指定相对低的权重。
全文摘要
一种方法和一个设备,在通信网络中通过计算指示输入信号段周期性特性的自相似比值(SSR)和/或指示输入信号段频谱特性的自相关系数,准确地鉴别语音和话音频带数据(VBD),以产生语音/VBD鉴别结果。在一个实施例中,语音－VBD鉴别设备计算短期延迟和长期延迟的SSR值以分析输入信号段的重复率,由此指示输入信号帧是否具有典型语音信号或VBD信号的周期性特性。该语音－VBD鉴别设备进一步计算多个短期自相关系数以确定输入帧的频谱包络,由此有助于准确的语音/VBD鉴别。
文档编号G10L15/00GK1332441SQ0012265
公开日2002年1月23日申请日期2000年7月4日优先权日2000年7月4日
发明者张鹏杰申请人:朗迅科技公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张鹏杰
技术所有人：朗迅科技公司
我是此专利的发明人