用于确定语音信号的质量的方法和设备的制作方法

文档序号:2835316阅读:180来源:国知局
专利名称:用于确定语音信号的质量的方法和设备的制作方法
A.发明背景本发明属于诸如音频、语音和话音信号等声音信号的质量测量的技术领域。更具体地说,本发明涉及一种用于根据客观测量技术相对参考信号确定从语音信号处理系统中接收到的一个输出信号的语音质量的方法和设备。这种方法和设备是已知的,例如从参考文献(1,-,5)中获知(对于有关这些参考文献更详细的书目细节,参见下面的C.参考文献)。遵循ITU-T推荐标准P.861或者其后继推荐标准P.862的方法和设备(参见参考文献(6)和(7))也属于这种类型。根据现在已知的技术,根据人类听觉的心理物理感知模型将一个输出信号和一个参考信号映射在表示信号上,所述输出信号来自一个语音信号处理和/或传输系统(例如,无线电信系统、基于网际协议的话音传输系统和语音编译码器),它通常是一个劣化的信号,并将确定其信号质量。如同所引用的参考文献中,可以将提供有获得的输出信号的系统的输入信号用作一个参考信号。随后,根据所述表示信号来确定一个差动信号(differential signal),所述表示信号根据所使用的感知模型代表在输出信号中出现的在系统内遭受的干扰。差动或者干扰信号构成根据表示模型的输出信号偏离参考信号在程度上的表示。然后,根据一个认知模型来处理该干扰信号,在所述认知模型中已经模拟了人类测试对象的某些属性,从而获得一个随时间变化的质量信号,该信号是输出信号的听觉感知质量的测量值。
然而,遵循推荐标准P.862的已知技术(具体而言是方法和设备)具有下述缺点由于劣化信号中的极度微弱或静寂部分所导致的并且包含参考信号中语音的严重失真可能导致一个质量信号,该质量信号具有与诸如人类测试对象的平均意见得分(MOS)等客观确定的质量测量值非常小的相关性。因为时间限制(time clipping),即,例如在分组交换系统中丢失分组的情况下,用静寂信号替代语音或音频信号中的较短部分,可能会出现这样的失真。在这种情况下,预测质量明显高于主观感知的质量。
B.发明概述本发明的一个目的是提供一种克服所述缺点的用于确定语音信号的质量的改进的方法和相应的设备。
特别地,本发明基于下面的观察。受测试的系统的增益通常不是先验可知的。因此,在处理输出(劣化)信号和参考信号的主要步骤的初始化或预处理阶段,通过应用一个用于将输出信号的功率整体或者全局定标(scale)到一个特定功率电平的定标因子,至少对输出信号执行一个定标步骤。此特定的功率电平可以在诸如遵循推荐标准P.861的技术中与参考信号的功率电平有关,或者在遵循推荐标准P.862的技术中与一个预定的固定电平有关。定标因子是输出信号的平均功率的平方根的倒数值(reciprocal value)的函数。在劣化信号包括极度微弱或者静寂部分的情况下,该倒数值增加成很大的数值。正是这样的一个功率相关参数的倒数值的此行为可以以能够更好地预测受测试的系统的主观质量的这样一种方式被用于适应失真计算。
本发明的另一个目的是分别提供一种上述类型的方法和设备,包括一个更好的可控制的定标操作和用于这样更好的可控制的定标操作。
通过在上述种类的方法和设备中引入一个附加的第二定标步骤来实现这个以及其它的目的,所述第二定标步骤通过使用至少一个调整参数(但是最好是两个调整参数)应用第二定标因子来执行。在优选的情况下,第二定标因子是提高到一个数值对应于第一调整参数的指数的功率相关参数的倒数值的一个函数,在该函数中,将功率相关参数增加一个对应于第二调整参数的值。该第二定标步骤可以在该方法和设备的各个阶段中执行。
因为依然存在将导致不可靠的语音质量预测的其它情况,所以定标因子的使用依然具有其它的缺点,所述定标因子是作为输出信号的平均功率的已知平方根的一种功率相关参数的倒数值的一个函数。这样的一种情况如下所述。两个劣化的语音信号可能具有相同的平均功率值,所述两个劣化的语音信号是受测试的具有相同输入参考信号的两个不同语音信号处理系统的输出信号。例如,一个信号仅在整个语音信号持续时间的很短时间内具有很高的功率,而在其它时间内具有非常低或者为零的功率,而另一个信号在整个语音持续时间内具有相对低的功率。这样的劣化的信号可能具有基本相同的语音质量预测,但是它们在主观体验的语音质量上可能明显不同。
本发明的又一个目的是提供一种上述类型的方法和设备,其中引入一个定标因子,所述方法和设备在如上所述具有基本相同的功率平均值的不同劣化信号的情况下也能够产生可靠的语音质量预测。
通过在上述类型的方法和设备的第一和/或第二定标操作中使用两个基于与平均信号功率不同的功率相关参数的两个新的定标因子来实现这个和其它的目的。第一新的定标因子是一个称作信号功率活动性(SPA)的新的功率相关参数的函数,所述信号功率活动性被定义为所关心的信号的功率高于或者等于一个预定阈值的整个持续时间。第一新的定标因子被定义用于在第一定标操作中定标输出信号,并且是输出信号SPA的倒数值的函数。优选地,第一新的定标因子是参考信号的SPA和输出信号的SPA之间比值的函数。这个第一新定标因子可以与以平均信号功率为基础的已知定标因子相组合(例如相乘)或者替代其使用。可以根据称作局部定标因子(即,参考信号和输出信号瞬时功率之比)获得第二新定标因子,其中在局部电平上引入调整参数。可以在执行第二定标操作操作时分别在该方法和设备的组合阶段中将第二新定标因子的局部型式直接应用于依然随时间变化的差动信号。通过在语音信号的整个持续时间上首先平均局部定标因子以及然后在执行第二定标操作时在信号组合阶段中予以应用,替代或者与使用根据在第一定标操作中使用的(已知的和/或第一新的)定标因子所获得的定标因子的定标操作相组合,实现第二新定标因子的全局型式。
在包含很长持续时间的非常低或者零功率部分的劣化语音信号的情况下,第一新定标因子更为有利,而对于包含较短持续时间的类似部分的此类信号,则第二新定标因子更为有利。
C.参考文献[1]Beerends J.G.,Stemerdink J.A.,“根据心理声学声音表示的感知语音质量测量(A perceptual speech-quality measurebased on a psychoacoustic sound representation)”,音频工程协会杂志(J.Audio Eng.Soc.),第42卷,第3期,1994年12月,第115-123页。WO-A-96/28950;[3]WO-A-96/28952;[4]WO-A-96/28953;[5]WO-A-97/44779;[6]ITU-T推荐标准P.861,“电话频带(330-3400Hz)语音编译码器的客观测量”,06/96;[7]ITU-T推荐标准P.862(02/2001),系列出版物电话传输质量、电话安装、本地线路网络(Telephone Transmission Quality,Telephone Installations,Local Line Networks);质量的客观和主观评估的方法-语音质量的感性估计(PESQ),一种窄带电话网络和语音编译码器的端到端语音质量评估的客观方法(an objectivemethod for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs)。
参考文献[1]-[7]作为参考引入在本申请中。
D.附图的简要描述将参考附图通过示范性实施例的描述进一步解释本发明,附图包括

图1示意性地图示一个已知的系统结构,包括一个用于确定语音信号的质量的设备;图2以方框图的形式图示一个用于确定语音信号的质量的已知设备的细节;图3以方框图的形式图示另一个已知设备的如图2所示的类似细节;图4以方框图的形式图示根据本发明如图2或图3所示的类似细节;图5以方框图的形式图示一个根据本发明用于确定语音信号的质量的设备,其中包括图4所示细节的变型;图6以图5的方框图的一部分图示图5所示设备的细节的变型;图7以与图6类似的方式图示另一个变型。
E.优选实施例的描述图1示意性地图示以人类听觉感知和识别模型为基础的一种客观测量技术的应用的已知结构,所述人类听觉感知和识别模型用于估计语音链路或编译码器的感知质量,例如遵循ITU-T推荐标准P.861和P.862之一的一种模型。它包括一个受测试的系统或电信网络10,在下文中简称为系统10;和一个对所提供的语音信号进行感知分析的质量测量设备11。一方面将一个语音信号X0(t)用作网络10的输入信号,另一方面用作设备11的第一输入信号X(t)。将网络10的输出信号Y(t)(实际上,这是受网络10影响的语音信号X0(t))用作设备11的第二输入信号。设备11的输出信号Q代表经网络10的语音链路的感知质量的估计。因为语音链路的输入端和输出端相距很远,尤其在语音链路穿越一个电信网络的情况下,对于质量测量设备的输入信号,在大多数情况下,使用存储在数据库内的语音信号X(t)。在此,按照惯例,将语音信号理解为平均人类听觉基本上可感知的每个声音,例如语音和音调。受测试的系统当然也可以是一个仿真系统,例如仿真一个电信网络。设备11执行一个主要处理步骤,它顺序地包括在预处理部11.1内由预处理装置12执行的一个预处理步骤;在处理部11.2内由第一和第二信号处理装置13和14执行的一个再处理步骤;和在信号组合部11.3内由信号差动装置15和模拟(modelling)装置16执行的一个组合信号处理步骤。在预处理步骤中,为在装置13和14中的再处理步骤准备信号X(t)和Y(t),预处理包括功率电平定标和时间校准操作。再处理步骤是指根据人类听觉系统的心理物理感知模型将(劣化的)输出信号Y(t)和参考信号X(t)映射在表示信号R(Y)和R(X)上。在组合信号处理步骤期间,由差动装置15根据所述表示信号确定一个差动或干扰信号D,然后根据已经模拟了人类测试对象某些属性的认知模型由模拟装置16处理所述信号,从而获得质量信号Q。
最近,已经通过实验得出公知的技术(具体而言,推荐标准P.862之一)存在一个严重的缺点,即在参考信号中未出现的由于劣化信号中极度微弱或静寂部分所导致的严重失真可能导致质量信号Q,这些质量信号预测显著高于主观感觉质量的质量并因此与主观确定的质量测量结果(例如,人类测试对象的平均意见得分(MOS))的相关性很低。这种失真可能因为时间限制而出现,所述时间限制即在诸如分组交换系统中丢失分组的情况下使用静寂代替语音或音频信号内较短的部分。
因为受测试的系统的增益通常不是先验可知的,所以在初始化或者预处理阶段期间,通过使用一个定标因子至少对(劣化的)输出信号执行一个定标步骤,以便将输出信号的功率定标到一个特定功率电平上。在诸如遵循推荐标准P.861的技术中,所述特定功率电平可以与参考信号的功率电平有关。在图2中示意性地图示了用于这样的一个定标步骤的定标装置20。该定标装置20具有作为输入信号的信号X(t)和Y(t)和作为输出信号的Xs(t)和Ys(t)。定标是保持信号X(t)=Xs(t)不变,并且在定标单元21中使用一个定标因子将信号Y(t)定标成Ys(t)=S1·Y(t),所述定标因子是S1=S(X,Y)=Paverage(X)/Paverage(Y)---(1)]]>在这个公式中Paverage(X)和Paverage(Y)分别是指信号X(t)和Y(t)的平均功率。
在可能遵循推荐标准P.862的技术中,所述特定功率电平也可能与预先定义的固定电平有关。在图3中示意性地图示了用于这样一个定标步骤的定标装置30。该定标装置30具有作为输入信号的信号X(t)和Y(t)和作为输出信号的Xs(t)和Ys(t)。定标是分别使用定标因子在定标单元31中将信号X(t)定标成Xs(t)=S2·X(t),并且在定标单元32中将信号Y(t)定标成Ys(t)=S3·Y(t),所述定标因子是S2=S(Pf,X)=Pfixed/Paverage(X)---(2)]]>和S3=S(Pf,Y)=Pfixed/Paverage(Y)---(2)]]>其中Pfixed(即,Pf)是一个预先定义的功率电平,即所谓的恒定目标电平,以及Paverage(X和Paverage(Y)的含义分别与前面相同。
在这两种情况下,都使用定标因子,这些定标因子是功率相关参数的倒数值的函数,即,对于S1和S3来说,这是输出信号的功率的平方根,或者对于S2来说,这是参考信号的功率的平方根。在劣化信号和/或参考信号包括极度微弱或者静寂部分的大部分的情况下,这样的功率相关参数可能会降低成非常小的数值,甚至是零,并因此其倒数值可能增加成非常大的数值。这一事实提供用于使定标操作以及最好还使在其中使用的定标因子是可以调整的并因而更好地进行控制的原因。
为了实现这样的更佳的可控制性,首先,通过使用又一个第二定标因子引入又一个第二定标步骤。这个第二定标因子可以被选择为等于(但不是必需的,参见下文)在第一定标步骤中用于定标输出信号的第一定标因子,但是提高到一个指数α。指数α是第一调整参数,其值最好在0和1之间。可以在质量测量设备中的各个阶段上执行第二定标步骤(参见下文)。其次,可以将一个数值大于等于零的第二调整参数Δ添加给分别在上述两种现有技术情况的第一和第二种情况中分别在一个或多个定标因子中使用的每个时间上平均的信号功率值。第二调整参数Δ具有一个预先定义的可调整数值,以便将每个定标因子的分母增加到一个更大的数值,尤其在极度微弱或者静寂部分的所述情况下。以与先前参考图2和图3所述的类似方式在初始化阶段的第一定标步骤以及第二定标步骤中使用如此修改(对于Δ≠0)或者未修改(对于Δ=0)的定标因子。下面参考图4和图5描述根据第一定标因子获得第二定标因子的三种不同方式,然后参考图6和图7描述并非此种情况的一些方式。
图4示意性地图示一个定标设备40,用于使用修改后的定标因子执行第一定标步骤和第二定标步骤。该定标设备40具有作为输入信号的信号X(t)和Y(t)以及作为输出信号的信号X’s(t)和Y’s(t)。第一定标步骤是使用修改后的定标因子分别在定标单元41中将信号X(t)定标成Xs(t)=S’2·X(t)和在定标单元42中将信号Y(t)定标成Ys(t)=S’3·Y(t),所述修改后的定标因子在具有根据图2的定标步骤的情况下是S1′=S(Y+Δ)=(Paverage(X)+Δ)/(Paverage(Y)+Δ)---(1′)]]>其中Xs(t)=X(t)(即,图4中S(X+Δ)=1),并且所述修改后的定标因子在具有根据图3的定标步骤的情况下是S2′=S(X+Δ)=Pfixed/(Paverage(X)+Δ)---(2′)]]>和S3′=S(Y+Δ)=Pfixed/(Paverage(Y)+Δ)---(3′)]]>第二定标步骤是使用定标因子在定标单元43中将信号Xs(t)定标成X’s(t)=S4·Xs(t)和在定标单元44中将信号Ys(t)定标成Y’s(t)=S4·Ys(t),所述定标因子是S4=Sα(Y+Δ) (4)如图所示,定标因子S4可以由定标单元42生成并传送给第二定标步骤的定标单元43和44。否则,定标因子S4也可以由定标单元43和44在第二定标步骤中使用在第一定标步骤中从定标单元42接收的定标因子S3生成。
显然也可以通过使用作为在各个定标单元中使用的定标因子的乘积的定标因子,将在定标设备40中执行的第一和第二定标步骤组合成由定标单元对信号X(t)和Y(t)执行的单个定标步骤,所述定标单元分别是定标单元41和43以及定标单元42和44的组合。这样一个将参数选择为-1<α≤0和Δ≥0的组合定标步骤将等价于其中仅存在使用一个定标因子的第一定标步骤的情况,在所述定标因子中将功率相关参数的倒数值提高到一个对应于0<(α′=1+α)≤1的调整参数α′的指数,并将功率相关参数提高一个对应于参数Δ的调整值。
如此调整参数α和Δ的数值,以使对于测试信号X(t)和Y(t),客观测量的质量与主观感知的质量(MOS)高度相关。因而,将语音完全用静寂替代的劣化信号的例子看起来给出高于0.8的相关性,而使用已知方式测量的相同例子的质量显示出低于0.5的相关性。而且,对于推荐标准P.862的情况来说,看起来也是相同的。
参数α和Δ的数值可以存储在测量设备的预处理器装置内。然而,也可以通过在设备11的输入上将一定量的噪声添加给劣化的输出信号来实现参数Δ的调整,以这样一种方式使噪声量值的平均功率等于在一种特定情况下调整参数Δ所需要的数值。
并非在预处理阶段,也可以在输出和参考信号的处理过程期间在后一阶段上执行第二定标步骤。然而,并不需要将第二定标步骤的位置限制在分别处理信号的阶段上。也可以在信号组合阶段中执行第二定标步骤,但是参数α和Δ的数值不同。这在图5中图示,它示意性地图示了一个类似于图1的测量设备11的测量设备50,并且该设备依次包括预处理部50.1、处理部50.2和信号组合部50.3。预处理部50.1包括第一定标步骤的定标单元41和42,定标单元42生成在图中用Sαi(Y+Δi)所示的定标因子S4(参见公式(4)),其中对于第一和第二种情况,i分别等于1和2。
在第一种情况下(i=1),第二定标步骤由定标单元51并且使用定标因子S4=Sα1(Y+Δ1)在信号组合部50.3中执行,从而将差动信号D定标成一个定标差动信号D′=Sα1(Y+Δ1)·D。
或者,在第二种情况下(i=2),第二定标步骤由定标单元52并且使用定标因子S4=Sα2(Y+Δ2)同样在信号组合部50.3中执行,从而将质量信号Q定标成一个定标质量信号Q′=Sα2(Y+Δ2)·Q。
对于参数αi和Δi,使用方法与前面结合参数α和Δ的描述相同。
作为另外一种可选择的方式,也可以作为第一种情况(i=1)的第二定标步骤的补充,但是,利用不同的适当调整参数,作为第三定标步骤来执行第二种情况(i=2)的定标步骤。
通过在第一和/或第二定标操作中引入以不同于平均信号功率的功率相关参数为基础的两个新的定标因子来实现进一步的改进。
可以在第一定标步骤以及在第二定标步骤中定义和应用第一种新类型的定标因子,此定标因子以一个与信号X(t)和/或信号Y(t)的功率有关的不同参数为基础。不使用公式(1)-(3)和(1’)-(3’)中的信号X(t)和Y(t)的时间平均的功率Paverage,可以使用一个不同的功率相关参数来定义一个用于将(劣化的)输出信号的功率定标到一个特定功率电平上的定标因子。这个不同的功率相关参数称作信号功率活动性(SPA)。将一个语音信号Z(t)的信号功率活动性表示为SPA(Z),表示信号Z(t)的功率至少等于预先定义的阈值功率电平Pthr的总的持续时间。
总的持续时间T的信号Z(t)的SPA的数学表达式如下SPA(Z)=∫0TF(t)dt---(5)]]>其中F(t)是如下的阶跃函数 在这里,P(Z(t))表示信号Z(t)在时间t上的瞬时功率,并且Ptr表示用于该信号功率的预定阈值。
用于SPA的表达式(5)适合于连续信号处理的情况。在使用时间帧的离散信号处理的情况中是合适的表达式如下SPA(Z)=Σi=1NF(ti)---(5′)]]>
其中F(ti)是如下的阶跃函数 其中ti=(i/N)T,i=1-N,和t0=0,N是分割信号Z(t)以便处理的时间帧的总数。将一个F(ti)=1的时间帧称作一个活动帧,公式(5’)累计信号Z(t)中活动帧的总数。
使用如此定义的功率相关参数SPA,以与公式(1)-(3)、(1’)-(3’)和(4)的定标因子类似的方式来定义新的定标因子,或者替代它们,或者与它们相乘进行使用。这些新的定标因子如下T1=T(X,Y)=SPA(X)/SPA(Y)(6.1)T2=T(SPAf,X)=SPAfixed/SPA(X) (6.2)T3=T(SPAf,Y)=SPAfixed/SPA(Y) (6.3)T′1=T(Y+Δ)={SPA(X)+Δ}/{SPA(Y)+Δ}(6.1’)T′2=T(X+Δ)=SPAfixed/{SPA(X)+Δ} (6.2’)T′3=T(Y+Δ)=SPAfixed/{SPA(Y)+Δ} (6.3’)和T4=Tα(Y+Δ)(6.4)在此,SPAfixed(即SPAf)是一个预先定义的信号功率活动性电平,可以与前面所述的预先定义的功率电平Pfixed相类似的方式来选择。
因为如此定义的定标因子也是功率相关参数(即,参数SPA)的倒数值的函数,在某些情况下,该参数也可以具有非常小甚至为零的数值,因此,在公式(6.1’)-(6.3’)和(6.4)的定标因子中使用的参数α和Δ对于定标操作更好的可控性是非常有利的。以类似于在根据公式(1’)-(3’)和(4)的定标因子中使用的参数的方式来调整这些参数,但是通常将有所不同。例如,在后一情况下,Δ具有功率的大小,并应当具有一个相对Paverage(X)(在(1’)中)或者Pfixed(在(2’)或(3’)中)不可忽略的值,而在前一情况下,Δ是非常小的数,可以简单地将其设置为1。
在下文中,将一个以语音信号的SPA为基础的定标因子称作T型定标因子,而将一个以语音信号的Paverage为基础的定标因子称作S型定标因子。
在参考图1至图5所描述的每个定标操作中,可以使用一个T型定标因子来代替一个相应的S型定标因子。
在两个不同的劣化语音信号具有相同平均功率值的情况下,所述两个不同的劣化语音信号是两个受测试的不同语音信号处理系统的输出信号并且产生于相同输入参考信号,T型定标因子的使用提供了对于不可靠的语音质量预测问题的一种解决方法。例如,如果信号之一仅在整个语音信号持续时间的短时间期间具有相对大的功率,而在其它的时间上功率极低或者为零,而另一信号在整个语音持续时间上具有很低的功率,则这样的劣化信号可能导致几乎相同的语音质量的预测,但是它们在主观体验的语音质量上可能有很大差别。在这种情况下,使用一个T型定标因子而不是一个S型定标因子将产生不同的并因而更可靠的预测。然而,因为也有可能这两个不同的劣化语音信号具有相同的信号功率活动性值,而不具有相同的平均功率值,因此也可能导致不可靠的预测,所以使用作为一个S型和一个T型定标因子组合的一个定标因子将是有利的。
可以使用各种组合方式,例如S型和T型定标因子不同或相同的功率的线性组合或者乘积组合。
一种优选的组合方式是一个S型定标因子与它对应的T型定标因子的简单乘积,从而定义一个相应的U型定标因子,如下U1=S1·T1,U2=S2·T2,U3=S3·T3,U’1=S’1·T’1,U’2=S’2·T’2,U’3=S’3·T’3,和U4=S4·T4.
将在参考图1至图5描述的每个定标操作中使用每个如此定义的U型定标因子来替代相应的S型定标因子。
第二种新的定标因子是又一个不同的功率相关参数(即,语音信号的瞬时功率)的倒数值的函数。更具体地说,它是从可以称作一个局部定标因子(即,参考信号和输出信号的瞬时功率之比)中获得的。通过在语音信号的整个持续时间上平均这个局部定标因子来获得该第二新定标因子,其中已经在局部电平上引入调整参数α和Δ。如此获得的定标因子(在下文中称作V型定标因子)可以使用在测量设备50的信号组合部50.3中所执行的定标操作中,替代或者与由定标单元51和52执行的定标操作之一和在预处理部50.1中由定标单元42执行的基本上未改变的定标操作进行组合。存在多种可能性来执行一个以V型定标因子为基础的定标操作,这取决于应用其局部还是全局型式。现在,将参考图6和图7描述一些可能的执行方式。
通过下面的数学表达式给出一个V型定标因子的局部型式VLVL=Vα3(Y+Δ3,t)=(P(X(t)+Δ3)P(Y(t)+Δ3))α3---(7.1)]]>其中已经引入了两个调整参数,P(X(t))和P(Y(t))分别是用于参考和劣化信号的瞬时功率的表达式。参数α3和Δ3的含义与前面所述的含义类似,但是通常具有与之不同的数值。在组合部50.3内在差动装置15和模拟装置16之间的定标单元61中将这个局部型式VL应用于随时间变化的差动信号D,有可能与定标单元51执行的定标操作相组合。因此,为了指示平均,求其平均值,这隐含在模拟装置16中。
通过在语音信号的整个持续时间上求该局部型式VL的平均值,获得该V型定标因子的全局型式VG。可以如下以直接的方式求平均值Vα=Vα3(Y+Δ3)=1T∫0TVα3(Y+Δ3,t)dt---(7.2)]]>可以由定标单元62将该V型定标因子的全局型式应用于模拟装置16输出的质量信号Q,产生定标的质量信号Q’,有可能与即在此之后(如图7所示)或者之前的由定标单元52执行的定标操作相组合,产生进一步的定标的质量信号Q”。
或者,可以由定标单元61将该V型定标因子的全局型式替代V型定标因子的局部型式,以便应用于差动装置15输出的差动信号D,有可能与即在此之后(如图7所示)或者之前的由定标单元51执行的定标操作相组合。
V型定标因子的表达式(7.1)和(7.2)也是为连续信号处理提供的。简单地将各个随时间变化的信号函数用它们的每个时间帧的离散值替代以及在这些时间帧上求和操作的积分操作,就可以获得适合于离散信号处理情况的对应表达式。
通过将特定的成对测试信号X(t)和Y(t)用于一个特定的受测试的系统,以与上述类似的方式确定α3和Δ3的多个合适的值,以使客观测试的质量与根据平均意见得分获得的主观感知质量具有很高的相关性。应当为具有相应成对测试信号的每个特定受测试的系统分别地确定V型定标因子的型式、在设备组合部内使用的位置以及与哪一种其它的定标因子相组合。总之,在劣化语音信号具有很长持续时间的极低或零功率部分的情况下,U型定标因子更为有利,而对于具有很短持续时间的类似部分的信号来说,则V型定标因子更为有利。
权利要求
1.用于根据一种客观语音测量技术相对一个参考信号(X(t))确定语音信号处理系统的输出信号(Y(t))的质量的一种方法,该方法包括处理输出信号和参考信号并生成一个质量信号(Q)的主要步骤,其中所述处理主要步骤包括第一定标步骤(S(Y+Δ);S(Y+Δi),i=1,2),用于使用第一定标因子来定标输出信号和参考信号之中的至少一个信号的功率电平,所述第一定标因子是所述至少一个信号的第一功率相关参数的倒数值的一个函数;和使用至少一个调整参数(α,Δ;αi,Δi,i=1,2;α3,Δ3),通过使用第二定标因子(Sα(Y+Δ);Sαi(Y+Δi),i=1,2;Vα3(Y+Δ3,t);Vα3(Y+Δ3))执行的第二定标步骤,所述第二定标因子是所述至少一个信号的第二功率相关参数的倒数值的一个函数。
2.根据权利要求1的方法,其中将第二功率相关参数的倒数值提高到一个指数,该指数的值对应于第一调整参数(α;αi,i=1,2;α3),使用一个对应于第二调整参数(Δ;Δi,i=1,2;Δ3)的值增加所述第二功率相关参数。
3.根据权利要求1或2的方法,其中第一定标因子(S(Y+Δ);S(Y+Δi),i=1,2)是增加一个对应于第三调整参数(Δ;Δi,i=1,2)的值的第一功率相关参数的一个函数。
4.根据权利要求1至3中任何一项权利要求的方法,其中对在第一定标步骤中定标的输出信号和参考信号(Ys(t),Xs(t))执行第二定标步骤。
5.根据权利要求4的方法,其中通过使用第一和第二定标因子的乘积将第一和第二定标步骤组合成单个定标步骤。
6.根据权利要求1-3中任何一项权利要求的方法,其中对两个信号中的至少一个信号执行第二定标步骤,所述两个信号是在所述处理主要步骤的信号组合阶段(50.3)中确定的一个差动信号(D)和利用所述处理主要步骤生成的质量信号(Q)。
7.根据权利要求3至6中任何一项权利要求的方法,其中从第一定标因子(S(Y+Δ;S(Y+Δi),i=1,2)中获得第二定标因子(Sα(Y+Δ);Sα(Y+Δi),i=1,2),第一和第二功率相关参数是相同的,并且第二和第三调整参数是相同的。
8.根据权利要求3至7中任何一项权利要求的方法,其中第一功率相关参数包括增加一个对应于第三调整参数(Δ;Δi,i=1,2)的调整值的输出信号的平均功率。
9.根据权利要求8的方法,其中通过向输出信号(Y(t))增加一个具有对应于第三调整参数(Δ;Δi,i=1,2)的平均功率的噪声信号来实现所述调整值的增加。
10.根据权利要求1至7中任何一项权利要求的方法,其中第一功率相关参数包括一个总持续时间,在该总持续时间期间输出信号的功率高于或者等于一个阈值。
11.根据权利要求10的方法,其中将所述第一功率相关参数中的总持续时间增加一个对应于第三调整参数(Δ;Δi,i=1,2)的值。
12.根据权利要求10的方法,其中在所述主要处理步骤期间,使用时间帧来处理参考信号和输出信号,并且使用参考信号和输出信号的功率至少等于所述阈值的时间帧的总数来表示所述第一功率相关参数中的总持续时间。
13.根据权利要求12的方法,其中将所述时间帧的总数增加一个对应于第三调整参数(Δ;Δi,i=1,2)的值。
14.根据权利要求2至13中任何一项权利要求的方法,其中第一调整参数具有一个在0和1之间的值(α;αi,i=1,2;α3)。
15.根据权利要求3至14中任何一项权利要求的方法,其中在第一定标步骤中,使用第三定标因子(S(X+Δ);S(X+Δi),i=1,2)来定标参考信号(X(t)),以类似于获取第一定标因子的方式,使用第二调整参数(Δ;Δi,i=1,2)从参考信号中获得所述第三定标因子。
16.根据权利要求2至12中任何一项权利要求的方法,其中在第一定标步骤中,定标输出信号(Y(t)),第一定标因子(S(Y+Δ;S(Y+Δi),i=1,2)是第四定标因子和第五定标因子的乘积,所述第四定标因子是增加了对应于第二调整参数(Δ;Δi)的第一调整值的输出信号的平均功率的倒数值的一个函数,而所述第五定标因子是增加了对应于第二调整参数(Δ;Δi)的第二调整值的总持续时间的倒数值的一个函数,在所述总持续时间期间输出信号的功率高于或等于所述阈值。
17.根据权利要求6的方法,其中第二定标因子(Vα3(Y+Δ3,t);Vα3(Y+Δ3))的第二功率相关参数包括增加了一个对应于第二调整参数(Δ3)的调整值的输出信号的功率的瞬时值。
18.根据权利要求17的方法,其中将第二定标因子的局部型式(Vα3(Y+Δ3,t))应用于差动信号(D)。
19.根据权利要求17的方法,其中将第二定标因子的全局型式(Vα3(Y+Δ3))应用于两个信号(D;Q)中的至少一个信号。
20.根据权利要求17至19中任何一项权利要求的方法,其中使用从第一定标因子(S(Y+Δ;S(Y+Δi),i=1,2)中获得的第三定标因子(Sα(Y+Δ);Sαi(Y+Δi),i=1,2)来组合第二定标步骤与第三定标步骤。
21.用于根据一种客观语音测量技术来相对一个参考信号(X(t))确定语音信号处理系统的输出信号(Y(t))的质量的一种设备,该设备包括预处理装置(12),用于预处理输出信号和参考信号;处理装置(13,14),用于根据一个感知模型来处理由预处理装置预处理过的信号并生成代表输出信号和参考信号的表示信号(R(Y),R(X));和信号组合装置(15,16),用于组合所述表示信号,并生成一个质量信号(Q),所述预处理装置包括第一定标装置(21;31,32;41,42),用于使用第一定标因子(S(X,Y);(S(Pf,Y));S(Y+Δ))来定标输出信号和参考信号(Y(t),X(t))中至少一个信号的功率电平,所述第一定标因子是所述至少一个信号的第一功率相关参数的倒数值的一个函数,其中该设备还包括第二定标装置(43,44;51;52;61;62),用于使用至少一个调整参数(α,Δ;αi,Δi,i=1,2;α3,Δ3)通过应用第二定标因子(Sα(Y+Δ);Sαi(Y+Δi),i=1,2;Vα3(Y+Δ3,t);Vα3(Y+Δ3))执行的定标操作,所述第二定标因子是所述至少一个信号的第二功率相关参数的倒数值的一个函数。
22.根据权利要求21的设备,其中第二定标装置被配置用于使用第二定标因子进行定标,所述第二定标因子是提高到第一调整参数(α;αi,i=1,2;α3)的第二功率相关参数的倒数值的一个函数,所述第二功率相关参数被增加一个对应于第二调整参数(Δ;Δi,i=1,2;Δ3)的值。
23.根据权利要求21或22的设备,其中第一定标装置包括一个定标单元(42),用于使用第一定标因子来定标输出信号,所述第一定标因子(S(Y+Δ;S(Y+Δi),i=1,2)是增加一个对应于第三调整参数(Δ;Δi,i=1,2)的值的第一功率相关参数的一个函数。
24.根据权利要求21至23中任何一项权利要求的设备,其中在预处理装置中包括第二定标装置,用于使用第二定标因子来定标在第一定标步骤中定标过的输出和参考信号(Ys(t),Xs(t))。
25.根据权利要求21至23中任何一项权利要求的设备,其中所述信号组合装置包括差动装置(15),用于根据表示信号来确定一个差动信号(D);模拟装置(16),用于处理所述差动信号,并生成质量信号;和第二定标装置,用于使用第二定标因子来定标两个信号之一,所述两个信号是利用所述差动装置(15)确定的差动信号(D)和利用所述模拟装置(16)产生的质量信号(Q)。
26.根据权利要求21至25中任何一项权利要求的设备,其中第二定标装置包括耦合到第一定标装置(42)的至少一个定标单元(43,44;51;52),用于接收第一定标因子,并用于使用根据第一定标因子获得的第二定标因子。
27.根据权利要求25的设备,其中第二定标装置包括一个定标单元(61;62),用于使用第二定标因子来定标所述两个信号之一,第二定标因子(Vα3(Y+Δ3,t);Vα3(Y+Δ3))的第二功率相关参数包括增加了一个对应于第二调整参数(Δ3)的调整值的输出信号的功率的瞬时值。
28.根据权利要求27的设备,其中第二定标装置与第三定标装置相组合,所述第三定标装置包括耦合到第一定标装置(42)的至少一个定标单元(51;52),用于接收第一定标因子,和用于与第二定标因子相组合使用一个第三定标因子(Sαi(Y+Δi),i=1,2)来定标所述两个信号(D;Q)之一,所述第三定标因子是根据第一定标因子(S(Y+Δi),i=1,2)获得的。
全文摘要
对于包括极度微弱或静寂部分的劣化信号来说,用于预测在语音处理/传输系统中劣化的语音信号的感知质量的客观测量方法和设备可能产生很差的预测结果。通过在预处理阶段中应用使用第一定标因子(S(Y+Δ))的第一定标步骤,并利用具有第二定标因子(S
文档编号G10L19/00GK1496558SQ02806416
公开日2004年5月12日 申请日期2002年3月1日 优先权日2001年3月13日
发明者J·G·比伦德斯, J G 比伦德斯, A·P·赫斯特拉, 赫斯特拉 申请人:皇家Kpn公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1