用于评估语音质量的设备和方法与流程

文档序号:17151909发布日期:2019-03-19 23:31阅读:145来源:国知局
用于评估语音质量的设备和方法与流程

本发明大体涉及音频处理领域。更具体地,本发明涉及用于基于神经网络和/或机器学习评估音频信号样本的语音质量的设备和方法。



背景技术:

提供电话服务等涉及语音服务的网络运营商,希望确保这类服务的感知质量满足某些语音质量要求。评估语音质量最可靠的方法是所谓的主观评估,其中要求一组受试者收听发送的语音信号并对其质量进行评分,如图1a所示。

使用最广泛的听音测试之一是在国际电信联盟(internationaltelecommunicationunion,简称itu-t)建议书p.800中描述的绝对类别评级(absolutecategoryrating,简称acr)方法。在这项测试中,要求多个受试者使用五分制评价(5分:优,4分:好,3分:中,2分:差,1分:劣)一些被测试系统处理的语音短句的质量。平均评分通常被称为“平均意见值(meanopinionscore,简称mos)”。根据测试结果,网络运营商可以评估其服务的用户体验,并在必要时提高其质量。

然而,由于主观语音质量测试一般非常费时费力,因此引入了客观语音质量测试,该测试允许以自动方式评估语音质量,旨在提供估计的mos值,该mos值与从主观听音实验获得的mos高度相关。基本上,在客观语音质量测试中,主观语音质量测试中所需的收听小组被计算算法代替。作为客观语音质量测试的一部分实现的这种计算算法,通常需要基于语音训练样本数据库进行某种预训练,例如,机器学习。

通常,已知的客观语音质量测试基于模型,所述模型可以根据以下主要类别进行分类:(i)侵入式模型或非侵入式模型;和(ii)参数模型或波形模型。

在侵入式模型中,经处理的通常降级的语音信号和原始参考语音信号都可用于所述客观语音质量测试。然而,通常,例如在实时场景中,只有所述经处理的语音信号可用于所述客观语音质量测试,这称为非侵入式模型。图1b和图1c分别示出了侵入式模型和非侵入式模型的示意图。

参数模型的目标是基于特征集的某种分析形式(例如,多项式函数)并使用编解码模式、编码率、丢包率等作为输入来估计语音质量。所述参数模型通常具有低计算复杂度并且广泛用于网络规划。然而,参数模型估计的质量与所述“感知”质量(例如,用户感知的质量)之间通常存在很大差距。

与所述参数模型相比,所述波形模型尝试估计基于所述质量的信号处理。更具体地,所述波形模型可以基于一些心理声学原理提取特征向量。因此,所述波形模型的输出在“感知”质量方面大多优于参数模型提供的的输出,但是波形模型的复杂度通常远高于参数模型的复杂度。

该领域定义了以下主要行业标准:itu-tp.863,其基于非侵入式波形模型;itu-tp.563,其基于非侵入式波形模型;电子模型,其基于参数模型。

鉴于上述情况,需要进一步改进用于基于神经网络和/或机器学习评估音频信号样本的语音质量的装置和方法。



技术实现要素:

本发明的目的在于提供用于基于神经网络和/或机器学习评估音频信号样本的语音质量的改进设备和方法。

该目的通过独立权利要求的特征来实现的。结合从属权利要求、说明书和附图,具体实现方式显而易见。

如上所述,客观语音质量测试通常需要对其中实现的质量评估算法进行某种预训练,通常基于语音训练样本的数据库。本发明基于以下发现:所述训练过程的效率以及所述训练系统提供的结果在很大程度上取决于所述训练样本的特定属性。更具体地,本发明基于以下发现:输入和输出之间的平滑关系通常比非平滑关系更易于训练算法学习,特别是依赖于某种形式的梯度下降来调整所述输入输出映射参数的训练算法。本发明进一步基于以下发现:对于学习罕见产生的极端特征值的正确映射很难,,例如,所述机器学习算法可能导致人口稀疏区域中发生异常映射,因为所述人口稀疏区域中可用的训练数据很少。

因此,根据第一方面,本发明涉及一种用于确定音频信号样本的质量分数(mos)的装置,所述装置包括:提取器、预处理器和处理器。所述提取器用于从所述音频信号样本中提取特征向量,其中所述特征向量包括多个(m)特征值,每个特征值(m)与所述特征向量的不同特征相关联。所述预处理器用于基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)来预处理所述特征向量的特征值(m),以获得预处理的特征价值(m)。所述处理器用于实现神经网络并基于所述预处理的特征值和与所述累积分布函数(cumulativedistributionfunction,简称cdf)相关联的神经网络的神经网络参数(neuralnetworkparameter,简称pnn)集来确定所述音频信号样本的质量分数(mos)。

因此,提供了一种用于确定音频信号样本的质量分数(mos)的改进装置。

所述音频信号样本可以是帧或多个帧的组合,例如,从语音文件导出的帧或多个帧的组合。

在根据第一方面本身的装置的第一种可能实现方式中,所述预处理器用于通过将所述特征的特征值映射到与所述特征关联的累积分布函数(cumulativedistributionfunction,简称cdf)的函数值(例如,cdf值)来预处理所述特征值。

例如,可以基于训练的一组特征值或特征向量获得与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)。

在根据第一方面本身或其第一种实现方式的装置的第二种可能实现方式中,所述累积分布函数(cumulativedistributionfunction,简称cdf)是均匀分布函数。

在根据第一方面本身或其第一或第二种实现方式的装置的第三种可能实现方式中,所述累积分布函数(cumulativedistributionfunction,简称cdf)是所述区间[0,1]上的均匀分布函数。换句话说,在第三种可能实现方式中,所述累积分布函数(cumulativedistributionfunction,简称cdf)是均匀分布函数,其包括仅在0到1范围内的非零函数值。

在根据第一方面本身或其第一至第三种实现方式中的任何一种实现方式的装置的第四种可能实现方式中,所述装置用于在训练阶段期间确定与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf),或者用于在诸如训练阶段期间确定基于训练的一组(相应的)特征值或特征向量获得的或可获得的与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)。

在根据第一方面本身或其第一至第四种实现方式中的任何一种实现方式的装置的第五种可能实现方式中,所述处理器用于将所述神经网络实现为用于无监督学习的自动编码器神经网络或用于监督学习的多层感知(multi-layerperception,简称mlp)神经网络等。进一步的实现方式可以用于实现其它监督或非监督神经网络。

根据第二方面,本发明涉及用于确定音频信号样本的质量分数(mos)的相应方法,其中所述方法包括以下步骤:从所述音频信号样本中提取特征向量,其中所述特征向量包括多个(m)特征值,每个特征值(m)与所述特征向量的不同特征相关联;基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)来预处理所述特征向量的特征值(m),以获得预处理的特征值(m);实现神经网络;基于所述预处理的特征值和与所述累积分布函数(cumulativedistributionfunction,简称cdf)相关联的神经网络的神经网络参数(neuralnetworkparameter,简称pnn)集来确定所述音频信号样本的质量分数(mos)。

在根据第二方面本身的方法的第一种可能实现方式中,其中预处理所述特征值的步骤包括以下步骤:将所述特征的特征值映射到与所述特征关联的累积分布函数(cumulativedistributionfunction,简称cdf)的函数值(例如,cdf值)。

在根据第二方面本身或其第一种实现方式的方法的第二种可能实现方式中,所述累积分布函数(cumulativedistributionfunction,简称cdf)是均匀分布函数。

在根据第二方面本身或其第一或第二种实现方式的方法的第三种可能实现方式中,所述累积分布函数(cumulativedistributionfunction,简称cdf)是所述区间[0,1]上的均匀分布函数。

在根据第二方面本身或其第一至第三种实现方式中的任何一种实现方式的方法的第四种可能实现方式中,所述方法还包括以下步骤:在训练阶段期间确定与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf),或者用于在诸如训练阶段期间确定基于训练的一组相应的特征值或特征向量获得的或可获得的与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)。

在根据本发明第二方面本身或其第一至第四种实现方式中的任何一种实现方式的方法的第五种可能实现方式中,实现所述神经网络的步骤包括诸如以下步骤:将所述神经网络实现为用于监督学习的多层感知(multi-layerperception,简称mlp)神经网络或用于无监督学习的自动编码器神经网络。进一步的实现方式可以用于实现其它监督或非监督神经网络。

根据第三方面,本发明涉及一种用于确定神经网络参数(neuralnetworkparameter,简称pnn)集来确定音频信号样本的质量分数(mos)的装置,其中所述装置包括:提取器、预处理器和处理器。所述提取器用于从所述音频信号样本中提取特征向量(n),其中所述特征向量包括多个(m)特征值,每个特征值(m)与所述特征向量(n)的不同特征相关联。所述预处理器用于基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)来预处理所述特征向量(n)的特征值(m),以获得预处理的特征价值(m)。所述处理器用于实现神经网络并基于所述预处理的特征值确定所述神经网络的神经网络参数(neuralnetworkparameter,简称pnn)集来确定所述音频信号样本的质量分数(mos)。

在根据第三方面本身的装置的第一种可能实现方式中,所述预处理器用于通过将所述特征的特征值映射到与所述特征关联的累积分布函数(cumulativedistributionfunction,简称cdf)的函数值(例如,cdf值)来预处理所述特征值。

在根据第三方面本身或其第一种实现方式的装置的第二种可能实现方式中,所述累积分布函数(cumulativedistributionfunction,简称cdf)是均匀分布函数。

在根据第三方面本身或其第一或第二种实现方式的装置的第三种可能实现方式中,所述累积分布函数(cumulativedistributionfunction,简称cdf)是所述区间[0,1]上的均匀分布函数。

在根据第三方面本身或其第一至第三种实现方式中的任何一种实现方式的装置的第四种可能实现方式中,所述预处理器还用于:基于在多个特征向量上与相同特征相关联的特征值来确定与所述多个(m)特征的特征相关联的特征值的直方图;基于为所述相应特征确定的特征值的直方图来确定与所述相应特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)。

在根据第三方面的第四种实现方式的装置的第五种可能实现方式中,所述预处理器还用于通过将所述特征值的直方图的直方图条上的每个直方图条的出现次数求和来确定与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)。

在根据第三方面本身或其第一至第四种实现方式中的任何一种实现方式的装置的第六种可能实现方式中,所述预处理器还用于:基于在多个特征向量上与相同特征相关联的特征值来确定用于与所述多个(m)特征的特征相关联的特征值的高斯分布,例如,用μ和σ表示或定义;基于用于为所述相应特征确定的特征值的高斯分布(μ,σ)来确定与所述相应特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)。

换句话说,在根据第三方面的装置的第六种可能实现方式中,所述预处理器还用于基于为与多个特征向量中的相同特征相关联的特征值确定的高斯分布(μ,σ)来确定与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)。

在根据第三方面的第六种实现方式的装置的第七种可能实现方式中,所述预处理器还用于通过将混合高斯分布(μ,σ)用于与所述多个(m)特征的特征相关联的特征值来确定与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)。

在根据第三方面的第六或第七种实现方式的装置的第八种可能实现方式中,所述预处理器还用于通过使用期望最小化算法来确定用于与所述多个(m)特征的特征相关联的特征值的所述高斯分布(μ,σ)和所述混合高斯分布的参数。

根据第四方面,本发明涉及一种用于确定神经网络参数(neuralnetworkparameter,简称pnn)集来确定音频信号样本的质量分数(mos)的相应方法,其中所述方法包括以下步骤:从音频信号样本中提取特征向量(n),其中所述特征向量包括多个(m)特征值,每个特征值(m)与所述特征向量(n)的不同特征相关联;基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)预处理所述特征向量(n)的特征值(m),以获得预处理的特征值(m);实现神经网络;基于所述预处理的特征值确定所述神经网络的神经网络参数(neuralnetworkparameter,简称pnn)集来确定所述音频信号样本的质量分数(mos)。

在根据第四方面本身的方法的第一种可能实现方式中,预处理所述特征值的步骤包括以下步骤:将所述特征的特征值映射到与所述特征关联的累积分布函数(cumulativedistributionfunction,简称cdf)的函数值(例如,cdf值)。

在根据第四方面本身或其第一种实现方式的方法的第二种可能实现方式中,所述累积分布函数(cumulativedistributionfunction,简称cdf)是均匀分布函数。

在根据第四方面本身或其第一或第二种实现方式的方法的第三种可能实现方式中,所述累积分布函数(cumulativedistributionfunction,简称cdf)是所述区间[0,1]上的均匀分布函数。

在根据第四方面本身或其第一至第三种实现方式中的任何一种实现方式的方法的第四种可能实现方式中,所述方法还包括以下步骤:基于在多个特征向量上与相同特征相关联的特征值来确定与所述多个(m)特征的特征相关联的特征值的直方图;基于为所述相应特征确定的特征值的直方图来确定与所述相应特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)。

在根据第四方面的第四种实现方式的方法的第五种可能实现方式中,确定与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)的步骤包括以下步骤:将所述特征值的直方图的直方图条上的每个直方图条的出现次数求和。

在根据第四方面本身或其第一至第四种实现方式中的任何一种实现方式的方法的第六种可能实现方式中,所述方法还包括以下步骤:基于在多个特征向量上与相同特征相关联的特征值来确定用于与所述多个(m)特征的特征相关联的特征值的高斯分布(μ,σ);基于为所述相应特征确定的特征值的高斯分布(μ,σ)来确定与所述相应特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)。

在根据第四方面的第六种实现方式的方法的第七种可能实现方式中,确定与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)的步骤包括将混合高斯分布(μ,σ)用于与所述多个(m)特征的特征相关联的特征值。

在根据第四方面的第六或第七种实现方式的方法的第八种可能实现方式中,所述方法还包括以下步骤:通过使用期望最小化算法来确定用于与所述多个(m)特征的特征相关联的特征值的所述高斯分布(μ,σ)和所述混合高斯分布的参数。

根据第五方面,本发明涉及一种用于确定神经网络参数(neuralnetworkparameter,简称pnn)集来确定音频信号样本的质量分数(mos)的装置,其中所述装置包括:提取器、预处理器和处理器。所述提取器用于从所述音频信号样本中提取特征向量(n),其中所述特征向量包括多个(m)特征值,每个特征值(m)与所述特征向量(n)的不同特征相关联。所述预处理器用于基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)来预处理所述特征向量(n)的特征值(m),以获得预处理的特征价值(m);所述预处理器用于将所述特征的特征值(m)映射到与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)的函数值(例如,cdf值),以获得中间特征值,并将所述中间特征值映射到与所述特征相关联的逆分布函数的函数值,以获得所述预处理的特征值(m),其中所述逆分布函数是与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)的逆分布函数,所述逆分布函数不同于与所述特征相关联的原始分布函数;或者,所述预处理器用于将所述特征向量的特征值(m)映射到组合分布函数的函数值以获得所述预处理的特征值,其中所述分布函数的函数值对应于可通过以下方式获得的函数值:首先将所述特征值映射到与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf),其次将得到的中间特征值映射到与所述特征相关联的逆分布函数的函数值。所述处理器用于实现神经网络并基于所述预处理的特征值确定所述神经网络的神经网络参数(neuralnetworkparameter,简称pnn)集来确定所述音频信号样本的质量分数(mos)。

根据第六方面,本发明涉及一种用于确定神经网络参数(neuralnetworkparameter,简称pnn)集来确定音频信号样本的质量分数(mos)的相应方法,其中所述方法包括:从所述音频信号样本中提取特征向量(n),其中所述特征向量包括多个(m)特征值,每个特征值(m)与所述特征向量(n)的不同特征相关联;基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)来预处理所述特征向量(n)的特征值(m),以获得预处理的特征价值(m);其中所述预处理步骤包括以下步骤:将所述特征的特征值(m)映射到与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)的函数值(例如,cdf值),以获得中间特征值,并将所述中间特征值映射到与所述特征相关联的逆分布函数的函数值,以获得所述预处理的特征值(m),其中所述逆分布函数是与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)的逆分布函数,所述逆分布函数不同于与所述特征相关联的原始分布函数,或者,其中所述预处理步骤包括以下步骤:将所述特征向量的特征值(m)映射到组合分布函数的函数值以获得所述预处理的特征值,其中所述分布函数的函数值对应于可通过以下方式获得的函数值:首先将所述特征值映射到与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf),其次将得到的中间特征值映射到与所述特征相关联的逆分布函数的函数值;实现神经网络;基于所述预处理的特征值确定所述神经网络的神经网络参数(neuralnetworkparameter,简称pnn)集来确定所述音频信号样本的质量分数(mos)。

根据第七方面,本发明涉及一种用于确定音频信号样本的质量分数(mos)的装置,其中所述装置包括:提取器、预处理器和处理器。所述提取器用于从所述音频信号样本中提取特征向量,其中所述特征向量包括多个(m)特征值,每个特征值(m)与所述特征向量的(不同)特征相关联。所述预处理器用于基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)来预处理所述特征向量(n)的特征值(m),以获得预处理的特征价值(m);所述预处理器用于将所述特征的特征值(m)映射到与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)的函数值(例如,cdf值),以获得中间特征值,并将所述中间特征值映射到与所述特征相关联的逆分布函数的函数值,以获得所述预处理的特征值(m),其中所述逆分布函数是与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)的逆分布函数,所述逆分布函数不同于与所述特征相关联的原始分布函数;或者,所述预处理器用于将所述特征向量的特征值(m)映射到组合分布函数的函数值以获得所述预处理的特征值,其中所述分布函数的函数值对应于可通过以下方式获得的函数值:首先将所述特征值映射到与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf),其次将得到的中间特征值映射到与所述特征相关联的逆分布函数的函数值。所述处理器用于实现神经网络并基于所述预处理的特征值和与所述累积分布函数(cumulativedistributionfunction,简称cdf)相关联的神经网络的神经网络参数(neuralnetworkparameter,简称pnn)集来确定所述音频信号样本的质量分数(mos)。

根据第八方面,本发明涉及一种用于确定音频信号样本的质量分数(mos)的相应方法,其中所述方法包括以下步骤:从所述音频信号样本中提取特征向量,其中所述特征向量包括多个(m)特征值,每个特征值(m)与所述特征向量的(典型不同)特征相关联;基于与所述特征值(m)表示的特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)来预处理所述特征向量(n)的特征值(m),以获得预处理的特征价值(m);其中所述预处理步骤包括以下步骤:将所述特征的特征值(m)映射到与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)的函数值(例如,cdf值),以获得中间特征值,并将所述中间特征值映射到与所述特征相关联的逆分布函数的函数值,以获得所述预处理的特征值(m),其中所述逆分布函数是与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)的逆分布函数,所述逆分布函数不同于与所述特征相关联的原始分布函数,或者,其中所述预处理步骤包括以下步骤:将所述特征向量的特征值(m)映射到组合分布函数的函数值以获得所述预处理的特征值,其中所述分布函数的函数值对应于可通过以下方式获得的函数值:首先将所述特征值映射到与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf),其次将得到的中间特征值映射到与所述特征相关联的逆分布函数的函数值;实现神经网络;基于所述预处理的特征值和与所述累积分布函数(cumulativedistributionfunction,简称cdf)相关联的神经网络的神经网络参数(neuralnetworkparameter,简称pnn)集来确定所述音频信号样本的质量分数(mos)。

根据第九方面,本发明涉及一种计算机程序,其包括程序代码,所述程序代码在计算机上执行时用于执行根据本发明的第二方面的方法、根据本发明的第四方面的方法、根据本发明的第六方面的方法和/或根据本发明的第八方面的方法,或者这些方法的任何实现方式。

本发明可以硬件和/或软件的方式来实现。

附图说明

本发明的具体实施例将结合以下附图进行描述,其中:

图1a-c示出了主观语音质量测试系统、侵入式客观语音质量测试系统和非侵入式客观语音质量测试系统的示例的示意图;

图2示出了根据一实施例的用于确定音频信号样本的质量分数(mos)的装置的示意图;

图3示出了根据一实施例的用于确定神经网络参数(neuralnetworkparameter,简称pnn)集来确定音频信号样本的质量分数(mos)的装置的示意图;

图4示出了在本发明实施例中实现的一级映射的示意图;

图5a和图5b示出了根据本发明实施例在设备和方法中实现的示例性映射的示意图;

图6示出了在本发明实施例中实现的二级映射的示意图;

图7示出了可以根据本发明实施例在设备和方法中实现的神经网络的示意图;

图8示出了可以根据本发明实施例在设备和方法中实现的神经网络的示意图;

图9示出了根据一实施例在用于确定神经网络参数(neuralnetworkparameter,简称pnn)集来确定音频信号样本的质量分数(mos)的装置中实现的主要处理步骤的示意图;

图10示出了根据一实施例在用于确定音频信号样本的质量分数(mos)的装置中实现的主要处理步骤的示意图;

图11示出了根据本发明实施例在设备和方法中实现的预处理阶段的示意图;

图12示出了根据一实施例的用于确定音频信号样本的质量分数(mos)的方法的示意图;

图13示出了根据实施例的用于确定神经网络参数(neuralnetworkparameter,简称pnn)集来确定音频信号样本的质量分数(mos)的方法。

在各附图中,相同的或至少功能等同的特征使用相同的标号。

具体实施方式

以下结合附图进行描述,所述附图是本发明的一部分,并通过图解说明的方式示出可以实施本发明的具体方面。可以理解的是,在不脱离本发明范围的情况下,可以利用其它方面,并做出结构或逻辑上的改变。因此,以下详细的描述并不视为具有限制意义,因为本发明的范围由所附权利要求书界定。

例如,可以理解的是与所描述方法有关的披露对于用于执行所述方法的对应设备或系统也同样适用,反之亦然。例如,如果描述了特定方法步骤,则对应设备可以包括用于执行所描述的方法步骤的单元,即使此类单元没有在图中明确描述或图示。此外,应理解,本文所描述的各种示例性方面的特性可以相互组合,除非另外明确说明。

如下文的进一步详细描述,本发明的实施例对所述特征进行“预失真”或预处理,以便基于神经网络训语音质量估计算法,例如,机器学习。本发明基于以下发现:平滑且轻尾的特征分布(具有很少异常值的分布是轻尾)(i)更可能从所述输入到所述输出提供平滑映射(所述预失真特征);和/或(ii)更可能防止看不见的特征异常值导致异常映射。

图2示出了根据一实施例的用于确定包含语音的音频信号样本的质量分数(下文中也示例性地称为mos)的装置200的示意图。

装置200包括提取器201,用于从所述音频信号样本提取特征向量,其中所述特征向量包括多个m个特征值,每个特征值(索引m,m=1..m)例如与所述特征向量的不同特征相关联。此外,装置200包括预处理器203,用于基于与所述特征值表示的特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf)来预处理所述特征向量的特征值(索引m),以获得预先处理的特征值(索引m)。与具有索引m的特征相关联的cdf也称为cdf。

此外,装置200包括处理器205,用于实现神经网络并基于所述预处理的特征值(索引m)和与所述累积分布函数(cumulativedistributionfunction,简称cdf)相关联的神经网络的神经网络参数(neuralnetworkparameter,下文也简称为pnn或pnn)集来确定所述音频信号样本的质量分数(mos)。

下面将更详细地描述图2中所示的装置200的进一步实施例。

图3示出了根据一实施例的用于确定神经网络参数(neuralnetworkparameter,简称pnn)集来确定包含语音的音频信号样本的质量分数(mos)的装置300的示意图。

装置300包括提取器301,用于从所述音频信号样本提取特征向量,其中所述特征向量包括多个特征值(索引m,m=1..m),每个特征值例如与所述特征向量的不同特征相关联。

此外,装置300包括预处理器303,用于基于与所述特征值表示的特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf,相应地又称为cdf)来预处理所述特征向量的特征值(索引m),以获得预处理的特征值(索引m)。

此外,装置300包括处理器305,用于实现神经网络并基于所述预处理的特征值(索引m)确定所述神经网络的神经网络参数(neuralnetworkparameter,简称pnn)集来确定另一音频信号样本的质量分数(mos)。

下面将描述装置200、300的进一步实施例。

如上所述,本发明基于以下发现:平滑且轻尾的特征分布(具有很少异常值的分布是轻尾)(i)更可能从所述输入到所述输出提供平滑映射,和/或(ii)更可能防止看不见的特征异常值导致异常映射。

首先,非平滑特征分布的示例是在两个不相交区间上具有非零概率的特征。例如,特征在第一区间[0,1]和第二区间[11,12]上可以是非零,并且语音质量可以不受第一区间和第二区间之间的间隙的影响。例如,如果基础特征y与语音质量具有平滑关系,而观察到的特征x是所述基础特征y的不连续函数,则可能会发生这种行为。在一说明性示例中,考虑了所述观察到的特征y=x+asign(x-b)与具有期望特征的基础特征y之间的关系x,其中a和b是常数。在传统客观语音质量测试中实现的机器学习算法学习这种类型的复杂关系很困难。

其次,具有相对较多异常值且其具有大值的分布的示例是超高斯分布,例如拉普拉斯分布。离散傅立叶语音系数有时被建模为拉普拉斯分布。

具有非平滑分布和异常值的特征可能出现在许多机器学习应用领域中,包括语音质量估计。在机器学习的许多应用中,使用大量输入特征是有益的,因为它们可能包含新信息和/或因为它们的测量噪声可能是独立的。大量功能的使用自然会导致包含行为不佳的功能。

如上所述,本发明基于以下想法:预失真(通过预处理)至少从音频信号样本中提取的特征的子集,以获得所述子集中每个特征的预失真特征,使所述预失真特征具有平滑且轻尾的分布。执行所述预失真操作的特定目标是使从所述特征到语音质量的映射学习更容易。

在下文中,基于图4至图6描述了预处理器或预处理步骤203和/或303的各种实施例。

图4示出了使用一个累积分布函数进行预处理的预处理的示意图,也称为1级映射(为方便阅读,省略了索引m)。该想法是使用图4所示的y方框提供的cdf值进行学习(ml-机器学习)和评估(使用ml获得的神经网络参数来确定所述质量分数)。有利的是,使用所述cdf的映射优选导致均匀分布,可以减少所述学习时间并改进所述质量评估。

要创建从观察到的特征{xm},wherem=1,2,...,m到预失真的特征的映射,其中m是观察到的特征向量维数,m是所述观察到的特征向量中观察到的特征的索引,在概念层面上首先映射到具有均匀概率分布的预失真特征会很方便。设fx(xm)是表示观察到的特征(例如,所述提取的特征)的随机变量xm的分布或概率分布函数(probabilitydistributionfunction,简称pdf)。xm的累积分布是xm假设值小于xm:的概率:

现在考虑新的随机变量ym=fx(xm),这是所述随机变量xm的确定性函数。因此,对于所述随机变量x的实现xm(注意xm是数字),ym的相应实现是根据定义,ym在所述区间[0,1]上具有均匀分布。

由于随机变量ym在所述区间[0,1],上具有均匀分布,因此它没有异常值,并且是轻尾分布的一个极端例子(可以认为它具有“零尾”)。因此,它没有难以学习输入和输出之间的关系的区域。然而,这并不意味着输入和输出之间的关系的任何信息都会丢失,因为xm和ym间的映射是一对一(单射)映射。相反,当有足够的数据时,仍然可以学习描述这种映射极值的细节(还应注意,当有更多数据可用时,的估计更准确,这将在下面进一步详细描述)。因此,将所述预处理的特征(向量)ym取代所述原始特征xm作为处理器205、305的输入没有明显的缺点,相反,对所述学习速率是有利的。

图5a示出了提取的特征xm(图5a左侧)的示例性分布用于通过正则化或归一化获得的提取特征(图5a中间)的示例性估计分布以及用于所述提取特征(图5a右侧)的示例性估计分布的累积分布函数cdf。

图5b示出了从特征xm的特征值xm到累积分布函数的相应累积分布函数值(cumulateddistributionfunctionvalue,简称cdf值)的示例性映射,其中所述累积分布函数是从所述提取特征的估计分布导出的或与之相关联。

所述提取特征xm也可称为原始特征或观察到的特征,其中所述xa代表xm的最小观测值,xb代表xm的最大观测值,μm代表所述特征xm的平均值,σm代表所述特征xm的变化值,例如在训练集或所述特征xm的特征值的训练集的子集上获得的或对其具有代表性的。如图5a左侧示例性地所示,提取特征的(原始)分布通常是不规则分布,换句话说,所述提取特征的分布函数xm通常是不规则的。在估计不规则分布函数和计算cdf之后,可以考虑具有实现的新随机变量ym。对于该选择,ym小于ym的概率正好是ym。因此,ym的累积概率分布是由此得出这意味着随机变量ym的分布是均匀的。因此,如果我们将每个观察到的xm映射到上,则xm被映射到具有均匀分布的新变量ym上。

所述正则化是可选的。换句话说,其它实施例可以直接确定所述初始或原始分布的累积分布函数(cumulativedistributionfunction,简称cdf)

例如,可以通过单个高斯分布的模型(参见图5a的中间)、多个高斯混合模型或直方图模型来描述所述分布。对于所述高斯混合模型,可以参考期望最大化算法来估计所述分布的参数,然后确定相应的cdf

现在参考图6,在一些情况下,可能希望让分布具有(非零)轻尾,因为该分布可以匹配在处理器205、305中实现的质量估计系统的特性。在这些情况下,可以将所述特征映射到具有所述期望轻尾分布z的新随机变量fz(z)。设fz(z)是z的累积分布函数。为了说明的目的,假设fw在一连续区域a上单调增加,则可以在上定义逆映射[0,1],例如要获得具有所述期望分布z的预失真特征fz,在一实施例中,可以对每个观察到的特征实现采用所述映射x。所述过程可以概括为包括非递减fz的情况,其对应于z的多模式分布。

上面描述的且在本发明的实施例中实现的两阶段映射在图6中示出。首先,如图4、图5a和图5b所示,例如确定累积分布函数fx(x)来获得所述随机变量的[0,1]范围内的均匀分布函数,其中所述随机变量y的实现y的特征在于所述分布y=fx(x)(为了方便阅读,省略了索引m)。根据图6,现在如上所述执行附加或第二映射,即所述逆映射以获得第二分布。第二分布可以例如由用户预先确定。最后,根据第二分布函数映射所述特征值xm以获得所述预处理的特征值,最后所述特征值用于所述机器学习(如图6所示),例如,用于学习所述神经网络参数本身,或者所述特征值用于评估,例如用于基于机器学习获得的神经网络参数确定所述质量分数(mos)。

在替代实施例中,所述两个映射阶段或步骤(y和z)合并为一个阶段或步骤(“yz”),其中所述分布函数的函数值对应于可通过以下方式获得的函数值:首先将所述特征值映射到与所述特征相关联的累积分布函数(cumulativedistributionfunction,简称cdf),其次将得到的中间特征值映射到与所述特征相关联的逆分布函数的函数值。

如上所述,本发明的实施例确定所述观察到的特征的累积分布函数fx。在一实施例中,用户可以根据所述期望分布的特定要求预先定义所述期望特征的累积分布函数fz。换句话说,在一实施例中,用户可以预先定义目标累积分布函数fz。

现有方法可用于估算fx,例如基于首先估算fx然后使用积分(用于连续估计)或求和(用于离散估计)计算fx的累计分布函数fx。

根据一实施例,可以通过直方图估算xm的累积分布函数。为此目的,xm的域可分为i相继区间或条形,适当选择的长度的[xi,xi+1),i∈{1,…,i}和每个区间内的出现次数存储在基数,d={x(1),x(2),…,x(n)}的数据库中,其中n表示所述培训数据库或培训集的大小(培训样本数量)。在一实施例中,使用归一化并且可以获得以下估算:

其中ci表示所述第i个条中的出现/观察次数。

然后,对感兴趣区域中的累积分布函数进行估算

其中j小于或等于i。

根据另一实施例,基于高斯混合物分布估算xm的累积分布。已确定的方法例如期望最大化(expectationmaximization,简称em),可用于估计参数μm,q和q=1,…,q的q阶高斯混合分布的xm来自给定的一组数据d={x(1),x(2),…,x(n)}。请注意,的较大基数nd有助于获得更大的阶q。这导致以下形式的概率分布:

可以将任何概率分布近似为期望精度,以得出足够高的q(但如上所述,对d)的有限基数,不应将q设置得太大。对于所述高斯混合模型,xm的累积分布为:

其中erf是误差函数,erfc是余误差函数。

关于所述映射如果zm=ym(所述区间[0,1]的均匀分布)或(所述区间上的均匀分布),则可以通过使用传统方法来实现所述映射值得注意的是,高斯是轻尾的,可以很好地作为机器学习系统的输入。

如果期望zm是高斯随机变量,则是高斯累积函数的逆映射。在这种情况下,可以在本发明的实施例中实现以下过程。假设所述期望的预处理特征y具有单位方差,则可写为:

从以下公式(用于此示例):

erf、erfc和逆函数在本领域中是公知的,并且可在多个平台上很容易地获得。

在一实施例中,由装置200的处理器205实现的神经网络是自动编码器神经网络,特别是用于无监督学习的自动编码器神经网络,其通过将所述输出值设置为等于所述输入值来训练并应用反向传播来学习权重。图7示出了自动编码器的示意图,所述自动编码器用于学习所述函数,使输出类似于ε,并根据一实施例可以将所述函数实现为装置200、300中的神经网络。

在神经网络中,所述输入值被传递到节点,乘以与所述连接相关联的权重并求和,例如:

δ=wtε。

然后,激活函数确定所述节点的输出值。s形(逻辑)函数是最常用的激活函数的非线性函数形式之一,例如:

应注意的是,作为整个自动编码器网络中的中间层,δ的维数iδ总是小于ε或的维数iε。在实践中,可以参考δ,并采用以下多输入单输出中性网络(例如,如下所述的多层感知)来输出单一价值(mos分数)。如本领域技术人员已知的,本文中的维数减小有助于减少原始特征向量的冗余,以提高整个机器学习系统的性能。

其它类型的神经网络也可以在装置200、300中实现。在一实施例中,在装置200、300中实现的神经网络例如基于多层感知(multi-layerperception,简称mlp),例如有监督的学习方法。图8示出了示例性单层mlp以及由所述mlp估计的输出的示意图,所述单层mlp可以在实施例中在装置200、300中实现。

在图中所示的示例中,可以考虑所述mlp包括所有网络连接。假设所述特征向量ym的特征维数为m,则所述mlp的输入层的大小为m。在图8所示的示例中,单一隐藏层的大小被选择为k。因此,所述网络是m输入1输出系统,其中,在一实施例中,输出y可以是由装置200提供的mos分数(或相关变量,例如值0和1.0之间的失真等)。

上述映射可以用以下数学公式表达:

其中wmk表示从所述输入层到所述隐藏层的映射函数的权重,wk表示从所述隐藏层到所述输出y的映射函数的权重。在一实施例中,所述映射函数可以为两个sigmoid函数,如:

以及

其中α表示值0和1之间的斜率因子。

在一实施例中,可以考虑装置200、300以帧方式处理每个语音文件,即音频信号样本。换句话说,每个语音文件可以分成几个帧。在这种情况下,ym(n)可以推广到ym,其中n(在此上下文中)表示帧索引。因此,在例如基于mlp神经网络的实施例中,可以针对每个帧获得单个mos分数(或失真),并且可以将每帧mos分数(或失真)的平均值定义为所述语音文件的mos得分。

第二候选方案仍然基于帧式特征xm(n),但是,在一实施例中,新变量可以定义为所述语音文件的总特征,其中所述总特征包含所述帧式特征的统计信息。在一实施例中,所述帧式特征的统计信息的特定实现可以包含帧式特征的均值、方差、3阶矩和4阶矩。

从以上描述可以看出,本发明的实施例可以使用任何机器学习方法来实现,也可以是基于帧或基于文件来实现。

如上所述,本发明的实施例可以方便地在用于语音质量评估的整个机器学习链中实现,因为这样通常必须处理具有不规则分布的特征(例如双峰分布)。本发明的实施例可以处理这种具有不规则分布的特征而不降低质量评估的最终性能。如上所述,装置200、300的预处理器203、303用于将从音频信号样本提取的原始特征向量映射到其累积分布(例如,在0和1.0之间)以形成所述特征的更好的表达式作为输入,输入到处理器205、305实现的神经网络来确定所述pnn或所述mos分数。

在一实施例中,例如如图11所示,在装置200、300的预处理器203、303中实现估计特征分布的过程。

在第一步中,高斯混合例如高斯分布函数的线性组合,适用于一维随机变量的分布。在第二步中,确定每个维数的累积分布函数,这是加权位移erf函数的总和。

在第三步中,可以对所述特征向量的一些或所有维数实施上述操作,以获得所述特征向量的每个维数的累积分布函数,所述累积分布函数将均匀地分布在[0,1]的范围内。对于较高维空间中的输入(假设,m=1,2,......,m),对每个特征重复该过程。m是所述特征向量的特征的索引,也称为特征向量维数,n是数据大小。所述整个预处理的输出是数据库y。

图9示意性地示出了用于训练神经网络进行非侵入式质量评估的装置300,例如,用于确定神经网络参数(neuralnetworkparameter,简称pnn)集来确定音频信号样本的质量分数(mos)。如图9所示,所述训练过程从提供训练数据库开始,该训练数据库由n个语音样本组成。提取器301用于对每个语音样本采用特征提取以获得所述提取的特征向量此后,对所述特征向量采用预处理阶段303,以将所述特征向量映射到修改的或预处理的特征向量在处理器305处,将所述修改的特征向量用于机器学习来获得神经网络参数集pnn。应该注意的是,在所述训练阶段中,每对训练样本可包括所述ym,n和相关的mos分数(用于监督学习)。在一实施例中,所述机器学习训练主要针对获得最佳pnn,例如导致最小失真的pnn。

在下文中,将描述装置300的示例性实施例,其基于在所述标准itu-tp.563中定义的语音质量评估的非侵入式波形模型。根据该标准,所述特征提取分为以下三个部分:音高同步声道模型和lpc分析;语音重构和全参考感知模型;特定于失真的参数。在一实施例中,主导失真分类和感知加权可以由机器学习代替。

在示例性实施例中,提取器301基于所述标准itu-tp.563,其为每个语音文件或对应的音频信号样本生成43个特征。因此,在这种情况下,所述特征向量具有43个分量,即维数为m=43。假设所述训练集中有n个训练数据,其中每个训练数据的维数为43:对所述43个特征中的每一个特征执行以下步骤。在第一步中,估算的方差和均值,例如使用:

在第二步中,定义具有所述均值和方差的高斯分布f(x),例如:

在第三步中确定所述累积分布函数,例如:

在第四步中,对于n=1ton,,将映射到其累积分布函数,例如:

xm,n→ym,n=f(ym,n)。

所述预处理的特征向量用命名,可用于进一步训练。在一实施例中,可以保存所述参数以预处理附加数据。

图11中示出的是如上文所述在根据所述累积分布函数将所述特征值x映射到y之后为特征的任意数量m或所述特征向量的维数m以及y的均匀分布使用相同处理特别是相同预处理的实施例。

与所述训练过程相比,将所述pnn应用于音频信号样本的过程更简单,因为这仅涉及应用在所述训练过程中确定的pnn,如图10所示,并且所述相同特征的提取和预处理通常用于所述训练,以获得最佳评估结果。

在装置200的提取器201处,执行以下步骤。对于第n个语音文件,例如,音频信号样本,预处理算法用于获得所述第n个语音文件的特征。

在一实施例中,根据非侵入式质量估计标准p.563所述的特征提取在提取器201中实现(例如,类似于提取器301)。如上所述,根据所述p.563标准所述的特征提取为每个语音样本生成43个特征,例如,具有43个分量的特征向量

在一实施例中,预处理器203用于(例如,类似于预处理器303)将所述特征向量的特征映射到更均匀的分布,例如,将所述特征映射到具有均匀概率分布的特征

在一示例性实施例中,装置200用于应用与装置300相同的预处理,例如,基于与用于所述训练的相同累积分布函数来处理或映射所述特征值。

在另一示例性实施例中,装置200用于处理(例如,用作输入)n个音频信号样本的训练集x,例如其中每个音频信号样本提供具有43个分量的特征向量此外,对于m=1to43,例如,对于所述特征向量的每个特征,预处理器203用于执行以下步骤。

在第一步中,的方差和均值μm已经在所述训练阶段得出,是由下列公式给出的:

μm=e(xm,n),以及

其中e(xm)表示将所述特征xm的期望值加载到装置200中。

在第二步中,定义具有所述均值和方差的高斯分布f(x),例如

在第三步中,计算所述累积分布函数,例如

在第四步中,对于n=1ton,所述特征xm,n被映射到相应累积分布函数的函数值,例如xm,n。

在上述实施例中的任一实施例中,处理器205使用所述预处理的特征向量来确定mos。为了确定所述质量分数(mos),处理器205将来自所述训练集的参数pnn应用到y(n)。

图11示出了上述两个示例的预处理阶段的示图。

图12示出了根据一实施例的用于确定音频信号样本的质量分数(例如mos)的方法1200的示意图。方法1200包括包括以下步骤:从所述音频信号样本中提取(1201)特征向量,其中所述特征向量包括多个特征值,每个特征值与所述特征向量的不同特征相关联;基于与所述特征值表示的特征相关联的累积分布函数来预处理(1203)所述特征向量的特征值,以获得预处理的特征值;实现(1205)神经网络;基于所述预处理的特征值和与所述累积分布函数相关联的神经网络的神经网络参数(neuralnetworkparameter,简称pnn)集来确定(1007)所述音频信号样本的质量分数(mos)。

图13示出了根据实施例的用于确定神经网络参数(neuralnetworkparameter,简称pnn)集来确定音频信号样本的质量分数(例如mos)的方法1300。方法1300包括以下步骤:从音频信号样本中提取(1301)特征向量,其中所述特征向量包括多个特征值,每个特征值与所述特征向量的不同特征相关联;基于与所述特征值表示的特征相关联的累积分布函数预处理(1303)所述特征向量的特征值,以获得预处理的特征值;实现(1305)神经网络;基于所述预处理的特征值确定(1307)所述神经网络的神经网络参数(neuralnetworkparameter,简称pnn)集来确定所述音频信号样本的质量分数(mos)。

装置200的实施例通常将使用与装置300的相应实施例相同的特征提取(例如,相同的特征提取算法或步骤)201和预处理(例如,相同的预处理算法或步骤)203,因为装置200的实施例通常用于使用所述参数(例如神经网络参数pnn)和/或在训练期间通过装置300的实施例学习或获得的累积分布函数cdf来获得最佳质量分数,例如,mos。换句话说,为特征提取器201或相应特征提取步骤或阶段201的实施例提供的说明也适用于相应特征提取器301或相应特征提取步骤或阶段301的实施例,反之亦然。相应地,为预处理器203或相应预处理步骤或阶段203的实施例提供的说明也适用于相应的预处理301或相应的预处理步骤或阶段301的实施例,反之亦然。

装置200和300的实施例可以用于仅预处理如上所述的特征向量中的一个、一些或全部特征。

尽管本发明的特定特征或方面可能已经仅结合几种实施方式或实施例中的一种进行公开,但此类特征或方面可以和其它实施方式或实施例中的一个或多个特征或方面相结合,只要对任何给定或特定的应用有需要或有利即可。而且,在一定程度上,术语“包括”、“有”、“具有”或这些词的其它变形在详细的说明书或权利要求书中使用,这类术语和所述术语“包括”是类似的,都是表示包括的含义。同样,术语“示例性地”、“例如”和“如”仅表示为示例,而不是最好或最佳的。可以使用术语“耦合”和“连接”及其派生词。应当理解,这些术语可以用于指示两个元件彼此协作或交互,而不管它们是直接物理接触还是电接触,或者它们彼此不直接接触。

尽管本文中已说明和描述特定方面,但本领域普通技术人员应了解,多种替代和/或等效实现形式可在不脱离本发明的范围的情况下替代所示和描述的特定方面。本申请旨在覆盖本文论述的特定方面的任何修改或变更。

尽管以上权利要求书中的元件是利用对应的标签按照特定顺序列举的,但是除非对权利要求的阐述另有暗示用于实施部分或所有这些元件的特定顺序,否则这些元件不必限于以所述特定顺序来实施。

本发明的实施例可以用硬件或软件或其任意组合来实现。特别地,所述提取器、所述预处理器和所述处理器可以实现为软件和/或硬件的单独实体或者部分或完全集成的实体。此外,所述装置的实施例可以包括用于存储程序代码的存储器,所述存储程序代码在处理器(或提取器,协处理器和处理器)上执行时可用于执行如本文所述的实施例的功能。

通过以上启示,对于本领域技术人员来说,许多替代、修改和变化是显而易见的。当然,本领域技术人员容易认识到除本文所述的应用之外,还存在本发明的众多其它应用。虽然已参考一个或多个特定实施例描述了本发明,但本领域技术人员将认识到在不偏离本发明的范围的前提下,仍可对本发明作出许多改变。因此,应理解,只要是在所附权利要求书及其等效物的范围内,可以用不同于本文具体描述的方式来实施本发明。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1