语音质量评价方法和装置与流程

文档序号：12128431阅读：350来源：国知局

本申请涉及通信技术领域，尤其涉及一种语音质量评价方法和装置。

背景技术：

随着技术的不断发展，通信在人们生活中的地位越来越重要，如采用通信网络进行语音数据的传输。语音质量是评价通信网络质量的一个重要因素。为了达到评价语音质量的目的，开发有效的语音质量评价算法是必须的。

相关技术中，通信网络中的语音质量评价算法包括语音质量的感知评价(Perceptual Evaluation of Speech Quality，PESQ)算法和感知客观语音质量评价(Perceptual Objective Listening Quality Analysis，POLQA)算法。这些算法在实现时需要获取输入语音数据和输出语音数据，输入语音数据一般为干净语音数据，输出语音数据一般为经过通信网络后的退化语音数据，通过对输入语音数据和输出语音数据进行分析，对输出语音数据进行质量评价。输入语音数据一般是采用运营商的路测车采集的，但是，在小区楼层或商场等室内条件下，无法通过路测车进行采集，因此无法获取到输入语音数据，也就不能通过输入语音数据进行语音质量评价，使得上述基于输入语音数据和输出语音数据对输出语音数据进行语音质量评价的算法存在应用局限性。

技术实现要素：

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种语音质量评价方法，该方法可以在对待评价语音数据进行语音质量评价时，不需要相应的输入语音数据，实现仅依赖单端语音数据的语音质量评价，从而扩展应用范围。

本申请的另一个目的在于提出一种语音质量评价装置。

为达到上述目的，本申请第一方面实施例提出的语音质量评价方法，包括：接收待评价语音数据；提取所述待评价语音数据的评价特征；根据所述待评价语音数据的评价特征和已构建的语音质量评价模型，对所述待评价语音数据进行质量评价，其中，所述语音质量评价模型用于表明单端语音数据的评价特征与所述单端语音数据的质量信息之间的关系。

本申请第一方面实施例提出的语音质量评价方法，通过采用语音质量评价模型对待评价语音数据进行质量评价，可以在语音质量评价时仅需要单端语音数据，避免依赖双端语音数据造成的应用受限问题，从而扩展应用范围。

为达到上述目的，本申请第二方面实施例提出的语音质量评价装置，包括：接收模块，用于接收待评价语音数据；提取模块，用于提取所述待评价语音数据的评价特征；评价模块，用于根据所述待评价语音数据的评价特征和已构建的语音质量评价模型，对所述待评价语音数据进行质量评价，其中，所述语音质量评价模型用于表明单端语音数据的评价特征与所述单端语音数据的质量信息之间的关系。

本申请第二方面实施例提出的语音质量评价装置，通过采用语音质量评价模型对待评价语音数据进行质量评价，可以在语音质量评价时仅需要单端语音数据，避免依赖双端语音数据造成的应用受限问题，从而扩展应用范围。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例提出的语音质量评价方法的流程示意图；

图2是本申请另一个实施例提出的语音质量评价方法的流程示意图；

图3是本申请一个实施例提出的语音质量评价装置的结构示意图；

图4是本申请另一个实施例提出的语音质量评价装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

为了解决PESQ算法的问题以及更好的适应4G/LTE时代的语音质量评价需求，ITU-T于2006年开始了POLQA算法的开发工作，2011年初正式发布为ITU-T P.863标准。主要特点可以覆盖最新的语音编码和网络传输技术，在用于3G，4G/LTE，VoIP网络时具有更高的准确性支持超宽带(50Hz～14KHz)语音传输，高质量语音传输。因此，POLQA算法是目前评价通信网络的语音质量的通常被选择的算法。

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。目前深度学习的应用领域主要包括：计算机视觉、语音识别的声学模型训练、机器翻译和语义挖掘等自然语言处理领域。

由于深度学习是新出现的技术，依然在不断发展中，因此目前比较成功的应用领域仅如上所示的有限领域。依据发明人所知，在通信领域，特别是通信领域的语音质量评价并未应用。

本申请的发明人作为通信领域的技术人员，在需要完成语音质量评价时，之前也通常采用POLQA算法，但是，发明人发现POLQA算法需要双端的语音数据，即在评价输出语音数据的语音质量时，不仅需要输出语音数据还需要输入语音数据，由于在一些情况下难以获取输入语音数据，就会使得POLQA算法的应用受限。为了避免应用受限问题，需要提出新的解决方案。发明人通过进一步分析发现，深度学习构建的模型具有优良的性能，因此可以将深度学习引入到语音质量评价算法中。进一步的，为了避免双端语音数据存在的应用局限性问题，在通过深度学习构建模型时，可以仅采用单端语音数据作为样本进行训练，从而在采用已构建的模型进行语音质量评价时，可以仅需要待评价语音数据这一单端语音数据。

因此，本申请的主要思路是将深度学习引入到语音质量评价，特别是通信领域的语音质量评价中。将为通信领域的语音质量评价提供仅依赖单端语音数据的新的解决方案，并且在仅依赖单端语音数据时，采用深度学习方式构建模型，可以保证模型的优良性能，从而解决受限更少性能更优的语音质量评价的技术问题。进一步的，需要说明的是，虽然上述对本申请的主要思路进行了说明，但是，具体的技术方案不限于上述的主要思路，还可以与其他特征相互结合，这些不同技术特征之间的结合依然属于本申请的保护范围。

进一步的，需要说明的是，虽然上述给出了主要解决的技术问题，但是，本申请并不限于仅能解决上述技术问题，应用本申请还可以解决的其他技术问题依然属于本申请的保护范围。

进一步的，需要说明的是，虽然上述给出了本申请的主要思路，以及后续实施例会对一些特别点进行说明。但是，本申请的创新点并不限于上述的主要思路及特别点所涉及的内容，并不排除本申请中一些并未特殊说明的内容依然可能会包含本申请的创新点。

可以理解的是，虽然上述进行了一些说明，但依然不排除其他可能方案，因此，与后续本申请给出的实施例相同、相似、等同等情况的技术方案依然属于本申请的保护范围。

下面将结合具体实施例对本申请的技术方案进行说明。

图1是本申请一个实施例提出的语音质量评价方法的流程示意图。

如图1所示，本实施例的方法包括：

S11：接收待评价语音数据。

以通信领域为例，待评价语音数据可以具体是指通信网络的输出语音数据，即输入语音数据经过通信网络后的退化语音数据。输入语音数据一般是指干净语音数据或者称为原始语音数据，而退化语音数据一般是指相对于原始语音数据存在清楚度退化、存在延迟、杂音等一项或多项内容的质量退化的语音数据。

S12：提取所述待评价语音数据的评价特征。

所述评价特征与语音质量模型构建时，对退化语音数据提取的评价特征相同，具体可以根据应用需求确定。

一般来讲，评价特征是指从人耳听觉感知的角度描述语音数据的特征，具体内容可以参见后续描述。

S13：根据所述待评价语音数据的评价特征和已构建的语音质量评价模型，对所述待评价语音数据进行质量评价，其中，所述语音质量评价模型用于表明单端语音数据的评价特征与所述单端语音数据的质量信息之间的关系。

其中，语音质量评价模型可以是在需要进行语音质量评价之前预先构建的，例如，通过离线方式先构建出语音质量评价模型，在需要语音质量评价时，就可以直接采用预先构建的语音质量评价模型。当然，也并不排除语音质量评价模型是在线构建的，比如在需要进行语音质量评价时在线构建的。具体构建内容可以参见后续描述。

语音质量评价模型的输入和输出分别是单端语音数据的评价特征和质量信息，因此，在提取出待评价语音数据的评价特征后，可以将该评价特征作为语音质量评价模型的输入，从而得到的输出就是待评价语音数据的质量信息，实现语音质量评价。

进一步的，语音质量评价模型可以用回归模型或分类模型描述，在不同描述情况下，上述的质量信息的具体内容可以是不同的。例如，如果语音质量评价模型采用回归模型描述，则得到的质量信息是具体的评价得分，如1-5分中的一个得分；如果语音质量评价模型采用分类模型描述，则得到的质量信息是评价类别，如差、较差、一般、好、较好中的一个类别。

进一步的，一些实施例中，为了提高语音质量评价的准确度，还可以对S13得到的质量评价结果进行规整。以质量评价结果是评价得分为例，在规整时，可以将S13得到的评价得分直接作为最终的评价得分，或者，也可以结合通信网络的丢包、抖动、时延等相关参数对S13得到的评价得分进行规整得到最终的评价得分。具体的结合网络参数进行规整的算法可以设置，在此不再详述，比如可以在S13得到的评价得分的基础上乘以一个系数作为最终的评价得分，该系数与通信网络的上述参数相关。

本实施例中，通过采用语音质量评价模型对待评价语音数据进行质量评价，可以在语音质量评价时仅需要单端语音数据，避免依赖双端语音数据造成的应用受限问题，从而扩展应用范围。

图2是本申请另一个实施例提出的语音质量评价方法的流程示意图。

本实施例以待评价语音数据是经过通信网络后的退化语音数据为例。在构建语音质量评价模型时以深度学习方式构建为例。

参见图2，本实施例的方法包括：

S21：获取语音数据，所述语音数据包括干净语音数据和退化语音数据。

其中，可以采用收集和/或从已有数据中直接获取的方式，获取到语音数据。为了提高构建的语音质量评价模型的准确度，此处应该获取到尽可能多的语音数据。

以收集方式为例，具体收集语音数据时，可以采用模拟通信的方式，分别收集到通话时的干净语音数据和经过通信网络后的退化语音数据，具体地先从高保真录音室采集大量干净语音数据，如2000小时的干净语音数据；然后利用多部手机模拟通话方式，即使用一部手机拨打电话播放所述干净语音数据，另一部手机接听这些干净语音数据，通过在通信网络上不同的接口处，还原发送的数据包，得到经过通信网络后的退化语音数据。

当然，也可直接收集真实的网络通话语音数据，分别获取相应干净语音数据和退化语音数据，具体获取方式本申请不作限定。

进一步的，在收集语音数据时，干净语音数据和退化语音数据可以分开收集，从而可以直接分别获取到干净语音数据和退化语音数据。或者，在收集语音数据时，干净语音数据和退化语音数据可以一起收集，此时可以分别对干净语音数据和退化语音数据进行标记，以区分干净语音数据和退化语音数据，如使用1表示干净语音数据，0表示退化语音数据，此时，可以根据标记分别获取到干净语音数据和退化语音数据。

S22：根据所述干净语音数据获取待处理的干净语音数据，以及，根据所述退化语音数据获取待处理的退化语音数据。

可以包括：

将获取的退化语音数据直接作为待处理的退化语音数据；或者，

提取获取的退化语音数据的有效语音段，将退化语音数据的有效语音段作为待处理的退化语音数据；或者，

对获取的退化语音数据进行聚类，将聚类中心对应的退化语音数据作为待处理的退化语音数据；或者，

提取获取的退化语音数据的有效语音段，对退化语音数据的有效语音段进行聚类，将聚类中心对应的退化语音数据的有效语音段作为待处理的退化语音数据。

具体的，在获取到干净语音数据和退化语音数据后，可以将获取的干净语音数据和退化语音数据直接分别作为待处理的干净语音数据和待处理的退化语音数据。进一步的，还可以在获取到干净语音数据和退化语音数据后，分别进行有效语音段的提取，将提取得到的干净语音数据的有效语音段作为待处理的干净语音数据，将退化语音数据的有效语音段作为待处理的退化语音数据。具体的提取有效语音段的方式不限定，例如采用语音活动检测(Voice Activity Detection，VAD)方式。通过仅处理有效语音段，可以减少运算量和复杂度。

进一步的，在获取待处理的退化语音数据时，可以将语音数据中包括的所有退化语音数据或所有退化语音数据的有效语音段作为待处理的退化语音数据，或者，也可以选择部分退化语音数据或其有效语音段作为待处理的退化语音数据。在选择时，可以采用聚类方式，对所有的退化语音数据或其有效语音段进行聚类，将聚类中心对应的退化语音数据或其有效语音段作为待处理的退化语音数据。

例如，在聚类时，提取退化语音数据的有效语音段的ivector特征，使用k-means方法对提取的ivector特征进行聚类，得到k个聚类中心，将每个聚类中心对应的退化语音数据或其有效语音段作为待处理的退化语音数据。通过聚类以及只选择聚类中心对应的退化语音数据进行处理，可以减少数据量，提高运算效率。

S23：根据待处理的干净语音数据和待处理的退化语音数据，计算待处理的退化语音数据的评价得分。

以待处理的数据是有效语音段为例，在得到干净语音数据的有效语音段和退化语音数据的有效语音段后，可以根据干净语音数据的有效语音段，对退化语音数据每个有效语音段进行逐帧分析，计算得到退化语音数据的有效语音段的评价得分。计算方式不限定，例如，所述评价得分为语音数据的平均意见分(Mean Opinion Score，MOS)得分，具体计算方法可以与现有技术相同，如使用POLQA算法或PESQ算法计算得到，在此不再详述。

S24：提取待处理的退化语音数据的评价特征。

所述评价特征从人耳听觉感知的角度描述语音数据，具体提取时，先提取待处理的退化语音数据的时域特征，如语音数据的短时平均能量、语音的分段底噪、语音的短时波形冲击或者震荡、基频特征及基频的差分特征，如基频特征的一阶、二阶差分值等；然后再提取待处理的退化语音数据的频域特征，所述频域特征如FilterBank特征、线性预测编码(linear predictive coding，LPC)特征等；所述频域特征提取时，采用能够描述人听觉的耳蜗形状的滤波器，从而使得提取的频域特征能够从人耳听觉感知角度描述语音数据；为了更好的描述退化语音数据，还可以提取每种频域特征的均值、方差、最大值、最小值、及差分特征，如一阶、二阶差分值等；具体提取哪种评价特征可以根据应用需求及语音数据的退化情况确定，具体本申请不作限定。

S25：根据所述提取待处理的退化语音数据的评价特征和所述待处理的退化语音数据的评价得分进行训练，构建语音质量评价模型。

在训练时，可以具体采用深度学习方式训练得到语音质量评价模型的参数，构建出语音质量评价模型。

深度学习方式采用的网络拓扑结构可以为深度神经网络((Deep Neural Networks，DNN)、卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Networks，RNN)、长短时记忆(Long Short-Term Memory，LSTM)神经网络等网络中的一种或多种组合，具体本申请不作限定；具体网络的选择根据应用需求确定。在确定模型的输入和输出后，参数训练过程与现有技术相同，在此不再详述。

进一步的，语音质量评价模型可以用不同类型的模型描述，如可以采用回归模型或分类模型描述。在不同类型下，模型对应的输入和输出可以相应调整。

具体的，采用回归模型描述语音质量评价模型时，直接将上述获取的待处理的退化语音数据的评价特征和待处理的退化语音数据的评价得分分别作为模型输入和输出。

采用分类模型描述语音质量评价模型时，直接将上述获取的待处理的退化语音数据的评价特征作为模型输入，而模型输出是对待处理的退化语音数据的评价得分进行量化后，得到的评价类别。

具体量化时，可以采用固定步长或非固定步长对退化语音数据的评价得分进行量化，如果采用固定步长时，固定步长为0.2，对所有退化语音数据的评价得分进行量化，得到量化后退化语音数据的类别，以MOS得分为例，以固定步长0.2进行量化时，1分到5分量化后可以得到20个评价类别；如果采用非固定步长时，可以根据应用需求确定退化语音数据的每个范围内评价得分的量化步长，如评价得分较低范围内，可以采用大步长量化，评价得分较高范围内，可以采用小步长量化；以MOS得分为例，如1到3分为较低得分范围，可以采用大步长量化，如0.5；3到5分为较高得分范围，可以采用小步长量化，如0.2，量化后共可以得到14个评价类别；

当然，也可以采用其它方法对所述评价得分进行量化，将评价得分划分为多个评价类别，如量化后的所述评价类别为差、较差、一般、好、较好，具体本申请不作限定。

S26：接收经过通信网络后的退化语音数据。

S27：提取所述退化语音数据的评价特征。

评价特征的提取方式与训练过程中的提取方式相同，在此不再详述。

S28：根据所述评价特征和所述已构建的语音质量评价模型，对所述退化语音数据进行质量评价。

具体的，将当前的退化语音数据的评价特征作为语音质量评价模型的输入，将模型的输出作为对当前的退化语音数据的质量评价结果。其中，如果语音质量评价模型采用回归模型描述，则质量评价结果是评价得分，如果语音质量评价模型采用分类模型描述，则质量评价结果是评价类别。

本实施例中，通过采用语音质量评价模型对待评价语音数据进行质量评价，可以在语音质量评价时仅需要单端语音数据，避免依赖双端语音数据造成的应用受限问题，从而扩展应用范围。进一步的，通过采用深度学习方式进行训练，可以利用深度学习方式的优良性能，使得语音质量评价模型更准确，进而语音质量评价结果更准确。进一步的，通过对通信领域的语音数据进行质量评价，可以将深度学习与通信领域的语音质量评价相结合，为通信领域的语音质量评价提供新的解决思路。

图3是本申请一个实施例提出的语音质量评价装置的结构示意图。

如图3所示，本实施例的装置30包括：接收模块31、提取模块32和评价模块33。

接收模块31，用于接收待评价语音数据；

提取模块32，用于提取所述待评价语音数据的评价特征；

评价模块33，用于根据所述待评价语音数据的评价特征和已构建的语音质量评价模型，对所述待评价语音数据进行质量评价，其中，所述语音质量评价模型用于表明单端语音数据的评价特征与所述单端语音数据的质量信息之间的关系。

一些实施例中，所述待评价语音数据包括：经过通信网络后的退化语音数据。

一些实施例中，参见图4，本实施例的装置30还包括：用于构建语音质量评价模型的构建模块34，所述构建模块34包括：

第一获取子模块341，用于获取语音数据，所述语音数据包括干净语音数据和退化语音数据；

第二获取子模块342，用于根据所述干净语音数据获取待处理的干净语音数据，以及，根据所述退化语音数据获取待处理的退化语音数据；

计算子模块343，用于根据待处理的干净语音数据和待处理的退化语音数据，计算待处理的退化语音数据的评价得分；

提取子模块344，用于提取待处理的退化语音数据的评价特征；

训练子模块345，用于根据所述待处理的退化语音数据的评价特征和所述待处理的退化语音数据的评价得分进行训练，构建语音质量评价模型。

一些实施例中，所述语音质量评价模型是采用深度学习方式进行训练后构建的。

一些实施例中，所述训练子模块345具体用于：

如果采用回归模型描述所述语音质量评价模型，则将所述待处理的退化语音数据的评价特征和所述待处理的退化语音数据的评价得分，分别作为模型输入和模型输出，训练模型参数，构建语音质量评价模型；或者，

如果采用分类型描述所述语音质量评价模型，则将所述待处理的退化语音数据的评价特征作为模型输入，对所述待处理的退化语音数据的评价得分进行量化，得到评价类别，将评价得分类别作为模型输出，训练模型参数，构建语音质量评价模型。

一些实施例中，所述第二获取子模块342用于根据所述干净语音数据获取待处理的干净语音数据，包括：

将获取的干净语音数据直接作为待处理的干净语音数据；或者，

提取获取的干净语音数据的有效语音段，将干净语音数据的有效语音段作为待处理的干净语音数据。

一些实施例中，所述第二获取子模块342用于根据所述退化语音数据获取待处理的退化语音数据，包括：

将获取的退化语音数据直接作为待处理的退化语音数据；或者，

提取获取的退化语音数据的有效语音段，将退化语音数据的有效语音段作为待处理的退化语音数据；或者，

对获取的退化语音数据进行聚类，将聚类中心对应的退化语音数据作为待处理的退化语音数据；或者，

可以理解的是，本实施例的装置与上述方法实施例对应，具体内容可以参见方法实施例的相关描述，在此不再详细说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：殷兵;魏思;胡国平;程甦;
技术所有人：科大讯飞股份有限公司;
我是此专利的发明人