语音质量评价方法、装置及其系统与流程

文档序号：13983680阅读：216来源：国知局

本发明涉及计算机音频处理领域，尤其涉及一种语音质量评价方法、装置及其系统。

背景技术：

对声音质量的评价可分为主观测试、客观测试。主观测试以评价者的主观感受为基础，因此对评测者的要求很高，而且重复性、稳定性差，费时费力。显然在目前高速发展的市场经济时代，主观测试不能满足产品的开发的要求。目前主流的音频客观算法有polqa(itu-tp.863)、peaq(itu-rbs.1387)、pesq(itu-tp.862.2)等。根据对原始信号的依赖程度，音频客观测试又分为全参考(fullreference，fr)，部分参考(reducedreference，rr)和无参考(noreference，nr)；全参考测试不但需要有损伤信号，还需要有参考信号，以损伤信号是否接近参考信号来评价损伤信号的质量，polqa、peaq、pesq均是全参考算法；部分参考不需要有参考信号，可通过其它数据来评价损伤信号的质量；无参考只通过损伤信号评价损伤信号的质量。全参考可靠性高，但测试要求高，测试过程复杂；无参考测试效率高但可靠性较差；部分参考结合两者优点，在较低的测试要求下通过简单的测试步骤获取可靠的测试结果。

在音频处理中，特别是音频通信领域，agc(automaticgaincontrol)、语音增强是经常使用的模块，可以使信宿端获得平稳、清晰的语音，提高语音体验。但目前的音频客观质量算法对存在agc、语音增强等提高语音可懂度的模块处理后的语音进行评测时会出现较大偏差。如何评价agc、语音增强等处理后的语音质量也是目前语音客观质量评价的难点。

在音视频通信中，网络质量对音频质量的影响也很大，不理想的网络会导致信宿端的声音出现丢失、快放、慢放；而且为了提高通信系统的网络适应性，通信系统会有一些模块去改善信宿端在网络丢包时的声音质量，例如plc(packetlossconcealment丢包补偿)，会通过学习恢复出于丢失的语音类似的声音，或者其它改善声音质量的方法。

甚至为了提高声音的舒适度，音视频通信系统还会添加舒适噪声。

在实际音视频通信使用环境中，通信设备采集的音频中不但包含有效的语音信息，还包含环境噪声，而且还有混响。

而目前的音频客观质量算法对上述场景下的音频质量评测无能为力。

技术实现要素：

本发明为了克服上述现有技术存在的缺陷，提供一种语音质量评价方法、装置及其系统，以改善语音质量评价。

根据本发明的一个方面，提供一种语音质量评价方法，包括：采集被测信宿端的音频信号序列，所述音频信号序列包括多个子音频信号，所述被测信宿端接收信源端按参考文本序列提供的语音信号，所述参考文本序列包括多个参考文本，各参考文本关联有一个或多个语音属性参数，一所述子音频信号对应一所述参考文本；对所采集的音频信号序列进行语音识别，将每一音频信号转化为一识别文本，一所述识别文本对应一所述参考文本；对所采集的音频信号序列进行发音识别，并获取各子音频信号的发音属性参数；根据各所述识别文本及对应的参考文本，获取第一类评价参数；根据所述发音属性参数及所述语音属性参数，获取第二类评价参数；根据所述第一类评价参数和第二类评价参数加权获得被测信宿端的语音质量客观评分。

可选地，所述根据各所述识别文本及对应的参考文本，获取第一类评价参数包括：将各所述识别文本及对应的参考文本输入第一映射模型以获取第一类评价参数；所述根据所述发音属性参数及所述语音属性参数，获取第二类评价参数包括：将所述发音属性参数及所述语音属性参数输入第二映射模型以获取第二类评价参数。

可选地，所述第一映射模型包括线性映射模型、非线性映射模型和回归树映射模型中的一种或多种，所述第二映射模型包括线性映射模型、非线性映射模型和回归树映射模型中的一种或多种。

可选地，所述对所采集的音频信号序列进行语音识别还包括：获取各子音频信号的辅助语音属性参数；所述根据所述发音属性参数及所述语音属性参数，获取第二类评价参数包括：根据所述发音属性参数、所述辅助语音属性参数及所述语音属性参数，获取第二类评价参数，其中，所述发音属性参数和所述辅助语音属性参数至少包括部分相同类别的属性参数。

可选地，所述发音属性参数、所述辅助语音属性参数及所述语音属性参数至少包括文本长短、间隔、性别、年龄、语速中的一项或多项。

可选地，所述语音质量客观评分f根据如下公式计算：

f＝(x1f1+x2f2+…+xkfk)/m；

其中，f1+f2+…+fk＝m，且f1、f2、…fk为权重为权重；x1、x2、…、xk为所述第一类评价参数和所述第二类评价参数，k、m为大于等于1的整数。

可选地，所述第一类评价参数至少包括文本完整度，所述第一类评价参数至少包括文字完整度、语速一致性、性别一致性、年龄一致性中的一项或多项。

可选地，采集被测信宿端的音频信号序列之后，对所采集的音频信号序列进行语音识别之前还包括检测步骤，所述检测步骤包括如下步骤中的一项或多项：检测所采集的音频信号序列是否对应完整的参考文本序列，若否，则重新采集被测信宿端的音频信号序列；检测所采集的音频信号序列是否饱和溢出，若是，则重新采集被测信宿端的音频信号序列；检测所采集的音频信号序列的最高音量是否小于第一阈值，若是，则重新采集被测信宿端的音频信号序列，所述第一阈值为-20db至-10db；检测所采集的音频信号序列的信噪比是否小于第二阈值，若是，则重新采集被测信宿端的音频信号序列，所述第二阈值为65db至75db。

可选地，所述对所采集的音频信号序列进行语音识别，将每一音频信号转化为一识别文本包括：根据所述音频信号，在一语音识别模型库中命中多个字以形成识别文本；所述对所采集的音频信号序列进行语音识别，将每一音频信号转化为一识别文本之后，还包括：将所述识别文本及对应的参考文本进行比对；提取所述识别文本中，与对应的参考文本的对应位置处不同的字作为第一待调整字；提取所述参考文本中，与对应的识别文本的对应位置处不同的字作为第二待调整字；在所述语音识别模型库中降低所述第一待调整字的命中率，提高所述第二待调整字的命中率。

根据本发明的又一方面，还提供一种语音质量评价装置，包括：采集模块，用于采集被测信宿端的音频信号序列，所述音频信号序列包括多个子音频信号，所述被测信宿端接收信源端按参考文本序列提供的语音信号，所述参考文本序列包括多个参考文本，各参考文本关联有一个或多个语音属性参数，一所述子音频信号对应一所述参考文本；语音识别模块，用于对所采集的音频信号序列进行语音识别，将每一音频信号转化为一识别文本，一所述识别文本对应一所述参考文本；发音识别模块，用于对所采集的音频信号序列进行发音识别，并获取各子音频信号的发音属性参数；第一评价参数获取模块，用于根据各所述识别文本及对应的参考文本，获取第一类评价参数；第二评价参数获取模块，用于根据所述发音属性参数及所述语音属性参数，获取第二类评价参数；客观评分模块，用于根据所述第一类评价参数和第二类评价参数加权获得被测信宿端的语音质量客观评分。

根据本发明的又一方面，还提供一种语音质量评价系统，包括：信源端；信宿端；以及如上所述的语音质量评价装置。

与现有技术相比，本发明的优点在于：本发明使用部分参考方式对语音质量进行评价，降低了测试环境要求，简化了测试过程，能够在存在agc、语音增强等提高语音可懂度的模块处理后语音的质量评价中获得可靠评价结果，能够对网络损伤情况下的语音质量进行可靠的评价测试，能够对添加舒适噪声情况下的音质量进行可靠的评价测试。

附图说明

通过参照附图详细描述其示例实施方式，本发明的上述和其它特征及优点将变得更加明显。

图1示出了根据本发明实施例的语音质量评价系统的示意图。

图2示出了根据本发明实施例的语音质量评价方法的流程图。

图3示出了根据本发明实施例的语音质量评价装置的模块图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

为了克服上述现有技术存在的缺陷，本发明提供一种语音质量评价方法、装置及其系统。首先参见图1，图1示出了根据本发明实施例的语音质量评价系统的示意图。

语音质量评价系统包括信源端110、信宿端120以及语音质量评价装置130。

在一些具体实施例中，信源端110和信宿端120为视频会议中的两个终端。信源端110采集语音信号，经编码后作为音频信号通过信道传递至信宿端120。语音信号经采集、编码、传输等处理过程中可能会产生信号损失。为了检测信宿端120的音频信号的质量，信宿端120连接一语音质量评价装置130，语音质量评价装置130用于对信宿端120的音频信号进行语音质量评价。可选地，语音质量评价装置130支持各种模拟、数字音频接口，可以采集模拟、数字音频信号。进一步地，语音质量评价装置130支持xlr、trs、line、hdmi等多种音频接口。

语音质量评价装置130可采用如图2所示的语音质量评价方法对信宿端120的音频信号进行语音质量评价。图2共示出6个步骤：

步骤s210：采集被测信宿端的音频信号序列。所述音频信号序列包括多个子音频信号。所述被测信宿端接收信源端按参考文本序列提供的语音信号。所述参考文本序列包括多个参考文本。各参考文本关联有一个或多个语音属性参数，一所述子音频信号对应一所述参考文本。

具体而言，参考文本序列例如可以是：

其中，每个参考文本关联有性别、年龄范围和语速3个语音属性参数。上述表格仅仅是示意性的，本发明并非以此为限，语音属性参数的数量和种类可依实际情况而定。

在一些具体实施例中，信源端和信宿端为参加视频会议的两个终端。信源端处测试者根据语音属性参数提供上述参考文本的语音，并由信源端采集。信源端采集与参考文本对应的语音信号后，语音信号通过编码、预处理作为音频信号序列经信道传输至信宿端。

在一些具体实施例中，步骤s210之后，步骤s220之前还包括检测步骤。在一些实施例中，检测步骤可以是检测所采集的音频信号序列是否对应完整的参考文本序列，若否，则重新采集被测信宿端的音频信号序列；若是，则继续执行步骤s220。在又一些实施例中，检测步骤可以是检测所采集的音频信号序列是否饱和溢出，若是，则重新采集被测信宿端的音频信号序列；若否，则继续执行步骤s220。在另一些实施例中，检测步骤可以是检测所采集的音频信号序列的最高音量是否小于第一阈值，若是，则重新采集被测信宿端的音频信号序列；若否，则继续执行步骤s220。在该些实施例中，所述第一阈值为-20db至-10db。优选地，第一阈值为-16db。在还一些实施例中，检测步骤可以是检测所采集的音频信号序列的信噪比是否小于第二阈值，若是，则重新采集被测信宿端的音频信号序列，；若否，则继续执行步骤s220。在该些实施例中，所述第二阈值为65db至75db。优选地，第二阈值为70db。在本发明的各个实施例中，可单独进行上述检测步骤或结合上述检测步骤来使用。本发明并非以此为限。

步骤s220：对所采集的音频信号序列进行语音识别，将每一音频信号转化为一识别文本，一所述识别文本对应一所述参考文本。

在一些实施例，步骤s220通过对所采集的音频信号序列进行语义分析，以将音频信号序列划分为多个自音频信号以与参考文本对应。在有一些实施例中，步骤s220可以通过参考文本的语音信号的时间间隔来将所采集的音频信号划分为多个自音频信号以与参考文本对应。

进一步地，在一些实施例中，步骤s220还包括获取各子音频信号的辅助语音属性参数。辅助语音属性参数可以包括每个字的开始时间、每个字时长、单个词的识别率、句子个数、每个句子内容、句子开始时间、句子时长、句子完整度等等。

进一步地，在本发明的一个具体实施例中，步骤s220还包括根据所述音频信号，在一语音识别模型库中命中多个字以形成识别文本。在步骤s220之后还包括根据识别文本结果调整语音识别模型库的步骤。具体而言，可以包括将所述识别文本及对应的参考文本进行比对；提取所述识别文本中，与对应的参考文本的对应位置处不同的字作为第一待调整字；提取所述参考文本中，与对应的识别文本的对应位置处不同的字作为第二待调整字；在所述语音识别模型库中降低所述第一待调整字的命中率，提高所述第二待调整字的命中率。例如，当参考文本为“明天出差去北京”，而识别文本为“明天出发去北京”时，比对参考文本及识别文本，将识别文本中与参考文本不同的字“发”作为第一待调整字，将参考文本中与识别文本不同的字“差”作为第二待调整字，降低语音识别模型库中“发”的命中率，并提高语音识别模型库中“差”的命中率，由此，可在语音识别过程中调整语音识别模型库的精确性，进而减少由于语音识别准确性不够而导致后续评价的准确性不高的问题。进一步地，对于由于信源端采集的语音信息，由于提供参考文本语音的人员的口音等问题造成的语音识别不准确，进而导致后续语音评价的准确性不高的问题，通过这样的方式，也可以进一步地改善。

步骤s230：对所采集的音频信号序列进行发音识别，并获取各子音频信号的发音属性参数。

发音属性参数可以包括每个字的开始时间、时长、声母、韵母、音调、读音完整度、性别、年龄范围、语速等。

步骤s240：根据各所述识别文本及对应的参考文本，获取第一类评价参数。

在一些实施例中，步骤s240将各所述识别文本及对应的参考文本输入第一映射模型以获取第一类评价参数。所述第一映射模型可以线性映射模型、非线性映射模型和回归树映射模型中的一种。

在另一些实施例中，可以直接通过识别评价参数*文本的字数/对应参考文本的字数(评价参数满分*识别文本与参考文本相同的字的字数/对应参考文本的字数)作为第一类评价参数。评价参数满分可以是5、10或者100。

步骤s250：根据所述发音属性参数及所述语音属性参数，获取第二类评价参数。

在一些实施例中，步骤s250将所述发音属性参数及所述语音属性参数输入第二映射模型以获取第二类评价参数。所述第二映射模型可以是线性映射模型、非线性映射模型和回归树映射模型中的一种。

在本发明的一个具体实施例中，步骤s250还可以根据所述发音属性参数、所述辅助语音属性参数及所述语音属性参数，获取第二类评价参数，其中，所述发音属性参数和所述辅助语音属性参数至少包括部分相同类别的属性参数。例如，发音属性参数和辅助语音属性参数都包括每个字的开始时间、时长等。当发音属性参数和辅助语音属性参数中这些相同类别的属性参数相同时，则直接使用这些相同类别的属性；当发音属性参数和辅助语音属性参数中这些相同类别的属性参数不同时，则可使用发音属性参数和辅助语音属性参数在这些相同类别的属性上的平均值(例如，发音属性参数的每个字的时长为0.5秒，辅助语音属性参数的每个字的时长为0.4秒，则将(0.5+0.4)/2＝0.45秒作为第二类评价参数的依据)。由此，可结合不同过的分析方式，获得更精确的评价。

步骤s260：根据所述第一类评价参数和第二类评价参数加权获得被测信宿端的语音质量客观评分。

在一些具体实施例中，语音质量客观评分f根据如下公式计算：

f＝(x1f1+x2f2+…+xkfk)/m；

其中，f1+f2+…+fk＝m，且f1、f2、…fk为权重；x1、x2、…、xk为所述第一类评价参数和所述第二类评价参数，k、m为大于等于1的整数。进一步地，m可以是各类评价参数的满分(例如5、10、100)。

可选地，所述第一类评价参数至少包括文本完整度，所述第一类评价参数至少包括文字完整度、语速一致性、性别一致性、年龄一致性中的一项或多项。各类评价参数的总分优选地相同。

在一些实施例中，除了采用映射模型，文字完整度可以根据发音属性参数中每个字声母、韵母和参考文本中每个字声母、韵母进行对比和匹配，并将评价参数满分*匹配成功的数量/总数量作为文字完整度。本发明并非以此为限。

在一些实施例中，除了采用映射模型，语速一致性、性别一致性、年龄一致性中，以语速一致性为例，以每个参考文本为单位，评价参数满分*参考文本的语速和识别文本的语速相同的数量/参考文本的总数作为语速一致性。类似地，性别一致性、年龄一致性也可按相同的方式计算。本发明并非以此为限。

可选地，步骤s260还可以根据步骤s220和步骤s230获得的数据提供信源到信宿的语音处理和传输过程中丢失的字、发音有变化的字、多产生的字、重复的字、句子语速等数据。

根据本发明的又一方面，还提供一种语音质量评价装置，参见图3，图3示出了根据本发明实施例的语音质量评价装置的模块图。

语音质量评价装置300包括采集模块310、语音识别模块320、发音识别模块330、第一评价参数获取模块340、第二评价参数获取模块350以及客观评分模块360。

采集模块310用于采集被测信宿端的音频信号序列，所述音频信号序列包括多个子音频信号，所述被测信宿端接收信源端按参考文本序列提供的语音信号，所述参考文本序列包括多个参考文本，各参考文本关联有一个或多个语音属性参数，一所述子音频信号对应一所述参考文本。语音识别模块320用于对所采集的音频信号序列进行语音识别，将每一音频信号转化为一识别文本，一所述识别文本对应一所述参考文本。发音识别模块330用于对所采集的音频信号序列进行发音识别，并获取各子音频信号的发音属性参数。第一评价参数获取模块340用于根据各所述识别文本及对应的参考文本，获取第一类评价参数。第二评价参数获取模块350用于根据所述发音属性参数及所述语音属性参数，获取第二类评价参数。客观评分模块360用于根据所述第一类评价参数和第二类评价参数加权获得被测信宿端的语音质量客观评分。

以上具体地示出和描述了本发明的示例性实施方式。应该理解，本发明不限于所公开的实施方式，相反，本发明意图涵盖包含在所附权利要求范围内的各种修改和等效置换。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王展;胡小鹏;万春雷
技术所有人：苏州科达科技股份有限公司
我是此专利的发明人

上一篇：客服服务质量评价方法、装置、设备及存储介质与流程
上一篇：一种英语口语的测评方法及装置与流程